Diffusion Transformer (DiT)：用 ViT 替代 U-Net，赋能视频生成与机器人动作预测

Diffusion Transformer (DiT) 通过将扩散模型中的 U-Net 骨干替换为 Transformer，实现了更好的可扩展性。文章详细解析了 DiT 的条件策略、视频生成改造方案，并与 U-ViT、Simple Diffusion 及 U-DiT 等竞品架构进行了对比。重点介绍了清华 PAD 框架如何利用 DiT 实现图像预测与机器人动作的联合去噪，展示了其在具身智能领域的最新应用进展与实验效果。

云朵棉花糖发布于 2026/4/7更新于 2026/7/2135 浏览

Diffusion Transformer (DiT)：架构演进与应用

什么是 DiT

在 Vision Transformer (ViT) 出现之前，图像生成领域基本由 CNN 主导，扩散模型中的噪声估计器也普遍采用卷积架构的 U-Net。随着 ViT 展现出强大的建模能力，研究者自然开始思考能否将其引入扩散过程。

2022 年 12 月，William Peebles 和 Saining Xie 发表了论文《Scalable Diffusion Models with Transformers》，正式提出了 DiT 架构。其核心思想非常直接：将 DDPM 中的卷积 U-Net 骨干替换为 Transformer 架构。简单来说，DiT = DDPM + ViT。

条件策略与架构细节

DiT 的核心在于如何有效地加入条件信息（Conditioning）。常见的策略有三种：

adaLN-Zero block：借鉴 ResNets 的经验，将残差块初始化为恒等函数有助于训练。作者对 adaLN DiT 块进行了修改，除了回归 γ 和 β，还回归缩放参数 α，效果显著优于其他变体。
交叉注意力块 (Cross-Attention)：将时间步 t 和类别 c 的嵌入连接成序列，作为额外的 token 输入。这会增加约 15% 的 Gflops 开销，但能灵活处理多模态条件。
In-context conditioning：将 t 和 c 的向量嵌入作为额外 token 追加到输入序列中，类似 ViT 中的 cls token。这种方法无需修改标准 Transformer 块，计算开销可忽略。

在推理过程中，潜在输入被分解为 patch，经过多个 DiT blocks 处理。最终输出不仅包含噪声预测，还有协方差矩阵。通过 T 个采样步骤，即可从纯噪声还原出降噪后的 latent 表示。

从图像到视频：DiT 的改造

DiT 原生支持图像生成，若要应用于视频生成，主要需进行两项改造：

时空 Token 化：将噪音 Patch 线性化后，并入 Text Prompt Condition 和 Time Step Condition，共同作为 Transformer 的输入。
引入时间维度：Transformer 内部增加 Causal Time Attention 模块。该模块负责收集历史时间信息，确保第 i 帧能看到之前的 k 帧内容，从而维护视频生成的时间一致性。同时，Local Spatial Attention 负责收集单帧内的空间信息。

为了支持不同长宽比和分辨率的视频，可以采用 0/1 Attention Mask 矩阵。例如，设置一个 8*8 的掩码，仅在对角线子 Block 位置设为 1，这样每帧的 Patch 只能看到同帧内的其他 Patch，避免了跨帧污染。这种机制有效解决了 NaViT 导致的分辨率不一致问题。

机器人动作预测：PAD 框架

DiT 不仅在视觉生成领域表现优异，在具身智能中也展现了潜力。2024 年 11 月，清华大学及上海人工智能实验室等机构提出了 PAD（Prediction with Action）框架。

Diffusion Transformer (DiT)：用 ViT 替代 U-Net，赋能视频生成与机器人动作预测

Diffusion Transformer (DiT)：架构演进与应用

什么是 DiT

条件策略与架构细节

从图像到视频：DiT 的改造

相关工作对比

U-ViT：清华朱军团队的早期探索

Simple Diffusion：Google Research 的端到端方案

U-DiT：北大与华为的混合架构

机器人动作预测：PAD 框架

更多推荐文章

相关免费在线工具

核心思路

模型架构

训练与实验

更多推荐文章

相关免费在线工具

Diffusion Transformer (DiT)：用 ViT 替代 U-Net，赋能视频生成与机器人动作预测

Diffusion Transformer (DiT)：架构演进与应用

什么是 DiT

条件策略与架构细节

从图像到视频：DiT 的改造

相关工作对比

U-ViT：清华朱军团队的早期探索

Simple Diffusion：Google Research 的端到端方案

U-DiT：北大与华为的混合架构

机器人动作预测：PAD 框架

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心思路

模型架构

训练与实验

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具