Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

DiT 架构通过将扩散模型中的 U-Net 替换为 ViT，显著提升了生成模型的扩展性。本文深入解析 DiT 原理及其在视频生成与机器人动作预测中的应用。重点介绍清华提出的 PAD 框架，该框架利用联合去噪过程同时预测未来图像和机器人动作，结合大规模视频数据预训练与机器人演示微调，实现了高效的具身控制策略学习。实验表明，PAD 在多模态输入下表现优异，优于传统扩散策略及两阶段方法。

Kubernet发布于 2026/4/100 浏览

前言

扩散模型近年来在视觉生成领域取得了巨大突破。其中，Diffusion Transformer（DiT）通过将传统 U-Net 架构替换为 Vision Transformer（ViT），显著提升了模型的扩展性和性能。除了视频生成，DiT 在机器人动作预测等具身智能任务中也展现出强大潜力。本文深入解析 DiT 的核心原理、架构变体及其在视频与机器人领域的典型应用。

DiT 核心架构与条件策略

1. 什么是 DiT

在 ViT 出现之前，图像生成领域的噪声估计器主要依赖卷积架构的 U-Net。随着 Transformer 在视觉领域的成功，研究者开始探索将其引入扩散过程。2022 年 12 月，William Peebles 和 Saining Xie 在论文《Scalable Diffusion Models with Transformers》中提出了 DiT 结构。

DiT 的本质是将 DDPM 中的卷积 U-Net 骨干替换为 Transformer 架构。其核心优势在于结合了视觉 Transformer 的全局建模能力与扩散模型的生成能力。在 VAE 框架下，输入潜在空间被分解为 Patch，通过多个 DiT Blocks 处理，最终输出噪声预测及协方差矩阵。

2. 条件化策略

为了让模型能够根据特定条件（如时间步 $t$、类别标签 $c$）进行去噪，DiT 设计了多种条件融合方式，效果最好的是自适应层归一化（adaLN-Zero）。

Adaptive Layer Norm (adaLN)：不直接学习缩放参数 $eta$ 和 $ ext{scale}$，而是从时间步 $t$ 和类别标签 $c$ 的嵌入向量之和回归得到。这种设计允许模型动态调整激活函数的尺度，加速训练收敛。
交叉注意力块：将 $t$ 和 $c$ 的嵌入连接成序列，作为额外的 token 输入到多头自注意力之后。这种方式增加了约 15% 的计算开销，但提供了灵活的条件控制。
上下文条件化 (In-context Conditioning)：将 $t$ 和 $c$ 的嵌入作为额外 token 追加到输入序列中，类似 ViT 中的 cls token。这种方法无需修改标准 Transformer 块，计算开销可忽略。

DiT 在视频生成中的应用

将 DiT 应用于视频生成需要在架构上增加时间维度的建模能力。

1. 时间一致性建模

为了生成连贯的视频，模型需要捕捉帧间的时间依赖。通常的做法是引入因果时间注意力（Causal Time Attention）模块。当生成第 $i$ 帧时，该模块允许其关注历史帧 $k < i$ 的内容，从而维护时间一致性。同时，局部空间注意力（Local Spatial Attention）负责收集单帧内的空间信息，MLP 模块则负责时空特征的融合。

2. 多分辨率支持

为了支持不同长宽比和分辨率的视频，可以采用类似 NaViT 的序列打包技术。通过设置 0/1 注意力掩码矩阵，确保同一帧内的 Patch 可以相互注意，而不同帧之间的 Patch 互不可见。这样既避免了跨帧污染，又支持了变长序列的高效处理。

机器人动作预测：PAD 框架

DiT 在具身智能领域的应用同样引人注目。清华大学等机构提出的 PAD（Prediction with Action）框架，利用 DiT 架构实现了预测与动作的联合去噪。

1. 核心思想

传统的扩散策略仅根据观测预测动作，而 PAD 认为图像预测能力可以增强策略学习。PAD 框架在统一的去噪过程中，同时预测未来图像帧和机器人动作。这种联合训练使得模型能够利用大规模互联网视频数据预训练视觉先验，再通过少量机器人演示数据进行微调。

2. 模型架构

Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

Kubernet发布于 2026/4/100 浏览

前言

DiT 核心架构与条件策略

1. 什么是 DiT

2. 条件化策略

为了让模型能够根据特定条件（如时间步 $t$、类别标签 $c$）进行去噪，DiT 设计了多种条件融合方式，效果最好的是自适应层归一化（adaLN-Zero）。

Adaptive Layer Norm (adaLN)：不直接学习缩放参数 $eta$ 和 $ ext{scale}$，而是从时间步 $t$ 和类别标签 $c$ 的嵌入向量之和回归得到。这种设计允许模型动态调整激活函数的尺度，加速训练收敛。
交叉注意力块：将 $t$ 和 $c$ 的嵌入连接成序列，作为额外的 token 输入到多头自注意力之后。这种方式增加了约 15% 的计算开销，但提供了灵活的条件控制。
上下文条件化 (In-context Conditioning)：将 $t$ 和 $c$ 的嵌入作为额外 token 追加到输入序列中，类似 ViT 中的 cls token。这种方法无需修改标准 Transformer 块，计算开销可忽略。

DiT 在视频生成中的应用

将 DiT 应用于视频生成需要在架构上增加时间维度的建模能力。

1. 时间一致性建模

2. 多分辨率支持

机器人动作预测：PAD 框架

DiT 在具身智能领域的应用同样引人注目。清华大学等机构提出的 PAD（Prediction with Action）框架，利用 DiT 架构实现了预测与动作的联合去噪。

Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

前言

DiT 核心架构与条件策略

1. 什么是 DiT

2. 条件化策略

DiT 在视频生成中的应用

1. 时间一致性建模

2. 多分辨率支持

相关工作对比

1. U-ViT

2. Simple Diffusion

3. U-DiT

机器人动作预测：PAD 框架

1. 核心思想

2. 模型架构

Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

前言

DiT 核心架构与条件策略

1. 什么是 DiT

2. 条件化策略

DiT 在视频生成中的应用

1. 时间一致性建模

2. 多分辨率支持

相关工作对比

1. U-ViT

2. Simple Diffusion

3. U-DiT

机器人动作预测：PAD 框架

1. 核心思想

2. 模型架构

更多推荐文章

相关免费在线工具

3. 训练与执行

总结

更多推荐文章

相关免费在线工具

Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

前言

DiT 核心架构与条件策略

1. 什么是 DiT

2. 条件化策略

DiT 在视频生成中的应用

1. 时间一致性建模

2. 多分辨率支持

相关工作对比

1. U-ViT

2. Simple Diffusion

3. U-DiT

机器人动作预测：PAD 框架

1. 核心思想

2. 模型架构

Diffusion Transformer (DiT)：从图像生成到机器人动作预测的架构演进

前言

DiT 核心架构与条件策略

1. 什么是 DiT

2. 条件化策略

DiT 在视频生成中的应用

1. 时间一致性建模

2. 多分辨率支持

相关工作对比

1. U-ViT

2. Simple Diffusion

3. U-DiT

机器人动作预测：PAD 框架

1. 核心思想

2. 模型架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 训练与执行

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具