跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
PythonAI算法

Diffusion Transformer (DiT):从图像生成到机器人动作预测的架构演进

DiT 架构通过将扩散模型中的 U-Net 替换为 ViT,显著提升了生成模型的扩展性。本文深入解析 DiT 原理及其在视频生成与机器人动作预测中的应用。重点介绍清华提出的 PAD 框架,该框架利用联合去噪过程同时预测未来图像和机器人动作,结合大规模视频数据预训练与机器人演示微调,实现了高效的具身控制策略学习。实验表明,PAD 在多模态输入下表现优异,优于传统扩散策略及两阶段方法。

Kubernet发布于 2026/4/100 浏览
Diffusion Transformer (DiT):从图像生成到机器人动作预测的架构演进

前言

扩散模型近年来在视觉生成领域取得了巨大突破。其中,Diffusion Transformer(DiT)通过将传统 U-Net 架构替换为 Vision Transformer(ViT),显著提升了模型的扩展性和性能。除了视频生成,DiT 在机器人动作预测等具身智能任务中也展现出强大潜力。本文深入解析 DiT 的核心原理、架构变体及其在视频与机器人领域的典型应用。

DiT 核心架构与条件策略

1. 什么是 DiT

在 ViT 出现之前,图像生成领域的噪声估计器主要依赖卷积架构的 U-Net。随着 Transformer 在视觉领域的成功,研究者开始探索将其引入扩散过程。2022 年 12 月,William Peebles 和 Saining Xie 在论文《Scalable Diffusion Models with Transformers》中提出了 DiT 结构。

DiT 的本质是将 DDPM 中的卷积 U-Net 骨干替换为 Transformer 架构。其核心优势在于结合了视觉 Transformer 的全局建模能力与扩散模型的生成能力。在 VAE 框架下,输入潜在空间被分解为 Patch,通过多个 DiT Blocks 处理,最终输出噪声预测及协方差矩阵。

2. 条件化策略

为了让模型能够根据特定条件(如时间步 $t$、类别标签 $c$)进行去噪,DiT 设计了多种条件融合方式,效果最好的是自适应层归一化(adaLN-Zero)。

  • Adaptive Layer Norm (adaLN):不直接学习缩放参数 $eta$ 和 $ ext{scale}$,而是从时间步 $t$ 和类别标签 $c$ 的嵌入向量之和回归得到。这种设计允许模型动态调整激活函数的尺度,加速训练收敛。
  • 交叉注意力块:将 $t$ 和 $c$ 的嵌入连接成序列,作为额外的 token 输入到多头自注意力之后。这种方式增加了约 15% 的计算开销,但提供了灵活的条件控制。
  • 上下文条件化 (In-context Conditioning):将 $t$ 和 $c$ 的嵌入作为额外 token 追加到输入序列中,类似 ViT 中的 cls token。这种方法无需修改标准 Transformer 块,计算开销可忽略。

DiT 在视频生成中的应用

将 DiT 应用于视频生成需要在架构上增加时间维度的建模能力。

1. 时间一致性建模

为了生成连贯的视频,模型需要捕捉帧间的时间依赖。通常的做法是引入因果时间注意力(Causal Time Attention)模块。当生成第 $i$ 帧时,该模块允许其关注历史帧 $k < i$ 的内容,从而维护时间一致性。同时,局部空间注意力(Local Spatial Attention)负责收集单帧内的空间信息,MLP 模块则负责时空特征的融合。

2. 多分辨率支持

为了支持不同长宽比和分辨率的视频,可以采用类似 NaViT 的序列打包技术。通过设置 0/1 注意力掩码矩阵,确保同一帧内的 Patch 可以相互注意,而不同帧之间的 Patch 互不可见。这样既避免了跨帧污染,又支持了变长序列的高效处理。

相关工作对比

1. U-ViT

在 DiT 提出之前,清华朱军团队已发布 U-ViT 工作,同样尝试用 Transformer 替代 U-Net。U-ViT 引入了长跳跃连接以保留低级特征,有助于噪声预测网络的训练。两者在 patch size 选择(2x2)和 Scale 特性上结论一致,但 U-ViT 在小数据集上的实验更为丰富。

2. Simple Diffusion

Google Research 提出的 Simple Diffusion 也采用了类似的 Transformer 骨干。其特点是在低分辨率处使用 Transformer,高分辨率处结合卷积残差块,并通过 Dropout 提升性能。该方法实现了端到端的高分辨率图像生成。

3. U-DiT

2024 年,北大与华为联合提出 U-DiT,重新审视 U-Net 架构的价值。研究发现 U-Net 主干中的全局自注意力存在冗余,因此提出了下采样自注意力机制,在降低算力消耗的同时保持了生成质量。

机器人动作预测:PAD 框架

DiT 在具身智能领域的应用同样引人注目。清华大学等机构提出的 PAD(Prediction with Action)框架,利用 DiT 架构实现了预测与动作的联合去噪。

1. 核心思想

传统的扩散策略仅根据观测预测动作,而 PAD 认为图像预测能力可以增强策略学习。PAD 框架在统一的去噪过程中,同时预测未来图像帧和机器人动作。这种联合训练使得模型能够利用大规模互联网视频数据预训练视觉先验,再通过少量机器人演示数据进行微调。

2. 模型架构

PAD 采用 DiT 作为骨干网络,支持多模态输入:

  • RGB 图像:通过冻结的 VAE 编码器映射为潜在 Token。
  • 自然语言指令:通过 CLIP 编码器处理。
  • 机器人姿态:通过 MLP 编码为 Token。
  • 深度图像(可选):提供距离信息。

所有模态的 Token 被拼接在一起,经过联合潜在去噪过程。输入包含当前观测和噪声,输出为未来多步的图像、深度和动作预测。

3. 训练与执行

训练分为两个阶段:先在 BridgeData-v2 等大规模视频数据集上预训练,建立图像预测先验;再在机器人演示数据上进行适应。损失函数由图像、动作和深度三个扩散损失加权组成。

在执行阶段,模型预测未来 $k$ 步的动作序列,机器人仅执行第一步,随后触发新的预测循环,形成闭环控制。实验表明,PAD 在 Metaworld 等基准测试中优于扩散策略、SuSIE 及 RT-2 等方法,特别是在需要精确操作的任务中表现突出。

总结

DiT 架构通过引入 Transformer 骨干,为扩散模型带来了更强的可扩展性。从图像生成到视频合成,再到机器人动作预测,DiT 正在成为新一代生成式 AI 的基础设施。PAD 框架的成功进一步证明了联合预测与控制在具身智能中的巨大潜力。

目录

  1. 前言
  2. DiT 核心架构与条件策略
  3. 1. 什么是 DiT
  4. 2. 条件化策略
  5. DiT 在视频生成中的应用
  6. 1. 时间一致性建模
  7. 2. 多分辨率支持
  8. 相关工作对比
  9. 1. U-ViT
  10. 2. Simple Diffusion
  11. 3. U-DiT
  12. 机器人动作预测:PAD 框架
  13. 1. 核心思想
  14. 2. 模型架构
  15. 3. 训练与执行
  16. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • Python + AI 入门实战指南:从基础到深度学习路径
  • Mac 本地部署 OpenClaw-CN 实战指南
  • Ubuntu 22.04 下 libwebkit2gtk-4.1-0 安装全记录:从踩坑到落地
  • Whisper-large-v3 在线语音转文字零代码实践
  • 基于 LLaMA-Factory 的大模型 LoRA 微调实战
  • 基于 Matlab Simulink Simscape 的码垛机器人分析与仿真
  • YOLO26:实时目标检测的关键架构改进与性能基准测试
  • Llama-AVSR 论文精读:基于 LLM 的视听语音识别新框架
  • mT5 中文-base 部署实战:解决 WebUI 超时与 GPU OOM 问题
  • Llama-3.2-3B 详解:Ollama 部署开源大模型全流程及 SFT/RLHF 原理解析
  • Midjourney Imagine API 接入与实战详解
  • Mujoco 足式机器人强化学习:URDF 转 XML 转换与配置详解
  • LazyLLM 多 Agent 应用实践:源码部署与 Web 调试指南
  • Meta-Llama-3-8B-Instruct 多轮对话实测与本地部署
  • Llama 开源家族演进:从 Llama-1 到 Llama-3 技术解析
  • 基于 4x Tesla P40 的 Llama-3.3-70B 大模型训练实战
  • Midjourney 与 Stable Diffusion 提示词工程实战指南
  • 本地部署 OpenClaw 配置飞书机器人指南
  • 论文引言写作指南:结构、技巧与 AI 辅助
  • 老款 NUC 部署 Ubuntu 运行 OpenClaw 本地 AI 服务

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online