Diffusion Transformer(DiT)：用 ViT 替代 U-Net 用于视频生成与机器人动作预测

在 ViT 之前，图像领域基本是 CNN 的天下，包括扩散过程中的噪声估计器所用的 U-Net 也是卷积架构。但随着 ViT 的横空出世，人们自然而然开始考虑这个噪声估计器可否用 Transformer 架构来代替。

2022 年 12 月，William Peebles（当时在 UC Berkeley）、Saining Xie（当时在纽约大学）通过论文《Scalable Diffusion Models with Transformers》提出了一种叫 DiT 的神经网络结构。

其结合了视觉 transformer 和 diffusion 模型的优点，即 DiT = DDPM + ViT。
但它把 DDPM 中的卷积架构 U-Net 换成了 Transformer 架构 (We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches)。

如下图所示，便是扩散 transformer(DiT) 的架构。

文章配图

右侧：DiT blocks 的细节，作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件 (incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens)，其中自适应层归一化效果最好。
左侧：训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入被分解成 patch 并通过几个 DiT blocks 处理 (The input latent is decomposed into patches and processed by several DiT blocks)。

本质就是噪声图片减掉预测的噪声以实现逐步复原。

$\rightarrow$