Diffusion Transformer(DiT)：将 U-Net 换成 ViT，应用于视频生成与机器人动作预测

Diffusion Transformer(DiT)：将扩散过程中的 U-Net 换成 ViT

1.1 什么是 DiT

1.1.1 DiT：在 VAE 框架之下扩散去噪中的卷积架构换成 Transformer 架构

在 ViT 之前，图像领域基本是 CNN 的天下，包括扩散过程中的噪声估计器所用的 U-Net 也是卷积架构。但随着 ViT 的横空出世，人们开始考虑这个噪声估计器可否用 Transformer 架构来代替。

2022 年 12 月，William Peebles、Saining Xie 通过论文《Scalable Diffusion Models with Transformers》提出了一种叫 DiT 的神经网络结构：

其结合了视觉 transformer 和 diffusion 模型的优点，即 DiT = DDPM + ViT。
但它把 DDPM 中的卷积架构 U-Net 换成了 Transformer 架构。

1.1.2 Diffusion Transformer(DiT) 的 3 个不同的条件策略

扩散 transformer(DiT) 的架构如下所示：

DiT 架构图

右侧：DiT blocks 的细节，作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件（incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens），其中自适应层归一化效果最好。
左侧：训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入被分解成 patch 并通过几个 DiT blocks 处理。

本质就是噪声图片减掉预测的噪声以实现逐步复原。

例如当输入是一张 256x256x3 的图片，对图片做切 patch 后经过投影得到每个 patch 的 token，得到 32x32x4 的 Noised Latent（即加噪的图片，在推理时输入直接是 32x32x4 的噪声），结合当前的 Timestep t、Label y 作为输入。

经过 N 个 Dit Block（基于 transformer）通过 mlp 进行输出，从而得到噪声'Noise 预测'以及对应的协方差矩阵。

After the final DiT block, we need to decode our sequence of image tokens into an output noise prediction and an output diagonal covariance prediction，最后经过 T 个 step 采样，得到 32x32x4 的降噪后的 latent。

接下来，仔细介绍下上图右侧 4 个不同的条件策略（说白了，就是怎么加入 conditioning）：

adaLN-Zero block 关于 ResNets 的先前工作发现，将每个残差块初始化为恒等函数是有益的。扩散 U-Net 模型使用类似的初始化策略，在任何残差连接之前将每个块的最终卷积层零初始化。作者对 adaLN DiT 块的修改，它做了同样的事情。除了回归 γ 和 β，还回归在 DiT 块内的任何残差连接之前立即应用的维度方向的缩放参数 α。
交叉注意力块 将 t 和 c 的嵌入连接成一个长度为二的序列，与图像 token 序列分开，transformer 块被修改为：在多头自注意块之后，包含一个额外的多头交叉注意层，类似于 LDM 用于根据类标签进行条件处理的设计。交叉注意力使模型增加了最多的 Gflops，大约增加了 15% 的开销。
上下文条件化 (In-context conditionin) 将 t 和 c 的向量嵌入作为两个额外的 token 追加到输入序列中，与图像 token 无异地对待它们，这类似于 ViTs 中的 cls token，它允许使用标准 ViT 块而无需修改。在最后一个块之后，从序列中移除条件 token。这种方法没有新增模型多少 Gflops，可忽略。
自适应层归一化，即 Adaptive layer norm (adaLN) block 鉴于自适应归一化层在 GANs 和具有 U-Net 骨干的扩散模型中的广泛使用，故用自适应层归一化 (adaLN) 替换 transformer 块中的标准层归一化层。不是直接学习维度方向的缩放和偏移参数 γ 和 β，而是从 t 和类别标签 c 的嵌入向量之和中回归它们。