Diffusion Transformer(DiT)：将 U-Net 换成 ViT，应用于视频生成与机器人动作预测

前言

本文独立探讨 Diffusion Transformer (DiT)，该架构不仅广泛应用于视频生成领域，在机器人动作预测中也日益重要。

第一部分 Diffusion Transformer(DiT)：将扩散过程中的 U-Net 换成 ViT

1.1 什么是 DiT

1.1.1 DiT：在 VAE 框架之下扩散去噪中的卷积架构换成 Transformer 架构

在 ViT 之前，图像领域基本是 CNN 的天下，包括扩散过程中的噪声估计器所用的 U-Net 也是卷积架构。但随着 ViT 的横空出世，人们开始考虑这个噪声估计器可否用 Transformer 架构来代替。

2022 年 12 月，William Peebles（当时在 UC Berkeley）、Saining Xie（当时在纽约大学）通过论文《Scalable Diffusion Models with Transformers》提出了一种叫 DiT 的神经网络结构。

其结合了视觉 transformer 和 diffusion 模型的优点，即 DiT = DDPM + ViT。
但它把 DPPM 中的卷积架构 U-Net 换成了 Transformer 架构。至于什么是 U-Net，请参见相关技术文档。

1.1.2 Diffusion Transformer(DiT) 的 3 个不同的条件策略

如下图所示，便是扩散 transformer(DiT) 的架构。

DiT Architecture

右侧：DiT blocks 的细节，作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件 (incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens)，其中自适应层归一化效果最好。
左侧：训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入被分解成 patch 并通过几个 DiT blocks 处理。

本质就是噪声图片减掉预测的噪声以实现逐步复原

比如当输入是一张 256x256x3 的图片，对图片做切 patch 后经过投影得到每个 patch 的 token，得到 32x32x4 的 Noised Latent (即加噪的图片，在推理时输入直接是 32x32x4 的噪声)，结合当前的 Timestep $t$、Label $y$ 作为输入。

经过 N 个 Dit Block (基于 transformer) 通过 mlp 进行输出，从而得到噪声"Noise 预测'以及对应的协方差矩阵 $Σ$。

(After the final DiT block, we need to decode our sequence of image tokens into an output noise prediction and an output diagonal covariance prediction)，最后经过 T 个 step 采样，得到 32x32x4 的降噪后的 latent。

接下来，仔细介绍下上图右侧 4 个不同的条件策略 (说白了，就是怎么加入 conditioning)。

adaLN-Zero block 关于 ResNets 的先前工作发现，将每个残差块初始化为恒等函数是有益的。例如，Goyal 等人发现，在每个块中将最终批量归一化尺度因子 $γ$ 零初始化可以加速大规模训练在监督学习设置中。扩散 U-Net 模型使用类似的初始化策略，在任何残差连接之前将每个块的最终卷积层零初始化。作者对 adaLN DiT 块的修改，它做了同样的事情。除了回归 $γ$ 和 $β$，还回归在 DiT 块内的任何残差连接之前立即应用的维度方向的缩放参数 $α$。
交叉注意力块 将 $t$ 和 $c$ 的嵌入连接成一个长度为二的序列，与图像 token 序列分开，transformer 块被修改为：在多头自注意块之后，包含一个额外的多头交叉注意层，类似于 LDM 用于根据类标签进行条件处理的设计。交叉注意力使模型增加了最多的 Gflops，大约增加了 15% 的开销。