DiT（Diffusion Transformer）详解：架构与核心模块分析

论文

Scalable Diffusion Models with Transformers

定义

DiT 是基于 Transformer 架构的扩散模型。用于各种图像（SD3、FLUX 等）和视频（Sora 等）视觉生成任务。

DiT 证明了 Transformer 思想与扩散模型结合的有效性，并且还验证了 Transformer 架构在扩散模型上具备较强的 Scaling 能力，在稳步增大 DiT 模型参数量与增强数据质量时，DiT 的生成性能稳步提升。

其中最大的 DiT-XL/2 模型在 ImageNet 256x256 的类别条件生成上达到了当时的 SOTA【最先进的（State Of The Art）】（FID 为 2.27）性能。同时在 SD3 和 FLUX.1 中也说明了较强的 Scaling 能力。

架构

DiT 架构如下所示：

图 3.扩散 Transformer（DiT）架构。左：我们训练条件潜在 DiT 模型。输入的潜在被分解成补丁和处理的几个 DiT 块。右图：DiT 区块的详细信息。我们用标准 Transformer 块的变体进行了实验，这些块通过自适应层归一化、交叉注意和额外输入的令牌（上下文环境）来进行调节。自适应层规范效果最好。

左侧主要架构图：训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入和条件被分解成 patch 并结合条件信息通过几个 DiT blocks 处理。本质就是噪声图片减掉预测的噪声以实现逐步复原。
- DiT blocks 前：比如当输入是一张 256x256x3 的图片，得到 32x32x4 的 Noised Latent，之后进行 Patch 和位置编码，结合当前的 Timestep t、Label y 作为输入。
- DiT blocks 后：经过 N 个 Dit Block(基于 transformer) 通过 MLP 进行输出，在 DiT 模型的最后一个 Transformer 块（DiT block）之后，需要将生成的图像 token 序列解码为以下两项输出：噪声'Noise 预测'以及对应的协方差矩阵，最后经过 T 个 step 采样，得到 32x32x4 的降噪后的 latent。
右侧 DiT Block 实现方式：DiT blocks 的细节，作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件 (incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens，这个 conditioning 相当于就是带条件的去噪)，其中自适应层归一化效果最好。

下文将按照这个架构进行阐述，从左到右。

与传统 (U-Net) 扩散模型区别

架构

DiT 将扩散模型中经典的 U-Net 架构完全替换成了 Transformer 架构。能够高效地捕获数据中的依赖关系并生成高质量的结果。

噪声调度策略

DiT 扩散过程的采用简单的 Linear scheduler（timesteps=1000，beta_start=0.0001，beta_end=0.02）。在传统的 U-Net 扩散模型（SD）中，所采用的 noise scheduler 通常是 Scaled Linear scheduler。

TODO：【也有说在传统的 U-Net 扩散模型（SD）中，所采用的 noise scheduler 是带调优参数后的线性调度器（Linear Scheduler）。】

与传统扩散的相同

DiT 的整体框架并没有采用常规的 Pixel Diffusion（像素扩散）架构，而是使用和 Stable Diffusion 相同的 Latent Diffusion（潜变量扩散）架构，使用了和 SD 一样的 VAE 模型将像素级图像压缩到低维 Latent 特征。这极大地降低了扩散模型的计算复杂度（减少 Transformer 的 token 的数量）。

输入图像的 Patch 化（Patchify）和位置编码

在图像领域使用 Transformer，首先想到的模型就是 ViT（参考：万字长文解读深度学习——ViT、ViLT），和 ViT 一样，DiT 也需要经过 Patch 和位置编码。

特性	DiT	U-ViT
模型设计灵感	基于 ViT 的纯 Transformer 架构	结合 U-Net 和 ViT 的混合架构
网络结构	标准 Transformer 堆叠	Encoder-Transformer-Decoder 框架
局部特征建模	依赖 Patch Embedding 和 MLP，局部建模较弱	使用 U-Net 的卷积模块，局部特征建模强
全局特征建模	完全由 Transformer 捕捉全局上下文信息	通过嵌入 ViT 增强全局建模能力
跳跃连接（Skip）	无跳跃连接	具有跳跃连接，保留细粒度信息
输入表示	Patch Embedding 序列化输入	原始图像直接输入
适用任务	高分辨率潜在空间生成任务	低分辨率生成任务
计算复杂度	随序列长度增加计算复杂度显著提升	U-Net 局部操作高效，整体复杂度较低