DiT（Diffusion Transformer）详解：架构与核心模块分析

DiT（Diffusion Transformer）详解

在这里插入图片描述

论文

Scalable Diffusion Models with Transformers

定义

DiT 是基于 Transformer 架构的扩散模型。用于各种图像（SD3、FLUX 等）和视频（Sora 等）视觉生成任务。

DiT 证明了 Transformer 思想与扩散模型结合的有效性，并且验证了 Transformer 架构在扩散模型上具备较强的 Scaling 能力。在稳步增大 DiT 模型参数量与增强数据质量时，DiT 的生成性能稳步提升。

其中最大的 DiT-XL/2 模型在 ImageNet 256x256 的类别条件生成上达到了当时的 SOTA（State Of The Art）性能（FID 为 2.27）。同时在 SD3 和 FLUX.1 中也说明了较强的 Scaling 能力。

架构

DiT 架构如下所示：

在这里插入图片描述

图 3.扩散 Transformer（DiT）架构。左：我们训练条件潜在 DiT 模型。输入的潜在被分解成补丁和处理的几个 DiT 块。右图：DiT 区块的详细信息。我们用标准 Transformer 块的变体进行了实验，这些块通过自适应层归一化、交叉注意和额外输入的令牌（上下文环境）来进行调节。自适应层规范效果最好。

左侧主要架构图：训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入和条件被分解成 patch 并结合条件信息通过几个 DiT blocks 处理。本质就是噪声图片减掉预测的噪声以实现逐步复原。
- DiT blocks 前：比如当输入是一张 256x256x3 的图片，得到 32x32x4 的 Noised Latent，之后进行 Patch 和位置编码，结合当前的 Timestep t、Label y 作为输入。
- DiT blocks 后：经过 N 个 Dit Block(基于 transformer) 通过 MLP 进行输出，在 DiT 模型的最后一个 Transformer 块（DiT block）之后，需要将生成的图像 token 序列解码为以下两项输出：噪声'Noise 预测'以及对应的协方差矩阵，最后经过 T 个 step 采样，得到 32x32x4 的降噪后的 latent。
右侧 DiT Block 实现方式：DiT blocks 的细节，作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件 (incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens，这个 conditioning 相当于就是带条件的去噪)，其中自适应层归一化效果最好。

下文将按照这个架构进行阐述，从左到右。

与传统 (U-Net) 扩散模型区别

架构

DiT 将扩散模型中经典的 U-Net 架构完全替换成了 Transformer 架构。能够高效地捕获数据中的依赖关系并生成高质量的结果。

噪声调度策略

DiT 扩散过程的采用简单的 Linear scheduler（timesteps=1000，beta_start=0.0001，beta_end=0.02）。在传统的 U-Net 扩散模型（SD）中，所采用的 noise scheduler 通常是 Scaled Linear scheduler。

特性	DiT	U-ViT
模型设计灵感	基于 ViT 的纯 Transformer 架构	结合 U-Net 和 ViT 的混合架构
网络结构	标准 Transformer 堆叠	Encoder-Transformer-Decoder 框架
局部特征建模	依赖 Patch Embedding 和 MLP，局部建模较弱	使用 U-Net 的卷积模块，局部特征建模强
全局特征建模	完全由 Transformer 捕捉全局上下文信息	通过嵌入 ViT 增强全局建模能力
跳跃连接（Skip）	无跳跃连接	具有跳跃连接，保留细粒度信息
输入表示	Patch Embedding 序列化输入	原始图像直接输入
适用任务	高分辨率潜在空间生成任务	低分辨率生成任务
计算复杂度	随序列长度增加计算复杂度显著提升	U-Net 局部操作高效，整体复杂度较低

DiT（Diffusion Transformer）详解：架构与核心模块分析

DiT（Diffusion Transformer）详解

论文

定义

架构

与传统 (U-Net) 扩散模型区别

架构

噪声调度策略

更多推荐文章

相关免费在线工具

与传统扩散的相同

输入图像的 Patch 化（Patchify）和位置编码

Patch 化

位置编码

DiT Block 模块详细信息

上下文条件化

交叉注意力模块

adaLN-Zero 模块

Layer Normalization（LN）

Adaptive Layer Normalization（AdaLN）

AdaLN 的核心步骤

adaLN-Zero

adaLN-Zero 的核心步骤

说明

DiT 中具体的初始化

U-ViT（U-Net Vision Transformer）

DiT 和 U-ViT 的对比

更多推荐文章

相关免费在线工具

DiT（Diffusion Transformer）详解：架构与核心模块分析

DiT（Diffusion Transformer）详解

论文

定义

架构

与传统 (U-Net) 扩散模型区别

架构

噪声调度策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

与传统扩散的相同

输入图像的 Patch 化（Patchify）和位置编码

Patch 化

位置编码

DiT Block 模块详细信息

上下文条件化

交叉注意力模块

adaLN-Zero 模块

Layer Normalization（LN）

Adaptive Layer Normalization（AdaLN）

AdaLN 的核心步骤

adaLN-Zero

adaLN-Zero 的核心步骤

说明

DiT 中具体的初始化

U-ViT（U-Net Vision Transformer）

DiT 和 U-ViT 的对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具