DiT 架构详解：用 ViT 替代 U-Net 实现视频生成与机器人动作预测

第一部分 Diffusion Transformer(DiT)：将扩散过程中的 U-Net 换成 ViT

1.1 什么是 DiT

1.1.1 DiT：在 VAE 框架之下扩散去噪中的卷积架构换成 Transformer 架构

在 ViT 之前，图像领域基本是 CNN 的天下，包括扩散过程中的噪声估计器所用的 U-net 也是卷积架构，但随着 ViT 的横空出世，人们自然而然开始考虑这个噪声估计器可否用 Transformer 架构来代替。

2022 年 12 月，William Peebles、Saining Xie 等人通过论文《Scalable Diffusion Models with Transformers》提出了一种叫 DiT 的神经网络结构。

其结合了视觉 transformer 和 diffusion 模型的优点，即 DiT = DDPM + ViT。
但它把 DPPM 中的卷积架构 U-Net 换成了 Transformer 架构。

1.1.2 Diffusion Transformer(DiT) 的 3 个不同的条件策略

扩散 transformer(DiT) 的架构中，右侧为 DiT blocks 的细节。作者试验了标准 transformer 块的变体，这些变体通过自适应层归一化、交叉注意和额外输入 token 来加入条件（incorporate conditioning via adaptive layer norm, cross-attention and extra input tokens），其中自适应层归一化效果最好。

左侧为训练条件潜在 DiT 模型 (conditional latent DiT models)，潜在输入被分解成 patch 并通过几个 DiT blocks 处理。本质就是噪声图片减掉预测的噪声以实现逐步复原。

比如当输入是一张 256x256x3 的图片，对图片做切 patch 后经过投影得到每个 patch 的 token，得到 32x32x4 的 Noised Latent（即加噪的图片，在推理时输入直接是 32x32x4 的噪声），结合当前的 Timestep t、Label y 作为输入。

经过 N 个 Dit Block（基于 transformer）通过 mlp 进行输出，从而得到噪声'Noise 预测'以及对应的协方差矩阵。

最后经过 T 个 step 采样，得到 32x32x4 的降噪后的 latent。

接下来，仔细介绍下上图右侧 4 个不同的条件策略（说白了，就是怎么加入 conditioning）：

adaLN-Zero block 关于 ResNets 的先前工作发现，将每个残差块初始化为恒等函数是有益的。例如，Goyal 等人发现，在每个块中将最终批量归一化尺度因子 γ零初始化可以加速大规模训练在监督学习设置中。扩散 U-Net 模型使用类似的初始化策略，在任何残差连接之前将每个块的最终卷积层零初始化。作者对 adaLN DiT 块的修改，它做了同样的事情。除了回归 γ和 β，还回归在 DiT 块内的任何残差连接之前立即应用的维度方向的缩放参数 α。
交叉注意力块 将 t 和 c 的嵌入连接成一个长度为二的序列，与图像 token 序列分开，transformer 块被修改为：在多头自注意块之后，包含一个额外的多头交叉注意层，类似于 LDM 用于根据类标签进行条件处理的设计。交叉注意力使模型增加了最多的 Gflops，大约增加了 15% 的开销。
上下文条件化 (In-context conditionin) 将 t 和 c 的向量嵌入作为两个额外的 token 追加到输入序列中，与图像 token 无异地对待它们，这类似于 ViTs 中的 cls token，它允许使用标准 ViT 块而无需修改。在最后一个块之后，从序列中移除条件 token。这种方法没有新增模型多少 Gflops，可忽略。
自适应层归一化，即 Adaptive layer norm (adaLN) block 鉴于自适应归一化层在 GANs 和具有 U-Net 骨干的扩散模型中的广泛使用，故用自适应层归一化 (adaLN) 替换 transformer 块中的标准层归一化层。不是直接学习维度方向的缩放和偏移参数 γ和 β，而是从 t 和类别标签 c 的嵌入向量之和中回归它们。

1.2 DiT 在视频生成领域中的应用

1.2.1 如何改造 DiT，以使其可以做视频生成

当然，DiT 只是用于做图像生成，如果基于其做视频生成，则需要在 DiTs 上做两项改造：

首先，把噪音 Patch 线性化后，并入 Text Prompt Condition 和 Time Step Condition，一起作为 Transformer 的输入。

DiT 架构详解：用 ViT 替代 U-Net 实现视频生成与机器人动作预测

第一部分 Diffusion Transformer(DiT)：将扩散过程中的 U-Net 换成 ViT

1.1 什么是 DiT

1.1.1 DiT：在 VAE 框架之下扩散去噪中的卷积架构换成 Transformer 架构

1.1.2 Diffusion Transformer(DiT) 的 3 个不同的条件策略

1.2 DiT 在视频生成领域中的应用

1.2.1 如何改造 DiT，以使其可以做视频生成

更多推荐文章

相关免费在线工具

1.2.2 DiT 在视频生成中的典型应用：Cogvideo

1.3 相关工作

1.3.1 比 DiT 更早之类似架构 U-ViT：虽也带文本条件融合，但和 DiT 都只局限在 2D 图像生成

1.3.2 比 DiT 更晚之又一个 U-ViT 的工作：Google Research 提出 Simple Diffusion

1.3.3(选读) 24 年 11 月：北大&华为提出扩散架构 U-DiT(六分之一算力即可超越 DiT)

第二部分 DiT 在机器人动作预测中的典型应用：清华 RDT、CogACT、PAD

2.1 预测与动作扩散器 PAD：通过联合去噪同时预测未来图像和动作

2.1.1 什么是 PAD

2.1.2 提出背景与相关工作

2.2 PAD：通过联合去噪过程进行预测与行动

2.2.1 预备知识与 PAD 概述

2.2.2 PAD 的模型架构：选择 DiT 作为模型骨干然后联合去噪预测未来图像和动作

2.2.3 训练过程

2.3 实验

2.3.1 策略训练的细节与相关 baseline

2.3.2 消融研究

更多推荐文章

相关免费在线工具

DiT 架构详解：用 ViT 替代 U-Net 实现视频生成与机器人动作预测

第一部分 Diffusion Transformer(DiT)：将扩散过程中的 U-Net 换成 ViT

1.1 什么是 DiT

1.1.1 DiT：在 VAE 框架之下扩散去噪中的卷积架构换成 Transformer 架构

1.1.2 Diffusion Transformer(DiT) 的 3 个不同的条件策略

1.2 DiT 在视频生成领域中的应用

1.2.1 如何改造 DiT，以使其可以做视频生成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 DiT 在视频生成中的典型应用：Cogvideo

1.3 相关工作

1.3.1 比 DiT 更早之类似架构 U-ViT：虽也带文本条件融合，但和 DiT 都只局限在 2D 图像生成

1.3.2 比 DiT 更晚之又一个 U-ViT 的工作：Google Research 提出 Simple Diffusion

1.3.3(选读) 24 年 11 月：北大&华为提出扩散架构 U-DiT(六分之一算力即可超越 DiT)

第二部分 DiT 在机器人动作预测中的典型应用：清华 RDT、CogACT、PAD

2.1 预测与动作扩散器 PAD：通过联合去噪同时预测未来图像和动作

2.1.1 什么是 PAD

2.1.2 提出背景与相关工作

2.2 PAD：通过联合去噪过程进行预测与行动

2.2.1 预备知识与 PAD 概述

2.2.2 PAD 的模型架构：选择 DiT 作为模型骨干然后联合去噪预测未来图像和动作

2.2.3 训练过程

2.3 实验

2.3.1 策略训练的细节与相关 baseline

2.3.2 消融研究

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具