扩散模型技术演进：从 DDPM、Stable Diffusion 到 DiT

摘要

扩散模型（Diffusion Models）作为当前最热门的生成模型之一，已彻底改变图像生成领域。本文从 DDPM 开始，逐步深入到 Stable Diffusion 和 DiT 架构。

扩散模型类似于一个'破坏 - 修复'的过程：向图片逐步添加噪声直到完全随机，再训练 AI 学会一步步去除噪声还原原始图片。

1. DDPM：扩散模型的奠基之作（2020 年）

1.1 什么是 DDPM？

DDPM（Denoising Diffusion Probabilistic Models）是扩散模型的开山鼻祖，由 OpenAI 团队在 2020 年提出。

前向过程（加噪声）：从清晰图片开始，逐步添加噪声，最终变成完全随机的噪声图。
反向过程（去噪声）：训练 AI 学会如何一步步去除噪声，从随机噪声中重建出原始图片。

1.2 DDPM 的模型结构详解

DDPM 的核心是一个 U-Net 网络结构。

U-Net 架构

1.3 训练与推理过程

训练：告诉 AI'这是加了噪声的图片，这是原始图片'，经过大量训练后学会去噪技能。
推理：AI 从完全随机的噪声开始，一步步'想象'出完整的图片，通常需要几十到几百步。

1.4 DDPM 的特点

优点：生成质量高，理论基础扎实。
缺点：训练和推理都很慢，通常需要 1000 步才能生成一张图片。
应用场景：学术研究，为后续模型提供理论基础。

2. Stable Diffusion：实用化的突破（2022 年）

2.1 为什么需要 Stable Diffusion？

DDPM 计算成本太高，一张 512×512 的图片需要在像素级别上进行扩散。2022 年，Stable Diffusion 解决了这个问题。

2.2 Stable Diffusion 的创新

最大的创新是潜在空间扩散：

传统方法：直接在原始图像空间（如 512×512 像素）进行扩散。
Stable Diffusion：先将图像压缩到潜在空间（如 64×64），在潜在空间进行扩散，最后再解压回原空间。

这样计算量减少了约 16 倍，使得扩散模型变得实用起来。

2.3 文本到图像生成

使用 CLIP 模型将文本转换为语义向量。
在扩散过程中加入文本条件，指导图像生成。
用户可以通过文字描述生成想要的图片。

2.4 Stable Diffusion 的意义

实用性强：可以在普通 GPU 上运行。
开源免费：推动了 AI 绘画的普及。
生态丰富：大量社区模型和插件。

3. DiT：拥抱 Transformer 时代（2023 年）

3.1 为什么用 Transformer？

随着 Transformer 在 NLP 领域的巨大成功，研究者们尝试将其引入扩散模型。2023 年，DiT（Diffusion Transformer）应运而生，将纯 Transformer 架构引入扩散模型。

3.2 DiT 的创新点

架构革新：用 Transformer 替换传统的 CNN 架构，采用纯 Transformer 的骨干网络，具备更好的可扩展性和并行化能力。
性能提升：大模型展现更好的生成质量，训练稳定性显著提高。

3.3 DiT vs 传统方法

特性	传统 UNet	DiT
架构	CNN	Transformer
可扩展性	中等	很好
训练稳定性	一般	很好
全局建模	需要多层	天然全局

4. 扩散模型发展时间线

2020 年 - DDPM：奠定扩散模型理论基础 ↓ 2021 年 - Improved DDPM：各种改进和优化 ↓ 2022 年 - Stable Diffusion：实用化突破，潜在空间扩散 ↓ 2023 年 - DiT：Transformer 架构，可扩展性大幅提升 ↓ 2024 年至今 - 各种变体和优化：蒸馏、量化、多模态等

4.1 技术演进路径

DDPM (2020)：基础理论，像素级扩散，计算成本高。
Latent Diffusion (2022)：潜在空间扩散，大幅降低计算成本。
DiT (2023)：Transformer 架构，更好的可扩展性。

4.2 DIT 和 Stable Diffusion 模型区别

Stable Diffusion

架构：U-Net + 卷积神经网络。
特点：在潜在空间工作，计算效率高。
优势：成熟稳定，生态完善。
缺点：架构相对传统，扩展性有限。

DiT (Diffusion Transformer)

架构：纯 Transformer 架构。
特点：将扩散过程完全用 Transformer 处理。
优势：更好的扩展性，更容易 scale up。
缺点：计算量更大，需要更多资源。

DiT 参考了 Stable Diffusion 的思想，借鉴了扩散模型的基本框架，但将传统的 U-Net 架构替换为 Transformer 架构，这是架构层面的重大革新。

注：Stable Diffusion 就是 Latent Diffusion 的一个具体实现，Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化。

4.3 ViT 模型和 DiT 模型关系

DiT 是 ViT 思想在生成领域的成功应用。ViT 将 Transformer 应用于图像识别，DiT 将其应用于扩散模型。

相同点

都使用 Transformer 架构。
都采用 patch 处理方式。
都利用自注意力机制。
都有良好的扩展性。

不同点

方面	ViT	DiT
任务类型	图像分类	图像生成
输入	静态图像	噪声 + 时间步长
输出	分类标签	去噪后的图像
核心	特征提取	扩散过程建模

ViT 优势：在分类任务上表现优异，训练相对简单，计算效率高。 DiT 优势：在生成任务上表现更好，扩展性更强，生成质量更高。

5. 当前业界主流扩散模型

5.1 开源模型系列

Stable Diffusion 系列：

Stable Diffusion 1.x (2022)：最初的版本，奠定了基础架构。
Stable Diffusion 2.x (2022)：改进了 CLIP 模型，支持更大的图像尺寸。
Stable Diffusion XL (SDXL, 2023)：更大的模型，更高的图像质量。
Stable Diffusion 3 (2024)：最新的版本，进一步提升了生成质量。

其他开源模型：

DALL-E 系列：OpenAI 的文本到图像模型。
Imagen：Google 的高质量扩散模型。

5.2 不同场景的选择

学术研究：DDPM（理解基础）、DiT（探索 Transformer 架构）。
商业应用：SDXL（平衡质量与效率）、定制化模型（根据需求调整）。

5.3 当前主流（2024-2025 年）

Midjourney 系列 - 基于改进的扩散模型。
DALL-E 3 - 结合多种技术的混合模型。
Stable Diffusion XL (SDXL) - SD 的升级版。
Runway、Leonardo 等平台 - 基于各种扩散模型变体。

5.4 趋势变化

早期：Stable Diffusion 为主流。
现在：各大公司都在基于扩散模型开发私有模型。
未来：DiT 等 Transformer 架构可能成为新趋势。

目前大多数应用仍基于 Stable Diffusion 生态，但高端应用开始采用 DiT 等新架构。未来可能会逐步向 Transformer 架构迁移。

6. 总结

扩散模型的发展历程体现了 AI 领域的快速迭代：

DDPM (2020)：奠定了理论基础，但计算成本高。
Stable Diffusion (2022)：实现了实用化突破，潜在空间扩散。
DiT (2023)：开启了 Transformer 时代，更好的可扩展性。

这些模型不仅在技术上不断创新，也在实际应用中产生了巨大影响，从学术研究到商业产品，扩散模型正在重塑我们创造和处理视觉内容的方式。

扩散模型技术演进：从 DDPM、Stable Diffusion 到 DiT

摘要

1. DDPM：扩散模型的奠基之作（2020 年）

1.1 什么是 DDPM？

1.2 DDPM 的模型结构详解

1.3 训练与推理过程

1.4 DDPM 的特点

2. Stable Diffusion：实用化的突破（2022 年）

2.1 为什么需要 Stable Diffusion？

2.2 Stable Diffusion 的创新

2.3 文本到图像生成

2.4 Stable Diffusion 的意义

3. DiT：拥抱 Transformer 时代（2023 年）

3.1 为什么用 Transformer？

3.2 DiT 的创新点

3.3 DiT vs 传统方法

4. 扩散模型发展时间线

4.1 技术演进路径

4.2 DIT 和 Stable Diffusion 模型区别

4.3 ViT 模型和 DiT 模型关系

5. 当前业界主流扩散模型

5.1 开源模型系列

5.2 不同场景的选择

5.3 当前主流（2024-2025 年）

5.4 趋势变化

6. 总结

更多推荐文章

相关免费在线工具

扩散模型技术演进：从 DDPM、Stable Diffusion 到 DiT

摘要

1. DDPM：扩散模型的奠基之作（2020 年）

1.1 什么是 DDPM？

1.2 DDPM 的模型结构详解

1.3 训练与推理过程

1.4 DDPM 的特点

2. Stable Diffusion：实用化的突破（2022 年）

2.1 为什么需要 Stable Diffusion？

2.2 Stable Diffusion 的创新

2.3 文本到图像生成

2.4 Stable Diffusion 的意义

3. DiT：拥抱 Transformer 时代（2023 年）

3.1 为什么用 Transformer？

3.2 DiT 的创新点

3.3 DiT vs 传统方法

4. 扩散模型发展时间线

4.1 技术演进路径

4.2 DIT 和 Stable Diffusion 模型区别

4.3 ViT 模型和 DiT 模型关系

5. 当前业界主流扩散模型

5.1 开源模型系列

5.2 不同场景的选择

5.3 当前主流（2024-2025 年）

5.4 趋势变化

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具