扩散模型技术演进：从 DDPM 到 Stable Diffusion 再到 DiT

摘要

扩散模型（Diffusion Models）作为当前最热门的生成模型之一，已彻底改变图像生成领域，本文从 DDPM 开始，逐步深入到 Stable Diffusion 和 DiT 架构。

扩散模型就像是一个"破坏 - 修复"的过程，想象一下你有一张美丽的图片，然后一点点地给它加上噪声，直到完全看不清原来的图片，然后让 AI 学会如何一步步把噪声去掉，重新还原出原始图片。这就是扩散模型的基本思路。

DDPM：扩散模型的奠基之作（2020 年）

2.1 什么是 DDPM？

DDPM（Denoising Diffusion Probabilistic Models）是扩散模型的开山鼻祖，由 OpenAI 团队在 2020 年提出，它的工作原理：

前向过程（加噪声）：从一张清晰的图片开始，逐步添加噪声，最终变成完全随机的噪声图。反向过程（去噪声）：训练 AI 学会如何一步步去除噪声，从随机噪声中重建出原始图片。

2.2 DDPM 的模型结构详解

DDPM 的核心是一个 U-Net 网络结构，U-Net 详细架构如下图：

文章配图

2.3 训练过程

DDPM 需要训练很多轮次，每次告诉 AI："这是加了噪声的图片，这是原始图片，请你学会如何从噪声中恢复原图"。经过大量训练后，AI 就学会了去噪技能。

2.4 推理过程

推理时，AI 从完全随机的噪声开始，一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。

2.5 DDPM 的特点

优点：生成质量高，理论基础扎实
缺点：训练和推理都很慢，通常需要 1000 步才能生成一张图片
应用场景：学术研究，为后续模型提供理论基础

Stable Diffusion：实用化的突破（2022 年）

3.1 为什么需要 Stable Diffusion？

DDPM 虽然效果不错，有个致命缺点：计算成本太高！一张 512×512 的图片需要在像素级别上进行扩散，计算量巨大。2022 年，Stable Diffusion 横空出世，解决了这个问题。

3.2 Stable Diffusion 的创新

Stable Diffusion 最大的创新是潜在空间扩散：

传统方法：直接在原始图像空间（如 512×512 像素）进行扩散
Stable Diffusion：先将图像压缩到潜在空间（如 64×64），在潜在空间进行扩散，最后再解压回原空间

这样计算量减少了约 16 倍，使得扩散模型变得实用起来。

3.3 文本到图像生成

Stable Diffusion 另一个重要特性是支持文本到图像生成：

使用 CLIP 模型将文本转换为语义向量
在扩散过程中加入文本条件，指导图像生成
用户可以通过文字描述生成想要的图片

3.4 Stable Diffusion 的意义

实用性强：可以在普通 GPU 上运行
开源免费：推动了 AI 绘画的普及
生态丰富：大量社区模型和插件

特性	传统 UNet	DiT
架构	CNN	Transformer
可扩展性	中等	很好
训练稳定性	一般	很好
全局建模	需要多层	天然全局

方面	ViT	DiT
任务类型	图像分类	图像生成
输入	静态图像	噪声 + 时间步长
输出	分类标签	去噪后的图像
核心	特征提取	扩散过程建模

扩散模型技术演进：从 DDPM 到 Stable Diffusion 再到 DiT

摘要

DDPM：扩散模型的奠基之作（2020 年）

2.1 什么是 DDPM？

2.2 DDPM 的模型结构详解

2.3 训练过程

2.4 推理过程

2.5 DDPM 的特点

Stable Diffusion：实用化的突破（2022 年）

3.1 为什么需要 Stable Diffusion？

3.2 Stable Diffusion 的创新

3.3 文本到图像生成

3.4 Stable Diffusion 的意义

更多推荐文章

相关免费在线工具

DiT：拥抱 Transformer 时代（2023 年）

4.1 为什么用 Transformer？

4.2 DiT 的创新点

4.3 DiT vs 传统方法

扩散模型发展时间线

5.1 技术演进路径

5.2 DIT 和 Stable Diffusion 模型区别

5.3 VIT 模型和 DIT 模型关系

当前业界主流扩散模型

6.1 开源模型系列

6.2 不同场景的选择

6.3 当前主流（2024-2025 年）

6.4 具体领域

6.5 趋势变化

总结

更多推荐文章

相关免费在线工具

扩散模型技术演进：从 DDPM 到 Stable Diffusion 再到 DiT

摘要

DDPM：扩散模型的奠基之作（2020 年）

2.1 什么是 DDPM？

2.2 DDPM 的模型结构详解

2.3 训练过程

2.4 推理过程

2.5 DDPM 的特点

Stable Diffusion：实用化的突破（2022 年）

3.1 为什么需要 Stable Diffusion？

3.2 Stable Diffusion 的创新

3.3 文本到图像生成

3.4 Stable Diffusion 的意义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

DiT：拥抱 Transformer 时代（2023 年）

4.1 为什么用 Transformer？

4.2 DiT 的创新点

4.3 DiT vs 传统方法

扩散模型发展时间线

5.1 技术演进路径

5.2 DIT 和 Stable Diffusion 模型区别

5.3 VIT 模型和 DIT 模型关系

当前业界主流扩散模型

6.1 开源模型系列

6.2 不同场景的选择

6.3 当前主流（2024-2025 年）

6.4 具体领域

6.5 趋势变化

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具