扩散模型详解:从 DDPM 到 Stable Diffusion 再到 DiT
扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域。本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构,梳理其技术演进脉络。
简单来说,扩散模型就像是一个'破坏 - 修复'的过程。想象一下你有一张清晰的图片,然后一点点地给它加上噪声,直到完全看不清原来的样子;接着让 AI 学会如何一步步把噪声去掉,重新还原出原始图片。这就是扩散模型的基本思路。
DDPM:扩散模型的奠基之作(2020 年)
什么是 DDPM?
DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出。它的工作原理包含两个核心过程:
- 前向过程(加噪声):从一张清晰的图片开始,逐步添加噪声,最终变成完全随机的噪声图。
- 反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。
模型结构详解
DDPM 的核心是一个 U-Net 网络结构,详细架构如下:

训练与推理
训练时,需要告诉 AI:'这是加了噪声的图片,这是原始图片,请你学会如何从噪声中恢复原图'。经过大量轮次训练后,AI 就掌握了去噪技能。
推理时,AI 从完全随机的噪声开始,一步步'想象'出完整的图片。这个过程通常需要几十到几百步才能完成。
特点总结
- 优点:生成质量高,理论基础扎实。
- 缺点:训练和推理都很慢,通常需要 1000 步才能生成一张图片。
- 应用场景:学术研究,为后续模型提供理论基础。
Stable Diffusion:实用化的突破(2022 年)
为什么需要 Stable Diffusion?
DDPM 虽然效果不错,但有个致命缺点:计算成本太高!一张 512×512 的图片需要在像素级别上进行扩散,计算量巨大。2022 年,Stable Diffusion 横空出世,解决了这个问题。
核心创新:潜在空间扩散
Stable Diffusion 最大的创新在于潜在空间扩散:
- 传统方法:直接在原始图像空间(如 512×512 像素)进行扩散。
- Stable Diffusion:先将图像压缩到潜在空间(如 64×64),在潜在空间进行扩散,最后再解压回原空间。
这样计算量减少了约 16 倍,使得扩散模型变得实用起来。
文本到图像生成
另一个重要特性是支持文本到图像生成:
- 使用 CLIP 模型将文本转换为语义向量。
- 在扩散过程中加入文本条件,指导图像生成。
- 用户可以通过文字描述生成想要的图片。
意义
- 实用性强:可以在普通 GPU 上运行。
- 开源免费:推动了 AI 绘画的普及。
- 生态丰富:大量社区模型和插件涌现。


