摘要
扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域,本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构。
扩散模型就像是一个"破坏 - 修复"的过程,想象一下你有一张美丽的图片,然后一点点地给它加上噪声,直到完全看不清原来的图片,然后让 AI 学会如何一步步把噪声去掉,重新还原出原始图片。这就是扩散模型的基本思路。
DDPM:扩散模型的奠基之作(2020 年)
2.1 什么是 DDPM?
DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出,它的工作原理:
前向过程(加噪声):从一张清晰的图片开始,逐步添加噪声,最终变成完全随机的噪声图。反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。
2.2 DDPM 的模型结构详解
DDPM 的核心是一个 U-Net 网络结构,U-Net 详细架构如下图:

2.3 训练过程
DDPM 需要训练很多轮次,每次告诉 AI:"这是加了噪声的图片,这是原始图片,请你学会如何从噪声中恢复原图"。经过大量训练后,AI 就学会了去噪技能。
2.4 推理过程
推理时,AI 从完全随机的噪声开始,一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。
2.5 DDPM 的特点
- 优点:生成质量高,理论基础扎实
- 缺点:训练和推理都很慢,通常需要 1000 步才能生成一张图片
- 应用场景:学术研究,为后续模型提供理论基础
Stable Diffusion:实用化的突破(2022 年)
3.1 为什么需要 Stable Diffusion?
DDPM 虽然效果不错,有个致命缺点:计算成本太高!一张 512×512 的图片需要在像素级别上进行扩散,计算量巨大。2022 年,Stable Diffusion 横空出世,解决了这个问题。
3.2 Stable Diffusion 的创新
Stable Diffusion 最大的创新是潜在空间扩散:
- 传统方法:直接在原始图像空间(如 512×512 像素)进行扩散
- Stable Diffusion:先将图像压缩到潜在空间(如 64×64),在潜在空间进行扩散,最后再解压回原空间
这样计算量减少了约 16 倍,使得扩散模型变得实用起来。
3.3 文本到图像生成
Stable Diffusion 另一个重要特性是支持文本到图像生成:
- 使用 CLIP 模型将文本转换为语义向量
- 在扩散过程中加入文本条件,指导图像生成
- 用户可以通过文字描述生成想要的图片
3.4 Stable Diffusion 的意义
- 实用性强:可以在普通 GPU 上运行
- 开源免费:推动了 AI 绘画的普及
- 生态丰富:大量社区模型和插件


