摘要
扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域。本文从DDPM开始,逐步深入到Stable Diffusion和DiT架构。
扩散模型类似于一个'破坏 - 修复'的过程:先给图片逐步添加噪声直到完全随机,再训练AI学会一步步去除噪声还原原始图片。
DDPM:扩散模型的奠基之作(2020年)
什么是DDPM?
DDPM(Denoising Diffusion Probabilistic Models)由OpenAI团队在2020年提出,是扩散模型的开山鼻祖。其工作原理包括:
- 前向过程(加噪声):从清晰图片开始,逐步添加噪声,最终变成随机噪声图。
- 反向过程(去噪声):训练AI学会如何一步步去除噪声,从随机噪声中重建原始图片。
模型结构详解
DDPM的核心是一个U-Net网络结构。

训练与推理
- 训练:告诉AI'这是加了噪声的图片,这是原始图片',让AI学习从噪声恢复原图。
- 推理:AI从完全随机的噪声开始,一步步'想象'出完整图片,通常需要几十到几百步。
特点
- 优点:生成质量高,理论基础扎实。
- 缺点:训练和推理慢,通常需1000步生成一张图片。
- 应用:学术研究,为后续模型提供理论基础。
Stable Diffusion:实用化的突破(2022年)
为什么需要Stable Diffusion?
DDPM计算成本太高,512×512像素的扩散计算量巨大。Stable Diffusion解决了这一问题。
创新点:潜在空间扩散
- 传统方法:直接在原始图像空间(如512×512像素)进行扩散。
- Stable Diffusion:先将图像压缩到潜在空间(如64×64),在潜在空间扩散,最后解压回原空间。
计算量减少约16倍,使扩散模型变得实用。
文本到图像生成
- 使用CLIP模型将文本转换为语义向量。
- 在扩散过程中加入文本条件,指导图像生成。
- 用户可通过文字描述生成想要的图片。
意义
- 实用性强:可在普通GPU上运行。
- 开源免费:推动了AI绘画普及。
- 生态丰富:大量社区模型和插件。
DiT:拥抱Transformer时代(2023年)
为什么用Transformer?
随着Transformer在NLP领域的成功,研究者尝试将其引入扩散模型。2023年DiT(Diffusion Transformer)应运而生。
创新点
- 架构革新:用Transformer替换传统CNN架构,采用纯Transformer骨干网络,提升可扩展性和并行化能力。


