扩散模型详解:从 DDPM 到 Stable Diffusion 再到 DiT 的技术演进
扩散模型技术演进,涵盖 DDPM 基础理论、Stable Diffusion 潜在空间突破及 DiT Transformer 架构革新。文章对比了各阶段模型特点、应用场景及优缺点,梳理了从 2020 年至今的发展时间线与主流模型选择,为理解生成式 AI 提供清晰脉络。

扩散模型技术演进,涵盖 DDPM 基础理论、Stable Diffusion 潜在空间突破及 DiT Transformer 架构革新。文章对比了各阶段模型特点、应用场景及优缺点,梳理了从 2020 年至今的发展时间线与主流模型选择,为理解生成式 AI 提供清晰脉络。

扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域,本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构。
扩散模型就像是一个"破坏 - 修复"的过程,想象一下你有一张美丽的图片,然后一点点地给它加上噪声,直到完全看不清原来的图片,然后让 AI 学会如何一步步把噪声去掉,重新还原出原始图片。这就是扩散模型的基本思路。
DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出,它的工作原理:
前向过程(加噪声):从一张清晰的图片开始,逐步添加噪声,最终变成完全随机的噪声图。 反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。
DDPM 的核心是一个 U-Net 网络结构,U-Net 详细架构如下图:

DDPM 需要训练很多轮次,每次告诉 AI:"这是加了噪声的图片,这是原始图片,请你学会如何从噪声中恢复原图"。经过大量训练后,AI 就学会了去噪技能。
推理时,AI 从完全随机的噪声开始,一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。
DDPM 虽然效果不错,有个致命缺点:计算成本太高!一张 512×512 的图片需要在像素级别上进行扩散,计算量巨大。2022 年,Stable Diffusion 横空出世,解决了这个问题。
Stable Diffusion 最大的创新是潜在空间扩散:
这样计算量减少了约 16 倍,使得扩散模型变得实用起来。
Stable Diffusion 另一个重要特性是支持文本到图像生成:
随着 Transformer 在 NLP 领域的巨大成功,研究者们开始思考:能否用 Transformer 来改进扩散模型?2023 年,DiT(Diffusion Transformer)应运而生,将纯 Transformer 架构引入扩散模型。
架构革新:
性能提升:
| 特性 | 传统 UNet | DiT |
|---|---|---|
| 架构 | CNN | Transformer |
| 可扩展性 | 中等 | 很好 |
| 训练稳定性 | 一般 | 很好 |
| 全局建模 | 需要多层 | 天然全局 |
2020 年 - DDPM:奠定扩散模型理论基础 ↓ 2021 年 - Improved DDPM:各种改进和优化 ↓ 2022 年 - Stable Diffusion:实用化突破,潜在空间扩散 ↓ 2023 年 - DiT:Transformer 架构,可扩展性大幅提升 ↓ 2024 年至今 - 各种变体和优化:蒸馏、量化、多模态等
Stable Diffusion
DiT (Diffusion Transformer)
DiT 参考了 Stable Diffusion 的思想,借鉴了扩散模型的基本框架,但将传统的 U-Net 架构替换为 Transformer 架构,这是架构层面的重大革新。
注:Stable Diffusion 就是 Latent Diffusion 的一个具体实现,Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化
DiT 是 ViT 思想在生成领域的成功应用,为什么这么说呢?DiT 参考了 ViT 的思路将扩散模型由 U-Net 改用 Transformer。
ViT (Vision Transformer, 2020 年)
DiT (Diffusion Transformer, 2022 年底)
相同点
不同点
| 方面 | ViT | DiT |
|---|---|---|
| 任务类型 | 图像分类 | 图像生成 |
| 输入 | 静态图像 | 噪声 + 时间步长 |
| 输出 | 分类标签 | 去噪后的图像 |
| 核心 | 特征提取 | 扩散过程建模 |
ViT 优势
DiT 优势
Stable Diffusion 系列:
其他开源模型:
学术研究:
商业应用:
目前大多数应用仍基于 Stable Diffusion 生态,但高端应用开始采用 DiT 等新架构。未来可能会逐步向 Transformer 架构迁移。
扩散模型的发展历程体现了 AI 领域的快速迭代:
这些模型不仅在技术上不断创新,也在实际应用中产生了巨大影响,从学术研究到商业产品,扩散模型正在重塑我们创造和处理视觉内容的方式。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online