扩散模型技术演进：从DDPM到Stable Diffusion及DiT

摘要

扩散模型（Diffusion Models）作为当前最热门的生成模型之一，已彻底改变图像生成领域。本文从DDPM开始，逐步深入到Stable Diffusion和DiT架构。

扩散模型类似于一个'破坏 - 修复'的过程：先给图片逐步添加噪声直到完全随机，再训练AI学会一步步去除噪声还原原始图片。

DDPM：扩散模型的奠基之作（2020年）

什么是DDPM？

DDPM（Denoising Diffusion Probabilistic Models）由OpenAI团队在2020年提出，是扩散模型的开山鼻祖。其工作原理包括：

前向过程（加噪声）：从清晰图片开始，逐步添加噪声，最终变成随机噪声图。
反向过程（去噪声）：训练AI学会如何一步步去除噪声，从随机噪声中重建原始图片。

模型结构详解

DDPM的核心是一个U-Net网络结构。

U-Net架构

训练与推理

训练：告诉AI'这是加了噪声的图片，这是原始图片'，让AI学习从噪声恢复原图。
推理：AI从完全随机的噪声开始，一步步'想象'出完整图片，通常需要几十到几百步。

特点

优点：生成质量高，理论基础扎实。
缺点：训练和推理慢，通常需1000步生成一张图片。
应用：学术研究，为后续模型提供理论基础。

Stable Diffusion：实用化的突破（2022年）

为什么需要Stable Diffusion？

DDPM计算成本太高，512×512像素的扩散计算量巨大。Stable Diffusion解决了这一问题。

创新点：潜在空间扩散

传统方法：直接在原始图像空间（如512×512像素）进行扩散。
Stable Diffusion：先将图像压缩到潜在空间（如64×64），在潜在空间扩散，最后解压回原空间。

计算量减少约16倍，使扩散模型变得实用。

文本到图像生成

使用CLIP模型将文本转换为语义向量。
在扩散过程中加入文本条件，指导图像生成。
用户可通过文字描述生成想要的图片。

意义

实用性强：可在普通GPU上运行。
开源免费：推动了AI绘画普及。
生态丰富：大量社区模型和插件。

DiT：拥抱Transformer时代（2023年）

为什么用Transformer？

随着Transformer在NLP领域的成功，研究者尝试将其引入扩散模型。2023年DiT（Diffusion Transformer）应运而生。

创新点

架构革新：用Transformer替换传统CNN架构，采用纯Transformer骨干网络，提升可扩展性和并行化能力。

特性	传统UNet	DiT
架构	CNN	Transformer
可扩展性	中等	很好
训练稳定性	一般	很好
全局建模	需要多层	天然全局

方面	ViT	DiT
任务类型	图像分类	图像生成
输入	静态图像	噪声 + 时间步长
输出	分类标签	去噪后的图像
核心	特征提取	扩散过程建模

扩散模型技术演进：从DDPM到Stable Diffusion及DiT

摘要

DDPM：扩散模型的奠基之作（2020年）

什么是DDPM？

模型结构详解

训练与推理

特点

Stable Diffusion：实用化的突破（2022年）

为什么需要Stable Diffusion？

创新点：潜在空间扩散

文本到图像生成

意义

DiT：拥抱Transformer时代（2023年）

为什么用Transformer？

创新点

更多推荐文章

相关免费在线工具

DiT vs 传统方法

扩散模型发展时间线

技术演进路径

DIT和Stable Diffusion区别

ViT模型和DIT模型关系

当前业界主流扩散模型

开源模型系列

不同场景的选择

当前主流（2024-2025年）

具体领域

趋势变化

总结

更多推荐文章

相关免费在线工具

扩散模型技术演进：从DDPM到Stable Diffusion及DiT

摘要

DDPM：扩散模型的奠基之作（2020年）

什么是DDPM？

模型结构详解

训练与推理

特点

Stable Diffusion：实用化的突破（2022年）

为什么需要Stable Diffusion？

创新点：潜在空间扩散

文本到图像生成

意义

DiT：拥抱Transformer时代（2023年）

为什么用Transformer？

创新点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

DiT vs 传统方法

扩散模型发展时间线

技术演进路径

DIT和Stable Diffusion区别

ViT模型和DIT模型关系

当前业界主流扩散模型

开源模型系列

不同场景的选择

当前主流（2024-2025年）

具体领域

趋势变化

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具