跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

扩散模型详解:从 DDPM 到 Stable Diffusion 再到 DiT 的技术演进

综述由AI生成扩散模型是当前的热门生成模型,其技术演进历程。从 2020 年的 DDPM 奠定基础,到 2022 年 Stable Diffusion 通过潜在空间扩散实现实用化,再到 2023 年 DiT 引入 Transformer 架构提升可扩展性。文章对比了各阶段模型的特点、优缺点及适用场景,并梳理了当前业界主流模型如 SDXL、Midjourney 等的发展趋势。

心动瞬间发布于 2026/4/6更新于 2026/5/2028 浏览
扩散模型详解:从 DDPM 到 Stable Diffusion 再到 DiT 的技术演进

1. 摘要

扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域,本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构。

扩散模型就像是一个"破坏 - 修复"的过程,想象一下你有一张美丽的图片,然后一点点地给它加上噪声,直到完全看不清原来的图片,然后让 AI 学会如何一步步把噪声去掉,重新还原出原始图片。这就是扩散模型的基本思路。


2. DDPM:扩散模型的奠基之作(2020 年)

2.1 什么是 DDPM?

DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出,它的工作原理:

前向过程(加噪声):从一张清晰的图片开始,逐步添加噪声,最终变成完全随机的噪声图。 反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。

2.2 DDPM 的模型结构详解

DDPM 的核心是一个 U-Net 网络结构,U-Net 详细架构如下图:

文章配图

2.3 训练过程

DDPM 需要训练很多轮次,每次告诉 AI:"这是加了噪声的图片,这是原始图片,请你学会如何从噪声中恢复原图"。经过大量训练后,AI 就学会了去噪技能。

2.4 推理过程

推理时,AI 从完全随机的噪声开始,一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。

2.5 DDPM 的特点
  • 优点:生成质量高,理论基础扎实
  • 缺点:训练和推理都很慢,通常需要 1000 步才能生成一张图片
  • 应用场景:学术研究,为后续模型提供理论基础

3. Stable Diffusion:实用化的突破(2022 年)

3.1 为什么需要 Stable Diffusion?

DDPM 虽然效果不错,但有个致命缺点:计算成本太高!一张 512×512 的图片需要在像素级别上进行扩散,计算量巨大。2022 年,Stable Diffusion 横空出世,解决了这个问题。

3.2 Stable Diffusion 的创新

Stable Diffusion 最大的创新是潜在空间扩散:

  • 传统方法:直接在原始图像空间(如 512×512 像素)进行扩散
  • Stable Diffusion:先将图像压缩到潜在空间(如 64×64),在潜在空间进行扩散,最后再解压回原空间

这样计算量减少了约 16 倍,使得扩散模型变得实用起来。

3.3 文本到图像生成

Stable Diffusion 另一个重要特性是支持文本到图像生成:

  • 使用 CLIP 模型将文本转换为语义向量
  • 在扩散过程中加入文本条件,指导图像生成
  • 用户可以通过文字描述生成想要的图片
3.4 Stable Diffusion 的意义
  • 实用性强:可以在普通 GPU 上运行
  • 开源免费:推动了 AI 绘画的普及
  • 生态丰富:大量社区模型和插件

4. DiT:拥抱 Transformer 时代(2023 年)

4.1 为什么用 Transformer?

随着 Transformer 在 NLP 领域的巨大成功,研究者们开始思考:能否用 Transformer 来改进扩散模型?2023 年,DiT(Diffusion Transformer)应运而生,将纯 Transformer 架构引入扩散模型。

4.2 DiT 的创新点

架构革新:

  • 用 Transformer 替换传统的 CNN 架构
  • 采用纯 Transformer 的骨干网络
  • 更好的可扩展性和并行化能力

性能提升:

  • 大模型展现更好的生成质量
  • 训练稳定性显著提高
  • 可扩展性更强
4.3 DiT vs 传统方法
特性传统 UNetDiT
架构CNNTransformer
可扩展性中等很好
训练稳定性一般很好
全局建模需要多层天然全局

5. 扩散模型发展时间线

2020 年 - DDPM:奠定扩散模型理论基础
↓
2021 年 - Improved DDPM:各种改进和优化
↓
2022 年 - Stable Diffusion:实用化突破,潜在空间扩散
↓
2023 年 - DiT:Transformer 架构,可扩展性大幅提升
↓
2024 年至今 - 各种变体和优化:蒸馏、量化、多模态等

5.1 技术演进路径
  • DDPM (2020):基础理论,像素级扩散,计算成本高
  • Latent Diffusion (2022):潜在空间扩散,大幅降低计算成本
  • DiT (2023):Transformer 架构,更好的可扩展性
5.2 DIT 和 Stable Diffusion 模型区别

Stable Diffusion

  • 架构:U-Net + 卷积神经网络
  • 特点:在潜在空间工作,计算效率高
  • 优势:成熟稳定,生态完善
  • 缺点:架构相对传统,扩展性有限

DiT (Diffusion Transformer)

  • 架构:纯 Transformer 架构
  • 特点:将扩散过程完全用 Transformer 处理
  • 优势:更好的扩展性,更容易 scale up
  • 缺点:计算量更大,需要更多资源

DiT 参考了 Stable Diffusion 的思想,借鉴了扩散模型的基本框架,但将传统的 U-Net 架构替换为 Transformer 架构,这是架构层面的重大革新。

注:Stable Diffusion 就是 Latent Diffusion 的一个具体实现,Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化

5.3 VIT 模型和 DIT 模型关系

DiT 是 ViT 思想在生成领域的成功应用,为什么这么说呢?DIT 参考了 ViT 的思路将扩散模型由 U-Net 改用 Transformer。

ViT (Vision Transformer, 2020 年)

  • 开创性工作:将 Transformer 架构首次成功应用于图像识别
  • 基本思路:把图像切成小块 (patch),当作"单词"输入 Transformer
  • 主要应用:图像分类任务

DiT (Diffusion Transformer, 2022 年底)

  • 继承关系:基于 ViT 的成功经验,将 Transformer 应用于扩散模型
  • 核心创新:用 Transformer 替换传统的 U-Net 架构
  • 主要应用:图像生成任务

相同点

  1. 都使用 Transformer 架构
  2. 都采用 patch 处理方式
  3. 都利用自注意力机制
  4. 都有良好的扩展性

不同点

方面ViTDiT
任务类型图像分类图像生成
输入静态图像噪声 + 时间步长
输出分类标签去噪后的图像
核心特征提取扩散过程建模

ViT 优势

  • 在分类任务上表现优异
  • 训练相对简单
  • 计算效率高

DiT 优势

  • 在生成任务上表现更好
  • 扩展性更强
  • 生成质量更高

6. 当前业界主流扩散模型

6.1 开源模型系列

Stable Diffusion 系列:

  • Stable Diffusion 1.x (2022):最初的版本,奠定了基础架构
  • Stable Diffusion 2.x (2022):改进了 CLIP 模型,支持更大的图像尺寸
  • Stable Diffusion XL (SDXL, 2023):更大的模型,更高的图像质量
  • Stable Diffusion 3 (2024):最新的版本,进一步提升了生成质量

其他开源模型:

  • DALL-E 系列:OpenAI 的文本到图像模型
  • Imagen:Google 的高质量扩散模型
6.2 不同场景的选择

学术研究:

  • DDPM:理解扩散模型基础
  • DiT:探索 Transformer 架构

商业应用:

  • SDXL:平衡质量与效率
  • 定制化模型:根据具体需求调整
6.3 当前主流(2024-2025 年)
  1. Midjourney 系列 - 基于改进的扩散模型
  2. DALL-E 3 - 结合多种技术的混合模型
  3. Stable Diffusion XL (SDXL) - SD 的升级版
  4. Runway、Leonardo 等平台 - 基于各种扩散模型变体
6.4 具体领域
  • AI 绘画:主要是 Stable Diffusion 变体 + 各家自研改进
  • AI 漫画:专门针对动漫风格优化的 SD 模型
  • 商业应用:多基于 Stable Diffusion 开源生态
6.5 趋势变化
  • 早期:Stable Diffusion 为主流
  • 现在:各大公司都在基于扩散模型开发私有模型
  • 未来:DiT 等 Transformer 架构可能成为新趋势

目前大多数应用仍基于 Stable Diffusion 生态,但高端应用开始采用 DiT 等新架构。未来可能会逐步向 Transformer 架构迁移。


7. 总结

扩散模型的发展历程体现了 AI 领域的快速迭代:

  • DDPM (2020):奠定了理论基础,但计算成本高
  • Stable Diffusion (2022):实现了实用化突破,潜在空间扩散
  • DiT (2023):开启了 Transformer 时代,更好的可扩展性

这些模型不仅在技术上不断创新,也在实际应用中产生了巨大影响,从学术研究到商业产品,扩散模型正在重塑我们创造和处理视觉内容的方式。

目录

  1. 1. 摘要
  2. 2. DDPM:扩散模型的奠基之作(2020 年)
  3. 2.1 什么是 DDPM?
  4. 2.2 DDPM 的模型结构详解
  5. 2.3 训练过程
  6. 2.4 推理过程
  7. 2.5 DDPM 的特点
  8. 3. Stable Diffusion:实用化的突破(2022 年)
  9. 3.1 为什么需要 Stable Diffusion?
  10. 3.2 Stable Diffusion 的创新
  11. 3.3 文本到图像生成
  12. 3.4 Stable Diffusion 的意义
  13. 4. DiT:拥抱 Transformer 时代(2023 年)
  14. 4.1 为什么用 Transformer?
  15. 4.2 DiT 的创新点
  16. 4.3 DiT vs 传统方法
  17. 5. 扩散模型发展时间线
  18. 5.1 技术演进路径
  19. 5.2 DIT 和 Stable Diffusion 模型区别
  20. 5.3 VIT 模型和 DIT 模型关系
  21. 6. 当前业界主流扩散模型
  22. 6.1 开源模型系列
  23. 6.2 不同场景的选择
  24. 6.3 当前主流(2024-2025 年)
  25. 6.4 具体领域
  26. 6.5 趋势变化
  27. 7. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 面壁智能 CTO 曾国洋:探索高效大模型与 AGI 之路
  • AIGC 时代:如何利用 DeepSeek 辅助少儿编程教育
  • 基于 Java 实现数九天精准计算:节气算法与工程化落地
  • SpringBoot+Vue+Netty+WebSocket+WebRTC 视频聊天系统搭建指南
  • JavaScript 基础语法与 jQuery 入门指南
  • pxcharts-vue:基于 Vue3 的开源多维表格解决方案
  • Python 正则表达式基础与实战指南
  • Spring Web MVC 入门与实战详解
  • Jetson Orin NX 16G 配置 AI 服务自动启动:Ollama、llama-server 与 OpenClaw Gateway
  • OpenClaw:AI 行动型智能体框架的技术架构与实现解析
  • GitHub Copilot 订阅取消操作指南
  • Python ORM 框架:SQLAlchemy 入门与实战指南
  • 基于 Next.js 和 Wagmi 构建支持 TokenP 钱包登录的 DApp 前端
  • Edge 边栏 Copilot 图标消失的修复指南
  • 前端岗位面试高频题库与核心原理解析
  • OpenAI 一致性模型:加速 AI 图像生成技术解析
  • OpenCV 图像操作基础:读写、像素访问与内存管理
  • 深入解析 CAN 通信:接收、发送与中断处理
  • Git 仓库迁移实战:从克隆到镜像推送
  • C++ STL 标准库算法详解与实践

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online