跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表

目录

  1. 摘要
  2. 1. DDPM:扩散模型的奠基之作(2020 年)
  3. 1.1 什么是 DDPM?
  4. 1.2 DDPM 的模型结构详解
  5. 1.3 训练与推理过程
  6. 1.4 DDPM 的特点
  7. 2. Stable Diffusion:实用化的突破(2022 年)
  8. 2.1 为什么需要 Stable Diffusion?
  9. 2.2 Stable Diffusion 的创新
  10. 2.3 文本到图像生成
  11. 2.4 Stable Diffusion 的意义
  12. 3. DiT:拥抱 Transformer 时代(2023 年)
  13. 3.1 为什么用 Transformer?
  14. 3.2 DiT 的创新点
  15. 3.3 DiT vs 传统方法
  16. 4. 扩散模型发展时间线
  17. 4.1 技术演进路径
  18. 4.2 DIT 和 Stable Diffusion 模型区别
  19. 4.3 ViT 模型和 DiT 模型关系
  20. 5. 当前业界主流扩散模型
  21. 5.1 开源模型系列
  22. 5.2 不同场景的选择
  23. 5.3 当前主流(2024-2025 年)
  24. 5.4 趋势变化
  25. 6. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
编程语言AI算法

扩散模型技术演进:从 DDPM、Stable Diffusion 到 DiT

扩散模型通过破坏与修复过程实现图像生成。DDPM 奠定理论基础但计算成本高;Stable Diffusion 引入潜在空间扩散降低算力需求并支持文生图;DiT 采用 Transformer 架构提升可扩展性与训练稳定性。三者代表了该领域从像素级扩散到潜在空间再到 Transformer 架构的关键演进路径,广泛应用于学术研究与商业产品。

魔尊发布于 2026/4/9更新于 2026/4/230 浏览
扩散模型技术演进:从 DDPM、Stable Diffusion 到 DiT

摘要

扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域。本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构。

扩散模型类似于一个'破坏 - 修复'的过程:向图片逐步添加噪声直到完全随机,再训练 AI 学会一步步去除噪声还原原始图片。


1. DDPM:扩散模型的奠基之作(2020 年)

1.1 什么是 DDPM?

DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出。

  • 前向过程(加噪声):从清晰图片开始,逐步添加噪声,最终变成完全随机的噪声图。
  • 反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。

1.2 DDPM 的模型结构详解

DDPM 的核心是一个 U-Net 网络结构。

U-Net 架构

1.3 训练与推理过程

  • 训练:告诉 AI'这是加了噪声的图片,这是原始图片',经过大量训练后学会去噪技能。
  • 推理:AI 从完全随机的噪声开始,一步步'想象'出完整的图片,通常需要几十到几百步。

1.4 DDPM 的特点

  • 优点:生成质量高,理论基础扎实。
  • 缺点:训练和推理都很慢,通常需要 1000 步才能生成一张图片。
  • 应用场景:学术研究,为后续模型提供理论基础。

2. Stable Diffusion:实用化的突破(2022 年)

2.1 为什么需要 Stable Diffusion?

DDPM 计算成本太高,一张 512×512 的图片需要在像素级别上进行扩散。2022 年,Stable Diffusion 解决了这个问题。

2.2 Stable Diffusion 的创新

最大的创新是潜在空间扩散:

  • 传统方法:直接在原始图像空间(如 512×512 像素)进行扩散。
  • Stable Diffusion:先将图像压缩到潜在空间(如 64×64),在潜在空间进行扩散,最后再解压回原空间。

这样计算量减少了约 16 倍,使得扩散模型变得实用起来。

2.3 文本到图像生成

  • 使用 CLIP 模型将文本转换为语义向量。
  • 在扩散过程中加入文本条件,指导图像生成。
  • 用户可以通过文字描述生成想要的图片。

2.4 Stable Diffusion 的意义

  • 实用性强:可以在普通 GPU 上运行。
  • 开源免费:推动了 AI 绘画的普及。
  • 生态丰富:大量社区模型和插件。

3. DiT:拥抱 Transformer 时代(2023 年)

3.1 为什么用 Transformer?

随着 Transformer 在 NLP 领域的巨大成功,研究者们尝试将其引入扩散模型。2023 年,DiT(Diffusion Transformer)应运而生,将纯 Transformer 架构引入扩散模型。

3.2 DiT 的创新点

  • 架构革新:用 Transformer 替换传统的 CNN 架构,采用纯 Transformer 的骨干网络,具备更好的可扩展性和并行化能力。
  • 性能提升:大模型展现更好的生成质量,训练稳定性显著提高。

3.3 DiT vs 传统方法

特性传统 UNetDiT
架构CNNTransformer
可扩展性中等很好
训练稳定性一般很好
全局建模需要多层天然全局

4. 扩散模型发展时间线

2020 年 - DDPM:奠定扩散模型理论基础 ↓ 2021 年 - Improved DDPM:各种改进和优化 ↓ 2022 年 - Stable Diffusion:实用化突破,潜在空间扩散 ↓ 2023 年 - DiT:Transformer 架构,可扩展性大幅提升 ↓ 2024 年至今 - 各种变体和优化:蒸馏、量化、多模态等

4.1 技术演进路径

  • DDPM (2020):基础理论,像素级扩散,计算成本高。
  • Latent Diffusion (2022):潜在空间扩散,大幅降低计算成本。
  • DiT (2023):Transformer 架构,更好的可扩展性。

4.2 DIT 和 Stable Diffusion 模型区别

Stable Diffusion

  • 架构:U-Net + 卷积神经网络。
  • 特点:在潜在空间工作,计算效率高。
  • 优势:成熟稳定,生态完善。
  • 缺点:架构相对传统,扩展性有限。

DiT (Diffusion Transformer)

  • 架构:纯 Transformer 架构。
  • 特点:将扩散过程完全用 Transformer 处理。
  • 优势:更好的扩展性,更容易 scale up。
  • 缺点:计算量更大,需要更多资源。

DiT 参考了 Stable Diffusion 的思想,借鉴了扩散模型的基本框架,但将传统的 U-Net 架构替换为 Transformer 架构,这是架构层面的重大革新。

注:Stable Diffusion 就是 Latent Diffusion 的一个具体实现,Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化。

4.3 ViT 模型和 DiT 模型关系

DiT 是 ViT 思想在生成领域的成功应用。ViT 将 Transformer 应用于图像识别,DiT 将其应用于扩散模型。

相同点

  1. 都使用 Transformer 架构。
  2. 都采用 patch 处理方式。
  3. 都利用自注意力机制。
  4. 都有良好的扩展性。

不同点

方面ViTDiT
任务类型图像分类图像生成
输入静态图像噪声 + 时间步长
输出分类标签去噪后的图像
核心特征提取扩散过程建模

ViT 优势:在分类任务上表现优异,训练相对简单,计算效率高。 DiT 优势:在生成任务上表现更好,扩展性更强,生成质量更高。


5. 当前业界主流扩散模型

5.1 开源模型系列

Stable Diffusion 系列:

  • Stable Diffusion 1.x (2022):最初的版本,奠定了基础架构。
  • Stable Diffusion 2.x (2022):改进了 CLIP 模型,支持更大的图像尺寸。
  • Stable Diffusion XL (SDXL, 2023):更大的模型,更高的图像质量。
  • Stable Diffusion 3 (2024):最新的版本,进一步提升了生成质量。

其他开源模型:

  • DALL-E 系列:OpenAI 的文本到图像模型。
  • Imagen:Google 的高质量扩散模型。

5.2 不同场景的选择

  • 学术研究:DDPM(理解基础)、DiT(探索 Transformer 架构)。
  • 商业应用:SDXL(平衡质量与效率)、定制化模型(根据需求调整)。

5.3 当前主流(2024-2025 年)

  1. Midjourney 系列 - 基于改进的扩散模型。
  2. DALL-E 3 - 结合多种技术的混合模型。
  3. Stable Diffusion XL (SDXL) - SD 的升级版。
  4. Runway、Leonardo 等平台 - 基于各种扩散模型变体。

5.4 趋势变化

  • 早期:Stable Diffusion 为主流。
  • 现在:各大公司都在基于扩散模型开发私有模型。
  • 未来:DiT 等 Transformer 架构可能成为新趋势。

目前大多数应用仍基于 Stable Diffusion 生态,但高端应用开始采用 DiT 等新架构。未来可能会逐步向 Transformer 架构迁移。


6. 总结

扩散模型的发展历程体现了 AI 领域的快速迭代:

  • DDPM (2020):奠定了理论基础,但计算成本高。
  • Stable Diffusion (2022):实现了实用化突破,潜在空间扩散。
  • DiT (2023):开启了 Transformer 时代,更好的可扩展性。

这些模型不仅在技术上不断创新,也在实际应用中产生了巨大影响,从学术研究到商业产品,扩散模型正在重塑我们创造和处理视觉内容的方式。

  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • FPGA 驱动 TLV5618 实现双通道精密电压输出
  • 宇树 G1 机器人开发入门:有线与无线连接配置指南
  • 基于 AI 工程文档构建儿童英语学习应用前端示例
  • MC.JS WEBMC1.8 与传统 JavaScript 开发效率对比
  • AI Infra 底层逻辑与落地实战指南
  • 基于 OpenClaw 与飞书搭建多 Agent AI 助理团队
  • Python + Ollama 本地部署大模型构建私有 AI 助手
  • Face Analysis WebUI 使用 Gradio share 开启远程临时链接调试
  • 人工智能:大语言模型(LLM)原理与应用实战
  • HTML input type 属性全解析与实战避坑指南
  • OpenPPT:基于 Web 的智能 PPT 在线编辑器
  • AIGC 中的变分自编码器(VAE)原理及代码实现
  • Clawdbot 实战教程:Webhook 对接企业微信实现双向消息同步
  • Coze 获取对标行业新闻转视频文案写入飞书多维表实战
  • 5 款网文创作 AI 工具横评:DeepSeek、Kimi、笔灵等
  • ComfyUI-Easy-Use 使用指南:提升 AI 绘画效率
  • Kotti Next 调试记录:后端连通与前端轻量级重构方案
  • Linux 内核 list_for_each_entry 链表遍历详解
  • 6 款免费学术论文降低 AI 检测率工具实测
  • 低显存 GPU 运行 AI 绘画:ComfyUI GGUF 量化指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online