扩散模型详解：从DDPM到Stable Diffusion再到DiT的技术演进

优质文章学习记录

07 Apr 2026 — 9 min read

1.摘要

扩散模型（Diffusion Models）作为当前最热门的生成模型之一，已彻底改变图像生成领域，本文从DDPM开始，逐步深入到Stable Diffusion和DiT架构。

扩散模型就像是一个"破坏-修复"的过程，想象一下你有一张美丽的图片，然后一点点地给它加上噪声，直到完全看不清原来的图片，然后让AI学会如何一步步把噪声去掉，重新还原出原始图片。这就是扩散模型的基本思路。

2. DDPM：扩散模型的奠基之作（2020年）

2.1 什么是DDPM？

DDPM（Denoising Diffusion Probabilistic Models）是扩散模型的开山鼻祖，由OpenAI团队在2020年提出，它的工作原理：

前向过程（加噪声）：从一张清晰的图片开始，逐步添加噪声，最终变成完全随机的噪声图。 反向过程（去噪声）：训练AI学会如何一步步去除噪声，从随机噪声中重建出原始图片。

2.2 DDPM的模型结构详解

DDPM的核心是一个U-Net网络结构，U-Net详细架构如下图：

2.3 训练过程

DDPM需要训练很多轮次，每次告诉AI："这是加了噪声的图片，这是原始图片，请你学会如何从噪声中恢复原图"。经过大量训练后，AI就学会了去噪技能。

2.4 推理过程

推理时，AI从完全随机的噪声开始，一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。

2.5 DDPM的特点

优点：生成质量高，理论基础扎实
缺点：训练和推理都很慢，通常需要1000步才能生成一张图片
应用场景：学术研究，为后续模型提供理论基础

3. Stable Diffusion：实用化的突破（2022年）

3.1 为什么需要Stable Diffusion？

DDPM虽然效果不错，但有个致命缺点：计算成本太高！一张512×512的图片需要在像素级别上进行扩散，计算量巨大。2022年，Stable Diffusion横空出世，解决了这个问题。

3.2 Stable Diffusion的创新

Stable Diffusion最大的创新是潜在空间扩散：

传统方法：直接在原始图像空间（如512×512像素）进行扩散
Stable Diffusion：先将图像压缩到潜在空间（如64×64），在潜在空间进行扩散，最后再解压回原空间

这样计算量减少了约16倍，使得扩散模型变得实用起来。

3.3 文本到图像生成

Stable Diffusion另一个重要特性是支持文本到图像生成：

使用CLIP模型将文本转换为语义向量
在扩散过程中加入文本条件，指导图像生成
用户可以通过文字描述生成想要的图片

3.4 Stable Diffusion的意义

实用性强：可以在普通GPU上运行
开源免费：推动了AI绘画的普及
生态丰富：大量社区模型和插件

3. Stable Diffusion：实用化的突破（2022年）

3.1 为什么需要Stable Diffusion？

3.2 Stable Diffusion的创新

Stable Diffusion最大的创新是潜在空间扩散：

传统方法：直接在原始图像空间（如512×512像素）进行扩散
Stable Diffusion：先将图像压缩到潜在空间（如64×64），在潜在空间进行扩散，最后再解压回原空间

这样计算量减少了约16倍，使得扩散模型变得实用起来。

3.3 文本到图像生成

Stable Diffusion另一个重要特性是支持文本到图像生成：

使用CLIP模型将文本转换为语义向量
在扩散过程中加入文本条件，指导图像生成
用户可以通过文字描述生成想要的图片

3.4 Stable Diffusion的意义

实用性强：可以在普通GPU上运行
开源免费：推动了AI绘画的普及
生态丰富：大量社区模型和插件

4. DiT：拥抱Transformer时代（2023年）

4.1 为什么用Transformer？

随着Transformer在NLP领域的巨大成功，研究者们开始思考：能否用Transformer来改进扩散模型？2023年，DiT（Diffusion Transformer）应运而生，将纯Transformer架构引入扩散模型。

4.2 DiT的创新点

架构革新：

用Transformer替换传统的CNN架构
采用纯Transformer的骨干网络
更好的可扩展性和并行化能力

性能提升：

大模型展现更好的生成质量
训练稳定性显著提高
可扩展性更强

4.3 DiT vs 传统方法

特性	传统UNet	DiT
架构	CNN	Transformer
可扩展性	中等	很好
训练稳定性	一般	很好
全局建模	需要多层	天然全局

5. 扩散模型发展时间线

2020年 - DDPM：奠定扩散模型理论基础
↓
2021年 - Improved DDPM：各种改进和优化
↓
2022年 - Stable Diffusion：实用化突破，潜在空间扩散
↓
2023年 - DiT：Transformer架构，可扩展性大幅提升
↓
2024年至今 - 各种变体和优化：蒸馏、量化、多模态等

5.1 技术演进路径

DDPM (2020)：基础理论，像素级扩散，计算成本高
Latent Diffusion (2022)：潜在空间扩散，大幅降低计算成本
DiT (2023)：Transformer架构，更好的可扩展性

5.2 DIT和Stable Diffusion模型区别

Stable Diffusion

架构：U-Net + 卷积神经网络
特点：在潜在空间工作，计算效率高
优势：成熟稳定，生态完善
缺点：架构相对传统，扩展性有限

DiT (Diffusion Transformer)

架构：纯Transformer架构
特点：将扩散过程完全用Transformer处理
优势：更好的扩展性，更容易scale up
缺点：计算量更大，需要更多资源

DiT参考了Stable Diffusion的思想，借鉴了扩散模型的基本框架，但将传统的U-Net架构替换为Transformer架构，这是架构层面的重大革新。

注：Stable Diffusion 就是 Latent Diffusion 的一个具体实现，Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化

5.3 VIT模型和DIT模型关系

DiT是ViT思想在生成领域的成功应用，为什么这么说呢？DIT参考了ViT的思路将扩散模型由U-Net改用Transformer。

ViT (Vision Transformer, 2020年)

开创性工作：将Transformer架构首次成功应用于图像识别
基本思路：把图像切成小块(patch)，当作"单词"输入Transformer
主要应用：图像分类任务

DiT (Diffusion Transformer, 2022年底)

继承关系：基于ViT的成功经验，将Transformer应用于扩散模型
核心创新：用Transformer替换传统的U-Net架构
主要应用：图像生成任务

相同点

都使用Transformer架构
都采用patch处理方式
都利用自注意力机制
都有良好的扩展性

不同点

方面	ViT	DiT
任务类型	图像分类	图像生成
输入	静态图像	噪声 + 时间步长
输出	分类标签	去噪后的图像
核心	特征提取	扩散过程建模

ViT优势

在分类任务上表现优异
训练相对简单
计算效率高

DiT优势

在生成任务上表现更好
扩展性更强
生成质量更高

6. 当前业界主流扩散模型

6.1 开源模型系列

Stable Diffusion系列：

Stable Diffusion 1.x (2022)：最初的版本，奠定了基础架构
Stable Diffusion 2.x (2022)：改进了CLIP模型，支持更大的图像尺寸
Stable Diffusion XL (SDXL, 2023)：更大的模型，更高的图像质量
Stable Diffusion 3 (2024)：最新的版本，进一步提升了生成质量

其他开源模型：

DALL-E系列：OpenAI的文本到图像模型
Imagen：Google的高质量扩散模型

6.2 不同场景的选择

学术研究：

DDPM：理解扩散模型基础
DiT：探索Transformer架构

商业应用：

SDXL：平衡质量与效率
定制化模型：根据具体需求调整

6.3 当前主流（2024-2025年）

Midjourney系列 - 基于改进的扩散模型
DALL-E 3 - 结合多种技术的混合模型
Stable Diffusion XL (SDXL) - SD的升级版
Runway、Leonardo等平台 - 基于各种扩散模型变体

6.4 具体领域

AI绘画：主要是Stable Diffusion变体 + 各家自研改进
AI漫画：专门针对动漫风格优化的SD模型
商业应用：多基于Stable Diffusion开源生态

6.5 趋势变化

早期：Stable Diffusion为主流
现在：各大公司都在基于扩散模型开发私有模型
未来：DiT等Transformer架构可能成为新趋势

目前大多数应用仍基于Stable Diffusion生态，但高端应用开始采用DiT等新架构。未来可能会逐步向Transformer架构迁移。

7. 总结

扩散模型的发展历程体现了AI领域的快速迭代：

DDPM (2020)：奠定了理论基础，但计算成本高
Stable Diffusion (2022)：实现了实用化突破，潜在空间扩散
DiT (2023)：开启了Transformer时代，更好的可扩展性

这些模型不仅在技术上不断创新，也在实际应用中产生了巨大影响，从学术研究到商业产品，扩散模型正在重塑我们创造和处理视觉内容的方式。

Neo4j图谱可视化-告别单调灰色、掌握色彩定制的艺术

摘要本文旨在系统地介绍在 Neo4j 中为知识图谱定制颜色的多种方法与最佳实践。从最基础的手动界面操作，到通过修改数据结构实现持久化着色，再到基于节点属性的高级动态着色技巧，本文将为读者提供一套完整的图谱可视化解决方案，帮助读者将复杂的数据网络转化为直观、清晰、富有洞察力的彩色图谱。引言：当知识图谱遇上 “色盲” 当您第一次在 Neo4j Browser 中执行查询，满怀期待地切换到图形视图时，可能会遇到一个令人沮丧的场景：一个由无数灰色节点和线条构成的杂乱网络。这种单调的视觉呈现，使得数据中蕴含的丰富结构和关系模式难以被快速识别，极大地削弱了知识图谱作为数据分析工具的价值。幸运的是，Neo4j Browser 提供了强大而灵活的样式定制功能。通过为不同类型的节点和关系应用恰当的颜色，我们可以将数据的内在逻辑和层次结构直观地呈现出来，让知识图谱真正 “活” 起来，成为洞察数据的有力武器。本文将从核心原理出发，详细讲解三种主流的颜色定制方法，并通过具体的医药和情感分析实例，帮助您掌握这门 “图谱着色” 的艺术。核心概念：颜色与 “标签（Label）” 的绑定

跨越天堑：机器人脑部药物递送三大技术路径的可转化性分析研究

摘要血脑屏障是中枢神经系统药物研发最核心的瓶颈。尽管相关基础研究层出不穷，但“论文成果显著、临床转化缓慢”的悖论依然存在。本文认为，突破这一瓶颈的关键在于，将研究重心从“单点机制”转向构建一条“可验证、可复现、可监管”的全链条递送系统。为此，本文提出了一个衡量脑部递送技术可转化性的四维评价标尺：剂量可定义、闭环可监测、质控可标准化、可回退。基于此标尺，本文深度剖析了当前最具潜力的三条技术路径：（1）FUS/低强度聚焦超声联合微泡；（2）血管内可导航载体/机器人；（3）针对胶质母细胞瘤（GBM）的多功能纳米系统。通过精读关键临床试验、前沿工程研究和系统综述，我们抽离出可直接写入临床或产品方案的核心变量，识别了各自面临的最大转化风险，并提出了差异化的“押注”策略。分析表明，FUS+MB路径因其在“工程控制”上的成熟度，在近期（12-24个月）的转化确定性最高；血管内机器人代表了精准制导的未来趋势，

Coze（扣子）全解析：100个落地用途+发布使用指南，小白也能玩转低代码AI智能体

摘要：Coze（扣子）作为字节跳动推出的低代码AI智能体平台，凭借零代码/低代码拖拽式操作、丰富的插件生态和多平台发布能力，成为小白和职场人高效落地AI应用的首选工具。本文全面汇总Coze可实现的100个实用场景，覆盖个人、学习、办公、运营等7大领域，同时详细拆解其生成形态、发布流程和使用方法，帮你快速上手，把AI能力转化为实际生产力，无需专业开发经验也能轻松搭建专属AI应用。前言在AI普及的当下，很多人想借助AI提升效率、解决实际问题，但苦于没有编程基础，无法开发专属AI工具。而Coze（扣子）的出现，彻底打破了这一壁垒——它是字节跳动自主研发的低代码AI智能体平台，无需复杂编码，通过拖拽组件、配置插件、编写简单提示词，就能快速搭建聊天Bot、工作流、知识库等AI应用，并且支持多渠道发布，让你的AI工具随时随地可用。本文将分为两大核心部分：第一部分汇总Coze可落地的100个实用场景，帮你打开思路，找到适配自己需求的用法；第二部分详细讲解Coze生成的应用形态、发布流程和使用技巧，让你搭建完成后快速落地使用，真正实现“零代码上手，高效用AI”。第一部分：Coze

2025年第27届中国机器人及人工智能大赛自主巡航实战经验分享

作为连续两届参加中国机器人及人工智能大赛并拿下国一的"老兵"，我想跟大家分享一些在自主巡航项目中的实战经验。这个项目看起来简单，但真正做起来才发现里面有太多坑需要踩，希望我的一些经验能让你少走弯路。一、项目实战理解刚开始接触这个项目时，我和团队都以为主要难点在于算法的精巧设计。结果第一年比赛只拿了个国二，回来复盘才发现，比赛成败的关键不在于算法多高级，而在于系统的鲁棒性和稳定性。场地中那些任务信息图像看似简单，但在不同光照、不同角度下识别难度差异很大。记得去年决赛时，有支985高校的队伍用了很牛的深度学习算法，结果在现场因为光照问题，识别率直接掉到40%以下，连基本的任务点都没完成。核心任务拆解： * 语音识别与播报（10分） * 三次任务点识别与到达（60分） * 终点到达（10分） * 技术文档（10分）首先要确保60分的基础分稳稳拿到，才有机会冲击更高分数。二、软件架构实战经验 ROS框架设计第一年我们用了单体架构，所有功能都堆在一个节点里，结果调试和找bug特别痛苦。第二年重构为多节点设计：这种模块化设计好处太多了： 1. 团

1.摘要

2. DDPM：扩散模型的奠基之作（2020年）

2.1 什么是DDPM？

2.2 DDPM的模型结构详解

2.3 训练过程

2.4 推理过程

2.5 DDPM的特点

3. Stable Diffusion：实用化的突破（2022年）

3.1 为什么需要Stable Diffusion？

3.2 Stable Diffusion的创新

3.3 文本到图像生成

3.4 Stable Diffusion的意义

3. Stable Diffusion：实用化的突破（2022年）

3.1 为什么需要Stable Diffusion？

3.2 Stable Diffusion的创新

3.3 文本到图像生成

3.4 Stable Diffusion的意义

4. DiT：拥抱Transformer时代（2023年）

4.1 为什么用Transformer？

4.2 DiT的创新点

4.3 DiT vs 传统方法

5. 扩散模型发展时间线

5.1 技术演进路径

5.2 DIT和Stable Diffusion模型区别

5.3 VIT模型和DIT模型关系

6. 当前业界主流扩散模型

6.1 开源模型系列

6.2 不同场景的选择

6.3 当前主流（2024-2025年）

6.4 具体领域

6.5 趋势变化

7. 总结

Read more

Neo4j图谱可视化-告别单调灰色、掌握色彩定制的艺术

跨越天堑：机器人脑部药物递送三大技术路径的可转化性分析研究

Coze（扣子）全解析：100个落地用途+发布使用指南，小白也能玩转低代码AI智能体

2025年第27届中国机器人及人工智能大赛自主巡航实战经验分享