扩散模型之(二十一)Stable Diffusion 版本演进
1. 概述
Stable Diffusion 自2022年8月首次发布以来,取得了显著发展。作为一款强大的人工智能图像生成模型,自其诞生以来,便在图像生成领域掀起了革命性的变革。本文旨在揭示Stable Diffusion模型的发展历程,从其起源、关键技术突破,到在图像生成领域的应用与影响,全面展现Stable Diffusion的历史脉络与发展趋势。
下图展示了Stable Diffusion 不同版本发版的主要时间节点。

2. 版本诞生与演进历程
2.1 版本的诞生与纠葛
Stable Diffusion 最早是三家机构,CompVis(学术团队)、Runway(工程团队)、Stability AI(幕后金主)于2022年8月联合完成后予以发布,其中:
- CompVis(慕尼黑大学 LMU):核心论文 Latent Diffusion Models 作者团队(Robin Rombach 等4人),发明潜扩散架构,其中,合作作者中还包括 Patrick Esser(来自Runway公司)
- Runway:AI 工具公司,派 Patrick Esser 参与工程化、实现第一个可用版本
- Stability AI(公司老板 Emad Mostaque):提供 4000+ A100 超算算力 + 资金,负责开源、社区、商业化

2022.10.20 Runway 突然在 Hugging Face 发布 Stable Diffusion 1.5 权重与代码。随后,Stability AI 法务向 Hugging Face 发处出侵权警告,要求强制下架 SD 1.5,理由是:
“Runway 未获授权,擅自发布属于 Stability AI 的模型权重,侵犯知识产权。”
Stability AI 又撤销下架要求,模型重新上线。最终三家单位分道扬镳,其核心原因在于主导权与利益分裂的产生,具体体现在:
- Stability 想把 SD 打造成 自家商业产品 / 生态,控制所有版本发布。
- Runway 认为自己是 联合发明人,要掌握部分版本控制权。
- CompVis(大学团队):基本退出,回归学术,不再参与商业版本。
最终版本的发布方与合作走向:
- 初创蜜月:CompVis(技术)+ Runway(工程)+ Stability(钱 / 算力)合作发布 SD 1.x。
- 1.5 决裂:Runway 发布 1.5 → Stability 告侵权 → 公开翻脸 → 合作破裂。
- 彻底分家:
- Stability 独立发布 SD 2.x/XL/3/3.5。
- Runway 删除 GitHub 上所有 SD 1.5 代码 / 权重,自研Gen-1、Gen-2 文生视频模型。
- 团队再分裂:Stability 核心团队集体出走,创立黑森林实验室Black Forest Labs,发布Flux, 彻底终结 Stability 对 “原班 SD 技术” 的垄断,性能甚至超过了 SD 3.5,成为新一代最强开源文生图模型。行业内有观点认为,Flux 才是 Stable Diffusion 真正的精神续作。
2.2 从 SD 1.x 到 SD 3.5
Stable Diffusion 经历了大幅迭代升级,每个主要版本都在架构或训练方式上实现了优化改进。
SD 1.x(2022 年 8–10 月)
Stable Diffusion 首次公开发布是基于 LAION-5B 数据集的筛选子集训练而成。默认生成分辨率为 512×512 像素,模型参数量约 8.6 亿。该系列先后快速推出 1.1、1.2、1.3、1.4 等多个子版本,特别是 1.4 版 虽未达到Dall-E的水平,但标志着用户参与的开端。其中 SD1.0/1.1/1.2/1.3 均为 2022 年 8 月及随后陆续放出的内部 / 研究测试版,未大规模公开发布,SD 1.4作为第一个正式公开、社区广泛使用的版本,由 CompVis 主导、三家联合署名发布。SD 1.5 因画质略有提升成为社区主流标准。截至 2026 年,SD 1.5 仍是历史上被微调次数最多的基础模型之一,衍生出数千个变体模型并仍在广泛使用。SD 1.5版作为一个关键节点,推动了该技术的广泛应用和社区参与。
SD 2.x(2022 年 11 月)
出于授权合规考量,将文本编码器从 OpenAI CLIP 更换为 OpenCLIP,开始采用正面提示词和负面提示词,默认生成分辨率由512x512提升至768x768像素。训练数据集经过更严格的过滤,剔除了成人内容及部分受版权保护的素材。社区对这一版本评价褒贬不一:部分用于生成人体解剖结构精准图像的微调模型,效果不及 SD 1.5 的同类模型,导致其普及速度一度放缓。
Stable Diffusion XL / SDXL(2023 年 7 月)
SDXL 实现了架构层面的重大飞跃。基础模型参数量扩展至约 35 亿,采用两阶段生成流程:先由基础模型生成低分辨率隐空间特征,再通过优化模型(参数量同样约 23 亿)进行二次细节增强。默认生成分辨率提升至 1024×1024 像素,在色彩还原度、人体结构准确性和提示词遵循度上均有显著提升。Civitai 社区迅速推出了大量高质量的 SDXL 微调模型(Stability AI,2023 年 7 月)。诸如 SDXL turbo(极速版)和LCM等衍生版本相继出现,提供了不同的速度和功能。
Stable Cascade(2024 年 2 月)
一款基于 Würstchen(Pernias 等人,2023)的实验性架构,采用三级级联扩散模型,在高度压缩的隐空间中运行。该模型在同等画质下生成速度更快,但并未取代 SDXL 成为社区主流标准。
Stable Diffusion 3(2024 年 3–6 月)
Stability AI 于 2024 年 3 月发布,4 月开放 API 调用,6 月正式公布模型权重。SD3 采用多模态扩散 Transformer(MMDiT)架构,以 Transformer 结构替代原有的 U-Net,并在双 CLIP 编码器基础上新增 T5 文本编码器。这一改进大幅提升了生成图像中的文字清晰度,以及对复杂多目标提示词的理解与生成能力(Esser 等人,arXiv:2403.03206,2024 年 3 月)。该模型推出 20 亿和 80 亿参数量两种规格。3.0 的关注度极高,但面临延期和授权问题,导致许多人转而使用SDXL(SDXL版)。
Stable Diffusion 3.5(2024 年 10 月)
2024 年 10 月发布,SD 3.5 包含三个版本:大型版(80 亿参数)、大型极速版(80 亿参数,针对 4 步生成优化)、中型版(25 亿参数)。其中中型版在效率上实现了实用化突破 —— 以更低算力成本实现高质量生成效果,因此在 2025–2026 年成为众多商业集成项目的首选部署版本(Stability AI 官方博客,2024 年 10 月)。
结合上述内容,版本对比的主要差异如下:
Version | Released | Parameters | Default Res | Architecture | Key Improvement |
SD 1.5 | Oct 2022 | ~860M | 512×512 | U-Net + CLIP | Stable community baseline |
SD 2.1 | Dec 2022 | ~865M | 768×768 | U-Net + OpenCLIP | Open licensing |
SDXL 1.0 | Jul 2023 | ~3.5B | 1024×1024 | U-Net + dual CLIP | Resolution, detail |
SD 3 | Jun 2024 | 2B / 8B | 1024×1024 | MMDiT + T5 + CLIP | Text in image, adherence |
SD 3.5 Large Turbo | Oct 2024 | 8B | 1024×1024 | MMDiT | Speed + quality |
3. 技术溯源:扩散模型的诞生(2020–2021)
- 2020:DDPM(去噪扩散概率模型)谷歌提出,奠定扩散模型理论基础:通过正向加噪(从清晰图到纯噪声)、逆向去噪(从噪声还原图像)的马尔可夫链生成图像。
- 优势:训练稳定、生成质量高;
- 劣势:像素级计算,显存 / 算力需求极高,无法消费级部署。
- 2021:DDIM/PLMS 等快速采样器把采样步数从 1000 步压缩到 50 步内,大幅提升推理速度。
4. Stable Diffusion 1.x 时代:开源奠基(2022)
4.1 核心突破:潜空间扩散(LDM)
- 用VAE 自编码器将 512×512 图像压缩到 64×64 潜空间(维度降 64 倍),在潜空间做扩散,显存需求从专业卡降至4GB 消费级 GPU可用。
- 架构三模块:CLIP 文本编码器(文本→嵌入)、U-Net(潜空间去噪)、VAE(潜空间→图像)。
4.2 版本演进(2022)
| 版本 | 时间 | 核心改进 | 关键特性 |
|---|---|---|---|
| SD 1.0–1.4 | 2022.08 | 首次开源 LDM | 512×512,FID≈10,引爆社区Stable Diffusion |
| SD 1.5 | 2022.10 | RunwayML 优化 | 噪声调度(cosine)、LoRA 微调、FID≈9.5,社区主流Stable Diffusion |
| SD 2.0/2.1 | 2022.11–12 | 重训 + OpenCLIP | 768×768,文本对齐更强,NSFW 过滤更严Stable Diffusion |
5. SDXL 时代:高清与多模态(2023)
5.1 SDXL 1.0(2023.07)
- 双文本编码器:CLIP ViT-L/14(风格)+ T5-XXL(细粒度语义)。
- DiT 架构:U-Net 升级为 Diffusion Transformer,全局注意力提升细节与构图。
- 高分辨率:原生 1024×1024,支持 2K/4K 超分,参数 3.5B+6.6B。
- 成为商用首选,生态最完善。
5.2 速度与模态扩展(2023 下半年)
- SDXL Turbo:蒸馏技术,1–4 步实时生成,速度提升 100 倍 +Stable Diffusion。
- Stable Video Diffusion(SVD):文生视频,14–25 帧,时序一致性优化Stable Diffusion。
- Stable Zero123:3D 多视角生成,从单图生成 3D 物体Stable Diffusion。
6. SD3/3.5 与下一代:Transformer 大一统(2024)
6.1 SD3(2024.02)
- MM-DiT:多模态扩散 Transformer,三编码器(CLIP+T5+FLUX)联合交叉注意力。
- Flow Matching:替代传统噪声预测,训练更稳、收敛更快。
- 语义理解提升 300%,原生支持复杂逻辑与多语言,百万像素级生成。
6.2 SD3.5(2024.10)
- 进一步优化速度与质量,支持更长文本、更强构图与细节,适配专业创作。
6.3 轻量化与级联(2024)
- SD Cascade:三段式生成(低清→高清→超清),兼顾速度与质量。
- SDXL Lightning:4–8 步达商用级,适配实时交互。
7. 技术与应用的局限性
虽然Stable Diffusion 展现出卓越的图像生成能力,但它也存在一些局限性,包括:
- 图像质量——该模型使用多种分辨率的图像进行训练,最高可生成 1024x1024 的图像。虽然 512x512 是一种常见的分辨率,但该模型的功能远不止于此。更高或更低的分辨率可能会导致图像质量略有差异,但该模型并非严格限制于单一的输入或输出分辨率。
- 不准确性——由于人体肢体训练数据不足且质量低下,模型在生成人物时会出现解剖结构异常。生成的肢体、手部和面部通常存在不切实际的比例或畸变,这反映出数据集中缺乏具有代表性的肢体特征。
- 可访问性限制——尽管 Stable Diffusion 旨在让所有人都能平等地使用,但针对新型用例进行定制所需的资源对于大多数个人开发者而言仍然遥不可及。重新训练特定数据集需要显存超过 30GB 的高显存 GPU,而消费级显卡无法满足这一需求。这阻碍了定制扩展程序根据独特需求对模型进行优化。
- 偏见性—— 由于该模型主要基于代表西方文化的英文文本-图像对进行训练,sd算法本质上强化了这些根深蒂固的人口统计视角。生成的图像由于缺乏多元文化训练数据,默认呈现西方类型,从而加剧了缺乏多样性的偏见。
- 语言局限性- 像SD这样的生成模型,对于不同语言的提示,其解释和生成图像的能力可能有所不同,这取决于训练数据的语言多样性。
8. 技术路线总览(核心演进方向)
- 架构升级:U-Net → DiT → MM-DiT(Transformer 全面接管)。
- 文本理解:单 CLIP → 双编码器(CLIP+T5) → 三编码器(+FLUX)。
- 分辨率:512 → 768 → 1024 → 百万像素Stable Diffusion。
- 速度:50 + 步 → 20 步 → 1–4 步(蒸馏 / Flow Matching)Stable Diffusion。
- 模态扩展:图像 → 视频 → 3D → 多模态融合Stable Diffusion。
- 部署:专业卡 → 消费级 GPU → 移动端 / 边缘端。
9. 生态与影响
- 开源民主化:首个完全开源的高质量文生图模型,打破巨头垄断,社区贡献 LoRA/ControlNet/Embedding 等工具。
- 应用爆发:覆盖设计、游戏、影视、广告、教育等,成为 AIGC 基础设施。
10. 业界主流扩散模型
10.1 开源模型系列
10.1.1 Stable Diffusion系列
- Stable Diffusion 1.x (2022):最初的版本,奠定了基础架构
- Stable Diffusion 2.x (2022):改进了CLIP模型,支持更大的图像尺寸
- Stable Diffusion XL (SDXL, 2023):更大的模型,更高的图像质量
- Stable Diffusion 3 (2024):最新的版本,进一步提升了生成质量
10.1.2 其他开源模型
- DALL-E系列:OpenAI的文本到图像模型
- Imagen:Google的高质量扩散模型
- FLUX:Black Forest Labs 发布的文生图模型
10.2 不同场景的选择
学术研究:
- DDPM:扩散模型基础
- DDIM:推理加速
- SDE/ODE:随机微分方程→常微分方程求解
- Flow Model: Flow Matching / Rectified Flow / Mean Flow
- DiT:探索Transformer架构
商业应用:
- SDXL:平衡质量与效率
- 定制化模型:根据具体需求调整
- Midjourney系列- 基于改进的扩散模型
- DALL-E 3- 结合多种技术的混合模型
- Stable Diffusion XL (SDXL)- SD的升级版
- Runway、Leonardo等平台- 基于各种扩散模型变体
Stable Diffusion 与竞品对比表
| 功能 | Stable Diffusion(SD3.5) | Midjourney v6.1 | DALL·E 3 | Adobe Firefly 3 |
|---|---|---|---|---|
| 开源 | 是 | 否 | 否 | 否 |
| 本地运行 | 是 | 否 | 否 | 否 |
| 费用 | 免费(本地部署) | 10–120 美元 / 月 | 按 API 调用计费 | 创意云订阅 |
| 模型微调 | 支持,功能全面 | 不支持 | 不支持 | 有限支持 |
| 隐私性 | 完全隐私(本地) | 数据上传至服务器 | 数据上传至服务器 | 数据上传至服务器 |
| 易用性 | 中等~较难 | 简单 | 简单 | 简单 |
| 商用授权 | 支持(视模型而定) | 支持 | 支持 | 支持 |
| 最适用场景 | 定制化、隐私需求、专业用户 | 效果出色、快速出图 | 与 ChatGPT 集成 | Adobe 工作流 |
| 文字渲染 | 良好(SD3.5) | 非常好 | 极佳 | 良好 |
参考资料:
https://www.articsledge.com/post/stable-diffusion
https://stable-diffusion-art.com/models/
Evolution-of-ai-image-generation-from-stable-diffusion-to-flux