Stable Diffusion 版本演进与技术脉络梳理
自 2022 年 8 月首次发布以来,Stable Diffusion(以下简称 SD)在图像生成领域引发了革命性变化。从最初的开源实验到如今的多模态大模型,其技术路线经历了数次关键跃迁。本文梳理了 SD 的发展历史、架构演变及当前生态现状。
一、诞生与早期纠葛
SD 最初由 CompVis(学术团队)、Runway(工程团队)和 Stability AI(资金方)三方联合开发。CompVis 提供了潜扩散(LDM)的核心论文,Runway 负责工程落地,而 Stability AI 则贡献了算力与商业化支持。
然而,合作并未长久维持。2022 年 10 月,Runway 在 Hugging Face 发布了 SD 1.5 权重,随即引发 Stability AI 的侵权警告,双方因主导权与利益分配问题分道扬镳。此后,Stability AI 独立推进后续版本,Runway 转向视频生成,而 CompVis 回归学术。近期,Stability 核心团队出走创立 Black Forest Labs,发布了 Flux 模型,被视为 SD 技术的真正精神续作。

二、核心版本迭代历程
1. SD 1.x:开源奠基(2022 年)
这一阶段确立了社区标准。SD 1.0 至 1.3 多为内部测试版,SD 1.4 是首个正式公开版本,SD 1.5 则因画质提升成为社区主流。
- 架构:U-Net + CLIP 文本编码器。
- 分辨率:默认 512×512。
- 特点:基于 LAION-5B 数据集,参数量约 8.6 亿。SD 1.5 至今仍是微调次数最多的基础模型之一,衍生出数千个变体。
2. SD 2.x:合规与调整(2022 年底)
出于授权考量,SD 2.0/2.1 将文本编码器更换为 OpenCLIP,并过滤了部分受版权保护素材。分辨率提升至 768×768。虽然意图更好,但因人体结构生成能力下降,社区接受度一度不如 1.5。
3. SDXL:高清飞跃(2023 年)
SDXL 实现了架构层面的重大升级。参数量扩展至 35 亿,采用双文本编码器(CLIP + T5),原生支持 1024×1024 分辨率。色彩还原、人体结构准确性显著提升,迅速成为商用首选。随后衍生了 SDXL Turbo 等极速版本。
4. SD 3 与 3.5:Transformer 时代(2024 年)
SD 3 引入了多模态扩散 Transformer(MMDiT)架构,用 Transformer 替代 U-Net,并新增 T5 文本编码器,大幅提升了文字渲染能力和复杂提示词遵循度。SD 3.5 进一步优化了速度与质量,推出了中型版以适配更低算力成本,成为 2025–2026 年商业集成的热门选择。
| 版本 | 发布时间 | 参数量 | 默认分辨率 | 架构 | 关键改进 |
|---|---|---|---|---|---|
| SD 1.5 | 2022.10 | ~860M | 512×512 | U-Net + CLIP | 社区基准 |
| SD 2.1 |


