Stable Diffusion 版本演进与技术脉络梳理

自 2022 年 8 月首次发布以来，Stable Diffusion（以下简称 SD）在图像生成领域引发了革命性变化。从最初的开源实验到如今的多模态大模型，其技术路线经历了数次关键跃迁。本文梳理了 SD 的发展历史、架构演变及当前生态现状。

一、诞生与早期纠葛

SD 最初由 CompVis（学术团队）、Runway（工程团队）和 Stability AI（资金方）三方联合开发。CompVis 提供了潜扩散（LDM）的核心论文，Runway 负责工程落地，而 Stability AI 则贡献了算力与商业化支持。

然而，合作并未长久维持。2022 年 10 月，Runway 在 Hugging Face 发布了 SD 1.5 权重，随即引发 Stability AI 的侵权警告，双方因主导权与利益分配问题分道扬镳。此后，Stability AI 独立推进后续版本，Runway 转向视频生成，而 CompVis 回归学术。近期，Stability 核心团队出走创立 Black Forest Labs，发布了 Flux 模型，被视为 SD 技术的真正精神续作。

Stable Diffusion 版本时间线

二、核心版本迭代历程

1. SD 1.x：开源奠基（2022 年）

这一阶段确立了社区标准。SD 1.0 至 1.3 多为内部测试版，SD 1.4 是首个正式公开版本，SD 1.5 则因画质提升成为社区主流。

架构：U-Net + CLIP 文本编码器。
分辨率：默认 512×512。
特点：基于 LAION-5B 数据集，参数量约 8.6 亿。SD 1.5 至今仍是微调次数最多的基础模型之一，衍生出数千个变体。

2. SD 2.x：合规与调整（2022 年底）

出于授权考量，SD 2.0/2.1 将文本编码器更换为 OpenCLIP，并过滤了部分受版权保护素材。分辨率提升至 768×768。虽然意图更好，但因人体结构生成能力下降，社区接受度一度不如 1.5。

3. SDXL：高清飞跃（2023 年）

SDXL 实现了架构层面的重大升级。参数量扩展至 35 亿，采用双文本编码器（CLIP + T5），原生支持 1024×1024 分辨率。色彩还原、人体结构准确性显著提升，迅速成为商用首选。随后衍生了 SDXL Turbo 等极速版本。

4. SD 3 与 3.5：Transformer 时代（2024 年）

SD 3 引入了多模态扩散 Transformer（MMDiT）架构，用 Transformer 替代 U-Net，并新增 T5 文本编码器，大幅提升了文字渲染能力和复杂提示词遵循度。SD 3.5 进一步优化了速度与质量，推出了中型版以适配更低算力成本，成为 2025–2026 年商业集成的热门选择。

版本	发布时间	参数量	默认分辨率	架构	关键改进
SD 1.5	2022.10	~860M	512×512	U-Net + CLIP	社区基准
SD 2.1

功能	Stable Diffusion (SD3.5)	Midjourney v6.1	DALL·E 3
开源	是	否	否
本地运行	是	否	否
费用	免费（本地）	订阅制	API 计费
文字渲染	良好	非常好	极佳
适用场景	专业定制、隐私需求	快速出图、效果优先	ChatGPT 集成

Stable Diffusion 版本演进与技术脉络梳理