Stable Diffusion 系列演进与核心技术解析 (2022-2026)
引言
Stable Diffusion 系列是由 Stability AI 主导的开源文本到图像生成模型家族,自 2022 年问世以来,凭借其潜扩散模型(LDM)核心技术,推动了生成式 AI 的民主化进程。该系列历经多代快速迭代,从基础的 512x512 图像生成,演进至支持高分辨率图像、视频乃至 3D 内容的多模态合成系统。
截至 2026 年初,其最新版本 Stable Diffusion 3.5 系列在图像质量、提示词遵循度和生成多样性上达到新高度。该系列构建了庞大的开源工具生态,累计下载超十亿次,深刻影响了艺术创作与数字内容产业,同时其发展也伴随着关于版权、偏见与深度伪造等伦理挑战的持续探讨。
历史发展
Stable Diffusion 系列的发展轨迹,清晰展现了从学术研究成果向开源生态爆发式增长的演进历程。Stability AI 公司成立于 2020 年,创始人包括前 OpenAI 工程师埃马德·莫斯塔克(Emad Mostaque)。以下梳理该系列的关键发展里程碑:
| 模型 | 发布日期 | 核心改进 | 关键基准 |
|---|---|---|---|
| Stable Diffusion 1.0 | 2022 年 8 月 | 首次开源 LDM,支持 512x512 分辨率图像生成 | FID 分数 10.0 |
| Stable Diffusion 1.5 | 2022 年 10 月 | 优化噪声调度机制,强化微调适配能力 | FID 分数降至 9.5 |
| Stable Diffusion 2.0 | 2022 年 11 月 | 支持 768x768 高分辨率,新增深度引导及负提示词 | FID 分数 8.0 |
| Stable Diffusion 2.1 | 2022 年 12 月 | 优化安全过滤机制,提升生成质量与稳定性 | FID 分数降至 7.5 |
| SDXL | 2023 年 7 月 | 实现 1024x1024 分辨率,新增优化提示词功能 | FID 分数 6.0 |
| SDXL Turbo | 2023 年 11 月 | 支持实时图像生成,单步扩散技术突破速度瓶颈 | 推理速度提升 10 倍 |
| Stable Video Diffusion | 2023 年 11 月 | 拓展文本到视频生成,推出 25 帧基础模型 | VBench 评估 SOTA |
| Stable Diffusion 3 | 2024 年 2 月 | 采用扩散 Transformer 架构,支持多模态输入 | FID 分数 5.0 |
| SD 3 Medium | 2024 年 6 月 | 开源 10 亿参数版本,轻量化设计 |


