扩散模型之(二十一)Stable Diffusion 版本演进

扩散模型之(二十一)Stable Diffusion 版本演进

1. 概述

Stable Diffusion 自2022年8月首次发布以来,取得了显著发展。作为一款强大的人工智能图像生成模型,自其诞生以来,便在图像生成领域掀起了革命性的变革。本文旨在揭示Stable Diffusion模型的发展历程,从其起源、关键技术突破,到在图像生成领域的应用与影响,全面展现Stable Diffusion的历史脉络与发展趋势。

下图展示了Stable Diffusion 不同版本发版的主要时间节点。

2. 版本诞生与演进历程

2.1 版本的诞生与纠葛

Stable Diffusion 最早是三家机构,CompVis(学术团队)、Runway(工程团队)、Stability AI(幕后金主)于2022年8月联合完成后予以发布,其中:

  • CompVis(慕尼黑大学 LMU):核心论文 Latent Diffusion Models 作者团队(Robin Rombach 等4人),发明潜扩散架构,其中,合作作者中还包括 Patrick Esser(来自Runway公司) 
  • Runway:AI 工具公司,派 Patrick Esser 参与工程化、实现第一个可用版本
  • Stability AI(公司老板 Emad Mostaque:提供 4000+ A100 超算算力 + 资金,负责开源、社区、商业化

2022.10.20 Runway 突然在 Hugging Face 发布 Stable Diffusion 1.5 权重与代码。随后,Stability AI 法务向 Hugging Face 发处出侵权警告,要求强制下架 SD 1.5,理由是:

“Runway 未获授权,擅自发布属于 Stability AI 的模型权重,侵犯知识产权。”

Stability AI 又撤销下架要求,模型重新上线。最终三家单位分道扬镳,其核心原因在于主导权与利益分裂的产生,具体体现在:

  • Stability 想把 SD 打造成 自家商业产品 / 生态,控制所有版本发布。
  • Runway 认为自己是 联合发明人,要掌握部分版本控制权。
  • CompVis(大学团队):基本退出,回归学术,不再参与商业版本。

最终版本的发布方与合作走向:

  • 初创蜜月:CompVis(技术)+ Runway(工程)+ Stability(钱 / 算力)合作发布 SD 1.x。
  • 1.5 决裂:Runway 发布 1.5 → Stability 告侵权 → 公开翻脸 → 合作破裂。
  • 彻底分家
    • Stability 独立发布 SD 2.x/XL/3/3.5
    • Runway 删除 GitHub 上所有 SD 1.5 代码 / 权重,自研Gen-1、Gen-2 文生视频模型。
  • 团队再分裂:Stability 核心团队集体出走,创立黑森林实验室Black Forest Labs,发布Flux, 彻底终结 Stability 对 “原班 SD 技术” 的垄断,性能甚至超过了 SD 3.5,成为新一代最强开源文生图模型。行业内有观点认为,Flux 才是 Stable Diffusion 真正的精神续作

2.2 从 SD 1.x 到 SD 3.5

Stable Diffusion 经历了大幅迭代升级,每个主要版本都在架构或训练方式上实现了优化改进。

SD 1.x(2022 年 8–10 月)

Stable Diffusion 首次公开发布是基于 LAION-5B 数据集的筛选子集训练而成。默认生成分辨率为 512×512 像素,模型参数量约 8.6 亿。该系列先后快速推出 1.1、1.2、1.3、1.4 等多个子版本,特别是 1.4 版 虽未达到Dall-E的水平,但标志着用户参与的开端。其中 SD1.0/1.1/1.2/1.3  均为 2022 年 8 月及随后陆续放出的内部 / 研究测试版,未大规模公开发布,SD 1.4作为第一个正式公开、社区广泛使用的版本,由 CompVis 主导、三家联合署名发布。SD 1.5 因画质略有提升成为社区主流标准。截至 2026 年,SD 1.5 仍是历史上被微调次数最多的基础模型之一,衍生出数千个变体模型并仍在广泛使用。SD 1.5版作为一个关键节点,推动了该技术的广泛应用和社区参与。

SD 2.x(2022 年 11 月)

出于授权合规考量,将文本编码器从 OpenAI CLIP 更换为 OpenCLIP,开始采用正面提示词和负面提示词,默认生成分辨率由512x512提升至768x768像素。训练数据集经过更严格的过滤,剔除了成人内容及部分受版权保护的素材。社区对这一版本评价褒贬不一:部分用于生成人体解剖结构精准图像的微调模型,效果不及 SD 1.5 的同类模型,导致其普及速度一度放缓。

Stable Diffusion XL / SDXL(2023 年 7 月)

SDXL 实现了架构层面的重大飞跃。基础模型参数量扩展至约 35 亿,采用两阶段生成流程:先由基础模型生成低分辨率隐空间特征,再通过优化模型(参数量同样约 23 亿)进行二次细节增强。默认生成分辨率提升至 1024×1024 像素,在色彩还原度、人体结构准确性和提示词遵循度上均有显著提升。Civitai 社区迅速推出了大量高质量的 SDXL 微调模型(Stability AI,2023 年 7 月)。诸如 SDXL turbo(极速版)和LCM等衍生版本相继出现,提供了不同的速度和功能。

Stable Cascade(2024 年 2 月)

一款基于 Würstchen(Pernias 等人,2023)的实验性架构,采用三级级联扩散模型,在高度压缩的隐空间中运行。该模型在同等画质下生成速度更快,但并未取代 SDXL 成为社区主流标准。

Stable Diffusion 3(2024 年 3–6 月)

Stability AI 于 2024 年 3 月发布,4 月开放 API 调用,6 月正式公布模型权重。SD3 采用多模态扩散 Transformer(MMDiT)架构,以 Transformer 结构替代原有的 U-Net,并在双 CLIP 编码器基础上新增 T5 文本编码器。这一改进大幅提升了生成图像中的文字清晰度,以及对复杂多目标提示词的理解与生成能力(Esser 等人,arXiv:2403.03206,2024 年 3 月)。该模型推出 20 亿和 80 亿参数量两种规格。3.0 的关注度极高,但面临延期和授权问题,导致许多人转而使用SDXL(SDXL版)

Stable Diffusion 3.5(2024 年 10 月)

2024 年 10 月发布,SD 3.5 包含三个版本:大型版(80 亿参数)、大型极速版(80 亿参数,针对 4 步生成优化)、中型版(25 亿参数)。其中中型版在效率上实现了实用化突破 —— 以更低算力成本实现高质量生成效果,因此在 2025–2026 年成为众多商业集成项目的首选部署版本(Stability AI 官方博客,2024 年 10 月)。

结合上述内容,版本对比的主要差异如下:

Version

Released

Parameters

Default Res

Architecture

Key Improvement

SD 1.5

Oct 2022

~860M

512×512

U-Net + CLIP

Stable community baseline

SD 2.1

Dec 2022

~865M

768×768

U-Net + OpenCLIP

Open licensing

SDXL 1.0

Jul 2023

~3.5B

1024×1024

U-Net + dual CLIP

Resolution, detail

SD 3

Jun 2024

2B / 8B

1024×1024

MMDiT + T5 + CLIP

Text in image, adherence

SD 3.5 Large Turbo

Oct 2024

8B

1024×1024

MMDiT

Speed + quality

3. 技术溯源:扩散模型的诞生(2020–2021)

  • 2020:DDPM(去噪扩散概率模型)谷歌提出,奠定扩散模型理论基础:通过正向加噪(从清晰图到纯噪声)、逆向去噪(从噪声还原图像)的马尔可夫链生成图像。
    • 优势:训练稳定、生成质量高;
    • 劣势:像素级计算,显存 / 算力需求极高,无法消费级部署。
  • 2021:DDIM/PLMS 等快速采样器把采样步数从 1000 步压缩到 50 步内,大幅提升推理速度。

4. Stable Diffusion 1.x 时代:开源奠基(2022)

4.1 核心突破:潜空间扩散(LDM)

  • VAE 自编码器将 512×512 图像压缩到 64×64 潜空间(维度降 64 倍),在潜空间做扩散,显存需求从专业卡降至4GB 消费级 GPU可用。
  • 架构三模块:CLIP 文本编码器(文本→嵌入)、U-Net(潜空间去噪)、VAE(潜空间→图像)。

4.2 版本演进(2022)

版本时间核心改进关键特性
SD 1.0–1.42022.08首次开源 LDM512×512,FID≈10,引爆社区Stable Diffusion
SD 1.52022.10RunwayML 优化噪声调度(cosine)、LoRA 微调、FID≈9.5,社区主流Stable Diffusion
SD 2.0/2.12022.11–12重训 + OpenCLIP768×768,文本对齐更强,NSFW 过滤更严Stable Diffusion

5. SDXL 时代:高清与多模态(2023)

5.1 SDXL 1.0(2023.07)

  • 双文本编码器:CLIP ViT-L/14(风格)+ T5-XXL(细粒度语义)。
  • DiT 架构:U-Net 升级为 Diffusion Transformer,全局注意力提升细节与构图。
  • 高分辨率:原生 1024×1024,支持 2K/4K 超分,参数 3.5B+6.6B。
  • 成为商用首选,生态最完善。

5.2 速度与模态扩展(2023 下半年)

  • SDXL Turbo:蒸馏技术,1–4 步实时生成,速度提升 100 倍 +Stable Diffusion。
  • Stable Video Diffusion(SVD):文生视频,14–25 帧,时序一致性优化Stable Diffusion。
  • Stable Zero123:3D 多视角生成,从单图生成 3D 物体Stable Diffusion。

6. SD3/3.5 与下一代:Transformer 大一统(2024)

6.1 SD3(2024.02)

  • MM-DiT:多模态扩散 Transformer,三编码器(CLIP+T5+FLUX)联合交叉注意力。
  • Flow Matching:替代传统噪声预测,训练更稳、收敛更快。
  • 语义理解提升 300%,原生支持复杂逻辑与多语言,百万像素级生成。

6.2 SD3.5(2024.10)

  • 进一步优化速度与质量,支持更长文本、更强构图与细节,适配专业创作。

6.3 轻量化与级联(2024)

  • SD Cascade:三段式生成(低清→高清→超清),兼顾速度与质量。
  • SDXL Lightning:4–8 步达商用级,适配实时交互。

7. 技术与应用的局限性

虽然Stable Diffusion 展现出卓越的图像生成能力,但它也存在一些局限性,包括:

  • 图像质量——该模型使用多种分辨率的图像进行训练,最高可生成 1024x1024 的图像。虽然 512x512 是一种常见的分辨率,但该模型的功能远不止于此。更高或更低的分辨率可能会导致图像质量略有差异,但该模型并非严格限制于单一的输入或输出分辨率。
  • 不准确性——由于人体肢体训练数据不足且质量低下,模型在生成人物时会出现解剖结构异常。生成的肢体、手部和面部通常存在不切实际的比例或畸变,这反映出数据集中缺乏具有代表性的肢体特征。
  • 可访问性限制——尽管 Stable Diffusion 旨在让所有人都能平等地使用,但针对新型用例进行定制所需的资源对于大多数个人开发者而言仍然遥不可及。重新训练特定数据集需要显存超过 30GB 的高显存 GPU,而消费级显卡无法满足这一需求。这阻碍了定制扩展程序根据独特需求对模型进行优化。
  • 偏见性—— 由于该模型主要基于代表西方文化的英文文本-图像对进行训练,sd算法本质上强化了这些根深蒂固的人口统计视角。生成的图像由于缺乏多元文化训练数据,默认呈现西方类型,从而加剧了缺乏多样性的偏见。
  • 语言局限性- 像SD这样的生成模型,对于不同语言的提示,其解释和生成图像的能力可能有所不同,这取决于训练数据的语言多样性。

8. 技术路线总览(核心演进方向)

  1. 架构升级:U-Net → DiT → MM-DiT(Transformer 全面接管)。
  2. 文本理解:单 CLIP → 双编码器(CLIP+T5) → 三编码器(+FLUX)。
  3. 分辨率:512 → 768 → 1024 → 百万像素Stable Diffusion。
  4. 速度:50 + 步 → 20 步 → 1–4 步(蒸馏 / Flow Matching)Stable Diffusion。
  5. 模态扩展:图像 → 视频 → 3D → 多模态融合Stable Diffusion。
  6. 部署:专业卡 → 消费级 GPU → 移动端 / 边缘端。

    9. 生态与影响

    • 开源民主化:首个完全开源的高质量文生图模型,打破巨头垄断,社区贡献 LoRA/ControlNet/Embedding 等工具。
    • 应用爆发:覆盖设计、游戏、影视、广告、教育等,成为 AIGC 基础设施。

    10. 业界主流扩散模型

    10.1 开源模型系列

    10.1.1 Stable Diffusion系列

    • Stable Diffusion 1.x (2022):最初的版本,奠定了基础架构
    • Stable Diffusion 2.x (2022):改进了CLIP模型,支持更大的图像尺寸
    • Stable Diffusion XL (SDXL, 2023):更大的模型,更高的图像质量
    • Stable Diffusion 3 (2024):最新的版本,进一步提升了生成质量

    10.1.2 其他开源模型

    • DALL-E系列:OpenAI的文本到图像模型
    • Imagen:Google的高质量扩散模型
    • FLUX:Black Forest Labs 发布的文生图模型

    10.2 不同场景的选择

    学术研究

    • DDPM:扩散模型基础
    • DDIM:推理加速
    • SDE/ODE:随机微分方程→常微分方程求解
    • Flow Model: Flow Matching / Rectified Flow / Mean Flow
    • DiT:探索Transformer架构

    商业应用

    • SDXL:平衡质量与效率
    • 定制化模型:根据具体需求调整
    1. Midjourney系列- 基于改进的扩散模型
    2. DALL-E 3- 结合多种技术的混合模型
    3. Stable Diffusion XL (SDXL)- SD的升级版
    4. Runway、Leonardo等平台- 基于各种扩散模型变体

    Stable Diffusion 与竞品对比表

    功能Stable Diffusion(SD3.5)Midjourney v6.1DALL·E 3Adobe Firefly 3
    开源
    本地运行
    费用免费(本地部署)10–120 美元 / 月按 API 调用计费创意云订阅
    模型微调支持,功能全面不支持不支持有限支持
    隐私性完全隐私(本地)数据上传至服务器数据上传至服务器数据上传至服务器
    易用性中等~较难简单简单简单
    商用授权支持(视模型而定)支持支持支持
    最适用场景定制化、隐私需求、专业用户效果出色、快速出图与 ChatGPT 集成Adobe 工作流
    文字渲染良好(SD3.5)非常好极佳良好

    参考资料:

    https://www.articsledge.com/post/stable-diffusion

    https://stable-diffusion-art.com/models/

    Evolution-of-ai-image-generation-from-stable-diffusion-to-flux

    Read more

    最强AI剪辑工具盘点:免费直接用,小白秒变剪辑大师!

    最强AI剪辑工具盘点:免费直接用,小白秒变剪辑大师!

    一、AI视频剪辑新时代:为什么选择这些工具? 2025年的AI视频工具已经不再是简单的滤镜和特效叠加,而是真正能够理解内容、自动完成剪辑全流程的智能助手。根据权威评测,真正优秀的AI剪辑工具应该具备以下特点: * 真正免费无水印:许多工具宣称免费,但导出时会添加水印或限制分辨率 * AI生成能力:不仅限于编辑已有素材,还能从文本、图像直接生成视频 * 多平台适配:支持移动端、桌面端和网页端,随时随地创作 * 易用性高:零基础用户也能快速上手,无需专业剪辑知识 二、TOP5免费AI剪辑工具深度评测 1. Vivideo:真正免费的AI视频生成王者 核心亮点:唯一真正免费且导出无水印的AI视频生成器 Vivideo在2025年的评测中脱颖而出,成为综合评分最高的免费AI视频工具。它支持文本转视频和图像转视频功能,集成了Kling、Runway、Luma等多种AI模型,能够生成专业质量的视频内容。 免费功能包括: * 无限次AI视频生成 * 1080p无水印导出 * 支持Web、iOS、Android及Chrome扩展 * 多种AI模型选择 * 免费创业课

    2026国家自然基金ai声明在哪里写?

    2026国家自然基金ai声明在哪里写? 下面图中 根据2026年国家自然科学基金(NSFC)最新要求,‌AI使用声明需在申请书中明确撰写并提交‌,具体位置和撰写方式如下: 声明撰写位置建议 * ‌推荐位置‌:将AI使用声明作为独立小节,置于“‌研究方案‌”或“‌研究基础‌”部分之后,也可放在“‌伦理合规与科研诚信‌”相关章节中。 * ‌标题建议‌:使用如“‌3.X 人工智能工具使用边界与研究诚信保障策略‌”等清晰标题,便于评审查阅‌4。 声明撰写原则(权威指引) 根据基金委最新导向及多位专家解读,声明应遵循以下原则: * ‌诚实透明,宜粗不宜细‌:无需逐段罗列AI在立项依据、技术路线等各部分的具体使用情况‌610。 ‌整体性说明即可‌:例如: “本项目申请书的撰写过程中,申请人使用[工具名称,

    一个后台管理所有 AI:手把手教你搭建属于自己的 AI 中转站(CLIProxyAPI版)

    一个后台管理所有 AI:手把手教你搭建属于自己的 AI 中转站(CLIProxyAPI版)

    目录 * 前言 * 第一部分:基础设施准备与 CLIProxyAPI 的核心部署 * 1.1 服务器选型与环境初始化 * 1.2 CLIProxyAPI 的自动化安装 * 1.3 核心配置文件 `config.yaml` 的深度定制 * 第二部分:系统服务化管理与故障排查 * 2.1 初始启动尝试与 Systemd 服务注册 * 2.2 服务启动失败的深度分析与路径修正 * 2.3 修正 Systemd 配置与服务恢复 * 第三部分:Web 管理界面的访问与 OAuth 认证集成 * 3.1 网络防火墙配置 * 3.2 仪表盘登录与功能概览 * 3.3 Google OAuth 认证流程

    2026最新 Dify 私有化部署完整教程:从0到1搭建专属AI知识库平台

    2026最新 Dify 私有化部署完整教程:从0到1搭建专属AI知识库平台 本文适配 Dify 1.13.0+ 最新社区版,全程可复现,新手友好。覆盖国内服务器加速部署、外接已有MySQL/Redis(关键避坑)、云服务器DNS解析、Nginx反向代理+HTTPS、API对外提供全流程,解决部署过程中99%的坑。 前言 Dify 是一款开源的大语言模型应用开发平台,凭借可视化编排、企业级RAG知识库、全链路LLMOps能力,让个人开发者和中小企业都能快速搭建专属AI应用、知识库问答系统,还能封装成API对外提供服务。 本文基于国内云服务器环境(Ubuntu 22.04),全程使用国内加速源,重点解决了外接MySQL/Redis时的依赖报错、服务名解析失败等核心问题,最终实现生产级可用的私有化Dify平台。 你能从本文学到 1. 零基础完成Dify私有化部署,适配国内服务器环境 2. 完美复用服务器已有MySQL/Redis,不启动冗余容器(核心避坑) 3.