Stable Diffusion 3 发布:20 亿参数 Medium 模型与 MMDiT 架构解析
Stable Diffusion 3 正式发布,采用多模态扩散 Transformer(MMDiT)架构和修正流(Rectified Flow)技术。20 亿参数的 Medium 模型在文本遵循度、图像质量和排版能力上表现优异。文章详细介绍了其核心原理、性能对比、硬件需求及基础使用示例,为开发者提供技术参考。

Stable Diffusion 3 正式发布,采用多模态扩散 Transformer(MMDiT)架构和修正流(Rectified Flow)技术。20 亿参数的 Medium 模型在文本遵循度、图像质量和排版能力上表现优异。文章详细介绍了其核心原理、性能对比、硬件需求及基础使用示例,为开发者提供技术参考。

Stability AI 作为开源图像生成领域的领军者,于 6 月 12 日正式发布了其最新一代文本到图像生成模型——Stable Diffusion 3(SD3)。本次首发的是 SD3 的 Medium 版本,拥有 20 亿参数。该模型在图像质量、文本遵循度以及排版能力方面展现出超越现有模型的强大实力。未来,Stability AI 计划开源 40 亿和 80 亿参数的版本,以进一步提升模型能力并满足不同硬件环境下的用户需求。
Stable Diffusion 3 的核心技术创新在于采用了全新的 多模态扩散 Transformer (Multi-Modal Diffusion Transformer, MMDiT) 架构。与以往版本基于 U-Net 的架构不同,MMDiT 采用独立的权重集分别处理图像和语言表示,从而显著提升了模型对文本的理解能力,并改善了文本生成效果。
Stable Diffusion 3 采用了一种新颖的 修正流 (Rectified Flow, RF) 公式。通过将数据和噪声在训练过程中连接成线性轨迹,实现了更直接的推断路径。这一改进使得模型能够使用更少的采样步骤就能生成高质量的图像,提高了推理效率。
此外,SD3 还引入了新的 轨迹采样调度,对轨迹中间部分进行加权,从而提高模型在训练过程中的预测能力,减少生成过程中的伪影和模糊。
Stability AI 对 Stable Diffusion 3 进行了大量测试,并将生成结果与包括 DALL·E 3、Midjourney v6、Ideogram v1 以及其他开源模型在内的多个模型进行了比较。结果表明,Stable Diffusion 3 在以下方面展现出优势:
在实际应用中,SD3 的 80 亿参数版本可以在 RTX 4090 显卡上运行,并能够在 34 秒内生成分辨率为 1024x1024 的图像。为了降低硬件门槛,Stability AI 将发布多个版本的 SD3,包括 40 亿和 80 亿参数的模型,以满足不同用户的需求。
建议使用 Python 3.10+ 环境,并通过 pip 安装必要的依赖包。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors
以下是使用 Hugging Face diffusers 库加载 SD3 Medium 模型的基本代码示例:
from diffusers import StableDiffusion3Pipeline
import torch
# 初始化管道
pipe = StableDiffusion3Pipeline.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
torch_dtype=torch.float16
)
# 设置设备
pipe.to("cuda")
# 生成提示词
prompt = "A futuristic city with flying cars and neon lights"
negative_prompt = "blurry, low quality, distorted text"
# 执行生成
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=28,
guidance_scale=7.5
).images[0]
image.save("sd3_output.png")
Stable Diffusion 3 具有广泛的应用场景,能够为各种需要图像生成的应用提供强大的支持:
Stable Diffusion 3 的发布,标志着文本到图像生成技术取得了新的突破。其全新的多模态扩散 Transformer 架构、卓越的生成效果以及广泛的应用场景,使其成为目前最值得期待的开源图像生成模型之一。随着技术的不断发展,SD3 将为图像生成领域带来更多可能性,并为各个行业带来更大的价值。开发者应关注其后续版本更新,探索其在实际项目中的落地潜力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online