Stable Diffusion 3.5 本地部署与使用指南
2024 年 10 月,Stability AI 推出了 Stable Diffusion 3.5 的 FP8 量化版本(stable-diffusion-3.5-fp8),这不仅是一次简单的模型压缩,更标志着生成式 AI 在落地应用上的关键突破。相比原始 full-precision 模型,FP8 版本通过先进的低精度量化技术,在几乎不牺牲图像质量的前提下,大幅降低显存占用和推理延迟——这意味着更多用户可以用手头的消费级显卡流畅运行这款旗舰级文生图模型。
为什么是 FP8?性能与体验的平衡点
过去,高质量图像生成往往意味着高昂的硬件门槛。原版 SD3.5 虽然在文本理解、构图逻辑和细节还原上达到了新高度,但其对 GPU 显存和算力的要求也让不少创作者望而却步。而 stable-diffusion-3.5-fp8 的出现,正是为了解决这个'高质高价'的矛盾。
它基于 Multi-modal DiT 架构,保留了三大核心能力:
- 强大的提示词遵循能力
- 支持复杂排版与中英文混合文字生成
- 可输出最高 1024×1024 分辨率的专业级图像
同时,在效率层面实现了飞跃:
| 指标 | 原始 FP16 模型 | FP8 量化模型 |
|---|---|---|
| 显存占用 | ≥16GB | 约 10~12GB |
| 推理耗时(50 步) | ~18s | ~9–11s |
| 最低可运行设备 | RTX 3090+ | RTX 3060 (12GB) |
✅ 实测表明:FP8 模型在人物面部结构、透视关系、色彩一致性等敏感任务中表现稳定,视觉差异肉眼难辨。对于大多数创作场景而言,这种'轻量不减质'的设计,才是真正可用的生产力工具。
部署前准备:从硬件到软件的完整清单
要在本地顺利跑起 SD3.5-FP8,光有模型还不够,整个环境链路必须闭环。以下是经过实测验证的配置建议。
硬件推荐配置
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| GPU | NVIDIA RTX 3060 (12GB) | RTX 3090 / 4090 (24GB) |
| VRAM | ≥12GB | ≥16GB |
| CPU | 四核以上 | 八核以上(如 i7/R7 及以上) |
| 内存 | 16GB DDR4 | 32GB DDR5 |
| 存储 | 50GB 可用空间 | 100GB NVMe SSD(加快加载速度) |
📌 小贴士:虽然部分用户尝试在 8GB 显存设备上运行,但需启用 model offloading 或 sliced attention,会导致生成速度暴跌甚至频繁崩溃。12GB 是当前最稳妥的底线。
软件平台选择:ComfyUI 为何成为首选?
尽管 WebUI(AUTOMATIC1111)仍是主流,但对于 SD3.5 这类多条件输入的先进模型,ComfyUI 凭借其节点化工作流和灵活调度机制,已经成为专业用户的标配。
它的优势在于:
- 图形化流程编排,直观掌控每一步处理逻辑
- 支持并行加载多个编码器(CLIP-G/L + T5XXL)
- 社区提供大量预设模板,快速复现效果
- 更高效的内存管理和批处理支持

