Stable Diffusion 3.5 本地部署与使用指南

2024 年 10 月，Stability AI 推出了 stable-diffusion-3.5-fp8——一个在推理效率和资源占用之间实现惊人平衡的高性能文生图模型。对于那些希望在消费级显卡上流畅运行高质量 AI 绘画系统的用户来说，这不仅是一次技术升级，更像是一把打开新创作世界的大门钥匙。

你有没有遇到过这样的场景：满怀期待地输入一段精心设计的提示词，结果等了十几秒才出图，还因为显存不足直接崩溃？又或者为了跑一个高分辨率模型不得不租用云服务器，成本居高不下？现在，这些问题正在被 FP8 量化技术逐步化解。

FP8 到底带来了什么改变？

我们先来看一组真实对比数据：

项目	SD3.5 原始版 (FP16)	SD3.5 FP8 优化版
模型大小	~7.8 GB	~3.9 GB
最低显存需求	≥16GB GPU	≥10GB GPU（推荐 12GB+）
推理延迟（1024², 20 steps）	~8.5s	~5.2s
图像质量	极高	几乎无损

从表格可以看出，FP8 版本几乎将显存占用砍半，同时速度提升近 40%。这意味着原本只能在 A100 或 RTX 4090 上稳定运行的 SD3.5，如今也能在 RTX 3060（12GB）这类主流显卡上'轻装上阵'。

但这里有个关键问题：为什么降低精度没有明显影响画质？

其实 FP8 并不是简单粗暴地压缩数值范围。它采用的是 E4M3 浮点格式（4 位指数 +3 位尾数），专为深度学习推理优化设计，在保持动态范围的同时大幅减少存储开销。实测中，即便是处理复杂语义如'穿着汉服站在梅花树下的少女手持纸灯笼'，FP8 模型依然能精准还原光影层次、布料质感和人物神态，视觉差异几乎不可察觉。

⚠️ 当然，如果你是做科研级图像分析或极端细节放大审视，可能还是会发现轻微纹理模糊。但对于绝大多数创意工作流而言，这种取舍完全值得。

硬件准备：你的设备够格吗？

别急着下载模型，先看看自己手头的装备是否达标。以下是经过实测验证的配置建议：

🔧 推荐硬件清单

组件	要求说明
GPU	NVIDIA RTX 3060 / 4070 及以上（必须支持 CUDA）
显存	≥12GB（最低 10GB 可试运行，但需降分辨率）
内存	≥16GB DDR4，避免系统频繁交换到磁盘
存储	≥20GB SSD 空间，建议 NVMe 以加快模型加载

💡 提示：AMD 显卡目前仍不推荐。虽然 ROCm 生态在进步，但在 ComfyUI 和 SD3 系列上的兼容性远不如 CUDA 成熟，容易出现张量运算异常或无法加载 T5 编码器等问题。

Python 环境方面，建议直接使用 ComfyUI 便携包，省去手动配置 PyTorch、xformers 等依赖的麻烦。尤其是对 Windows 用户来说，这是最稳妥的选择。

部署实战：四步走通全流程

获取并启动 ComfyUI

与其折腾虚拟环境，不如直接上'即插即用'方案。NVIDIA 官方维护了一个预打包的 ComfyUI 可移植版本，内置了适配 CUDA 的 PyTorch 和常用插件。

🔗 下载地址：

/0./UI_windows_portable_nvidia.7z

文件名	类型	作用
`sd3.5_large_fp8.safetensors`	主模型	扩散网络主体
`clip_g.safetensors`	CLIP 模型	处理抽象概念与长文本
`clip_l.safetensors`	CLIP 模型	标准语言理解模块
`t5xxl_fp8_e4m3fn.safetensors`	T5 XXL 模型	解析复杂语法结构

Stable Diffusion 3.5 本地部署与使用指南