本地使用 ComfyUI 运行 Stable Diffusion 3.5

Stable Diffusion 3.5 的发布，尤其是 SD3.5-FP8 高性能量化版本的推出，显著降低了显存占用并提升了生成速度。FP8 将模型权重从 FP16 压缩至 8 位浮点，在保持画质的同时大幅优化资源效率。

实测数据显示，在 RTX 4060 上运行 stable-diffusion-3.5-fp8，1024×1024 分辨率图像平均生成时间仅需 40~50 秒，相比原始 FP16 版本提速约 40%，显存占用控制在 10.5GB 左右。这使得主流消费级显卡也能流畅运行顶级文生图流程。

硬件配置建议

虽然 FP8 降低了门槛，但大模型仍需一定基础配置：

组件	建议
GPU	NVIDIA 显卡，RTX 30 系及以上
显存	≥10GB（最低可尝试 8GB，需启用低显存模式）
内存	≥16GB RAM
存储	≥20GB SSD 空间（建议 NVMe）
系统	Windows 10/11 或 Linux（Ubuntu 20.04+）
驱动	支持 CUDA 11.8 及以上

笔记本用户如搭载 RTX 4060 Laptop（8GB 显存），可通过添加 --lowvram 参数运行，但速度会稍慢。

软件安装与准备

建议使用 ComfyUI 便携版（Portable Edition），预装 PyTorch、CUDA 和常用插件，解压即用。

下载地址：

https://github.com/comfyanonymous/ComfyUI/releases/latest/download/ComfyUI_windows_portable_nvidia.7z

解压后进入目录，双击 run_nvidia_gpu.bat 即可自动拉起服务。首次运行可能需要几分钟安装缺失组件。

模型文件部署

SD3.5-FP8 由多个组件协同工作，需完整部署以下三类核心文件：

主模型（Checkpoint）

文件名：stable-diffusion-3.5-fp8.safetensors
推荐来源：魔搭 ModelScope
放置路径：\ComfyUI\models\checkpoints\

CLIP 文本编码器（共三个）

SD3.5 使用三路文本编码架构，必须全部放入 \ComfyUI\models\clip\ 目录：

模型文件	功能说明
`clip_g.safetensors`	OpenCLIP ViT-bigG/14，擅长捕捉抽象概念和艺术风格
`clip_l.safetensors`

参数	推荐值
分辨率	1024 × 1024
采样器	DPM++ 2M Karras
步数	25–30
CFG Scale	7.0
种子	-1（随机）

GPU	显存占用	单图耗时（1024²）
RTX 4090 24G	11.2 GB	22s
RTX 4070 Ti 12G	10.8 GB	31s
RTX 4060 16G	10.5 GB	45s
RTX 3060 12G	10.3 GB	58s

本地使用 ComfyUI 运行 Stable Diffusion 3.5