低显存 GPU 运行 AI 绘画：ComfyUI GGUF 量化指南

问题：显存瓶颈如何突破？

大多数 AI 绘画爱好者都遇到过这样的困境：想要运行高质量的扩散模型，却发现自己的显卡显存远远不够。传统的 UNET 模型量化效果不佳，而 GGUF 格式的出现改变了这一局面。

解决方案：GGUF 量化技术

GGUF 是一种高效的模型文件格式，专门为量化优化设计。与常规的卷积神经网络不同，基于 transformer/DiT 架构的模型（如 flux 系列）在量化后性能损失极小，这为低显存 GPU 用户打开了新的大门。

通过 ComfyUI-GGUF 项目，你可以：

将模型文件大小显著压缩
在低至 4 位/权重的量化级别运行模型
同时量化 T5 文本编码器，进一步节省 VRAM
在保持图像质量的同时大幅降低硬件需求

实践指南：三步快速上手

第一步：安装准备

确保你的 ComfyUI 版本支持自定义操作。将项目克隆到自定义节点文件夹：

git clone [项目仓库地址]

对于独立版本的 ComfyUI，在 ComfyUI_windows_portable 文件夹中执行：

git clone [项目仓库地址] ComfyUI/custom_nodes/ComfyUI-GGUF
.\
python_embeded\python.exe -s -m pip install -r .\ComfyUI\custom_nodes\ComfyUI-GGUF\requirements.txt

第二步：模型部署

在 ComfyUI 界面中找到 bootleg 分类下的"Unet Loader (GGUF)"节点。将你的.gguf 模型文件放置在 ComfyUI/models/unet 文件夹中即可开始使用。

第三步：工作流优化

使用 GGUF Unet 加载器替换原有的"Load Diffusion Model"节点。LoRA 加载功能目前处于实验阶段，可以通过内置的 LoRA 加载器节点使用。

进阶技巧：模型选择与优化

项目提供了多个预量化模型供你选择：

flux1-dev GGUF：开发版 flux 模型
flux1-schnell GGUF：快速版 flux 模型
stable-diffusion-3.5-large GGUF：稳定扩散 3.5 大模型
stable-diffusion-3.5-large-turbo GGUF：稳定扩散 3.5 加速版

对于文本编码器，项目还支持 T5 模型的量化版本，可以使用各种"*CLIPLoader (gguf)"节点来替代常规节点。

注意事项

确保不要安装"Force/Set CLIP Device"节点，除非你确实需要多 GPU 配置
MacOS 用户需要注意 torch 版本兼容性
项目仍在积极开发中，部分功能可能处于实验阶段

通过 ComfyUI GGUF 量化技术，即使是入门级显卡也能享受到高质量的 AI 绘画体验。

低显存 GPU 运行 AI 绘画：ComfyUI GGUF 量化指南