Windows 部署 ComfyUI 运行 Qwen-Image 图像生成模型详解
本地部署 Stable Diffusion 往往伴随着驱动和环境配置的麻烦。好在 ComfyUI 提供了灵活的节点式操作,配合最新的 Qwen-Image 模型,能大幅降低门槛。本文将介绍如何在 Windows 环境下完成 ComfyUI 的部署,并接入阿里通义千问系列的 Qwen-Image 模型进行文生图。
环境准备与安装
对于 Windows 用户,推荐下载官方整合包。解压后找到 run_nvidia_gpu.bat 双击启动,浏览器会自动打开操作界面。如果之前已经安装过 ComfyUI,只需更新到最新版本即可。
进入界面后,熟悉一下布局。鼠标悬停在节点上会有中文提示,降低了上手难度。右侧面板支持开发模式,方便后续匹配 API 接口。
模型配置
Qwen-Image 是通义千问系列首个开源文生图模型,采用 MMDiT 多模态扩散架构。我们需要准备以下三个核心文件:
- Diffusion Model:
qwen_image_fp8_e4m3fn.safetensors - Text Encoder:
qwen_2.5_vl_7b_fp8_scaled.safetensors - VAE:
qwen_image_vae.safetensors
下载地址参考 HuggingFace 官方仓库:
将模型文件放入对应的目录结构下:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
工作流加载与使用
基础流程
- 启动 ComfyUI 后,访问官方示例页面获取工作流 JSON 文件。
- 在浏览器中按住工作流图片,直接拖拽到 ComfyUI 界面中。
- 界面会自动解析出连接好的彩色节点,这就是 Qwen-Image 的现成图纸。
- 找到输入框,填入官方提供的提示词(Prompt),点击生成即可。
示例提示词:
宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着'阿里云'卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。
LoRA 风格加持
如果需要特定写实风格,可以单独下载 LoRA 模型(如 CivitAI 上的资源)。
- 确保已加载基础工作流。
- 将下载的
.safetensors或.ckpt格式的 LoRA 文件拖入 ComfyUI 界面。 - 在工作流中找到
Load Lora节点,填入文件名。 - 重新输入提示词并生成。
注意:LoRA 是风格衣服,基础工作流是通用图纸,两者需配合使用。
效果对比与资源消耗
在同一组提示词下(李白黄鹤楼吟诗作赋场景),对比了可灵、即梦及本地运行的 Qwen-Image FP8 版本。实测显示,FP8 量化版本在中文渲染和细节表现上依然稳定,画面锐度较高,光影质感自然。
资源消耗参考: 官方实测数据显示,不同精度对显存占用影响较大。建议有条件时尝试 BF16 精度以获得更好效果,但 FP8 在大多数消费级显卡上已足够流畅。
总结
本地部署配合开源模型,既保证了数据隐私,又节省了长期成本。流程上,通过 ComfyUI 的节点化操作,可以快速搭建起从文本到图像的生成链路。Qwen-Image 在中文语义理解上的优势,使其成为本地创作的优秀选择。


