Windows 部署 ComfyUI 运行 Qwen-Image 图像生成模型详解

本地部署 Stable Diffusion 往往伴随着驱动和环境配置的麻烦。好在 ComfyUI 提供了灵活的节点式操作，配合最新的 Qwen-Image 模型，能大幅降低门槛。本文将介绍如何在 Windows 环境下完成 ComfyUI 的部署，并接入阿里通义千问系列的 Qwen-Image 模型进行文生图。

环境准备与安装

对于 Windows 用户，推荐下载官方整合包。解压后找到 run_nvidia_gpu.bat 双击启动，浏览器会自动打开操作界面。如果之前已经安装过 ComfyUI，只需更新到最新版本即可。

进入界面后，熟悉一下布局。鼠标悬停在节点上会有中文提示，降低了上手难度。右侧面板支持开发模式，方便后续匹配 API 接口。

模型配置

Qwen-Image 是通义千问系列首个开源文生图模型，采用 MMDiT 多模态扩散架构。我们需要准备以下三个核心文件：

Diffusion Model: qwen_image_fp8_e4m3fn.safetensors
Text Encoder: qwen_2.5_vl_7b_fp8_scaled.safetensors
VAE: qwen_image_vae.safetensors

下载地址参考 HuggingFace 官方仓库：

Qwen-Image ComfyUI

将模型文件放入对应的目录结构下：

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_fp8_e4m3fn.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

工作流加载与使用

基础流程

启动 ComfyUI 后，访问官方示例页面获取工作流 JSON 文件。
在浏览器中按住工作流图片，直接拖拽到 ComfyUI 界面中。
界面会自动解析出连接好的彩色节点，这就是 Qwen-Image 的现成图纸。
找到输入框，填入官方提供的提示词（Prompt），点击生成即可。

示例提示词：

宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着'阿里云'卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。

LoRA 风格加持

如果需要特定写实风格，可以单独下载 LoRA 模型（如 CivitAI 上的资源）。

确保已加载基础工作流。
将下载的 .safetensors 或 .ckpt 格式的 LoRA 文件拖入 ComfyUI 界面。
在工作流中找到 Load Lora 节点，填入文件名。
重新输入提示词并生成。

注意：LoRA 是风格衣服，基础工作流是通用图纸，两者需配合使用。

效果对比与资源消耗

在同一组提示词下（李白黄鹤楼吟诗作赋场景），对比了可灵、即梦及本地运行的 Qwen-Image FP8 版本。实测显示，FP8 量化版本在中文渲染和细节表现上依然稳定，画面锐度较高，光影质感自然。

资源消耗参考： 官方实测数据显示，不同精度对显存占用影响较大。建议有条件时尝试 BF16 精度以获得更好效果，但 FP8 在大多数消费级显卡上已足够流畅。

总结

本地部署配合开源模型，既保证了数据隐私，又节省了长期成本。流程上，通过 ComfyUI 的节点化操作，可以快速搭建起从文本到图像的生成链路。Qwen-Image 在中文语义理解上的优势，使其成为本地创作的优秀选择。

Windows 部署 ComfyUI 运行 Qwen-Image 图像生成模型详解