前言
Stable Diffusion 本地部署往往面临显卡驱动、环境配置等繁琐问题。随着阿里推出 Qwen-Image 开源文生图模型,结合 ComfyUI 工作流可以更方便地实现高质量图像生成。本文将详细介绍在 Windows 环境下部署 ComfyUI 并加载 Qwen-Image 模型的完整流程。
ComfyUI 部署与配置
环境准备
确保已安装 Python 环境及 CUDA 驱动。下载 ComfyUI 官方版本,解压至本地目录。
启动脚本:
双击 ComfyUI 根路径下的 run_nvidia_gpu.bat 文件。
终端窗口将自动初始化,随后默认浏览器会打开 ComfyUI 操作界面。
模型下载
需下载以下核心模型文件(基于 HuggingFace):
-
Diffusion Model: qwen_image_fp8_e4m3fn.safetensors
-
Text Encoder: qwen_2.5_vl_7b_fp8_scaled.safetensors
建议目录结构如下:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
运行步骤
-
加载模型节点:
- Load Diffusion Model: 加载
qwen_image_fp8_e4m3fn.safetensors - Load CLIP: 加载
qwen_2.5_vl_7b_fp8_scaled.safetensors - Load VAE: 加载
qwen_image_vae.safetensors
- Load Diffusion Model: 加载
-
设置参数:
- 设定图像尺寸(如 1024x1024)。
- 输入提示词。
-
生成图片: 点击生成按钮等待输出结果。
阿里模型简介
Qwen-Image 是通义千问系列的文生图开源模型,参数量达 20B,采用 MMDiT 多模态扩散架构,遵循 Apache 2.0 许可证。该模型擅长中文文本渲染,能够准确将文字内容嵌入图像细节中,支持背景替换、颜色调整等操作。
配置 ComfyUI 相关内容以及 Qwen-Image Json WorkFlow
下载工作流
官方示例工作流地址: https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/


