ComfyUI 核心架构与 AI 绘画工作流实战 | 极客日志

PythonAI算法

ComfyUI 核心架构与 AI 绘画工作流实战

ComfyUI 作为可视化工作流引擎，通过节点连接实现 Stable Diffusion 的全链路控制。相比 WebUI，它提供细粒度参数调节与更高资源效率，支持自定义节点扩展。文章涵盖环境搭建、核心节点解析（如 KSampler、CLIP Text Encode）、高级工作流设计（ControlNet、图像修复）及批量生成 API 集成。结合 Prompt 工程与性能优化技巧，帮助用户从基础生成进阶至工业级 AI 绘画创作，掌握文本到图像的完整逻辑链构建方法。

战神发布于 2026/3/29更新于 2026/5/3115 浏览

当 Stable Diffusion（SD）在 2022 年引爆 AI 绘画革命时，大多数用户依赖的是 WebUI 这类'傻瓜式'界面——点击按钮即可生成图像，但灵活性被严重束缚。2023 年，ComfyUI的出现彻底改变了这一局面：它将 AI 绘画拆解为可自由组合的'节点'，让用户像搭积木一样构建从文本到图像的完整逻辑链。这种'可视化编程'模式不仅解锁了 SD 底层功能的全部潜力，更催生了从图像修复到风格迁移的无限创作可能。本文将系统剖析 ComfyUI 的核心架构、节点生态、高级工作流设计及实战案例，帮助你从'按钮使用者'进化为'AI 绘画工程师'。

一、ComfyUI 核心价值：从'黑箱操作'到'全链路掌控'

1.1 为什么选择 ComfyUI？

与 WebUI（如 Automatic1111）的'一键生成'不同，ComfyUI 的本质是可视化工作流引擎。其核心优势体现在三个维度：

对比维度	WebUI（Automatic1111）	ComfyUI
操作逻辑	表单填写式，功能模块化	节点连接式，逻辑可视化
参数控制粒度	预设参数为主，高级功能隐藏	全链路参数暴露，支持细粒度调节
扩展能力	依赖插件，兼容性受限	原生支持自定义节点，生态开放
资源效率	内存占用高，多任务切换卡顿	按需加载节点，显存利用更高效
学习曲线	低（1 小时上手）	中高（需理解 SD 核心原理）

表 1：ComfyUI 与主流 WebUI 的核心差异

关键突破：ComfyUI 将 SD 的潜在扩散模型（Latent Diffusion）拆解为可干预的中间步骤。例如，你可以在文本编码器（CLIP）生成嵌入向量后手动修改特征，或在采样过程中插入自定义噪声模式，甚至将多个模型的中间结果交叉融合——这些在 WebUI 中几乎不可能实现。

1.2 核心应用场景

专业创作：影视概念设计、游戏美术资产生成（支持精确控制角色比例、场景光影）；
学术研究：扩散模型中间过程分析、新采样算法测试；
工业级批量处理：电商商品图生成、老照片修复流水线；
教育学习：直观理解 SD 的'文本→嵌入→潜空间→图像'完整流程。

二、ComfyUI 架构解析：节点、数据流与工作流

2.1 核心概念：节点（Node）与连接（Link）

ComfyUI 的最小功能单元是节点，每个节点代表一个独立操作（如加载模型、处理文本、执行采样）。节点之间通过连接传递数据，形成有向无环图（DAG）结构。

节点三要素：

输入端口（Input）：接收上游节点输出的数据（如模型权重、图像张量）；

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

graph TD
A[Text Prompt] -->|文本 | B[CLIP Text Encode]
C[Checkpoint Loader] -->|模型权重 | D[KSampler]
B -->|文本嵌入 | D
E[Empty Latent Image] -->|潜空间初始图像 | D
D -->|生成潜空间图像 | F[VAEDecode]
F -->|最终图像 | G[Save Image]

# 克隆仓库
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
# 创建虚拟环境（推荐）
python -m venv venv
source venv/bin/activate # Linux/macOS
venv\Scripts\activate # Windows
# 安装依赖
pip install -r requirements.txt

python main.py # 默认端口 8188，浏览器访问 http://localhost:8188

节点名称	功能	关键参数
Checkpoint Loader	加载完整 SD 模型（含 UNet/CLIP/VAE）	ckpt_name（模型文件名）
VAELoader	单独加载 VAE 模型（用于解码/编码）	vae_name（VAE 文件名）
CLIPLoader	单独加载 CLIP 文本编码器	clip_name（CLIP 模型文件名）
ControlNetLoader	加载 ControlNet 模型	control_net_name（ControlNet 文件名）

参数	作用	推荐值
model	扩散模型（通常来自 Checkpoint Loader）	-
positive/negative	正向/负向文本嵌入（来自 CLIP Text Encode）	-
latent_image	初始潜空间图像（来自 Empty Latent Image 或图像编码）	-
seed	随机种子（决定生成内容的随机性，-1 表示随机）	12345（固定）/ -1（随机）
steps	采样步数（步数越多细节越丰富，但耗时增加）	20-30（平衡速度与质量）
cfg	分类器自由引导（值越高越贴近 Prompt，但可能过饱和）	7-12
sampler_name	采样算法（影响收敛速度和图像风格）	Euler a（艺术化）/ DPM++ 2M Karras（写实）
scheduler	调度器（控制噪声消除节奏）	Automatic

{
  "nodes": [
    {
      "id": 4,
      "type": "KSampler",
      "pos": [600, 300],
      "inputs": {
        "model": [3, 0],
        "positive": [2, 0],
        "negative": [2, 1],
        "latent_image": [5, 0],
        "seed": 12345,
        "steps": 25,
        "cfg": 8.0,
        "sampler_name": "euler_a",
        "scheduler": "normal"
      }
    }
  ]
}

graph TD
A[Input Image] -->|原始图像 | B[Canny Edge Detection]
// 边缘检测
C[ControlNetLoader] -->|ControlNet 模型 | D[ControlNetApply]
// 加载并应用 ControlNet
B -->|边缘图 | D
E[CLIP Text Encode] -->|文本嵌入 | F[KSampler]
G[Checkpoint Loader] -->|主模型 | F
D -->|控制条件 | F
H[Empty Latent Image] -->|潜空间图像 | F
F -->|生成潜空间图像 | I[VAEDecode]
I -->|最终图像 | J[Save Image]

{
  "nodes": [
    {
      "id": 10,
      "type": "FaceDetector",
      "inputs": {"image": [9, 0]}, // 输入原始图像
      "outputs": {"face": [11, 0]} // 输出裁剪后的人脸区域
    },
    {
      "id": 11,
      "type": "KSampler",
      "inputs": {
        "model": [12, 0], // 高分辨率人脸模型
        "positive": [13, 0], // 人脸优化 Prompt："detailed eyes, sharp focus, 8k"
        "latent_image": [14, 0], // 人脸区域的潜空间编码
        "steps": 40,
        "cfg": 6.5
      }
    }
  ]
}

import requests
import json

# 加载工作流 JSON
with open("product_workflow.json", "r") as f:
    workflow = json.load(f)

# 修改 Prompt 和种子，批量生成
for i in range(100):
    workflow["nodes"][0]["inputs"]["text"] = f"product photo, angle {i%8}, white background"
    workflow["nodes"][4]["inputs"]["seed"] = 12345 + i  # 不同种子

    # 发送请求到 ComfyUI 后端
    response = requests.post(
        "http://localhost:8188/prompt", json={"prompt": workflow}
    )

    # 保存结果
    with open(f"output/product_{i}.png", "wb") as f:
        f.write(response.content)

风格类型	核心关键词
写实摄影	photorealistic, 8k, DSLR, soft lighting, depth of field, Sony A7 III
赛博朋克	cyberpunk, neon lights, rain, dystopian city, (glowing:1.2), futuristic
水墨国画	ink painting, Chinese traditional, wash painting, minimalist, black and white
像素艺术	pixel art, 8-bit, retro game, (vibrant colors:1.1), isometric

技巧	效果	适用场景
使用--lowvram 启动参数	显存占用降低 40%，速度略降 10%	4-8GB 显存显卡
拆分模型到 CPU 和 GPU	仅 UNet 在 GPU，其他组件在 CPU，显存降 30%	8-12GB 显存，需快速切换模型
降低图像分辨率	从 1024x1024 降为 768x768，显存降 50%	非细节要求场景

ComfyUI 核心架构与 AI 绘画工作流实战

一、ComfyUI 核心价值：从'黑箱操作'到'全链路掌控'

1.1 为什么选择 ComfyUI？

1.2 核心应用场景

二、ComfyUI 架构解析：节点、数据流与工作流

2.1 核心概念：节点（Node）与连接（Link）

更多推荐文章

相关免费在线工具

2.2 工作流基础：从'文生图'看数据流动

三、环境搭建与核心配置

3.1 安装步骤（Windows/macOS/Linux 通用）

3.2 关键配置优化

四、核心节点详解：从基础到高级

4.1 模型加载节点

4.2 采样与生成节点

4.2.1 KSampler（核心采样节点）

4.2.2 Empty Latent Image（潜空间初始化）

4.3 文本处理节点

4.3.1 CLIP Text Encode（文本编码）

4.3.2 Prompt S/R（文本替换）

4.4 图像操作节点

4.4.1 VAEDecode/VAEncode（图像编解码）

4.4.2 ImageScale（图像缩放）

五、高级工作流设计：从基础到工业级

5.1 条件控制：ControlNet 工作流

5.2 图像修复：人脸优化与背景替换

5.3 批量生成与自动化：API 与脚本集成

六、Prompt 工程：从'描述'到'精确控制'

6.1 Prompt 结构优化

6.2 风格迁移 Prompt 模板

6.3 负面提示词（Negative Prompt）清单

七、性能优化与资源管理

7.1 显存占用优化

7.2 生成速度提升

八、实战案例：从概念到落地

8.1 案例 1：游戏角色设计

8.2 案例 2：产品广告图生成

九、未来展望：ComfyUI 的进化方向

更多推荐文章

相关免费在线工具

ComfyUI 核心架构与 AI 绘画工作流实战

一、ComfyUI 核心价值：从'黑箱操作'到'全链路掌控'

1.1 为什么选择 ComfyUI？

1.2 核心应用场景

二、ComfyUI 架构解析：节点、数据流与工作流

2.1 核心概念：节点（Node）与连接（Link）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 工作流基础：从'文生图'看数据流动

三、环境搭建与核心配置

3.1 安装步骤（Windows/macOS/Linux 通用）

3.2 关键配置优化

四、核心节点详解：从基础到高级

4.1 模型加载节点

4.2 采样与生成节点

4.2.1 KSampler（核心采样节点）

4.2.2 Empty Latent Image（潜空间初始化）

4.3 文本处理节点

4.3.1 CLIP Text Encode（文本编码）

4.3.2 Prompt S/R（文本替换）

4.4 图像操作节点

4.4.1 VAEDecode/VAEncode（图像编解码）

4.4.2 ImageScale（图像缩放）

五、高级工作流设计：从基础到工业级

5.1 条件控制：ControlNet 工作流

5.2 图像修复：人脸优化与背景替换

5.3 批量生成与自动化：API 与脚本集成

六、Prompt 工程：从'描述'到'精确控制'

6.1 Prompt 结构优化

6.2 风格迁移 Prompt 模板

6.3 负面提示词（Negative Prompt）清单

七、性能优化与资源管理

7.1 显存占用优化

7.2 生成速度提升

八、实战案例：从概念到落地

8.1 案例 1：游戏角色设计

8.2 案例 2：产品广告图生成

九、未来展望：ComfyUI 的进化方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具