本文介绍如何使用 ComfyUI 搭建支持'视频换衣'的 AI 工作流,基于 WanVideo Animate Embeds 模型,实现从输入视频 + 衣服图片到输出换装视频的全流程自动化。
一、前言:AI 视频换衣的挑战
在电商、虚拟偶像、短视频内容创作等领域,传统试穿或变装视频制作成本高、周期长。随着 AIGC 技术的发展,尤其是时序可控视频生成模型的突破,AI 自动完成'给人物换衣服'成为可能。
真正的视频换衣需要解决三大挑战:
- 精准区域控制:只替换指定衣物(如上衣/裤子),不干扰其他区域;
- 时序一致性:保证帧间纹理、光影、运动连贯,不闪烁、不跳变;
- 姿态适应性:衣服能贴合动态人体,即使原始服装图是平铺的。
二、整体工作流架构
以下是该工作流的核心节点流程图:
[目标视频] ↓ [Frame Extract] → [LayerMask: Segformer B2 Clothes Ultra] → [Dynamic Mask] ↓ ↗ [ clothes image ] → [Load Image + Clip Encode ] ↓ [WanVideo Animate Embeds] ↓ [WanVideo Sampler (dpmpp_2m_sde)] ↓ [Video Combine & Output]

输入参数:
- 目标视频(mp4, mov 等常见格式)
- 替换衣物图片(JPG/PNG,建议正面清晰图)
- 输出分辨率(如 1080x1920)
- 帧率(默认 24fps)
- 替换类别:Top / Pants / Skirt / Dress(通过 LayerMask 节点选择)
三、关键技术模块详解
1. 动态遮罩生成:LayerMask + Segformer B2 Clothes Ultra
这是本工作流的核心前置模块。传统方法依赖手动蒙版或简单人体解析,容易出现边缘锯齿、误分割等问题。
采用 LayerMask 插件中的 Segformer B2 Clothes Ultra 模型,它支持 12 类服装部件识别,精度高、边界柔滑。
使用技巧:
- 在节点中选择
Clothing Type为目标替换项(如 Skirt) - 可调节
Mask Expand参数(建议 3-5px)防止边缘遗漏 - 添加
Gaussian Blur节点柔化边缘,避免生硬过渡
注意:该模型对背光、遮挡严重的情况效果下降,建议输入视频光照均匀、人物清晰。
2. 内容驱动:WanVideo Animate Embeds 节点
这是实现'换衣'的关键。该节点基于 Wan2.2 的 Animate Embeds 架构,支持将外部图像的纹理特征注入到指定区域。
工作原理:
- 将衣服图片通过 CLIP 编码为文本 + 图像嵌入向量


