本地部署 Wan2.1 视频生成模型与 ComfyUI 使用指南

前言

Wan2.1 模型搭配 ComfyUI 框架，能实现文本转视频、图片转动画等功能，生成的视频质量可媲美专业工具，普通 PC 就能运行，适合 AI 爱好者快速制作动态内容，完全开源免费。

使用时建议结合显卡配置选择模型版本：8G 以下显存选 fp8 量化版，12G 以上选 fp16 版效果更好；生成视频时长越长，等待时间也会增加，建议先从短时长测试参数。工作流文件导入后记得设置自动保存，避免成果丢失。

1. 软件准备

1.1 ComfyUI

访问 ComfyUI 的 Github 下载对应操作系统版本，本例使用 Windows 系统进行演示。

ComfyUI Github：https://github.com/comfyanonymous/ComfyUI

选择免安装版本（以适用于 N 卡的免安装版本 0.3.27 为例）。

下载后解压到已定义路径，然后继续下载其他软件。

1.2 文本编码器

根据显卡内存进行选择，本例中以 fp8 量化版进行演示，适用于低于 8G 的显卡。如果显卡内存高于 12G，可以选择 fp16，生成后的视频精度会更高。

文本编码器下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

1.3 VAE

需要下载 VAE，点击 download 即可。

VAE 下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

1.4 视频生成模型

最后还需要下载 Wan2.1 视频生成模型。如果显卡配置较好，可以选择最完整的 32G 的模型。本例中以相对显卡要求较低的 wan2.1_t2v_1.3B_fp16.safetensors 模型进行演示。

注意：建议使用 fp16 版本而不是 bf16 版本，因为它们会产生更好的结果。

质量等级（从高到低）：fp16 > bf16 > fp8_scaled > fp8_e4m3fn

视频生成模型下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models

2. 整合配置

现在要把上边准备好的编码器、模型等整合到 ComfyUI 中，然后导入工作流文件，就能使用它来生成视频了。

首先，把文本编码器 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入 ComfyUI/models/text_encoders/

第二步，将 VAE 文件 wan_2.1_vae.safetensors 放入 ComfyUI/models/vae/

第三步，将 Wan 2.1 模型放入 ComfyUI/models/diffusion_models/

最后一步，下载文字转视频所需的 Json 格式的工作流，右键另存为到桌面即可，稍后打开 ComfyUI 时拖入。

下载地址：https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json

本地部署 Wan2.1 视频生成模型与 ComfyUI 使用指南