Wan2.1 模型在 ComfyUI 中的本地部署与远程访问

前言

Wan2.1 开源模型实现了 AI 视频生成的平民化突破。这款文生视频工具在多项指标上表现优异，尤其擅长生成自然场景和人物动作。硬件门槛较低，普通家用 N 卡（8G 显存）即可生成 720P 视频。

实测显示，该模型在'场景一致性'方面表现良好，家具位置和光影变化能保持连贯。初次使用需注意：默认参数生成的视频时长较短，长视频需要手动调整帧率。建议先从简单场景入手。

软件准备

1. ComfyUI

访问 ComfyUI 的 Github 下载对应操作系统版本。本例以 Windows 系统免安装版本为例。

ComfyUI Github: https://github.com/comfyanonymous/ComfyUI

下载后解压到已定义路径。

2. 文本编码器

根据显卡内存选择文本编码器版本。低于 8G 显存建议使用 fp8 量化版，高于 12G 可选择 fp16 以获得更高精度。

下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

3. VAE

下载 VAE 文件。

下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

4. 视频生成模型

下载 Wan2.1 视频生成模型。如果显卡配置较好，可选择完整模型。本例演示使用要求较低的 wan2.1_t2v_1.3B_fp16.safetensors。

注意：建议使用 fp16 版本而不是 bf16 版本，因为它们会产生更好的结果。质量等级（从高到低）：fp16 > bf16 > fp8_scaled > fp8_e4m3fn

下载地址：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models

整合配置

将准备好的编码器、模型等整合到 ComfyUI 中，然后导入工作流文件。

将文本编码器 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入 ComfyUI/models/text_encoders/
将 VAE 文件 wan_2.1_vae.safetensors 放入 ComfyUI/models/vae/
将 Wan 2.1 模型放入 ComfyUI/models/diffusion_models/
下载文字转视频所需的 Json 格式工作流文件，右键另存为到桌面。
- 下载地址：https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json

Wan2.1 模型在 ComfyUI 中的本地部署与远程访问