Wan2.1 模型在 ComfyUI 中的本地部署与远程访问
前言
Wan2.1 开源模型实现了 AI 视频生成的平民化突破。这款文生视频工具在多项指标上表现优异,尤其擅长生成自然场景和人物动作。硬件门槛较低,普通家用 N 卡(8G 显存)即可生成 720P 视频。
实测显示,该模型在'场景一致性'方面表现良好,家具位置和光影变化能保持连贯。初次使用需注意:默认参数生成的视频时长较短,长视频需要手动调整帧率。建议先从简单场景入手。
软件准备
1. ComfyUI
访问 ComfyUI 的 Github 下载对应操作系统版本。本例以 Windows 系统免安装版本为例。
- ComfyUI Github: https://github.com/comfyanonymous/ComfyUI
下载后解压到已定义路径。
2. 文本编码器
根据显卡内存选择文本编码器版本。低于 8G 显存建议使用 fp8 量化版,高于 12G 可选择 fp16 以获得更高精度。
- 下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
3. VAE
下载 VAE 文件。
4. 视频生成模型
下载 Wan2.1 视频生成模型。如果显卡配置较好,可选择完整模型。本例演示使用要求较低的 wan2.1_t2v_1.3B_fp16.safetensors。
注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。 质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
- 下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
整合配置
将准备好的编码器、模型等整合到 ComfyUI 中,然后导入工作流文件。
- 将文本编码器
umt5_xxl_fp8_e4m3fn_scaled.safetensors放入ComfyUI/models/text_encoders/ - 将 VAE 文件
wan_2.1_vae.safetensors放入ComfyUI/models/vae/ - 将 Wan 2.1 模型放入
ComfyUI/models/diffusion_models/ - 下载文字转视频所需的 Json 格式工作流文件,右键另存为到桌面。


