本地部署 Wan2.1 视频生成模型与 ComfyUI 使用指南
前言
Wan2.1 模型搭配 ComfyUI 框架,能实现文本转视频、图片转动画等功能,生成的视频质量可媲美专业工具,普通 PC 就能运行,适合 AI 爱好者快速制作动态内容,完全开源免费。
使用时建议结合显卡配置选择模型版本:8G 以下显存选 fp8 量化版,12G 以上选 fp16 版效果更好;生成视频时长越长,等待时间也会增加,建议先从短时长测试参数。工作流文件导入后记得设置自动保存,避免成果丢失。
1. 软件准备
1.1 ComfyUI
访问 ComfyUI 的 Github 下载对应操作系统版本,本例使用 Windows 系统进行演示。
ComfyUI Github:https://github.com/comfyanonymous/ComfyUI
选择免安装版本(以适用于 N 卡的免安装版本 0.3.27 为例)。
下载后解压到已定义路径,然后继续下载其他软件。
1.2 文本编码器
根据显卡内存进行选择,本例中以 fp8 量化版进行演示,适用于低于 8G 的显卡。如果显卡内存高于 12G,可以选择 fp16,生成后的视频精度会更高。
文本编码器下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
1.3 VAE
需要下载 VAE,点击 download 即可。
1.4 视频生成模型
最后还需要下载 Wan2.1 视频生成模型。如果显卡配置较好,可以选择最完整的 32G 的模型。本例中以相对显卡要求较低的 wan2.1_t2v_1.3B_fp16.safetensors 模型进行演示。
注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。
质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
视频生成模型下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
2. 整合配置
现在要把上边准备好的编码器、模型等整合到 ComfyUI 中,然后导入工作流文件,就能使用它来生成视频了。
首先,把文本编码器 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入 ComfyUI/models/text_encoders/
第二步,将 VAE 文件 wan_2.1_vae.safetensors 放入 ComfyUI/models/vae/
第三步,将 Wan 2.1 模型 放入 ComfyUI/models/diffusion_models/
最后一步,下载文字转视频所需的 Json 格式的工作流,右键另存为到桌面即可,稍后打开 ComfyUI 时拖入。
下载地址:https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json


