前言
Wan2.1 模型搭配 ComfyUI 框架,能实现文本转视频、图片转动画等功能。生成的视频质量较高,普通 PC 即可运行,适合自媒体创作者和 AI 爱好者快速制作动态内容,完全开源免费。
使用时需结合显卡配置选择模型版本:8G 以下显存建议选 fp8 量化版,12G 以上可选 fp16 版以获得更好效果;生成视频时长越长,等待时间也会增加,建议先从短时长测试参数。工作流文件导入后记得设置自动保存,避免成果丢失。
默认系统只能在局域网内使用,若需异地远程访问或团队协作,可通过内网穿透工具将本地服务映射到公网,摆脱网络限制。
1. 软件准备
1.1 ComfyUI
访问 ComfyUI 的 Github 下载对应操作系统版本。本例以 Windows 系统演示,选择免安装版本(如适用于 N 卡的 0.3.27 版本)。
ComfyUI Github:https://github.com/comfyanonymous/ComfyUI
解压后定义路径,继续下载其他组件。
1.2 文本编码器
根据显卡内存选择文本编码器。本例以 fp8 量化版为例,适用于低于 8G 的显卡;若显卡内存高于 12G,可选择 fp16 版本,生成后的视频精度更高。
文本编码器下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
1.3 VAE
下载 VAE 文件。
1.4 视频生成模型
下载 Wan2.1 视频生成模型。如果显卡配置较好,可选择完整模型。本例以相对要求较低的 wan2.1_t2v_1.3B_fp16.safetensors 模型进行演示。
注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。
质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
视频生成模型下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
2. 整合配置
将准备好的编码器、模型等整合到 ComfyUI 中,然后导入工作流文件。
- 把文本编码器
umt5_xxl_fp8_e4m3fn_scaled.safetensors放入ComfyUI/models/text_encoders/ - 将 VAE 文件
wan_2.1_vae.safetensors放入ComfyUI/models/vae/ - 将 Wan 2.1 模型放入
ComfyUI/models/diffusion_models/ - 下载文字转视频所需的 Json 格式工作流文件,右键另存为到桌面,稍后打开 ComfyUI 时拖入。
下载地址:https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json


