前言
Wan2.1 模型搭配 ComfyUI 框架,能实现文本转视频、图片转动画等功能。生成的视频质量较高,普通 PC 即可运行,适合自媒体创作者和 AI 爱好者快速制作动态内容。
使用时需结合显卡配置选择模型版本:8G 以下显存选 fp8 量化版,12G 以上选 fp16 版效果更好;生成视频时长越长,等待时间也会增加,建议先从短时长测试参数。工作流文件导入后记得设置自动保存,避免成果丢失。
默认系统只能在局域网内使用,若需异地远程调用或团队协作,可通过内网穿透工具将本地服务映射到公网,实现随时随地操作。
1. 软件准备
1.1 ComfyUI
访问 ComfyUI 的 Github 下载对应操作系统版本,本例以 Windows 系统演示,选择免安装版本(如适用于 N 卡的 0.3.27 版本)。下载后解压到已定义路径。
1.2 文本编码器
根据显卡内存选择文本编码器。本例以 fp8 量化版为例,适用于低于 8G 的显卡;如果显卡内存高于 12G,可选择 fp16 版本,生成后的视频精度更高。
下载地址:Comfy-Org/Wan_2.1_ComfyUI_repackaged
1.3 VAE
下载 VAE 文件并保存。
1.4 视频生成模型
下载 Wan2.1 视频生成模型。如果显卡配置较好,可选择完整模型。本例以相对要求较低的 wan2.1_t2v_1.3B_fp16.safetensors 模型演示。
注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。
质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
下载地址:diffusion_models
2. 整合配置
将准备好的编码器、模型等整合到 ComfyUI 中,然后导入工作流文件。
- 把文本编码器
umt5_xxl_fp8_e4m3fn_scaled.safetensors放入ComfyUI/models/text_encoders/ - 将 VAE 文件
wan_2.1_vae.safetensors放入ComfyUI/models/vae/ - 将 Wan2.1 模型放入
ComfyUI/models/diffusion_models/ - 下载文字转视频所需的 Json 格式工作流文件,稍后打开 ComfyUI 时拖入。
3. 本地运行测试
回到解压后的 ComfyUI 根目录,双击运行脚本启动服务。启动完毕后,会自动在浏览器打开 ComfyUI 的使用界面,或者在网址栏输入 http://127.0.0.1:8188。
将刚才下载的 Json 格式工作流文件直接拖入界面。
使用文生视频前,可右键保存动画模块,在模式中选择 Always,这样以后生成的视频都会被自动保存。
在编辑器中输入提示词(中英文都可以),点击运行即可启动文生视频工作流。
示例:一个小男孩在海边提足球
默认生成的视频参数是 832*480,如需修改可以在这里对宽度和高度进行调整。


