前言
当商业 AI 视频模型还在按分钟计费时,Wan2.1 开源模型已经实现了平民化突破!这款由国内团队开发的文生视频工具,在 VBench 榜单上多项指标超越同类闭源产品,尤其擅长生成自然场景和人物动作。最令人惊喜的是硬件门槛——普通家用 N 卡就能运行,8G 显存即可生成 720P 视频,让独立创作者也能玩转 AI 视频创作。
作为测试了 10+ 视频模型的创作者,Wan2.1 给我的最大惊喜是'场景一致性'。生成'猫咪在客厅玩耍'的视频时,家具位置和光影变化能保持连贯,这点比很多商业模型都强。不过初次使用需要注意:默认参数生成的视频只有 3 秒,想做长视频需要手动调整帧率。建议先从简单场景入手,熟悉后再尝试复杂镜头。
本文主要介绍如何在 Windows 系统电脑本地部署 ComfyUI 并接入通义万相 Wan2.1 模型,轻松实现使用文字指令生成 AI 视频。
1.软件准备
1.1 ComfyUI
首先访问 ComfyUI 的 Github 下载对应操作系统版本,本例使用 Windows 系统进行演示。
ComfyUI Github:https://github.com/comfyanonymous/ComfyUI
选择免安装版本(本例以适用于 N 卡的免安装版本 0.3.27 为例演示)。
下载后解压到已定义路径,然后继续下载其他软件。
1.2 文本编码器
现在需要下载文本编码器,大家可以根据显卡内存进行选择,本例中以 fp8 量化版进行演示,适用于低于 8G 的显卡,如果显卡内存高于 12G,可以选择 fp16 这个,生成后的视频精度会更高。
文本编码器下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
1.3 VAE
然后需要下载 VAE,点击 download 即可。
1.4 视频生成模型
最后还需要下载 Wan2.1 视频生成模型,如果显卡配置较好,可以选择最完整的 32G 的模型。本例中以相对显卡要求较低的 wan2.1_t2v_1.3B_fp16.safetensors 模型进行演示。
注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。
质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
视频生成模型下载地址:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
2.整合配置
现在要把上边准备好的编码器、模型等整合到 ComfyUI 中,然后导入工作流文件,就能使用它来生成视频了。
首先,把文本编码器 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入 ComfyUI/models/text_encoders/
第二步,将 VAE 文件 wan_2.1_vae.safetensors 放入 ComfyUI/models/vae/
第三步,将 Wan 2.1 模型 放入 ComfyUI/models/diffusion_models/
最后一步,下载文字转视频所需的 Json 格式的工作流,右键另存为到桌面即可,稍后打开 ComfyUI 时拖入。
下载地址:https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json


