InfiniteTalk V2 音频驱动图像生成视频工具 ComfyUI WebUI 使用指南

文章配图

InfiniteTalk 是一个能根据音频生成无限时长人物说话/唱歌视频的 AI 模型，无论是给现有视频配音，还是让静态图片'开口说话'，还是让人物图片'唱歌'，它都能实现精准的唇形同步和自然的肢体动作。

本次更新为 InfiniteTalk V2 版，基于上一版本的工作流升级，新增了适合新手操作的 WebUI 界面。WebUI 支持自定义切换 Wan 主模型和 InfiniteTalk 模型，内置 Q4 和 Q8 两个量化版本，用户可根据显卡性能选择。当前 WebUI 仅支持单人生成。

全维度同步不仅唇形与音频匹配，还会自动生成对应的头部转动、身体姿态和面部表情，让虚拟人物更生动。传统配音工具只调整嘴唇，而 InfiniteTalk 连肢体语言一起模拟。

无限时长生成支持超长视频生成（如 1 小时以上），通过分段处理技术保证连贯性。普通 AI 视频模型通常限制在几十秒内。

双模式输入视频 + 音频：给现有视频换配音（如翻译配音、内容修改）。图片 + 音频：让一张静态照片'开口说话'（如虚拟主播、教育视频）。

高稳定性相比同类模型，显著减少了手部扭曲和身体变形的问题。

多分辨率支持兼容 480P 和 720P，可根据设备性能选择清晰度。

影视娱乐：电影配音、短视频角色配音、虚拟偶像直播数字人生成：一键生成数字人视频，助力自媒体创作教育科普：定制化教学视频、历史人物'亲口'讲解商业宣传：品牌虚拟代言人自动生成多语言宣传片社交娱乐：让自拍照片念台词、生成个性化生日祝福视频

硬件要求：建议 NVIDIA 显卡，显存 8G 起，CUDA ≥ 12.8。

整合包包含所需所有节点，下载主程序和模型（ComfyUI 文件夹即为模型），解压主程序后，将 ComfyUI 文件夹移动到主程序目录下即可。

双击启动 ComfyUI，进入页面后，点击左侧的工作流，选择对应的工作流（包含单人、多人、视频驱动视频三种模式），根据需要选择。上传需要生成的人物图片和音频文件，设置相关参数，运行即可。ComfyUI 模式建议专业人士使用。

双击启动 WebUI，进入页面后，上传需要生成的人物图像和音频文件，设置相关参数，生成即可。

参数说明：

InfiniteTalk 模型可以根据显卡选择，显存 8G 的可以切换到 Q4 版，显存≥12G 的，建议使用 Q8 版。其他版本可参考官方仓库下载后，放到 ComfyUI\models\diffusion_models 目录，网页端切换即可。

更多推荐文章