

InfiniteTalk 是一个能根据音频生成无限时长人物说话/唱歌视频的 AI 模型,无论是给现有视频配音,还是让静态图片'开口说话',还是让人物图片'唱歌',它都能实现精准的唇形同步和自然的肢体动作。
本次更新为 InfiniteTalk V2 版,基于上一版本的工作流升级,新增了适合新手操作的 WebUI 界面。WebUI 支持自定义切换 Wan 主模型和 InfiniteTalk 模型,内置 Q4 和 Q8 两个量化版本,用户可根据显卡性能选择。当前 WebUI 仅支持单人生成。
核心特点
全维度同步 不仅唇形与音频匹配,还会自动生成对应的头部转动、身体姿态和面部表情,让虚拟人物更生动。传统配音工具只调整嘴唇,而 InfiniteTalk 连肢体语言一起模拟。
无限时长生成 支持超长视频生成(如 1 小时以上),通过分段处理技术保证连贯性。普通 AI 视频模型通常限制在几十秒内。
双模式输入 视频 + 音频:给现有视频换配音(如翻译配音、内容修改)。 图片 + 音频:让一张静态照片'开口说话'(如虚拟主播、教育视频)。
高稳定性 相比同类模型,显著减少了手部扭曲和身体变形的问题。
多分辨率支持 兼容 480P 和 720P,可根据设备性能选择清晰度。
应用领域
影视娱乐:电影配音、短视频角色配音、虚拟偶像直播 数字人生成:一键生成数字人视频,助力自媒体创作 教育科普:定制化教学视频、历史人物'亲口'讲解 商业宣传:品牌虚拟代言人自动生成多语言宣传片 社交娱乐:让自拍照片念台词、生成个性化生日祝福视频
使用教程
硬件要求:建议 NVIDIA 显卡,显存 8G 起,CUDA ≥ 12.8。
整合包包含所需所有节点,下载主程序和模型(ComfyUI 文件夹即为模型),解压主程序后,将 ComfyUI 文件夹移动到主程序目录下即可。
ComfyUI 模式
双击启动 ComfyUI,进入页面后,点击左侧的工作流,选择对应的工作流(包含单人、多人、视频驱动视频三种模式),根据需要选择。上传需要生成的人物图片和音频文件,设置相关参数,运行即可。ComfyUI 模式建议专业人士使用。
WebUI 模式
双击启动 WebUI,进入页面后,上传需要生成的人物图像和音频文件,设置相关参数,生成即可。
参数说明:
- 模型精度:显卡好的可下载精度更高的模型,如 Wan 视频模型和 InfiniteTalk 模型。
- 加速模式:默认开启 sag 加速,如果卡在采样报错,请切换至 sdpa 或手动安装 vc 编译器。
- 交换块大小:默认是 20,如果显卡好,比如 4090 或 5090 等,可以改成 40。
InfiniteTalk 模型可以根据显卡选择,显存 8G 的可以切换到 Q4 版,显存≥12G 的,建议使用 Q8 版。其他版本可参考官方仓库下载后,放到 ComfyUI\models\diffusion_models 目录,网页端切换即可。


