InfiniteTalk V2：音频驱动图片生成逼真说话唱歌视频，支持 ComfyUI 与 WebUI

InfiniteTalk V2 简介

InfiniteTalk 是一个能根据音频生成无限时长人物说话/唱歌视频的 AI 模型。无论是给现有视频配音，还是让静态图片'开口说话'，还是让人物图片'唱歌'，它都能实现精准的唇形同步和自然的肢体动作。

今天分享的 InfiniteTalk V2 版基于上一版本的工作流更新升级，新增了适合新手操作的 WebUI。如果是使用 ComfyUI 且下载过上个版本的资深用户，无需下载此整合包。WebUI 支持自定义切换 Wan 主模型和 InfiniteTalk 模型，整合包自带 Q4 和 Q8 两个版本，用户可根据自己的显卡配置选择。当前 WebUI 只支持单人生成，后续版本会集成双人版。

核心特点

全维度同步

不仅唇形与音频匹配，还会自动生成对应的头部转动、身体姿态和面部表情，让虚拟人物更生动。传统配音工具只调整嘴唇，而 InfiniteTalk 连肢体语言一起模拟。

无限时长生成

支持超长视频生成（如 1 小时以上），通过分段处理技术保证连贯性。普通 AI 视频模型通常限制在几十秒内。

双模式输入

视频 + 音频：给现有视频换配音（如翻译配音、内容修改）。
图片 + 音频：让一张静态照片'开口说话'（如虚拟主播、教育视频）。

高稳定性

相比同类模型（如 MultiTalk），显著减少了手部扭曲和身体变形的问题。

多分辨率支持

兼容 480P 和 720P，可根据设备性能选择清晰度。

应用领域

影视娱乐：电影配音、短视频角色配音、虚拟偶像直播。
数字人生成：一键生成数字人视频，助力自媒体创作。
教育科普：定制化教学视频、历史人物'亲口'讲解。
商业宣传：品牌虚拟代言人自动生成多语言宣传片。
社交娱乐：让自拍照片念台词、生成个性化生日祝福视频。

使用教程

建议 N 卡，显存 8G 起，CUDA 版本建议≥12.8。

整合包包含所需所有节点，下载主程序和模型（ComfyUI 文件夹即为模型），解压主程序一键包，将 ComfyUI 文件夹移动到主程序目录下即可。

ComfyUI 模式

双击启动 ComfyUI，进入页面后，点击左侧的'工作流'，选择对应的工作流（包含单人、多人及视频驱动视频三种模式），根据需要选择。上传需要生成的人物图片和音频文件，设置相关参数，运行即可。ComfyUI 模式建议专业人士使用，小白可以使用下面的 WebUI 模式。

WebUI 模式

双击启动 WebUI，进入页面后，上传需要生成的人物图像和音频文件，设置相关参数，生成即可。

参数说明

模型精度：显卡好的，可以下载精度更高的模型，比如 Wan 视频模型和 InfiniteTalk 模型。
加速模式：默认开启 sag 加速，如果卡在采样报错，请切换至 sdpa 或手动安装 vc 编译器。
交换块大小：默认是 20，如果显卡好，比如 4090 或 5090 等，可以改成 40。

InfiniteTalk 模型可以根据显卡选择，显存 8G 的可以切换到 Q4 版，显存≥12G 的，建议使用 Q8 版。其他版本可前往官方仓库查找，下载后放到 ComfyUI\models\diffusion_models 目录，网页端切换即可。

InfiniteTalk V2：音频驱动图片生成逼真说话唱歌视频，支持 ComfyUI 与 WebUI

InfiniteTalk V2 简介

核心特点

全维度同步

无限时长生成

双模式输入

高稳定性

多分辨率支持

应用领域

使用教程

ComfyUI 模式

WebUI 模式

参数说明

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

InfiniteTalk V2：音频驱动图片生成逼真说话唱歌视频，支持 ComfyUI 与 WebUI

InfiniteTalk V2 简介

核心特点

全维度同步

无限时长生成

双模式输入

高稳定性

多分辨率支持

应用领域

使用教程

ComfyUI 模式

WebUI 模式

参数说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具