FLOAT:基于流匹配的音频驱动说话者头像生成模型
FLOAT 是基于流匹配的音频驱动说话者头像生成模型,通过引入学习的运动隐空间和基于 Transformer 的流向量场预测器,解决了传统扩散模型采样慢和时间不一致的问题。该模型支持语音驱动的情感控制,在视觉质量、运动保真度及生成效率上均达到 SOTA。实验验证了其在多数据集上的优越性,并提供了情感重定向等扩展功能。

FLOAT 是基于流匹配的音频驱动说话者头像生成模型,通过引入学习的运动隐空间和基于 Transformer 的流向量场预测器,解决了传统扩散模型采样慢和时间不一致的问题。该模型支持语音驱动的情感控制,在视觉质量、运动保真度及生成效率上均达到 SOTA。实验验证了其在多数据集上的优越性,并提供了情感重定向等扩展功能。

在数字人、虚拟主播及影视特效领域,音频驱动的说话者头像生成(Audio-Driven Talking Head Generation)是一项关键技术。传统的基于扩散的生成模型虽然能生成高质量图像,但在视频生成任务中往往面临迭代采样导致的时间一致性问题,且生成速度较慢。为了解决这些核心限制,FLOAT(Flow Matching for Audio-driven Talking Heads)提出了一种基于流匹配的新范式。
FLOAT 利用学习的运动隐空间替代了传统的基于像素的隐空间,显著提高了时间一致性设计的效率。通过引入基于 Transformer 的流向量场预测器,该模型实现了快速采样,并支持语音驱动的情感控制。大量实验表明,FLOAT 在视觉质量、运动保真度和生成效率上均优于现有的扩散和非扩散方法。
FLOAT 的整体架构包含两个主要阶段。首先,预训练一个运动自动编码器(Motion Autoencoder),为说话头像提供具有表现力和平滑的运动隐空间。其次,采用流匹配方法,使用基于 Transformer 的向量场预测器生成一系列运动隐空间变量,并将其解码为说话头像视频。得益于强大的向量场架构,模型还能将语音驱动的情感作为驱动条件纳入,实现情感感知的生成。
给定源图像 $I_s$ 和一个长度为 $T$ 的驱动音频信号 $A$,方法生成包含 $T$ 帧的视频,该视频具有与音频同步的说话头像动作,包括语言和非语言动作。

近期的说话头像方法常利用 Stable Diffusion (SD) 的 VAE,因其具有丰富的基于像素的语义隐空间。然而,当应用于视频生成时,这些方法难以生成时间一致的帧。因此,FLOAT 的目标是为逼真的说话头像获得良好的运动隐空间,能够捕捉全局(如头部运动)和细粒度局部(如面部表情、嘴部运动、瞳孔运动)动态。
为此,我们采用隐空间图像动画器 (LIA) 作为运动自动编码器,而非 SD 的 VAE。关键区别在于训练目标:LIA 被训练为从同一视频片段中采样的源图像重建驱动图像,这要求隐空间编码包含能够捕捉时间上相邻和远离运动的隐式信息。
运动自动编码器可以将源 $I_s$ 编码为隐空间表示,并进行显式分解:
$$ z = [z_{id}, z_{motion}] $$
其中,$z_{id}$ 是身份隐空间表示,而 $z_{motion}$ 是运动隐空间表示。在这个空间中,运动具有 $K$ 个不同的正交运动基,其强度由系数决定。这种显式分解是通过引入源无关的运动基来实现的。
由于生成运动的表现力和图像保真度主要由运动隐空间决定,我们将原始 LIA 架构扩展以生成更高分辨率的图像。此外,引入了一种简单但有效的面部组件感知损失,显著提高了图像保真度(例如牙齿和眼睛细节)以及细粒度运动(例如眼球和眉毛的运动)。
在学习到的运动隐空间中,我们需要预测一个向量场 $v_t(x_t)$,其中 $x_t$ 是流动时间 $t$ 的样本,$c$ 表示 $T$ 个连续帧的驱动条件。这个向量场通过求解常微分方程(ODE)生成 $T$ 帧的流动。
我们基于 Transformer 编码器架构构建了向量场预测器,称为流匹配 Transformer(FMT)。具体来说,我们采用 DiT 架构来将逐帧条件与时间轴注意机制解耦,从而建模时间上一致的运动隐空间变量。
在 FMT 中,不同于 DiT 使用单个扩散时间步 embedding 进行调制,FMT 使用其对应的第 $t$ 个条件来调制每个第 $i$ 个输入隐空间变量,然后通过关注 $W$ 个相邻帧的掩码自注意力层来结合它们的时间关系。形式上,对于每个第 $i$ 帧,帧级 AdaLN 和帧级门控的计算方式确保了条件的精确注入。
为了使说话动作更具表现力和自然性,FLOAT 结合了语音驱动的情感。人类在说话时通过声音自然地反映情感,这些情感会影响说话的动作(例如,悲伤时可能摇头或避免眼神接触)。现有的工作多使用图像 - 情感配对数据,而我们利用预训练的语音情感预测器输出七种不同情感的 softmax 概率(愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶),并将其输入到 FMT 中。
针对语音判断情感模糊的问题,我们在训练阶段将情感与其他驱动条件一起注入,并在推理阶段对其进行修改,以实现灵活控制。
我们将预训练的 Wav2Vec2.0 的音频表示、语音情感标签和源运动隐空间变量进行拼接。接下来,将流时间步 embedding 添加到这些条件中,通过线性层生成最终的条件向量。为了处理长度超过窗口长度的序列平滑过渡,我们遵循惯例,通过附加前一个窗口的最后几个音频特征来扩展输入。
训练目标: 我们通过相应的音频片段和源运动隐空间变量计算目标向量场。选择一对驱动运动和相应的音频,构建目标向量场,其中噪声输入服从特定分布。由于我们预测的是矢量场而不是噪声,引入了速度损失来监督时间一致性。
总目标是速度损失与重构损失的加权和,平衡系数用于调节两者的重要性。在训练过程中,我们对条件和向量场应用 Dropout 以实现鲁棒性和平滑过渡。
推理过程: 在推理过程中,我们从噪声中采样生成向量场,使用驱动条件、情感标签以及前面几帧的音频和生成的向量场。我们扩展了 Classifier-Free Guidance (CFG) 到增量 CFG,以便分别调整音频和情感引导尺度。采样后,ODE 求解器接收估计的向量场,通过数值积分计算运动隐空间变量。实验发现,FLOAT 可以在大约 10 次函数评估(NFE)内生成合理的运动。
最后,将源身份隐空间变量添加到生成的运动隐空间变量中,并使用运动隐空间变量解码器将其解码为视频帧。
为了训练运动隐空间变量自动编码器,使用了三个开源数据集:HDTF、RAVDESS 和 VFHQ。在训练 FLOAT 时,排除了 VFHQ,因为它不支持同步音频。
预处理策略包括将视频转换为 25 FPS,音频重采样为 16 kHz,并使用 Facealignment 裁剪并调整面部区域大小至 512x512 分辨率。训练和测试的身份保持不重叠以确保评估的公正性。
为了全面评估图像和视频生成的质量,我们测量了以下指标:
我们将 FLOAT 与当前最先进的语音驱动说话者头像方法进行了比较,包括非扩散方法(SadTalker, EDTalk)和扩散方法(AniTalker, Hallo, EchoMimic)。定量和定性比较结果显示,FLOAT 在大多数指标和视觉质量上都优于其他方法。
FMT 与流匹配的有效性: 对比了使用逐帧 AdaLN 的 FMT 与基于交叉注意力的 Transformer。结果表明,FMT 在表情生成和唇同步方面表现更佳。同时,将流匹配与两种类型的扩散模型($eta$-predictor 和 $ u$-predictor)进行比较,流匹配在唇同步方面表现更佳,且运行速度比 Hallo 快 125 倍。
NFE(函数评估次数)的影响: 增加 NFE 可以减少 ODE 解误差。即使在 NFE=2 的情况下,FLOAT 也能实现有竞争力的图像质量和唇同步。但在捕捉一致且富有表现力的动作方面,较高的 NFE 有助于改善头部动作稳定性和表情丰富度。
引导尺度的影响: 对音频和情感引导尺度进行了消融研究。增加音频引导尺度可以提高时间一致性和唇同步质量;增加情感引导尺度可以改善视频表现力。这使得对情感音频驱动的说话者头像生成实现平衡控制。
额外的驱动信号: 实验了额外的驱动条件,包括驱动头部姿态和图像驱动的情感标签。引入姿态参数显著改善了图像和视频指标,因为驱动的头部姿态有助于捕捉目标分布。图像驱动的情感在情感密集数据集中取得了略好一些的指标,因为其相比语音驱动的方法稍微不那么模糊。
重定向语音驱动的情感: 由于 FLOAT 是在情感密集型视频数据集上训练的,可以通过手动将预测的情感标签重定向为另一种独热标签,在推理时将生成的情感感知说话动作更改为不同的情感。这在语音预测的情感复杂或模糊时非常有用。
用户研究: 进行了基于平均意见得分(MOS)的用户研究,比较每种方法的感知质量。15 名参与者根据五个评估因素对生成的视频进行评分。结果显示,FLOAT 在牙齿清晰度、情感自然性等方面优于基线方法。
FLOAT 是一种基于流匹配的音频驱动说话者头像生成模型,它利用了学习到的运动隐空间,有效解决了传统扩散模型在时间一致性和采样效率上的瓶颈。通过引入基于 Transformer 的矢量场预测器,实现了时间上一致的运动生成。此外,将语音驱动的情感标签纳入运动采样过程,显著提高了音频驱动说话动作的自然性。FLOAT 通过流匹配减少采样时间,同时实现了卓越的样本质量,为未来的数字人技术提供了新的解决方案。
参考资料:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online