FLOAT：基于流匹配的音频驱动说话者头像生成模型

FLOAT：基于流匹配的音频驱动说话者头像生成模型 | 极客日志

FLOAT：基于流匹配的音频驱动说话者头像生成模型

引言

在数字人、虚拟主播及影视特效领域，音频驱动的说话者头像生成（Audio-Driven Talking Head Generation）是一项关键技术。传统的基于扩散的生成模型虽然能生成高质量图像，但在视频生成任务中往往面临迭代采样导致的时间一致性问题，且生成速度较慢。为了解决这些核心限制，FLOAT（Flow Matching for Audio-driven Talking Heads）提出了一种基于流匹配的新范式。

FLOAT 利用学习的运动隐空间替代了传统的基于像素的隐空间，显著提高了时间一致性设计的效率。通过引入基于 Transformer 的流向量场预测器，该模型实现了快速采样，并支持语音驱动的情感控制。大量实验表明，FLOAT 在视觉质量、运动保真度和生成效率上均优于现有的扩散和非扩散方法。

方法：音频驱动的说话头像的流程匹配

整体流程

FLOAT 的整体架构包含两个主要阶段。首先，预训练一个运动自动编码器（Motion Autoencoder），为说话头像提供具有表现力和平滑的运动隐空间。其次，采用流匹配方法，使用基于 Transformer 的向量场预测器生成一系列运动隐空间变量，并将其解码为说话头像视频。得益于强大的向量场架构，模型还能将语音驱动的情感作为驱动条件纳入，实现情感感知的生成。

给定源图像 $I_s$ 和一个长度为 $T$ 的驱动音频信号 $A$，方法生成包含 $T$ 帧的视频，该视频具有与音频同步的说话头像动作，包括语言和非语言动作。

FLOAT 模型架构示意图

运动隐空间自动编码器

近期的说话头像方法常利用 Stable Diffusion (SD) 的 VAE，因其具有丰富的基于像素的语义隐空间。然而，当应用于视频生成时，这些方法难以生成时间一致的帧。因此，FLOAT 的目标是为逼真的说话头像获得良好的运动隐空间，能够捕捉全局（如头部运动）和细粒度局部（如面部表情、嘴部运动、瞳孔运动）动态。

为此，我们采用隐空间图像动画器 (LIA) 作为运动自动编码器，而非 SD 的 VAE。关键区别在于训练目标：LIA 被训练为从同一视频片段中采样的源图像重建驱动图像，这要求隐空间编码包含能够捕捉时间上相邻和远离运动的隐式信息。

运动自动编码器可以将源 $I_s$ 编码为隐空间表示，并进行显式分解：

$$ z = [z_{id}, z_{motion}] $$

其中，$z_{id}$ 是身份隐空间表示，而 $z_{motion}$ 是运动隐空间表示。在这个空间中，运动具有 $K$ 个不同的正交运动基，其强度由系数决定。这种显式分解是通过引入源无关的运动基来实现的。

由于生成运动的表现力和图像保真度主要由运动隐空间决定，我们将原始 LIA 架构扩展以生成更高分辨率的图像。此外，引入了一种简单但有效的面部组件感知损失，显著提高了图像保真度（例如牙齿和眼睛细节）以及细粒度运动（例如眼球和眉毛的运动）。

运动隐空间中的流匹配

在学习到的运动隐空间中，我们需要预测一个向量场 $v_t(x_t)$，其中 $x_t$ 是流动时间 $t$ 的样本，$c$ 表示 $T$ 个连续帧的驱动条件。这个向量场通过求解常微分方程（ODE）生成 $T$ 帧的流动。

我们基于 Transformer 编码器架构构建了向量场预测器，称为流匹配 Transformer（FMT）。具体来说，我们采用 DiT 架构来将逐帧条件与时间轴注意机制解耦，从而建模时间上一致的运动隐空间变量。

在 FMT 中，不同于 DiT 使用单个扩散时间步 embedding 进行调制，FMT 使用其对应的第 $t$ 个条件来调制每个第 $i$ 个输入隐空间变量，然后通过关注 $W$ 个相邻帧的掩码自注意力层来结合它们的时间关系。形式上，对于每个第 $i$ 帧，帧级 AdaLN 和帧级门控的计算方式确保了条件的精确注入。

语音驱动的情感标签

为了使说话动作更具表现力和自然性，FLOAT 结合了语音驱动的情感。人类在说话时通过声音自然地反映情感，这些情感会影响说话的动作（例如，悲伤时可能摇头或避免眼神接触）。现有的工作多使用图像 - 情感配对数据，而我们利用预训练的语音情感预测器输出七种不同情感的 softmax 概率（愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶），并将其输入到 FMT 中。

针对语音判断情感模糊的问题，我们在训练阶段将情感与其他驱动条件一起注入，并在推理阶段对其进行修改，以实现灵活控制。

驱动条件与训练

我们将预训练的 Wav2Vec2.0 的音频表示、语音情感标签和源运动隐空间变量进行拼接。接下来，将流时间步 embedding 添加到这些条件中，通过线性层生成最终的条件向量。为了处理长度超过窗口长度的序列平滑过渡，我们遵循惯例，通过附加前一个窗口的最后几个音频特征来扩展输入。

训练目标： 我们通过相应的音频片段和源运动隐空间变量计算目标向量场。选择一对驱动运动和相应的音频，构建目标向量场，其中噪声输入服从特定分布。由于我们预测的是矢量场而不是噪声，引入了速度损失来监督时间一致性。

总目标是速度损失与重构损失的加权和，平衡系数用于调节两者的重要性。在训练过程中，我们对条件和向量场应用 Dropout 以实现鲁棒性和平滑过渡。

推理过程： 在推理过程中，我们从噪声中采样生成向量场，使用驱动条件、情感标签以及前面几帧的音频和生成的向量场。我们扩展了 Classifier-Free Guidance (CFG) 到增量 CFG，以便分别调整音频和情感引导尺度。采样后，ODE 求解器接收估计的向量场，通过数值积分计算运动隐空间变量。实验发现，FLOAT 可以在大约 10 次函数评估（NFE）内生成合理的运动。

最后，将源身份隐空间变量添加到生成的运动隐空间变量中，并使用运动隐空间变量解码器将其解码为视频帧。

实验与分析

数据集和预处理

为了训练运动隐空间变量自动编码器，使用了三个开源数据集：HDTF、RAVDESS 和 VFHQ。在训练 FLOAT 时，排除了 VFHQ，因为它不支持同步音频。

HDTF：用于高分辨率说话人面部生成，包含超过 300 个不同身份的视频。
RAVDESS：包含 24 个不同身份的 2400 多个情感密集型视频。
VFHQ：设计用于高分辨率视频超分辨率，弥补了前面数据集中身份数量的不足。

预处理策略包括将视频转换为 25 FPS，音频重采样为 16 kHz，并使用 Facealignment 裁剪并调整面部区域大小至 512x512 分辨率。训练和测试的身份保持不重叠以确保评估的公正性。

实现细节

求解器：使用欧拉方法作为 ODE 求解器。
隐空间维度：设置为 256，具有 16 个不同的正交方向。
FMT 配置：使用 8 个注意力头，隐藏维度 768，注意力窗口长度 16。
生成设置：一次生成 16 帧，使用前面的 16 帧，总共涵盖 2.4 秒的视频。
优化器：采用 Adam 优化器，批量大小为 8，学习率为 1e-4。
硬件：整个训练在一台 NVIDIA A100 GPU 上进行，大约需要 2 天，共计完成 2000k 步骤。

评估指标与结果

为了全面评估图像和视频生成的质量，我们测量了以下指标：

Fréchet Inception Distance (FID)：衡量生成图像与真实图像的分布距离。
Fréchet Video Distance (FVD)：衡量生成视频与真实视频的分布距离。
身份相似度 (CSIM)：面部身份 embedding 的余弦相似度。
表情 FID (E-FID)：表情的分布距离。
姿态 FID (P-FID)：头部姿态的分布距离。
唇同步误差 (LSE-D, LSE-C)：音频与视觉对齐的距离和置信度。

我们将 FLOAT 与当前最先进的语音驱动说话者头像方法进行了比较，包括非扩散方法（SadTalker, EDTalk）和扩散方法（AniTalker, Hallo, EchoMimic）。定量和定性比较结果显示，FLOAT 在大多数指标和视觉质量上都优于其他方法。

消融研究

FMT 与流匹配的有效性： 对比了使用逐帧 AdaLN 的 FMT 与基于交叉注意力的 Transformer。结果表明，FMT 在表情生成和唇同步方面表现更佳。同时，将流匹配与两种类型的扩散模型（$eta$-predictor 和 $ u$-predictor）进行比较，流匹配在唇同步方面表现更佳，且运行速度比 Hallo 快 125 倍。

NFE（函数评估次数）的影响： 增加 NFE 可以减少 ODE 解误差。即使在 NFE=2 的情况下，FLOAT 也能实现有竞争力的图像质量和唇同步。但在捕捉一致且富有表现力的动作方面，较高的 NFE 有助于改善头部动作稳定性和表情丰富度。

引导尺度的影响： 对音频和情感引导尺度进行了消融研究。增加音频引导尺度可以提高时间一致性和唇同步质量；增加情感引导尺度可以改善视频表现力。这使得对情感音频驱动的说话者头像生成实现平衡控制。

进一步的研究

额外的驱动信号： 实验了额外的驱动条件，包括驱动头部姿态和图像驱动的情感标签。引入姿态参数显著改善了图像和视频指标，因为驱动的头部姿态有助于捕捉目标分布。图像驱动的情感在情感密集数据集中取得了略好一些的指标，因为其相比语音驱动的方法稍微不那么模糊。

重定向语音驱动的情感： 由于 FLOAT 是在情感密集型视频数据集上训练的，可以通过手动将预测的情感标签重定向为另一种独热标签，在推理时将生成的情感感知说话动作更改为不同的情感。这在语音预测的情感复杂或模糊时非常有用。

用户研究： 进行了基于平均意见得分（MOS）的用户研究，比较每种方法的感知质量。15 名参与者根据五个评估因素对生成的视频进行评分。结果显示，FLOAT 在牙齿清晰度、情感自然性等方面优于基线方法。

结论

FLOAT 是一种基于流匹配的音频驱动说话者头像生成模型，它利用了学习到的运动隐空间，有效解决了传统扩散模型在时间一致性和采样效率上的瓶颈。通过引入基于 Transformer 的矢量场预测器，实现了时间上一致的运动生成。此外，将语音驱动的情感标签纳入运动采样过程，显著提高了音频驱动说话动作的自然性。FLOAT 通过流匹配减少采样时间，同时实现了卓越的样本质量，为未来的数字人技术提供了新的解决方案。

参考资料：

论文链接：https://arxiv.org/pdf/2412.01064
GitHub 仓库：https://deepbrainai-research.github.io/float/

FLOAT：基于流匹配的音频驱动说话者头像生成模型