摘要
背景
多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM 结合音频编码器已在自动语音识别(ASR)上取得了 SOTA 效果。然而,视觉和视听语音识别(VSR/AVSR)——这类利用唇部运动信息来增强抗噪能力的任务——却鲜有研究关注如何利用 LLM 来实现。现有的 AVSR 方法通常依赖昂贵的大规模标注数据(如 100K 小时),或者复杂的自监督学习流程。
创新点
提出了 Llama-AVSR,这是一个利用预训练 LLM 进行 ASR、VSR 和 AVSR 任务的新框架。其核心优势在于参数高效:保持预训练的音频/视频编码器和 LLM 冻结(frozen),仅训练模态特定的投影层(Projectors)和 LLM 中的 LoRA 模块。在最大的公共 AVSR 基准数据集 LRS3 上,ASR 和 AVSR 任务均取得了新的 SOTA 结果(WER 分别为 0.79% 和 0.77%)。此外,研究揭示了预训练编码器的选择、LoRA 的集成方式以及模态感知压缩率是性能与效率权衡的关键因素。
方法
该架构采用基于 Decoder-only 的设计,整体流程如图 1 所示。核心思路是将音频和视频特征转化为大语言模型可理解的 Token,与文本 Token 拼接后输入 LLM 进行自回归生成。
具体组件及流程如下:
-
模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)
- 输入:原始音频波形和/或嘴部 ROI 视频帧。
- 处理:使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征。
- 状态:编码器在训练期间保持冻结。仅在 VSR 任务中,视频编码器会加入一个可训练的 LoRA 模块。
-
模态特定的投影器 (Modality-specific Projector)
- 功能:连接编码器和 LLM,同时负责降采样(Downsampling)以减少计算量。
- 操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到 LLM 的嵌入空间。
- 输出:音频 Token (X_aud) 和 视频 Token (X_vid)。
-
大语言模型 (LLM)
- 模型:主要使用 Llama 3.1-8B(也探索了 TinyLlama, Llama2 等)。
- 输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]。
- 微调方式:LLM 主体冻结,仅训练 LoRA 模块。
- 输出:自回归生成的文本转录 Y。
实验结果
数据集
- 评测/训练核心:LRS3 (433 小时标注视频)。
- 扩展数据:LRS3 + VoxCeleb2 (共 1756 小时,通过 Whisper 伪标注)。
- 低资源设置:LRS3 trainval set (30 小时)。
主要结论
- ASR 性能:Llama-AVSR 在 1756 小时数据下达到 0.79% WER,刷新 SOTA。仅用 433 小时数据时(1.1% WER)也优于全量微调 Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)。
- VSR 性能:在使用 433 小时数据时,优于之前的 LLM 基线(VSP-LLM),主要得益于使用了 AV-HuBERT 作为视觉编码器。
- :达到 (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性。

