
摘要
Background
- 多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM 结合音频编码器已在自动语音识别(ASR)上取得了 SOTA 效果。
- 然而,视觉和视听语音识别(VSR/AVSR)——这类利用唇部运动信息来增强抗噪能力的任务——却鲜有研究关注如何利用 LLM 来实现。
- 现有的 AVSR 方法通常依赖昂贵的大规模标注数据(如 100K 小时),或者复杂的自监督学习流程。
Innovation
- 提出了 Llama-AVSR,这是一个利用预训练 LLM 进行 ASR、VSR 和 AVSR 任务的新框架。
- 参数高效:保持预训练的音频/视频编码器和 LLM 冻结(frozen),仅训练模态特定的投影层(Projectors)和 LLM 中的 LoRA 模块。
- SOTA 性能:在最大的公共 AVSR 基准数据集 LRS3 上,ASR 和 AVSR 任务均取得了新的 SOTA 结果(WER 分别为 0.79% 和 0.77%)。
- 关键发现:揭示了预训练编码器的选择、LoRA 的集成方式以及**模态感知压缩率(modality-aware compression rates)**是性能与效率权衡的关键因素。
方法 Method

该方法采用基于 Decoder-only 的架构。Pipeline 如图 1 所示。核心思想是将音频和视频特征转化为 LLM 可理解的 Token,与文本 Token 拼接后输入 LLM 进行自回归生成。
具体组件及流程:
-
模态特定的预训练编码器 (Modality-specific Pre-trained Encoders):
- 输入:原始音频波形 和/或 嘴部 ROI 视频帧。
- 处理:使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征。
- 状态:编码器在训练期间保持冻结。仅在 VSR 任务中,视频编码器会加入一个可训练的 LoRA 模块。
-
模态特定的投影器 (Modality-specific Projector):
- 功能:连接编码器和 LLM,同时负责**降采样(Downsampling)**以减少计算量。
- 操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到 LLM 的嵌入空间。
- 输出:音频 Token (X_aud) 和 视频 Token (X_vid)。
-
大语言模型 (LLM):
- 模型:主要使用 Llama 3.1-8B(也探索了 TinyLlama, Llama2 等)。
- 输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]

