Llama-AVSR 论文阅读

文章配图

Background

Innovation

提出了 Llama-AVSR，这是一个利用预训练 LLM 进行 ASR、VSR 和 AVSR 任务的新框架。
参数高效：保持预训练的音频/视频编码器和 LLM 冻结（frozen），仅训练模态特定的投影层（Projectors）和 LLM 中的 LoRA 模块。
SOTA 性能：在最大的公共 AVSR 基准数据集 LRS3 上，ASR 和 AVSR 任务均取得了新的 SOTA 结果（WER 分别为 0.79% 和 0.77%）。
关键发现：揭示了预训练编码器的选择、LoRA 的集成方式以及**模态感知压缩率（modality-aware compression rates）**是性能与效率权衡的关键因素。

文章配图

该方法采用基于 Decoder-only 的架构。Pipeline 如图 1 所示。核心思想是将音频和视频特征转化为 LLM 可理解的 Token，与文本 Token 拼接后输入 LLM 进行自回归生成。

具体组件及流程：

模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)：
- 输入：原始音频波形和/或嘴部 ROI 视频帧。
- 处理：使用 Whisper 提取音频特征，使用 AV-HuBERT 提取视频特征。
- 状态：编码器在训练期间保持冻结。仅在 VSR 任务中，视频编码器会加入一个可训练的 LoRA 模块。
模态特定的投影器 (Modality-specific Projector)：
- 功能：连接编码器和 LLM，同时负责**降采样（Downsampling）**以减少计算量。
- 操作：首先将 K 个连续特征沿隐藏层维度拼接（压缩率为 K），然后通过两个线性层映射到 LLM 的嵌入空间。
- 输出：音频 Token (X_aud) 和视频 Token (X_vid)。
大语言模型 (LLM)：
- 模型：主要使用 Llama 3.1-8B（也探索了 TinyLlama, Llama2 等）。
- 输入：拼接后的序列：[Prompt + Audio/Video Tokens + Text Tokens]

更多推荐文章