Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

综述由AI生成Llama-AVSR 提出利用预训练大语言模型进行视听语音识别的新框架。通过冻结音频视频编码器与 LLM，仅训练投影层与 LoRA 模块，实现参数高效微调。在 LRS3 数据集上，ASR 与 AVSR 任务均刷新 SOTA 记录，WER 分别达 0.79% 与 0.77%。研究证实模态感知压缩率与编码器选择对性能效率权衡至关重要，为低资源场景下的多模态理解提供了新思路。

路由之心发布于 2026/4/8更新于 2026/5/2514 浏览

摘要

背景

多模态大语言模型（MLLMs）在多模态理解方面表现出色。在音频和语音领域，LLM 结合音频编码器已在自动语音识别（ASR）上取得了 SOTA 效果。然而，视觉和视听语音识别（VSR/AVSR）——这类利用唇部运动信息来增强抗噪能力的任务——却鲜有研究关注如何利用 LLM 来实现。现有的 AVSR 方法通常依赖昂贵的大规模标注数据（如 100K 小时），或者复杂的自监督学习流程。

创新点

提出了 Llama-AVSR，这是一个利用预训练 LLM 进行 ASR、VSR 和 AVSR 任务的新框架。其核心优势在于参数高效：保持预训练的音频/视频编码器和 LLM 冻结（frozen），仅训练模态特定的投影层（Projectors）和 LLM 中的 LoRA 模块。在最大的公共 AVSR 基准数据集 LRS3 上，ASR 和 AVSR 任务均取得了新的 SOTA 结果（WER 分别为 0.79% 和 0.77%）。此外，研究揭示了预训练编码器的选择、LoRA 的集成方式以及模态感知压缩率是性能与效率权衡的关键因素。

方法

该架构采用基于 Decoder-only 的设计，整体流程如图 1 所示。核心思路是将音频和视频特征转化为大语言模型可理解的 Token，与文本 Token 拼接后输入 LLM 进行自回归生成。

具体组件及流程如下：

模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)
- 输入：原始音频波形和/或嘴部 ROI 视频帧。
- 处理：使用 Whisper 提取音频特征，使用 AV-HuBERT 提取视频特征。
- 状态：编码器在训练期间保持冻结。仅在 VSR 任务中，视频编码器会加入一个可训练的 LoRA 模块。
模态特定的投影器 (Modality-specific Projector)
- 功能：连接编码器和 LLM，同时负责降采样（Downsampling）以减少计算量。
- 操作：首先将 K 个连续特征沿隐藏层维度拼接（压缩率为 K），然后通过两个线性层映射到 LLM 的嵌入空间。
- 输出：音频 Token (X_aud) 和视频 Token (X_vid)。
大语言模型 (LLM)
- 模型：主要使用 Llama 3.1-8B（也探索了 TinyLlama, Llama2 等）。
- 输入：拼接后的序列：[Prompt + Audio/Video Tokens + Text Tokens]。
- 微调方式：LLM 主体冻结，仅训练 LoRA 模块。
- 输出：自回归生成的文本转录 Y。

实验结果

数据集

评测/训练核心：LRS3 (433 小时标注视频)。
扩展数据：LRS3 + VoxCeleb2 (共 1756 小时，通过 Whisper 伪标注)。
低资源设置：LRS3 trainval set (30 小时)。

主要结论

ASR 性能：Llama-AVSR 在 1756 小时数据下达到 0.79% WER，刷新 SOTA。仅用 433 小时数据时（1.1% WER）也优于全量微调 Whisper-Large（2.3% WER）的方法，且参数量极少（42M vs 1.5B）。
VSR 性能：在使用 433 小时数据时，优于之前的 LLM 基线（VSP-LLM），主要得益于使用了 AV-HuBERT 作为视觉编码器。
：达到 (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性。

Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

路由之心发布于 2026/4/8更新于 2026/5/2514 浏览

摘要

背景

创新点

方法

具体组件及流程如下：

模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)
- 输入：原始音频波形和/或嘴部 ROI 视频帧。
- 处理：使用 Whisper 提取音频特征，使用 AV-HuBERT 提取视频特征。
- 状态：编码器在训练期间保持冻结。仅在 VSR 任务中，视频编码器会加入一个可训练的 LoRA 模块。
模态特定的投影器 (Modality-specific Projector)
- 功能：连接编码器和 LLM，同时负责降采样（Downsampling）以减少计算量。
- 操作：首先将 K 个连续特征沿隐藏层维度拼接（压缩率为 K），然后通过两个线性层映射到 LLM 的嵌入空间。
- 输出：音频 Token (X_aud) 和视频 Token (X_vid)。
大语言模型 (LLM)
- 模型：主要使用 Llama 3.1-8B（也探索了 TinyLlama, Llama2 等）。
- 输入：拼接后的序列：[Prompt + Audio/Video Tokens + Text Tokens]。
- 微调方式：LLM 主体冻结，仅训练 LoRA 模块。
- 输出：自回归生成的文本转录 Y。

实验结果

数据集

评测/训练核心：LRS3 (433 小时标注视频)。
扩展数据：LRS3 + VoxCeleb2 (共 1756 小时，通过 Whisper 伪标注)。
低资源设置：LRS3 trainval set (30 小时)。

主要结论

ASR 性能：Llama-AVSR 在 1756 小时数据下达到 0.79% WER，刷新 SOTA。仅用 433 小时数据时（1.1% WER）也优于全量微调 Whisper-Large（2.3% WER）的方法，且参数量极少（42M vs 1.5B）。
VSR 性能：在使用 433 小时数据时，优于之前的 LLM 基线（VSP-LLM），主要得益于使用了 AV-HuBERT 作为视觉编码器。
：达到 (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性。

Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

摘要

方法

实验结果

Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

摘要

方法

实验结果

更多推荐文章

相关免费在线工具

总结

更多推荐文章

相关免费在线工具

Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

摘要

方法

实验结果

Llama-AVSR 论文精读：基于 LLM 的视听语音识别新框架

摘要

方法

实验结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具