跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Llama-AVSR 论文精读:基于 LLM 的视听语音识别新框架

综述由AI生成Llama-AVSR 提出利用预训练大语言模型进行视听语音识别的新框架。通过冻结音频视频编码器与 LLM,仅训练投影层与 LoRA 模块,实现参数高效微调。在 LRS3 数据集上,ASR 与 AVSR 任务均刷新 SOTA 记录,WER 分别达 0.79% 与 0.77%。研究证实模态感知压缩率与编码器选择对性能效率权衡至关重要,为低资源场景下的多模态理解提供了新思路。

路由之心发布于 2026/4/8更新于 2026/5/2514 浏览

摘要

背景

多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM 结合音频编码器已在自动语音识别(ASR)上取得了 SOTA 效果。然而,视觉和视听语音识别(VSR/AVSR)——这类利用唇部运动信息来增强抗噪能力的任务——却鲜有研究关注如何利用 LLM 来实现。现有的 AVSR 方法通常依赖昂贵的大规模标注数据(如 100K 小时),或者复杂的自监督学习流程。

创新点

提出了 Llama-AVSR,这是一个利用预训练 LLM 进行 ASR、VSR 和 AVSR 任务的新框架。其核心优势在于参数高效:保持预训练的音频/视频编码器和 LLM 冻结(frozen),仅训练模态特定的投影层(Projectors)和 LLM 中的 LoRA 模块。在最大的公共 AVSR 基准数据集 LRS3 上,ASR 和 AVSR 任务均取得了新的 SOTA 结果(WER 分别为 0.79% 和 0.77%)。此外,研究揭示了预训练编码器的选择、LoRA 的集成方式以及模态感知压缩率是性能与效率权衡的关键因素。

方法

该架构采用基于 Decoder-only 的设计,整体流程如图 1 所示。核心思路是将音频和视频特征转化为大语言模型可理解的 Token,与文本 Token 拼接后输入 LLM 进行自回归生成。

具体组件及流程如下:

  1. 模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)

    • 输入:原始音频波形和/或嘴部 ROI 视频帧。
    • 处理:使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征。
    • 状态:编码器在训练期间保持冻结。仅在 VSR 任务中,视频编码器会加入一个可训练的 LoRA 模块。
  2. 模态特定的投影器 (Modality-specific Projector)

    • 功能:连接编码器和 LLM,同时负责降采样(Downsampling)以减少计算量。
    • 操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到 LLM 的嵌入空间。
    • 输出:音频 Token (X_aud) 和 视频 Token (X_vid)。
  3. 大语言模型 (LLM)

    • 模型:主要使用 Llama 3.1-8B(也探索了 TinyLlama, Llama2 等)。
    • 输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]。
    • 微调方式:LLM 主体冻结,仅训练 LoRA 模块。
    • 输出:自回归生成的文本转录 Y。

实验结果

数据集

  • 评测/训练核心:LRS3 (433 小时标注视频)。
  • 扩展数据:LRS3 + VoxCeleb2 (共 1756 小时,通过 Whisper 伪标注)。
  • 低资源设置:LRS3 trainval set (30 小时)。

主要结论

  1. ASR 性能:Llama-AVSR 在 1756 小时数据下达到 0.79% WER,刷新 SOTA。仅用 433 小时数据时(1.1% WER)也优于全量微调 Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)。
  2. VSR 性能:在使用 433 小时数据时,优于之前的 LLM 基线(VSP-LLM),主要得益于使用了 AV-HuBERT 作为视觉编码器。
  3. :达到 (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性。
AVSR 性能
0.77% WER
  • 压缩率分析:音频 Token 可以承受较高的压缩率($K=5$)而不掉点;视频 Token 对压缩率敏感,$K$值增大性能下降明显。
  • 总结

    利用现有的高性能预训练大模型(如 Llama 3.1)和专用编码器(Whisper, AV-HuBERT),通过极少量的参数微调(LoRA + Projector),即可在视听语音识别任务上达到超越传统全量训练方法的 SOTA 性能。

    目录

    1. 摘要
    2. 方法
    3. 实验结果
    4. 总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 使用 LLaMA-Factory 微调 Qwen2.5 并转换为 GGUF 格式部署
    • GESP 2025 年 12 月 C++ 七级认证真题与解析(单选题 1-7)
    • FAIR plus 机器人全产业链接会:链动全球智能新机遇
    • Android 性能优化核心策略与大厂实战案例解析
    • Java SpringBoot+Vue 智能客服后台实战:从零搭建到生产部署
    • 前后端分离与不分离架构对比分析
    • 为何部分资深开发者对 Python 持保留态度?
    • AIGC Bar API 站接入与使用指南
    • 利用浏览器插件 Web Scraper 抓取知乎评论数据
    • OpenAI Whisper 语音转文本技术指南
    • C++ Set 与 Map 底层实现及高频算法实战
    • C++ 继承进阶:友元、静态成员与菱形继承解析
    • MySQL Range 分区实战:解决千万级数据查询性能瓶颈
    • Java 安全开发实战:从代码防护到架构安全
    • 2026 年编程语言排行:Python 稳居榜首,Rust 强势崛起
    • Linux 系统进阶:Git 远程协作与分支管理实战
    • 腾讯混元 Hunyuan3D-Part:3D 部件生成架构解析
    • Arch Linux AUR 包管理工具 Paru 使用指南
    • GitHub Copilot 实战指南:提升 Python 开发效率的 AI 助手
    • 腾讯云服务器部署 OpenClaw 对接飞书实战详解

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online