Llama-AVSR论文阅读

2025.3

1.摘要

background

  多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM结合音频编码器已在自动语音识别(ASR)上取得了SOTA效果 。

  然而,视觉和视听语音识别(VSR/AVSR)——这类利用唇部运动信息来增强抗噪能力的任务——却鲜有研究关注如何利用LLM来实现 。

  现有的AVSR方法通常依赖昂贵的大规模标注数据(如100K小时),或者复杂的自监督学习流程 。

innovation

  提出了 Llama-AVSR,这是一个利用预训练LLM进行ASR、VSR和AVSR任务的新框架 。

  参数高效:保持预训练的音频/视频编码器和LLM冻结(frozen),仅训练模态特定的投影层(Projectors)和LLM中的LoRA模块 。

  SOTA性能:在最大的公共AVSR基准数据集LRS3上,ASR和AVSR任务均取得了新的SOTA结果(WER分别为0.79%和0.77%) 。

  关键发现:揭示了预训练编码器的选择、LoRA的集成方式以及**模态感知压缩率(modality-aware compression rates)**是性能与效率权衡的关键因素 。

2. 方法 Method

总分结构汇报:

该方法采用基于Decoder-only的架构 15,Pipeline如图1所示 16。核心思想是将音频和视频特征转化为LLM可理解的Token,与文本Token拼接后输入LLM进行自回归生成。

具体组件及流程

    1. 模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)

输入:原始音频波形 和/或 嘴部ROI视频帧 17。

处理:使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征 18。

状态:编码器在训练期间保持冻结。仅在VSR任务中,视频编码器会加入一个可训练的LoRA模块 19。

    1. 模态特定的投影器 (Modality-specific Projector)

功能:连接编码器和LLM,同时负责**降采样(Downsampling)**以减少计算量 20202020。

操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到LLM的嵌入空间。

输出:音频Token (X_aud) 和 视频Token (X_vid)。

    1. 大语言模型 (LLM)

模型:主要使用 Llama 3.1-8B(也探索了TinyLlama, Llama2等) 23。

输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]

微调方式:LLM主体冻结,仅训练 LoRA 模块 25。

输出:自回归生成的文本转录 Y。

3. 实验 Experimental Results

  数据集

评测/训练核心:LRS3 (433小时标注视频) 28。

扩展数据:LRS3 + VoxCeleb2 (共1756小时,通过Whisper伪标注) 29。

低资源设置:LRS3 trainval set (30小时) 30。

  主要实验结论

  1. ASR性能:Llama-AVSR在1756小时数据下达到 0.79% WER,刷新SOTA。仅用433小时数据时(1.1% WER)也优于全量微调Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)31313131。
  2. VSR性能:在使用433小时数据时,优于之前的LLM基线(VSP-LLM),主要得益于使用了AV-HuBERT作为视觉编码器 32323232。
  3. AVSR性能:达到 0.77% WER (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性 33333333。
  4. 压缩率分析:音频Token可以承受较高的压缩率($K=5$)而不掉点;视频Token对压缩率敏感,$K$值增大性能下降明显 34343434。

4. 总结 Conclusion

利用现有的高性能预训练大模型(如Llama 3.1)和专用编码器(Whisper, AV-HuBERT),通过极少量的参数微调(LoRA + Projector),即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能 。

Read more

无人机知识科普之无人机发展简史(1)

无人机知识科普之无人机发展简史(1)

最近孩子放假回姥姥家,在辽宁阜新报了为期半个月的无人机课程。笔者这几天每天给他送到地方,然后他在楼上练习操作无人机,我就在楼下等着,上午两个小时、下午两个小时。 注:图片只是随拍,为了记录生活,并无其它引导和倾向。 2016年的时候曾经做过5个月的无人机研发工作,对无人机还是多少有一些了解的,也比较感兴趣,因此。在楼下等待的过程中,就四处看看有没有可以学习的知识。最终发现墙上有一些对无人机发展历史的较为详实生动的介绍,在此记录下来,算是对于无人机知识的一种补强,也算是真正陪孩子一起学习了。 无人机简史(OF DRONES A BRIEF HISTORY) 1. 古代简史 (1)鲁班造木鸟 人类向往天空的想法由来已久,中国古代就有嫦娥奔月、鲁班造木鸟的传说。 鲁班的木人木鹊:古代科技与手工艺巅峰之作 鲁班,中国古代的伟大发明家和工匠,以其巧夺天工的手艺和丰富的创造力,成为木工行业的祖师爷。他的众多发明中,最为人们乐道的莫过于木人木鹊。这项发明,展现了鲁班精湛的手工艺技巧,体现了古代科技的卓越水平。 木人木鹊的创作灵感来源于鲁班对于飞翔的渴望。他观察天空中的鸟儿,梦想着

直接能照着学、对应真实机器人研发岗的知识清单

我给你整理一份直接能照着学、对应真实机器人研发岗的知识清单,不分虚的,按「通用基础 → 细分岗位 → 学习路线」来写,你可以直接对标自己要走的方向。 一、所有机器人研发岗 必须会的通用知识 不管做硬件、软件、算法,这部分是底线: 1. 数学基础 * 高等数学(微积分、微分方程) * 线性代数(矩阵、旋转、四元数——机器人姿态核心) * 概率论与数理统计(滤波、定位、误差分析) 2. 编程基础 * C/C++(机器人实时控制、底层驱动必用) * Python(算法、调试、数据处理、快速原型) * Linux 系统(Ubuntu 为主,命令行、进程、文件系统) 3. 通用工程基础

终极指南:5步快速上手ESP-Drone开源无人机平台

终极指南:5步快速上手ESP-Drone开源无人机平台 【免费下载链接】esp-droneMini Drone/Quadcopter Firmware for ESP32 and ESP32-S Series SoCs. 项目地址: https://gitcode.com/GitHub_Trending/es/esp-drone ESP-Drone是一个基于ESP32系列芯片的完整开源无人机平台,为开发者和爱好者提供了从硬件设计到飞行控制的全套解决方案。这个项目不仅展示了如何构建一个功能完善的无人机系统,更重要的是它让任何人都能深入了解飞行控制的核心技术。 🚀 为什么选择ESP-Drone开源无人机平台? 如果你正在寻找一个既能学习嵌入式开发又能体验无人机技术的项目,ESP-Drone绝对是最佳选择。相比商业无人机,它具有以下独特优势: * 完全透明:所有代码和硬件设计都开源,你可以深入了解每一个技术细节 * 成本可控:硬件成本远低于同类商业产品,适合个人和小团队 * 易于定制:模块化设计让你可以轻松添加新功能或传感器 * 学习价值高:从PID控制算法到无线通信协

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧 【免费下载链接】hls4mlMachine learning on FPGAs using HLS 项目地址: https://gitcode.com/gh_mirrors/hl/hls4ml 想象一下,你训练了一个强大的深度学习模型,但它只能在云端运行,响应延迟让你无法接受。现在,一个名为hls4ml的开源项目正在改变这一现状,让机器学习模型能够直接在FPGA上实现低延迟、高吞吐量的推理加速。这个项目正迅速成为FPGA机器学习领域的明星工具!✨ 为什么选择FPGA推理加速? 在人工智能应用爆炸式增长的今天,传统的CPU和GPU已经无法满足某些场景对低延迟和能效比的严苛要求。FPGA凭借其可重构性和并行处理能力,在边缘计算、实时处理等领域展现出巨大优势。 hls4ml的核心优势: * 🚀 超低延迟:模型直接在硬件上运行,无需操作系统开销 * ⚡ 高吞吐量:充分利用FPGA的并行计算能力 * 🔋 能效比优异:相比GPU,FPGA在特定任务上能效比更高 * 🎯 定制化程度高:可根据具体需求优化硬件实现