跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
PythonAI算法

CarelessWhisper:将非因果 Whisper 改造为低延迟流式模型

CarelessWhisper 提出一种方法将非因果 Transformer 语音识别模型(如 Whisper)改造为低延迟流式模型。通过引入因果掩码和分块注意力机制,结合 LoRA 微调策略,模型仅依赖过去和当前语音帧进行推理。实验表明,该方法在保持高精度的同时显著降低计算复杂度,支持实时 token 生成与词级时间戳输出,且无需额外 CTC 头或两阶段解码。

清心发布于 2026/3/21更新于 2026/5/33 浏览
CarelessWhisper:将非因果 Whisper 改造为低延迟流式模型

CarelessWhisper:将非因果 Whisper 改造为低延迟流式模型

这篇笔记主要梳理了论文《CarelessWhisper: Turning Whisper into a Causal Streaming Model》的核心内容。该研究提出了一种方法,将原本用于离线转录的非因果 Transformer 语音识别模型(如 Whisper)改造为低延迟、实时流式的语音识别模型。

一、背景与挑战

Whisper 等先进模型在离线场景下表现优异,但其编码器依赖未来上下文信息(非因果性),导致无法直接应用于低延迟的实时流式转录。现有的流式化方案往往存在计算效率低、延迟高,或者需要额外模块和多轮解码的问题。

二、核心方法

1. 因果编码器改造

我们在 Whisper 的编码器中引入了因果掩码(causal masking),使其仅能依赖过去和当前的语音帧,彻底切断对未来的依赖。同时提出了分块注意力机制,支持以固定块大小(例如 40ms、100ms、300ms)逐步处理语音流。

2. 轻量级微调策略

采用 LoRA(Low-Rank Adaptation) 技术对编码器和解码器进行微调。我们只更新少量参数(低秩矩阵),保持模型大部分权重不变。训练数据选用弱对齐的语音 - 文本数据集,让模型学习语音流与 token 输出之间的对齐关系。

3. 流式解码机制

设计了稳定性检测机制:在贪婪解码和束搜索中,只有当 token 在连续块中预测一致时才输出,避免因信息不全导致的错误。同时实现了流式贪婪解码和流式束搜索解码算法,支持实时 token 生成与回溯修正。

4. 词级时间戳生成

模型在训练过程中学会了识别词边界,能够在线生成词级时间戳,无需后处理对齐模块。

三、实验结果

英语转录

在 LibriSpeech 数据集上,CarelessWhisper 在多个块大小设置下均优于 Simul-Whisper 和 Ufal-Whisper。特别是在 300ms 延迟下,其词错误率(WER)接近离线 Whisper,且推理速度更快。

多语言转录

在多语言 LibriSpeech 数据集上,模型在法语、德语等语言上表现良好。虽然略弱于 Ufal-Whisper(后者依赖完整话语一致性),但在资源受限场景下更具优势。

效率优势

得益于引入的 KV 缓存机制,编码器计算复杂度从 O(T^3) 降至 O(T^2),在低延迟场景中显著提升推理速度。在 A100 GPU 上,CarelessWhisper 比 Ufal-Whisper 快约 4 倍。

时间戳准确性

生成的词级时间戳在 TIMIT 数据集上表现优于 NVIDIA Canary 模型,尤其在起始与结束边界精度上更优。

四、贡献总结

  1. 首个因果化 Whisper 流式方案:无需两阶段解码或额外 CTC 头,直接改造编码器 - 解码器结构。
  2. 高效微调与推理:LoRA 微调参数量少,KV 缓存机制大幅降低计算开销。
  3. 支持在线时间戳:作为副产品,模型可输出高质量词级对齐信息。
  4. 开源代码与模型:发布训练和推理代码,促进流式 ASR 研究与应用。

五、局限性与未来方向

目前需要为不同块大小训练独立模型,未来可探索动态掩码或可变块大小训练。此外,解码器 KV 缓存在流式场景中效果有限,后续可研究因果化交叉注意力以进一步提升效率。

总的来说,这项研究通过 LoRA 微调和因果掩码,成功将 Whisper 改造为低延迟、高效率的流式语音识别模型,在保持高精度的同时显著提升了实时转录速度。

目录

  1. CarelessWhisper:将非因果 Whisper 改造为低延迟流式模型
  2. 一、背景与挑战
  3. 二、核心方法
  4. 1. 因果编码器改造
  5. 2. 轻量级微调策略
  6. 3. 流式解码机制
  7. 4. 词级时间戳生成
  8. 三、实验结果
  9. 英语转录
  10. 多语言转录
  11. 效率优势
  12. 时间戳准确性
  13. 四、贡献总结
  14. 五、局限性与未来方向
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • VSCode 新版禁用 Ctrl+I 快捷键唤起 Copilot AI 对话框
  • MySQL 性能优化:索引优化与查询优化
  • Zotero 论文阅读颜色标记体系
  • Llama-3.2-3B 入门指南:Ollama 部署与使用
  • Linux 基础指令与权限管理实战指南
  • LangChain 进阶:Vector Stores 向量存储详解
  • Git 分支管理指南:从基础概念到团队协作规范
  • Neo4j 图数据库与 JDK 安装配置教程
  • Spring 事务及其传播机制详解
  • Luma AI Dream Machine 视频生成模型评测与使用指南
  • GitHub 热榜日榜精选 (2026-01-10)
  • C++ 内存管理:new/delete 操作自定义类型的构造与析构原理
  • Flutter 三方库 webrtc_interface 的鸿蒙化适配指南
  • 机器人产业编程机遇:头部厂商生态与开发者路径
  • Python 文件操作详解:读写模式、序列化与路径管理
  • Android 智能座舱技术趋势与 Framework 核心解析
  • Web 虚拟卡销售平台实现方案
  • LLM 推理中处理超出上下文长度的外推方法
  • Copilot 最佳使用方式与深度配置指南
  • 大模型在医学领域的应用

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online