CarelessWhisper: 将非因果 Whisper 改造为因果流式模型
CarelessWhisper 提出一种基于 LoRA 微调和因果掩码的方法,成功将 Whisper 改造为低延迟、高效率的流式语音识别模型。该方法通过修改编码器使其仅依赖过去和当前语音帧,支持固定块大小逐步处理。实验显示其在多语言转录中优于现有流式方案,推理速度显著提升,并支持在线词级时间戳输出。

CarelessWhisper 提出一种基于 LoRA 微调和因果掩码的方法,成功将 Whisper 改造为低延迟、高效率的流式语音识别模型。该方法通过修改编码器使其仅依赖过去和当前语音帧,支持固定块大小逐步处理。实验显示其在多语言转录中优于现有流式方案,推理速度显著提升,并支持在线词级时间戳输出。

Whisper 等先进语音识别模型在离线转录中表现出色,但由于其编码器的非因果性(需依赖未来上下文),无法直接用于低延迟实时流式转录。现有流式化方法存在计算效率低、延迟高、需额外模块或多轮解码等问题。
在 Whisper 的编码器中引入因果掩码(causal masking),使其仅依赖过去和当前语音帧,不依赖未来信息。提出分块注意力机制,支持以固定块大小(如 40、100、300 ms)逐步处理语音流。
使用 LoRA(Low-Rank Adaptation)对编码器和解码器进行微调,仅更新少量参数(低秩矩阵),保持模型大部分权重不变。在弱对齐的语音 - 文本数据集上训练,学习语音流与 token 输出之间的对齐关系。
提出稳定性检测机制:在贪婪解码和束搜索中,仅当 token 在连续块中预测一致时才输出,避免因信息不全导致错误。设计了流式贪婪解码和流式束搜索解码算法,支持实时 token 生成与回溯修正。
模型在训练过程中学会识别词边界,可在线生成词级时间戳,无需后处理对齐模块。
在 LibriSpeech 数据集上,CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。在 300 ms 延迟下,词错误率(WER)与离线 Whisper 接近,且推理速度更快。
在多语言 LibriSpeech 数据集上,模型在法语、德语等语言上表现良好,但略弱于 Ufal-Whisper(后者依赖完整话语一致性)。这可能是因为微调期间多语言曝光有限,未能保留足够的语言多样性以有效跨多种语言泛化。
由于引入 KV 缓存机制,编码器计算复杂度从 O(T^3) 降至 O(T^2),在低延迟场景中显著提升推理速度。在 A100 GPU 上,CarelessWhisper 比 Ufal-Whisper 快约 4 倍。
模型生成的词级时间戳在 TIMIT 数据集上表现优于 NVIDIA Canary 模型,尤其在起始与结束边界精度上更优。尽管 Canary 模型精确率和召回率较高,但在起始差异(SD)和结束差异(ED)方面表现不佳。
本研究提出了一种基于 LoRA 微调和因果掩码的方法,成功将 Whisper 改造为低延迟、高效率的流式语音识别模型,在保持高精度的同时显著提升实时转录速度,并支持词级时间戳输出。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online