CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

一种名为 CarelessWhisper 的方法，旨在将非因果的 Transformer 语音识别模型（如 Whisper）改造为低延迟、实时流式语音识别模型。主要技术包括在编码器中引入因果掩码和分块注意力机制，使用 LoRA 对编码器和解码器进行轻量级微调，并提出流式解码机制及稳定性检测。实验表明，该方法在 LibriSpeech 等多语言数据集上优于 Simul-Whisper 和 Ufal-Whisper，在 300ms 延迟下 WER 接近离线模型且推理速度提升显著。此外，模型还能在线生成高质量词级时间戳。尽管存在需为不同块大小训练独立模型等局限性，但该方案为流式 ASR 提供了高效且准确的解决方案。

FlinkHero发布于 2026/4/6更新于 2026/7/539 浏览

CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

摘要

自动语音识别（ASR）已取得显著进展，像 OpenAI Whisper 和 NVIDIA Canary 这样的模型在离线转录方面实现了最先进的性能。然而，由于其架构和训练方法的限制，这些模型并非为流式（在线或实时）转录而设计。本文提出一种方法，将 Transformer 编码器 - 解码器模型转变为低延迟的流式模型，该模型不关心未来的上下文。我们提出了一个分析，解释为何将编码器 - 解码器 Transformer 转换为低延迟流式模型并非易事。提出的方法通过使用低秩适应（LoRA）和弱对齐数据集对编码器和解码器进行微调，将现有的非因果编码器修改为因果编码器。然后，提出了一种更新的推理机制，该机制利用微调后的因果编码器和解码器进行贪婪和束搜索解码，并被证明是局部最优的。在低延迟块大小（小于 300 毫秒）上的实验表明，微调的模型在大多数情况下优于现有的非微调流式方法，同时使用更低的复杂度。此外，观察到训练过程产生了更好的对齐，从而能够使用一种简单的方法来提取词级时间戳。

一、研究背景与问题

现状与挑战

Whisper 等先进语音识别模型在离线转录中表现出色，但由于其编码器的非因果性（需依赖未来上下文），无法直接用于低延迟实时流式转录。现有流式化方法存在计算效率低、延迟高、需额外模块或多轮解码等问题。

二、核心方法

1. 因果编码器改造

在 Whisper 的编码器中引入因果掩码（causal masking），使其仅依赖过去和当前语音帧，不依赖未来信息。提出分块注意力机制，支持以固定块大小（如 40、100、300 ms）逐步处理语音流。

2. 轻量级微调策略

使用 LoRA（Low-Rank Adaptation）对编码器和解码器进行微调，仅更新少量参数（低秩矩阵），保持模型大部分权重不变。在弱对齐的语音 - 文本数据集上训练，学习语音流与 token 输出之间的对齐关系。我们将 LoRA 层注入到编码器的自注意力层以及解码器的自注意力和交叉注意力层中。这种配置确保只需要训练 LoRA 组件，从而产生一个紧凑高效的模块，支持离线和流式转录功能。

3. 流式解码机制

提出稳定性检测机制：在贪婪解码和束搜索中，仅当 token 在连续块中预测一致时才输出，避免因信息不全导致错误。设计了流式贪婪解码和流式束搜索解码算法，支持实时 token 生成与回溯修正。我们的分析表明，所得到的输出是局部最优的，在流式 ASR 应用中提供了准确性和延迟之间的引人注目的平衡。

4. 词级时间戳生成

模型在训练过程中学会识别词边界，可在线生成词级时间戳，无需后处理对齐模块。这种训练策略鼓励模型在声学上更加对齐，隐式地学习改进的 token 边界预测。

三、实验与结果

英语转录实验

在 LibriSpeech 数据集上，CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。在 300 ms 延迟下，词错误率（WER）与离线 Whisper 接近，且推理速度更快。

多语言转录实验

在多语言 LibriSpeech 数据集上，模型在法语、德语等语言上表现良好，但略弱于 Ufal-Whisper（后者依赖完整话语一致性）。这可能是由于微调期间多语言曝光有限——与原始 Whisper 模型不同，微调的版本很可能没有保留足够的语言多样性以有效地跨多种语言泛化。

CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

摘要

一、研究背景与问题

现状与挑战

相关工作

二、核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

三、实验与结果

英语转录实验

多语言转录实验

效率优势

更多推荐文章

相关免费在线工具

时间戳准确性

四、贡献总结

五、局限性与未来方向

六、结论

更多推荐文章

相关免费在线工具

CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型

摘要

一、研究背景与问题

现状与挑战

相关工作

二、核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

三、实验与结果

英语转录实验

多语言转录实验

效率优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

时间戳准确性

四、贡献总结

五、局限性与未来方向

六、结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具