CarelessWhisper: 将 Whisper 改造为因果流式语音识别模型
摘要
自动语音识别(ASR)已取得显著进展,像 OpenAI Whisper 和 NVIDIA Canary 这样的模型在离线转录方面实现了最先进的性能。然而,由于其架构和训练方法的限制,这些模型并非为流式(在线或实时)转录而设计。本文提出一种方法,将 Transformer 编码器 - 解码器模型转变为低延迟的流式模型,该模型不关心未来的上下文。我们提出了一个分析,解释为何将编码器 - 解码器 Transformer 转换为低延迟流式模型并非易事。提出的方法通过使用低秩适应(LoRA)和弱对齐数据集对编码器和解码器进行微调,将现有的非因果编码器修改为因果编码器。然后,提出了一种更新的推理机制,该机制利用微调后的因果编码器和解码器进行贪婪和束搜索解码,并被证明是局部最优的。在低延迟块大小(小于 300 毫秒)上的实验表明,微调的模型在大多数情况下优于现有的非微调流式方法,同时使用更低的复杂度。此外,观察到训练过程产生了更好的对齐,从而能够使用一种简单的方法来提取词级时间戳。
一、研究背景与问题
现状与挑战
Whisper 等先进语音识别模型在离线转录中表现出色,但由于其编码器的非因果性(需依赖未来上下文),无法直接用于低延迟实时流式转录。现有流式化方法存在计算效率低、延迟高、需额外模块或多轮解码等问题。
相关工作
近年来,自动语音识别系统取得了显著进展。自 Transformer 架构提出以来,已提出广泛的策略使其适应 ASR 任务。后一类中最著名的模型是 Whisper,它使用跨 100 种语言的 680,000 小时弱监督语音数据进行训练。其广泛的语言覆盖范围和抗噪鲁棒性使其成为多语言 ASR 的强大基线。
在离线设置中,Whisper 提供了近乎无与伦比的性能。然而,其非因果编码器限制了其处理流式输入的能力。一些工作探索在不进行额外训练的情况下使用 Whisper,采用启发式方法来实现流式处理。例如,Simul-Whisper 使用对齐头来决定何时发出一个 token,而 Ufal-Whisper 则依赖于音频缓冲区和局部一致性算法来生成实时转录。虽然两者都避免了微调,但它们的推理流程需要在每一步将输入填充到 30 秒,导致次优的计算效率。
U2-Whisper 提出使用因果掩码微调 Whisper 编码器,并从头开始训练一个新的连接主义时间分类(CTC)头。WhisperFlow 提出微调 Whisper 编码器以检测一个固定的静默词,从而使 Whisper 适应流式情况。
尽管越来越多的研究工作旨在将预训练模型(如 Whisper)适应于流式应用,但现有方法存在显著的局限性。一些方法未能实现真正的流式行为,而另一些则引入了高计算开销。此外,部分方法需要对模型架构进行修改或对整个模型进行微调,导致专为流式任务所需的参数数量大幅增加。
二、核心方法
1. 因果编码器改造
在 Whisper 的编码器中引入因果掩码(causal masking),使其仅依赖过去和当前语音帧,不依赖未来信息。提出分块注意力机制,支持以固定块大小(如 40、100、300 ms)逐步处理语音流。
2. 轻量级微调策略
使用 LoRA(Low-Rank Adaptation)对编码器和解码器进行微调,仅更新少量参数(低秩矩阵),保持模型大部分权重不变。在弱对齐的语音 - 文本数据集上训练,学习语音流与 token 输出之间的对齐关系。我们将 LoRA 层注入到编码器的自注意力层以及解码器的自注意力和交叉注意力层中。这种配置确保只需要训练 LoRA 组件,从而产生一个紧凑高效的模块,支持离线和流式转录功能。
3. 流式解码机制
提出稳定性检测机制:在贪婪解码和束搜索中,仅当 token 在连续块中预测一致时才输出,避免因信息不全导致错误。设计了流式贪婪解码和流式束搜索解码算法,支持实时 token 生成与回溯修正。我们的分析表明,所得到的输出是局部最优的,在流式 ASR 应用中提供了准确性和延迟之间的引人注目的平衡。
4. 词级时间戳生成
模型在训练过程中学会识别词边界,可在线生成词级时间戳,无需后处理对齐模块。这种训练策略鼓励模型在声学上更加对齐,隐式地学习改进的 token 边界预测。
三、实验与结果
英语转录实验
在 LibriSpeech 数据集上,CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。在 300 ms 延迟下,词错误率(WER)与离线 Whisper 接近,且推理速度更快。
多语言转录实验
在多语言 LibriSpeech 数据集上,模型在法语、德语等语言上表现良好,但略弱于 Ufal-Whisper(后者依赖完整话语一致性)。这可能是由于微调期间多语言曝光有限——与原始 Whisper 模型不同,微调的版本很可能没有保留足够的语言多样性以有效地跨多种语言泛化。
效率优势
由于引入 KV 缓存机制,编码器计算复杂度从 O(T^3) 降至 O(T^2),在低延迟场景中显著提升推理速度。在 A100 GPU 上,CarelessWhisper 比 Ufal-Whisper 快约 4 倍。编码器侧 KV 缓存的好处随着块大小的减小而变得更加明显。


