研究背景与问题
Whisper 等先进语音识别模型在离线转录中表现优异,但其编码器基于非因果 Transformer 架构,依赖未来上下文信息,无法直接应用于低延迟实时流式转录。现有的流式化方案往往面临计算效率低、延迟高或需要额外模块的问题。
核心方法
1. 因果编码器改造
通过在 Whisper 编码器中引入因果掩码(causal masking),使其仅依赖过去和当前的语音帧。同时提出分块注意力机制,支持以固定块大小(如 40ms、100ms、300ms)逐步处理语音流,确保推理过程不依赖未来信息。
2. 轻量级微调策略
采用 LoRA(Low-Rank Adaptation)对编码器和解码器进行微调,仅更新少量参数(低秩矩阵),保持模型大部分权重不变。训练数据选用弱对齐的语音 - 文本数据集,让模型学习语音流与 token 输出之间的对齐关系,无需额外的 CTC 头或两阶段解码。
3. 流式解码机制
设计稳定性检测机制:在贪婪解码和束搜索中,仅当 token 在连续块中预测一致时才输出,避免因信息不全导致错误。支持实时 token 生成与回溯修正,平衡了准确性与延迟。
4. 词级时间戳生成
模型在训练过程中学会识别词边界,可在线生成词级时间戳,无需后处理对齐模块。这种隐式的对齐学习使得时间戳提取更加自然且准确。
实验与结果
英语转录性能
在 LibriSpeech 数据集上,CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。在 300ms 延迟下,词错误率(WER)与离线 Whisper 接近,且推理速度更快。
多语言转录表现
在多语言 LibriSpeech 数据集上,模型在法语、德语等语言上表现良好,虽然略弱于 Ufal-Whisper,但后者依赖完整话语一致性,而本方案更侧重流式效率。
效率优势分析
引入 KV 缓存机制后,编码器计算复杂度从 O(T^3) 降至 O(T^2),在低延迟场景中显著提升推理速度。在 A100 GPU 上,CarelessWhisper 比 Ufal-Whisper 快约 4 倍。即使未使用 FlashAttention 等优化,其原始实现仍优于基线。
时间戳准确性
在 TIMIT 数据集上,模型生成的词级时间戳起始与结束边界精度优于 NVIDIA Canary 模型,尤其在高分辨率阈值下表现更佳。
局限性与未来方向
目前需为不同块大小训练独立模型,未来可探索动态掩码或可变块大小训练。此外,解码器 KV 缓存在流式场景中效果有限,后续可研究因果化交叉注意力以进一步提升效率。
总结
本研究通过 LoRA 微调和因果掩码,成功将 Whisper 改造为低延迟、高效率的流式语音识别模型。该方法在保持高精度的同时显著提升实时转录速度,并支持词级时间戳输出,为流式 ASR 研究提供了开源且高效的解决方案。


