CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

针对 Whisper 等非因果语音识别模型无法直接用于实时流式转录的问题，提出一种基于因果掩码和 LoRA 微调的解决方案。通过修改编码器注意力机制并引入分块处理策略，结合稳定性检测解码器，实现了低延迟下的流式推理。实验表明该方法在保持词错误率接近离线模型的同时，显著提升了推理速度，并支持在线词级时间戳生成，为实时 ASR 应用提供了高效且开源的替代方案。

热情发布于 2026/4/8更新于 2026/7/2039 浏览

研究背景与问题

Whisper 等先进语音识别模型在离线转录中表现优异，但其编码器基于非因果 Transformer 架构，依赖未来上下文信息，无法直接应用于低延迟实时流式转录。现有的流式化方案往往面临计算效率低、延迟高或需要额外模块的问题。

核心方法

1. 因果编码器改造

通过在 Whisper 编码器中引入因果掩码（causal masking），使其仅依赖过去和当前的语音帧。同时提出分块注意力机制，支持以固定块大小（如 40ms、100ms、300ms）逐步处理语音流，确保推理过程不依赖未来信息。

2. 轻量级微调策略

采用 LoRA（Low-Rank Adaptation）对编码器和解码器进行微调，仅更新少量参数（低秩矩阵），保持模型大部分权重不变。训练数据选用弱对齐的语音 - 文本数据集，让模型学习语音流与 token 输出之间的对齐关系，无需额外的 CTC 头或两阶段解码。

3. 流式解码机制

设计稳定性检测机制：在贪婪解码和束搜索中，仅当 token 在连续块中预测一致时才输出，避免因信息不全导致错误。支持实时 token 生成与回溯修正，平衡了准确性与延迟。

4. 词级时间戳生成

模型在训练过程中学会识别词边界，可在线生成词级时间戳，无需后处理对齐模块。这种隐式的对齐学习使得时间戳提取更加自然且准确。

实验与结果

英语转录性能

在 LibriSpeech 数据集上，CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。在 300ms 延迟下，词错误率（WER）与离线 Whisper 接近，且推理速度更快。

多语言转录表现

在多语言 LibriSpeech 数据集上，模型在法语、德语等语言上表现良好，虽然略弱于 Ufal-Whisper，但后者依赖完整话语一致性，而本方案更侧重流式效率。

效率优势分析

引入 KV 缓存机制后，编码器计算复杂度从 O(T^3) 降至 O(T^2)，在低延迟场景中显著提升推理速度。在 A100 GPU 上，CarelessWhisper 比 Ufal-Whisper 快约 4 倍。即使未使用 FlashAttention 等优化，其原始实现仍优于基线。

时间戳准确性

在 TIMIT 数据集上，模型生成的词级时间戳起始与结束边界精度优于 NVIDIA Canary 模型，尤其在高分辨率阈值下表现更佳。

局限性与未来方向

目前需为不同块大小训练独立模型，未来可探索动态掩码或可变块大小训练。此外，解码器 KV 缓存在流式场景中效果有限，后续可研究因果化交叉注意力以进一步提升效率。

总结

本研究通过 LoRA 微调和因果掩码，成功将 Whisper 改造为低延迟、高效率的流式语音识别模型。该方法在保持高精度的同时显著提升实时转录速度，并支持词级时间戳输出，为流式 ASR 研究提供了开源且高效的解决方案。

研究背景与问题

核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

模型在训练过程中学会识别词边界，可在线生成词级时间戳，无需后处理对齐模块。这种隐式的对齐学习使得时间戳提取更加自然且准确。

实验与结果

英语转录性能

多语言转录表现

在多语言 LibriSpeech 数据集上，模型在法语、德语等语言上表现良好，虽然略弱于 Ufal-Whisper，但后者依赖完整话语一致性，而本方案更侧重流式效率。

效率优势分析

时间戳准确性

在 TIMIT 数据集上，模型生成的词级时间戳起始与结束边界精度优于 NVIDIA Canary 模型，尤其在高分辨率阈值下表现更佳。

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

研究背景与问题

核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

实验与结果

英语转录性能

多语言转录表现

效率优势分析

时间戳准确性

局限性与未来方向

总结

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

研究背景与问题

核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

实验与结果

英语转录性能

多语言转录表现

效率优势分析

时间戳准确性

局限性与未来方向

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

研究背景与问题

核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

实验与结果

英语转录性能

多语言转录表现

效率优势分析

时间戳准确性

局限性与未来方向

总结

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

研究背景与问题

核心方法

1. 因果编码器改造

2. 轻量级微调策略

3. 流式解码机制

4. 词级时间戳生成

实验与结果

英语转录性能

多语言转录表现

效率优势分析

时间戳准确性

局限性与未来方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具