跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型 | 极客日志

编程语言AI算法

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

一种名为 CarelessWhisper 的方法，旨在将非因果 Transformer 语音识别模型（如 Whisper）改造为低延迟、实时流式模型。通过引入因果掩码和分块注意力机制，结合 LoRA 微调策略，模型仅依赖过去和当前语音帧。实验表明，该方法在 LibriSpeech 数据集上优于 Simul-Whisper 和 Ufal-Whisper，推理速度显著提升，并支持在线词级时间戳生成。

Pythonist发布于 2026/4/5更新于 2026/5/2223 浏览

CarelessWhisper: 将非因果 Whisper 改造为低延迟流式模型

研究背景与问题

现状：Whisper 等先进语音识别模型在离线转录中表现出色，但由于其编码器的非因果性（需依赖未来上下文），无法直接用于低延迟实时流式转录。
挑战：现有流式化方法存在计算效率低、延迟高、需额外模块或多轮解码等问题。

核心方法

1. 因果编码器改造

在 Whisper 的编码器中引入因果掩码（causal masking），使其仅依赖过去和当前语音帧，不依赖未来信息。
提出分块注意力机制，支持以固定块大小（如 40、100、300 ms）逐步处理语音流。

2. 轻量级微调策略

使用 LoRA（Low-Rank Adaptation）对编码器和解码器进行微调，仅更新少量参数（低秩矩阵），保持模型大部分权重不变。
在弱对齐的语音 - 文本数据集上训练，学习语音流与 token 输出之间的对齐关系。

3. 流式解码机制

提出稳定性检测机制：在贪婪解码和束搜索中，仅当 token 在连续块中预测一致时才输出，避免因信息不全导致错误。
设计了流式贪婪解码和流式束搜索解码算法，支持实时 token 生成与回溯修正。

4. 词级时间戳生成

模型在训练过程中学会识别词边界，可在线生成词级时间戳，无需后处理对齐模块。

实验与结果

英语转录实验

在 LibriSpeech 数据集上，CarelessWhisper 在多个块大小下优于 Simul-Whisper 和 Ufal-Whisper。
在 300 ms 延迟下，词错误率（WER）与离线 Whisper 接近，且推理速度更快。

多语言转录实验

在多语言 LibriSpeech 数据集上，模型在法语、德语等语言上表现良好，但略弱于 Ufal-Whisper（后者依赖完整话语一致性）。

效率优势

由于引入 KV 缓存机制，编码器计算复杂度从 O(T^3) 降至 O(T^2)，在低延迟场景中显著提升推理速度。
在 A100 GPU 上，CarelessWhisper 比 Ufal-Whisper 快约 4 倍。

时间戳准确性

模型生成的词级时间戳在 TIMIT 数据集上表现优于 NVIDIA Canary 模型，尤其在起始与结束边界精度上更优。

贡献总结

首个因果化 Whisper 流式方案：无需两阶段解码或额外 CTC 头，直接改造编码器 - 解码器结构。
高效微调与推理：LoRA 微调参数量少，KV 缓存机制大幅降低计算开销。
支持在线时间戳：作为副产品，模型可输出高质量词级对齐信息。
开源代码与模型：发布训练和推理代码，促进流式 ASR 研究与应用。

局限性与未来方向

需为不同块大小训练独立模型，未来可探索动态掩码或可变块大小训练。
解码器 KV 缓存在流式场景中效果有限，未来可研究因果化交叉注意力以进一步提升效率。

参考资源

论文原文：CarelessWhisper: Turning Whisper into a Causal Streaming Model
项目代码：CarelessWhisper-streaming

目录

研究背景与问题
核心方法
1. 因果编码器改造
2. 轻量级微调策略
3. 流式解码机制
4. 词级时间戳生成
实验与结果
英语转录实验
多语言转录实验
效率优势
时间戳准确性
贡献总结
局限性与未来方向
参考资源

💰 8折买阿里云服务器限时8折了解详情

Magick API 一键接入全球大模型注册送1000万token查看
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

低代码搭建 BPM 系统实操指南：流程引擎与表单设计
HTML 基础语法与核心标签详解
Coze AI 智能体平台工作流基础创建与核心节点实战
前端部署后浏览器报 MIME 类型错误排查
Git 版本控制工具详解：从入门到协作
C++ vector 常用成员函数的模拟实现
手机端运行 Stable Diffusion 的开源方案与使用指南
C++11 核心新特性详解
Kafka 核心架构与分布式存储深度解析
OpenClaw 系列：16 款 AI Agent 工具选型指南
Python Web 框架对比与实战：Django、Flask 与 FastAPI
C++ 手搓 AVL 树实现详解
Stable Diffusion WebUI 使用指南与参数配置
基于 Walsh-Hadamard 变换的量子仿真硬件架构与地址生成器设计
RexUniNLU 零样本 NLU 教程：WebUI 文件上传与 NER 可视化
OpenFPGA FPGA IP 核生成技术指南
基于 SpringBoot 的 KTV 在线点歌系统设计与实现
SpringBoot 集成 WebSSH 实现远程服务器连接
OpenDroneMap (ODM) 无人机影像三维模型重建安装与使用
基于边缘计算的机器人梯控系统多机并发调度与死锁解决方案

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online