Whisper Streaming 快速入门:搭建实时语音转录环境
Whisper Streaming 基于 OpenAI 的 Whisper 模型,实现了实时语音转录和翻译功能,特别适合长音频的流式处理。通过本地一致性策略和自适应延迟机制,它能够在保证高质量转录的同时,实现约 3.3 秒的延迟,适用于构建实时转录服务。
为什么选择 Whisper Streaming?
传统的 Whisper 模型设计用于处理最多 30 秒的音频片段,但在实时流式处理场景中表现不佳。Whisper Streaming 通过创新的本地一致性策略解决了这一难题,确保在低延迟的同时保持转录准确性。
核心优势
- 实时处理能力:支持流式音频输入,实现真正的实时转录
- 多语言支持:支持 Whisper 模型的所有语言
- 低延迟:平均延迟约 3.3 秒,适合实时应用场景
- 灵活的后端选择:支持 faster-whisper、whisper-timestamped、OpenAI API 和 Whisper MLX 多种后端
快速安装指南
环境准备
首先确保您的系统已安装 Python 3.8 或更高版本,然后执行以下命令:
pip install librosa soundfile
选择后端
根据您的硬件和需求选择最适合的后端:
Whisper MLX(苹果芯片优化)
pip install mlx-whisper
OpenAI API(无需 GPU,但需要付费)
pip install openai
whisper-timestamped(速度较慢但限制较少)
pip install git+https://github.com/linto-ai/whisper-timestamped
faster-whisper(推荐,支持 GPU 加速)
pip install faster-whisper
语音活动检测
为了获得更好的实时体验,强烈建议安装语音活动检测模块:
pip install torch torchaudio
快速上手:从音频文件开始
基础使用示例
最简单的使用方式是通过 whisper_online.py 脚本处理音频文件:
python3 whisper_online.py audio.wav --language en --min-chunk-size 1 > output.txt
关键参数说明
--language:指定源语言代码(如 en、zh、ja),或使用"auto"自动检测--min-chunk-size:最小音频块大小(秒),影响处理延迟--model:选择模型大小(tiny、base、small、medium、large 等)--task:选择转录(transcribe)或翻译(translate)任务
实时服务器配置
启动服务器
使用 启动实时转录服务器:

