WhisperLiveKit 实时语音识别指南:从安装到生产部署
标准 Whisper 模型通常针对完整音频片段优化,直接处理实时流数据时容易出现上下文丢失或转录质量下降。WhisperLiveKit 通过整合 Simul-Whisper/Streaming 和 Sortformer 技术,解决了这些核心痛点,支持超低延迟转录、多语言互译及说话人分离。
环境准备与安装
项目支持 Linux、macOS 和 Windows 系统,推荐使用 Python 3.9 至 3.15 版本。基础安装只需一条命令:
pip install whisperlivekit
若需使用最新开发版,可通过源码安装:
git clone <repository_url>
cd WhisperLiveKit
pip install -e .
启动服务与 Web 界面
安装完成后,启动基础转录服务:
whisperlivekit-server --model base --language en
浏览器访问 http://localhost:8000 即可看到实时转录界面。默认配置下,系统会自动请求麦克风权限,开始说话后文字将实时显示在页面上。Web 界面提供了完整的控制选项,包括麦克风选择、WebSocket 连接配置和主题切换功能,且代码完全开源,可根据需求进行定制化开发。
模型选择与硬件优化
选择合适的模型是平衡性能与质量的关键。WhisperLiveKit 提供多种模型尺寸,满足不同硬件条件和精度需求:
| 模型 | 速度 | 精度 | 多语言支持 | 翻译功能 | 最佳使用场景 |
|---|---|---|---|---|---|
| tiny(.en) | 最快 | 基础 | 是/否 | 是/否 | 实时性优先,资源受限环境 |
| base(.en) | 快 | 良好 | 是/否 | 是/否 | 平衡性能与资源占用 |
| small(.en) | 中等 | 较好 | 是/否 | 是/否 | 有限硬件上的高质量需求 |
| medium(.en) | 慢 | 高 | 是/否 | 是/否 | 高质量需求,中等资源 |
| large-v2 | 最慢 | 优秀 | 是 | 是 | 最佳综合质量 |
| large-v3 | 最慢 | 卓越 | 是 | 是 | 最高精度需求 |
| large-v3-turbo | 快 | 卓越 | 是 | 否 | 快速高精度转录 |
不同模型的硬件需求差异较大:tiny 模型仅需约 1GB 显存,而 large 模型则需要 10GB 以上显存。large-v3-turbo 在保持高精度的同时提供更快速度,适合无翻译需求的场景。
硬件加速配置
针对不同硬件平台,WhisperLiveKit 提供优化选项:
NVIDIA GPU 加速:

