WhisperLiveKit 简介
WhisperLiveKit 是一个开源项目,旨在提供本地化的实时语音转文字解决方案,同时支持说话人识别功能。对于需要处理会议记录、线上讨论或敏感音频数据的场景,本地部署能有效避免隐私泄露风险。
核心特性
传统的语音转文字工具往往面临延迟高、多人发言混淆或依赖云端的问题。WhisperLiveKit 针对这些痛点进行了优化:
- 低延迟转录:采用 SimulStreaming 技术,将转录延迟控制在秒级,实现近乎实时的文字同步显示。
- 精准说话人识别:结合 Streaming Sortformer 和 Diart 双引擎,能够清晰区分不同发言者(如 Speaker 1、Speaker 2),解决多人抢话时的归属问题。
- 完全本地运行:所有音频处理均在本地完成,不上传至云端,确保会议机密和个人对话的安全。
- 抗噪处理:内置 Silero VAD 语音活动检测,可自动过滤背景噪音和键盘声,提升嘈杂环境下的识别准确率。
技术架构
该项目整合了语音处理领域的多项成熟技术:
- 转录核心:融合 WhisperStreaming 与 SimulStreaming,前者通过 LocalAgreement 策略保障准确率,后者利用 AlignAtt 算法降低延迟。
- 翻译支持:集成 NLLB 模型,支持百种以上语言的实时互译,便于跨国沟通场景。
- 硬件适配:支持 GPU 加速(NVIDIA 显卡),同时也兼容普通 CPU 运行;针对苹果 M 系列芯片有专门优化。
部署与使用
前置依赖
部署前需安装 FFmpeg 作为音频处理基础工具。不同系统的安装方式如下:
- Windows:下载 exe 文件并添加到系统 PATH。
- macOS:终端执行
brew install ffmpeg。 - Ubuntu/Debian:终端执行
sudo apt install ffmpeg。
安装库文件
推荐使用 pip 安装核心库:
pip install whisperlivekit
如需获取最新源码版本,可克隆仓库并编辑模式安装:
git clone https://github.com/QuentinFuxa/WhisperLiveKit.git
cd WhisperLiveKit
pip install -e .
启动服务
通过命令行启动服务器,指定模型和语言:
whisperlivekit-server --model base --language zh
参数说明:
--model:选择模型大小,base为基础版,large-v3精度更高但资源消耗更大。--language:设定识别语言,zh为中文,en为英文,auto为自动检测。
启动后访问浏览器地址 http://localhost:8000,即可开始对着麦克风进行实时转录测试。
进阶功能
对于有进一步需求的用户,项目还支持以下扩展:
- Docker 部署:提供镜像支持,方便在服务器端一键运行,兼顾 GPU 加速与纯 CPU 模式。
- 高精度说话人识别:默认开启 Sortformer 引擎,若需更高精度可额外集成 NVIDIA NeMo 工具包。


