WhisperLiveKit:本地部署实时语音转文字与说话人识别
项目地址:github.com/QuentinFuxa/WhisperLiveKit
核心特性
WhisperLiveKit 解决了传统语音转文字工具延迟高、多人发言混淆及云端隐私风险等问题。
- 实时性:基于 SimulStreaming 技术,转录延迟低至秒级,支持说话内容同步显示。
- 多人识别:搭载 Streaming Sortformer 和 Diart 双引擎,可清晰标注不同发言者(如 Speaker 1, Speaker 2)。
- 本地运行:所有处理在本地完成,不上传云端,保障会议机密与隐私安全。
- 抗噪能力:内置 Silero VAD 语音活动检测,自动过滤背景噪音与键盘声。
技术架构
- 转录核心:结合 WhisperStreaming 和 SimulStreaming 技术,平衡准确率与延迟。
- 翻译功能:集成 NLLB 模型,支持 100+ 种语言实时互译。
- 硬件适配:支持 GPU 加速(NVIDIA),兼容 CPU 运行,并对 Apple M 系列芯片有优化。
安装与部署
第一步:安装 FFmpeg
FFmpeg 是音频处理的基础依赖。
- Windows:下载 exe 并添加到系统 PATH。
- Mac:
brew install ffmpeg - Ubuntu/Debian:
sudo apt install ffmpeg
第二步:安装核心库
使用 pip 安装:
pip install whisperlivekit
或克隆仓库开发模式安装:
git clone https://github.com/QuentinFuxa/WhisperLiveKit.git
cd WhisperLiveKit
pip install -e .
第三步:启动服务
输入启动指令:
whisperlivekit-server --model base --language zh
参数说明:
--model:基础模型为base,高精度可选large-v3。--language:指定语言,如zh(中文)、en(英文)或auto。
启动后访问浏览器 http://localhost:8000,即可通过麦克风进行实时转录。
高级功能
- Docker 部署:支持 Docker 镜像一键运行,适配 GPU 加速与纯 CPU 模式。
- 说话人识别增强:默认开启 Sortformer 引擎,可额外安装 NVIDIA NeMo 提升精度。
- 翻译模式:添加
--task translate参数实现外文转中文,支持多语种互译。 - Chrome 插件:捕获网页音频(如线上会议),实时转录成文字。


