WhisperLiveKit 实战指南：从本地部署到生产环境 | 极客日志

PythonAI算法

WhisperLiveKit 实战指南：从本地部署到生产环境

WhisperLiveKit 是一个基于 Whisper 模型的实时语音识别解决方案，主打完全本地化部署，适合对数据隐私和延迟敏感的场景。涵盖安装配置、模型选择、硬件加速及生产环境部署流程。内容包括多语言转录、说话人分离功能实现，以及通过 Docker 和 Nginx 进行容器化和反向代理配置。针对常见问题提供排查方案，帮助开发者快速搭建低延迟语音服务。

落日余晖发布于 2026/3/24更新于 2026/6/2424 浏览

WhisperLiveKit 实战指南：从本地部署到生产环境

WhisperLiveKit 是一个基于 Whisper 模型的实时语音识别解决方案，主打完全本地化部署，适合对数据隐私和延迟敏感的场景。相比传统 Whisper 处理完整音频片段的方式，它通过流式处理技术解决了上下文丢失和单词截断的问题。

核心特性

项目整合了多项前沿技术来优化实时体验：

Simul-Whisper/Streaming：采用 AlignAtt 策略实现超低延迟转录
Streaming Sortformer：支持实时说话人分离（Speaker Diarization）
Silero VAD：企业级语音活动检测，减少无语音时的资源占用
多语言支持：覆盖 99 种以上语言的转录与翻译

环境准备与安装

支持 Linux、macOS 和 Windows，推荐使用 Python 3.9 至 3.15 版本。基础安装只需一条命令：

pip install whisperlivekit

如果需要最新开发版，可以通过源码安装：

git clone <repository_url>
cd whisperlivekit
pip install -e .

启动服务与 Web 界面

安装完成后，启动基础转录服务：

whisperlivekit-server --model base --language en

浏览器访问 http://localhost:8000 即可看到实时转录界面。默认配置下，系统会自动请求麦克风权限，开始说话后文字将实时显示在页面上。Web 界面提供了完整的控制选项，包括麦克风选择、WebSocket 连接配置和主题切换功能，代码完全开源，可根据需求进行定制化开发。

模型选择与硬件优化

选择合适的模型是平衡性能与质量的关键。WhisperLiveKit 提供多种模型尺寸，满足不同硬件条件和精度需求：

模型	速度	精度	多语言支持	翻译功能	最佳使用场景
tiny(.en)	最快	基础	是/否	是/否	实时性优先，资源受限环境
base(.en)	快	良好	是/否	是/否	平衡性能与资源占用
small(.en)	中等	较好	是/否	是/否	有限硬件上的高质量需求
medium(.en)	慢	高	是/否	是/否	高质量需求，中等资源
large-v2	最慢	优秀	是	是	最佳综合质量
large-v3	最慢	卓越	是	是	最高精度需求
large-v3-turbo

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

whisperlivekit-server --model large-v3 --disable-fast-encoder False

pip install mlx-whisper
whisperlivekit-server --model medium --backend simulstreaming

whisperlivekit-server --model small --backend whisperstreaming --confidence-validation True

whisperlivekit-server --model large-v3 --language fr --target-language da

# 安装依赖
pip install git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]
# 启动带说话人分离的服务
whisperlivekit-server --model medium --diarization --diarization-backend sortformer

pip install uvicorn gunicorn
gunicorn -k uvicorn.workers.UvicornWorker -w 4 'whisperlivekit.basic_server:app'

whisperlivekit-server --model medium --preload-model-count 4

server {
    listen 443 ssl;
    server_name your-domain.com;
    ssl_certificate /path/to/cert.pem;
    ssl_certificate_key /path/to/key.pem;
    location / {
        proxy_pass http://localhost:8000;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

docker build -t whisperlivekit .
docker run --gpus all -p 8000:8000 whisperlivekit --model medium

docker build -f Dockerfile.cpu -t whisperlivekit-cpu .
docker run -p 8000:8000 whisperlivekit-cpu --model small

docker build --build-arg HF_PRECACHE_DIR="./.cache/" -t whisperlivekit .

docker build --build-arg HF_TKN_FILE="./token" -t whisperlivekit .

docker build --build-arg EXTRAS="whisper-timestamped,diart" -t whisperlivekit .

# 平衡速度与精度的推荐配置
whisperlivekit-server --model medium --beams 2 --frame-threshold 25 --audio-max-len 20

WhisperLiveKit 实战指南：从本地部署到生产环境

WhisperLiveKit 实战指南：从本地部署到生产环境

核心特性

环境准备与安装

启动服务与 Web 界面

模型选择与硬件优化

更多推荐文章

相关免费在线工具

硬件加速配置

高级功能与场景应用

多语言支持与实时翻译

说话人分离功能

Chrome 扩展应用

生产环境部署

服务器配置优化

Nginx 反向代理配置

Docker 容器化部署

基础容器部署

高级容器配置

问题排查与性能优化

常见问题解决

性能监控与调优

总结

更多推荐文章

相关免费在线工具

WhisperLiveKit 实战指南：从本地部署到生产环境

WhisperLiveKit 实战指南：从本地部署到生产环境

核心特性

环境准备与安装

启动服务与 Web 界面

模型选择与硬件优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

硬件加速配置

高级功能与场景应用

多语言支持与实时翻译

说话人分离功能

Chrome 扩展应用

生产环境部署

服务器配置优化

Nginx 反向代理配置

Docker 容器化部署

基础容器部署

高级容器配置

问题排查与性能优化

常见问题解决

性能监控与调优

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具