WhisperLiveKit:本地部署实时语音转文字+说话人识别,这个开源神器让会议纪要秒生成!
还在为会议纪要熬夜爆肝?线上讨论时总错过关键信息?别急,今天给大家挖到一个开源宝藏——WhisperLiveKit,只需简单几步,就能在自己电脑上搭建一套实时语音转文字系统,连谁在说话都能自动标清楚!
项目地址:github.com/QuentinFuxa/WhisperLiveKit 🚀 这才是语音转文字的终极形态?
用过语音转文字工具的人都懂:要么延迟高到跟不上对话,要么多人发言时文字一锅粥,要么就得把音频上传到云端担惊受怕。
但WhisperLiveKit直接把这些痛点按在地上摩擦——
✅ 实时性拉满:靠2025年最新的SimulStreaming技术,转录延迟低至1秒级,说话人刚讲完,文字就同步显示,比人工速记还快。
✅ 多人识别精准:搭载双引擎——2025年SOTA的Streaming Sortformer和经典的Diart,哪怕三五个人交替抢话,也能清晰标注“Speaker 1”“Speaker 2”,再也不用对着文字猜是谁说的。
✅ 完全本地运行:所有语音处理都在你的电脑上完成,不上传云端,会议机密、私人对话绝对安全。
✅ 抗噪能力MAX:内置Silero VAD语音活动检测,能自动过滤背景噪音、键盘敲击声,哪怕在咖啡厅开会,也能精准捕捉有效发言。

🧐 它凭什么这么强?
背后的技术团队简直是把语音处理领域的“顶流选手”都请来了:
- 转录核心:结合WhisperStreaming(2023年SOTA)和SimulStreaming(2025年SOTA)两大技术,前者靠LocalAgreement策略保证准确率,后者用AlignAtt算法压低保真度,鱼和熊掌兼得。
- 翻译外挂:集成NLLB模型,支持100+种语言实时互译,英文会议秒变中文纪要,跨国沟通零障碍。
- 灵活适配:既支持GPU加速(N卡用户狂喜),也能在普通CPU上跑;苹果M系列芯片还有专属优化, MacBook用户也能流畅用。
🛠️ 小白也能上手!3步搭建自己的语音转文字系统
别被“开源项目”吓到,实际操作比装个软件还简单:
第一步:装个FFmpeg(必看!)
这是处理音频的基础工具,不同系统安装方式不一样:
- Windows:去ffmpeg.org下载exe,记得添加到系统PATH
- Mac:打开终端输
brew install ffmpeg - Ubuntu/Debian:终端输
sudo apt install ffmpeg
第二步:安装核心库
打开命令行,一行代码搞定:
pip install whisperlivekit 想尝鲜最新功能?也可以克隆仓库安装:
git clone https://github.com/QuentinFuxa/WhisperLiveKit.git cd WhisperLiveKit pip install -e . 第三步:启动!开始实时转录
还是命令行,输入启动指令:
whisperlivekit-server --model base --language zh (参数说明:base是基础模型,想更精准可以换large-v3;zh表示识别中文,也能设为en英文或auto自动检测)
然后打开浏览器,访问http://localhost:8000,对着麦克风说话——见证奇迹的时刻到了:你的声音会实时变成文字出现在屏幕上!
💡 进阶玩法:这些功能藏着惊喜
如果你是“折腾党”,这几个功能一定要试试:
- Docker一键部署:嫌配置麻烦?用Docker镜像直接跑,支持GPU加速和纯CPU模式,服务器部署so easy。
- 说话人识别加强:默认开启Sortformer引擎,识别多人更准;如果需要更高精度,可额外安装NVIDIA NeMo工具包。
- 翻译模式切换:想把外文实时转中文?加个参数
--task translate;还支持118种小语种互译,用--target-language fr就能转法语。 - Chrome插件:仓库里自带浏览器插件,能捕获网页音频(比如线上会议),实时转录成文字,边开会边存纪要。
🤔 哪些人最该用它?
- 打工人:开会时开着网页,结束直接导出文字版纪要,再也不用加班整理。
- 内容创作者:录播客、拍视频时后台挂着,自动生成字幕初稿,省出大把剪辑时间。
- 教育工作者:课堂讨论实时转录,方便学生回顾重点,也能给听障学生做辅助。
- 开发者:提供Python API和前端组件,能轻松集成到自己的App、小程序里,二次开发无压力。
🔥 最后说句大实话
现在的语音转文字工具不少,但要么是闭源付费软件,要么是云端服务(隐私风险懂的都懂),像WhisperLiveKit这样免费开源、本地运行还兼顾实时性和多人识别的,真的不多见。
目前项目已经更新到0.2.9版本,支持Python 3.9到3.15,文档还贴心地做了日文版,社区活跃度很高,有问题提issue基本能得到回应。
不过要说缺点,可能就是对电脑配置有一丢丢要求——用large-v3大模型时,建议至少8G显存的GPU,不然可能有点卡。但普通用户用base或small模型,普通笔记本也能流畅跑。
你觉得这个工具最适合用在什么场景?如果是你,会给它加什么功能?来评论区聊聊~ 点赞过500,下次出详细实操教程!