使用 Whisper-large-v3 搭建本地语音转文字服务
1. 为什么你需要一个自己的语音转文字服务
你是否遇到过这些场景:
- 开完一场两小时的线上会议,想快速整理会议纪要,却要花半天时间听录音打字;
- 收到客户发来的 5 分钟语音咨询,一边回消息一边反复暂停播放,手忙脚乱;
- 做自媒体剪辑时,反复听口播素材写字幕,耳朵累、效率低、还容易漏字。
市面上的在线语音识别工具看似方便,但存在几个现实问题:音频上传慢、隐私有风险、中文识别不准、长语音断句混乱、不支持本地部署——尤其当你处理的是内部会议、客户沟通或敏感内容时,把语音传到别人服务器上,真的安心吗?
而今天要带你搭的这个服务,就解决了所有痛点:它跑在你自己的机器上,99 种语言自动识别,中文准确率高,支持实时录音和批量上传,GPU 加速后 30 秒音频 2 秒出结果,全程不联网、不上传、不依赖第三方 API。
这是一个已经稳定运行的完整 Web 服务,基于 OpenAI 最新版 Whisper Large v3 模型,专为中文场景优化过推理流程。接下来,我会像带同事搭环境一样,一步步带你从零完成部署、验证效果、调优使用,连显卡型号、内存要求、报错怎么修都写清楚。不需要你懂模型原理,只要会敲几行命令,就能拥有属于自己的专业级语音转文字工具。
2. 环境准备:硬件够不够?系统要不要重装?
先说结论:不用重装系统,也不用买新设备——只要你有一台带 NVIDIA 显卡的 Linux 电脑(哪怕是几年前的 RTX 3060),基本就能跑起来。我们来看具体要求:
2.1 硬件门槛其实很友好
| 资源 | 最低建议 | 说明 |
|---|---|---|
| GPU | NVIDIA RTX 3060(12GB 显存) | 镜像文档写的是 RTX 4090 D,那是为极致性能预留的;实测 RTX 3060 可流畅运行 large-v3,只是响应稍慢(约 3–5 秒) |
| 内存 | 16GB | 少于 16GB 可能触发 OOM,建议关闭其他大内存程序 |
| 存储 | 10GB 可用空间 | 模型文件 2.9GB + 缓存 + 日志,留足余量更稳妥 |
| 系统 | Ubuntu 22.04 或 24.04 LTS | 镜像明确适配 24.04,但 22.04 同样可用(需升级 FFmpeg 至 6.1+) |
小贴士:如果你只有 CPU 没 GPU?别急——这个镜像也支持 CPU 模式,只是 large-v3 在 CPU 上单次转录要等 20–40 秒。文末我会单独告诉你如何切到 CPU 模式,不改一行代码。
2.2 一键检查你的机器是否达标
打开终端,依次执行这三条命令,看输出是否符合预期:
# 查看 GPU 型号和驱动状态
nvidia-smi --query-gpu=name,memory.total --format=csv
# 查看 CUDA 版本(必须≥12.1)
nvcc --version
# 查看系统版本
lsb_release -a
如果 nvidia-smi 报错'command not found',说明 NVIDIA 驱动未安装,需要先去 NVIDIA 官网 下载对应显卡的驱动并安装;如果 CUDA 版本低于 12.1,请按 官方指南 升级。
确认无误后,我们直接进入部署环节——整个过程不到 5 分钟。

