使用 Whisper-large-v3 搭建本地语音转文字服务 | 极客日志

PythonAI算法

使用 Whisper-large-v3 搭建本地语音转文字服务

基于 Whisper-large-v3 模型搭建本地语音转文字服务，解决在线工具隐私风险与中文识别不准问题。支持 GPU 加速实时转录、批量上传及中英翻译。部署环境需 NVIDIA 显卡与 Ubuntu 系统，通过 Docker 或脚本一键启动 Web 界面。可配置识别语言、精度参数，支持 CPU/GPU 模式切换。实现音频数据本地处理，无需联网，适用于会议记录、字幕生成等场景。

魔尊发布于 2026/4/11更新于 2026/7/1937 浏览

使用 Whisper-large-v3 搭建本地语音转文字服务

1. 为什么你需要一个自己的语音转文字服务

你是否遇到过这些场景：

开完一场两小时的线上会议，想快速整理会议纪要，却要花半天时间听录音打字；
收到客户发来的 5 分钟语音咨询，一边回消息一边反复暂停播放，手忙脚乱；
做自媒体剪辑时，反复听口播素材写字幕，耳朵累、效率低、还容易漏字。

市面上的在线语音识别工具看似方便，但存在几个现实问题：音频上传慢、隐私有风险、中文识别不准、长语音断句混乱、不支持本地部署——尤其当你处理的是内部会议、客户沟通或敏感内容时，把语音传到别人服务器上，真的安心吗？

而今天要带你搭的这个服务，就解决了所有痛点：它跑在你自己的机器上，99 种语言自动识别，中文准确率高，支持实时录音和批量上传，GPU 加速后 30 秒音频 2 秒出结果，全程不联网、不上传、不依赖第三方 API。

这是一个已经稳定运行的完整 Web 服务，基于 OpenAI 最新版 Whisper Large v3 模型，专为中文场景优化过推理流程。接下来，我会像带同事搭环境一样，一步步带你从零完成部署、验证效果、调优使用，连显卡型号、内存要求、报错怎么修都写清楚。不需要你懂模型原理，只要会敲几行命令，就能拥有属于自己的专业级语音转文字工具。

2. 环境准备：硬件够不够？系统要不要重装？

先说结论：不用重装系统，也不用买新设备——只要你有一台带 NVIDIA 显卡的 Linux 电脑（哪怕是几年前的 RTX 3060），基本就能跑起来。我们来看具体要求：

2.1 硬件门槛其实很友好

资源	最低建议	说明
GPU	NVIDIA RTX 3060（12GB 显存）	镜像文档写的是 RTX 4090 D，那是为极致性能预留的；实测 RTX 3060 可流畅运行 large-v3，只是响应稍慢（约 3–5 秒）
内存	16GB	少于 16GB 可能触发 OOM，建议关闭其他大内存程序
存储	10GB 可用空间	模型文件 2.9GB + 缓存 + 日志，留足余量更稳妥
系统	Ubuntu 22.04 或 24.04 LTS	镜像明确适配 24.04，但 22.04 同样可用（需升级 FFmpeg 至 6.1+）

小贴士：如果你只有 CPU 没 GPU？别急——这个镜像也支持 CPU 模式，只是 large-v3 在 CPU 上单次转录要等 20–40 秒。文末我会单独告诉你如何切到 CPU 模式，不改一行代码。

2.2 一键检查你的机器是否达标

打开终端，依次执行这三条命令，看输出是否符合预期：

# 查看 GPU 型号和驱动状态
nvidia-smi --query-gpu=name,memory.total --format=csv
# 查看 CUDA 版本（必须≥12.1）
nvcc --version
# 查看系统版本
lsb_release -a

如果 nvidia-smi 报错'command not found'，说明 NVIDIA 驱动未安装，需要先去 NVIDIA 官网下载对应显卡的驱动并安装；如果 CUDA 版本低于 12.1，请按官方指南升级。

确认无误后，我们直接进入部署环节——整个过程不到 5 分钟。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd /home/user
tar -xzf Whisper-large-v3.tar.gz
cd /root/Whisper-large-v3

# 添加 ffmpeg PPA 源（Ubuntu 专用）
sudo apt update && sudo apt install -y software-properties-common
sudo add-apt-repository ppa:savoury1/ffmpeg4
sudo apt update
sudo apt install -y ffmpeg
# 验证版本
ffmpeg -version | head -n1
# 正确输出应为：ffmpeg version 6.1.1-essentials_build-www.gyan.dev

# 安装 Python 依赖（已预装，但保险起见再执行一次）
pip install -r requirements.txt
# 启动 Web 服务
python3 app.py

Running on local URL: http://127.0.0.1:7860
Running on public URL: http://192.168.1.100:7860
To create a public link, set `share=True` in `launch()`.

大家好，欢迎参加本次产品需求评审会。今天我们主要讨论三个模块：用户登录流程优化、订单状态实时推送，以及后台数据导出功能的权限分级。

今天的天气真不错，适合写代码。

The future of AI is not about bigger models, but smarter workflows. → 人工智能的未来不在于更大的模型，而在于更智能的工作流。

language: "zh" # 中文
# language: "en" # 英文
# language: "ja" # 日文

参数	默认值	作用	建议调整场景
`beam_size`	5	搜索宽度，越大越准但越慢	重要会议录音 → 改为 7；日常笔记 → 保持 5
`best_of`	5	生成多个结果选最优	对准确性要求极高 → 改为 10
`temperature`	0.0	控制随机性，0=确定性输出	口音重/背景嘈杂 → 改为 0.2

device = "cuda" if torch.cuda.is_available() else "cpu"

device = "cpu" # 强制使用 CPU

使用 Whisper-large-v3 搭建本地语音转文字服务

使用 Whisper-large-v3 搭建本地语音转文字服务

1. 为什么你需要一个自己的语音转文字服务

2. 环境准备：硬件够不够？系统要不要重装？

2.1 硬件门槛其实很友好

2.2 一键检查你的机器是否达标

更多推荐文章

相关免费在线工具

3. 快速部署：三步启动 Web 服务

3.1 下载并解压镜像包（或拉取 Docker 镜像）

3.2 安装 FFmpeg（关键！很多失败都卡在这步）

3.3 启动服务，打开浏览器

4. 实战体验：三种方式用起来，效果到底怎么样

4.1 场景一：上传会议录音 MP3，5 秒出中文稿

4.2 场景二：用麦克风实时说话，边说边出字幕

4.3 场景三：上传英文播客，一键翻译成中文

5. 进阶玩法：不只是'能用'，更要'好用'

5.1 自定义识别语言，避开自动检测的坑

5.2 调整转录精度：速度 vs 准确率的平衡术

5.3 CPU 模式：没有 GPU 也能用，只需改一个词

6. 故障排查：遇到报错别慌，90% 的问题在这里

7. 总结：你刚刚拥有了什么

更多推荐文章

相关免费在线工具

使用 Whisper-large-v3 搭建本地语音转文字服务

使用 Whisper-large-v3 搭建本地语音转文字服务

1. 为什么你需要一个自己的语音转文字服务

2. 环境准备：硬件够不够？系统要不要重装？

2.1 硬件门槛其实很友好

2.2 一键检查你的机器是否达标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 快速部署：三步启动 Web 服务

3.1 下载并解压镜像包（或拉取 Docker 镜像）

3.2 安装 FFmpeg（关键！很多失败都卡在这步）

3.3 启动服务，打开浏览器

4. 实战体验：三种方式用起来，效果到底怎么样

4.1 场景一：上传会议录音 MP3，5 秒出中文稿

4.2 场景二：用麦克风实时说话，边说边出字幕

4.3 场景三：上传英文播客，一键翻译成中文

5. 进阶玩法：不只是'能用'，更要'好用'

5.1 自定义识别语言，避开自动检测的坑

5.2 调整转录精度：速度 vs 准确率的平衡术

5.3 CPU 模式：没有 GPU 也能用，只需改一个词

6. 故障排查：遇到报错别慌，90% 的问题在这里

7. 总结：你刚刚拥有了什么

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具