Whisper-large-v3 快速部署:30 分钟搭建本地语音识别服务
你是否遇到过这些场景:会议录音需要整理成文字,手动打字耗时费力;外语视频想了解内容却找不到字幕;采访录音转录外包服务又贵又慢。现在,你可以用 OpenAI 的 Whisper Large v3 模型,自己搭建一个专业的语音识别服务。该模型支持 99 种语言,能自动检测语言类型,还能把外语翻译成中文。
即使你不是 AI 工程师,也能在 30 分钟内搞定。下面我会带你完成整个部署过程,从环境准备到服务启动,每个步骤都有详细说明。
准备工作:需要什么硬件和软件
在开始之前,我们先看看需要准备什么。要求并不高:
硬件要求
| 硬件组件 | 推荐配置 | 最低要求 |
|---|---|---|
| GPU | NVIDIA RTX 4090 D (23GB 显存) | 任何支持 CUDA 的 NVIDIA 显卡(8GB+ 显存) |
| 内存 | 16GB 或更多 | 8GB |
| 存储空间 | 10GB 可用空间 | 5GB 可用空间 |
| 系统 | Ubuntu 24.04 LTS | Ubuntu 20.04 或更高 |
重要提示:如果你没有高端显卡,也可以用 CPU 运行,只是速度会慢一些。Whisper Large v3 模型需要约 3GB 存储空间,第一次运行时会自动下载。
软件环境
确保你的系统已经安装:
- Python 3.8 或更高版本
- pip(Python 包管理工具)
- 基本的编译工具
这些在 Ubuntu 系统中通常已经预装,如果没有,也很容易安装。
三步搭建:从零到可用的语音识别服务
接下来是核心部分,只需要三个步骤就能完成部署。
第一步:安装必要的依赖
打开终端,依次执行以下命令:
# 更新系统包列表
sudo apt-get update
# 安装 FFmpeg(处理音频文件必需)
sudo apt-get install -y ffmpeg
# 安装 Python 依赖
pip install -r requirements.txt
这里有个小技巧:如果 pip 安装速度慢,可以加上国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
requirements.txt 文件通常包含这些主要包:
- gradio:用于构建 Web 界面
- torch:PyTorch 深度学习框架
- whisper:OpenAI 的语音识别库
- 其他辅助库
第二步:下载和配置模型
Whisper 模型会在第一次运行时自动下载,但我们可以预先配置:
# 创建模型缓存目录
mkdir -p /root/.cache/whisper/
# 检查 Python 环境是否正常
python3 -c

