Whisper-large-v3 语音识别服务搭建与使用指南
1. 背景与需求
会议录音整理、外语视频字幕生成、采访转录等场景常面临手动效率低、外包成本高的问题。OpenAI 的 Whisper Large v3 模型支持 99 种语言,具备自动检测语言及翻译功能,适合搭建本地语音识别服务。
2. 环境准备
2.1 硬件要求
| 硬件组件 | 推荐配置 | 最低要求 |
|---|---|---|
| GPU | NVIDIA RTX 4090 D (23GB 显存) | 支持 CUDA 的 NVIDIA 显卡(8GB+ 显存) |
| 内存 | 16GB 或更多 | 8GB |
| 存储空间 | 10GB 可用空间 | 5GB 可用空间 |
| 系统 | Ubuntu 24.04 LTS | Ubuntu 20.04 或更高 |
若使用 CPU 运行,速度会较慢。模型文件约 3GB,首次运行时自动下载。
2.2 软件环境
确保系统已安装:
- Python 3.8 或更高版本
- pip(Python 包管理工具)
- 基本编译工具
3. 部署步骤
3.1 安装依赖
# 更新系统包列表
sudo apt-get update
# 安装 FFmpeg(处理音频文件必需)
sudo apt-get install -y ffmpeg
# 安装 Python 依赖
pip install -r requirements.txt
若 pip 安装速度慢,可添加国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
主要依赖包括:gradio(Web 界面)、torch(深度学习框架)、whisper(语音识别库)。
3.2 配置模型
Whisper 模型首次运行时自动下载,也可预先配置缓存目录:
mkdir -p /root/.cache/whisper/
python3 -c "import whisper; print('环境正常')"
模型文件 large-v3.pt 约 2.9GB。如需代理下载,设置环境变量:
export HTTP_PROXY="http://你的代理地址:端口"
export HTTPS_PROXY="http://你的代理地址:端口"
3.3 启动服务
/root/Whisper-large-v3/
python3 app.py

