本地离线部署 Whisper 模型实现语音转写
在本地搭建 Whisper 语音转写环境相对简单,无需依赖云端 API,既能保护隐私又能节省成本。以下流程适用于 Windows、macOS 和 Linux 系统,其中 Windows 环境已验证可用。
基础环境准备
首先确保开发环境就绪:
- 安装 Python
请安装 Python 3.8 及以上版本。下载地址为 python.org/downloads。
- 安装过程中务必勾选 "Add Python to PATH",否则后续命令行调用会报错。
- 验证安装
打开终端(CMD/PowerShell/Terminal),输入
python --version或python3 --version。若显示版本号,说明环境配置成功。
安装 Whisper 核心库
Whisper 基于 Python 生态,安装过程较为直接。国内用户建议使用镜像加速以提升下载速度。
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
音频处理依赖
Whisper 底层依赖 FFmpeg 处理多种音频格式。如果缺少该工具,转写时可能会报错。
- Windows 用户:下载并安装 FFmpeg,将
ffmpeg.exe所在目录添加到系统环境变量PATH中。 - macOS/Linux 用户:通常可通过包管理器安装(如
brew install ffmpeg或apt install ffmpeg)。
模型选择与下载
首次运行时,Whisper 会自动下载默认模型。对于中文场景,推荐手动指定 large-v3 以获得最佳识别效果。
pip install "openai-whisper[large-v3]"
模型文件默认保存在缓存目录,也可手动管理:
- Windows:
C:\Users\你的用户名\.cache\whisper\ - macOS/Linux:
~/.cache/whisper/
基本使用方法
命令行直接转写
适合快速测试单个文件。支持 WAV、MP3、MP4 等常见格式。
whisper 你的音频文件路径.wav --model large-v3 --language Chinese
示例命令:
whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese
关键参数说明
--model:指定模型大小(tiny/base/small/medium/large-v3)。越大精度越高,但资源消耗也越大。

