本地离线部署 Whisper 语音转写
Whisper 做本地语音转写并不复杂,环境搭起来之后,基本就是'装依赖、下模型、跑转写'这几步。下面按 Windows、macOS 和 Linux 都通用的思路整理一遍,Windows 下我实际验证过,流程是可行的。
基础环境准备
安装 Python
先确认机器上有 Python 3.8 及以上版本。
- 下载地址:https://www.python.org/downloads/
- 安装时记得勾选 Add Python to PATH,这一步很关键,不然后面命令行里可能找不到
python。
验证安装
打开命令行或终端,执行:
python --version
如果是 macOS 或 Linux,也可以试试:
python3 --version
能正常输出版本号,就说明 Python 没问题了。
安装 Whisper
Whisper 的安装比较直接,国内环境下如果拉取速度慢,可以顺手加上镜像源。
pip install openai-whisper
如果想用清华镜像加速,也可以这样装:
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
安装音频处理依赖
Whisper 处理音频时依赖 FFmpeg,这一步别省。
- Windows:去 FFmpeg 官网 下载并安装,把
ffmpeg.exe所在目录加入系统环境变量PATH - macOS:通常可以通过包管理工具安装
- Linux:使用发行版对应的包管理器安装即可
装完以后,建议在命令行里跑一下 ffmpeg -version,确认工具链是通的。
下载 Whisper 模型
Whisper 会在首次使用时自动下载模型文件。如果你想提前准备,也可以手动控制模型的选择。
一般来说,模型越大,识别效果通常越好,但占用的资源也更多。比如 large-v3 精度更高,适合对结果要求比较严的场景;如果机器资源有限,small 或 base 会更轻一些。
模型缓存通常会放在下面这些目录:
- Windows:
C:\Users\你的用户名\.cache\whisper\ - macOS/Linux:
~/.cache/whisper/
命令行直接转写
最省事的方式,就是直接在命令行里处理音频文件。Whisper 支持常见的音频和视频格式,比如 WAV、MP3、MP4 等。
whisper 你的音频文件路径.wav --model large-v3 --language Chinese
如果是 Windows 路径,写法可以类似这样:
whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese
几个常用参数可以记一下:

