一、核心版本选择
Whisper 提供 5 种规模版本,性能与资源需求平衡如下:
| 版本 | 参数量 | 内存需求 | 多语言 | 推荐场景 |
|---|---|---|---|---|
tiny | 39M | ~1GB | ✓ | 移动端/嵌入式设备 |
base | 74M | ~1.5GB | ✓ | 实时转录 |
small | 244M | ~2.5GB | ✓ | 日常办公场景 |
medium | 769M | ~5.5GB | ✓ | 专业音频处理 |
large | 1.5B | ~10.5GB | ✓ | 研究级高精度识别 |
注:2025 版本尚未发布,建议通过官方渠道跟踪更新:OpenAI 博客
二、模型格式说明
三种主流格式适用不同开发环境:
- PyTorch 格式(
.pt)- 原生支持:通过
pip install openai-whisper安装后自动加载 - 下载目录:
https://openaipublic.azureedge.net/main/whisper/models/{model_id}.pt
- 原生支持:通过
- TensorFlow 格式(
.h5)- 转换工具:需使用官方转换脚本
- 托管平台:Hugging Face Hub
- ONNX 运行时格式(
.onnx)- 跨平台支持:适用于 WebAssembly/移动端
- 优化工具链:参考 ONNX Whisper 示例
三、下载方式
官方源直连(推荐):
# 使用命令行工具自动下载(替换<model_size>为版本名)
whisper download <model_size>
手动下载地址:
| 版本 | PyTorch 直链 |
|---|---|
| tiny |

