Whisper 是 OpenAI 推出的开源语音识别模型,凭借出色的多语言支持能力成为行业标杆。根据应用场景对算力和精度的不同需求,官方提供了从 Tiny 到 Large 的多种规格。下面按规模从小到大梳理了所有可用版本及其官方下载地址,并附上选型建议供参考。
Tiny 系列(轻量级)
适合资源受限环境,如移动端或边缘设备。
- tiny.en.pt(英文专用):https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt
- tiny.pt(多语言通用):https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt
Base 系列(基础版)
在体积和性能之间取得初步平衡,适合快速原型开发。
- base.en.pt(英文专用):https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt
- base.pt(多语言通用):https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt
Small 系列(小型)
兼顾速度与精度,适合常规音频转文字任务。
- small.en.pt(英文专用):https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt
- small.pt(多语言通用):https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt
Medium 系列(中型)
进一步提升识别准确率,适合实时字幕等场景。
- medium.en.pt(英文专用):https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt
- medium.pt(多语言通用):https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt
Large 系列(大型)
性能最强,支持更多语言和复杂场景,但对计算资源要求较高。
- large-v1.pt(v1 版本):https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt
- large-v2.pt(v2 版本):https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt
- large-v3.pt(v3 版本):https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt
- large.pt(默认指向 v3 版本):https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt
模型选择建议
- 轻量级部署:如移动设备、边缘计算,选择
tiny或base系列,体积小推理快,但精度相对较低。 - 平衡精度与性能:
small或medium系列适合常规场景,多语言支持较好。 - 高精度需求:专业音频处理推荐
large系列(尤其是 v3 版本),性能最强但对资源要求高。 - 仅处理英文内容:优先选择带
.en后缀的模型,针对性优化后精度更高。


