OpenAI 发布的 Whisper 是目前开源界非常成熟的语音识别方案,支持多语言且效果出色。为了方便大家直接上手使用,这里按模型规模整理了官方提供的权重文件下载链接,并附上了一些选型心得。
模型版本与下载链接
官方模型按参数量从小到大排列,分为英文专用版和多语言通用版:
Tiny 系列(轻量级)
适合资源受限环境,推理速度极快。
Base 系列(基础版)
在体积和精度之间取得初步平衡。
Small 系列(小型)
推荐用于常规音频转写任务,性价比不错。
Medium 系列(中型)
精度进一步提升,适合对准确率有要求的场景。
Large 系列(大型)
性能最强,但需要较强的算力支持。特别说明一下,large.pt 其实是指向 v3 版本的软链接。
- (v1 版本):


