Whisper.cpp 模型选型实战：性能与准确率实测

Whisper.cpp 是 OpenAI Whisper 模型的 C/C++ 移植版本，支持在 CPU/GPU 上高效运行。面对不同业务场景，如何在模型大小、速度和准确率之间找到平衡点往往是开发者的首要考量。本文基于 Intel i7-12700K 平台，对 whisper.cpp 的 8 种主流模型进行了标准化测试，旨在提供一份可落地的选型参考。

官方模型规格速查

whisper.cpp 提供了从微型到大型的完整模型系列，核心差异体现在参数量与能力范围上。以下是主要规格的对比：

模型名称	磁盘占用	支持语言	典型应用场景
tiny.en	75 MiB	仅英语	嵌入式设备、实时语音控制
base	142 MiB	多语言	移动端 App、语音助手
small.en	466 MiB	仅英语	桌面软件、客服质检
medium	1.5 GiB	多语言	会议记录、视频字幕
large-v3-turbo	1.5 GiB	多语言	影视翻译、学术演讲转录
large-v3-q5_0	1.1 GiB	多语言	服务器级部署、高精度需求

所有模型可通过官方脚本一键获取，例如下载 base 模型：

./models/download-ggml-model.sh base

性能实测数据

我们在 Intel i7-12700K CPU 平台上，使用 examples/bench/bench.cpp 工具对各模型进行了标准化测试。每组测试包含 10 轮 10 秒语音片段转录，取平均值作为结果。测试环境为 4 线程 CPU 模式，禁用 GPU 加速，语音样本取自标准数据集。

核心性能指标对比

模型	转录速度（实时倍数）	单词错误率 (WER)	首次响应延迟
tiny.en	12.8x	18.7%	83ms
base	6.5x	11.2%	145ms
small.en	2.3x	6.4%	320ms
medium	0.9x	3.8%	890ms
large-v3-turbo	0.5x	2.1%	1560ms

从数据可以看出，小模型在实时性上优势明显，而大模型则在 WER 上表现更佳。实际选择时，需根据业务对延迟和精度的敏感度进行权衡。

场景化决策建议

实时交互场景

对于智能音箱或车载系统，响应时间需控制在 300ms 以内。tiny.en 和 base 模型能提供 6 倍以上的实时处理速度，配合 examples/stream/stream.cpp 的流式处理模式，可实现'说完即显'的用户体验。

Whisper.cpp 模型选型实战：性能与准确率实测