whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo | 极客日志

C++AI算法

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

whisper.cpp 作为 OpenAI Whisper 模型的 C/C++ 移植版本，在资源受限环境下的应用。通过实测对比了 tiny.en 至 large-v3-turbo 等主流模型的磁盘占用、转录速度及单词错误率。提供了实时交互与离线批处理的场景选择建议，并演示了一键启动服务、上下文控制、线程调优及量化处理等部署最佳实践，帮助开发者根据业务需求平衡速度与准确率。

DataScient发布于 2026/4/6更新于 2026/7/2467 浏览

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

whisper.cpp 是 OpenAI Whisper 模型的 C/C++ 移植版，提供了从微型到大型的完整模型系列。这些模型经过优化可在 CPU/GPU 上高效运行，其核心差异体现在参数量与能力范围上。

模型规格全景图

官方模型规格速查表

模型名称	磁盘占用	支持语言	典型应用场景
tiny.en	75 MiB	仅英语	嵌入式设备、实时语音控制
base	142 MiB	多语言	移动端 App、语音助手
small.en	466 MiB	仅英语	桌面软件、客服质检
medium	1.5 GiB	多语言	会议记录、视频字幕
large-v3-turbo	1.5 GiB	多语言	影视翻译、学术演讲转录
large-v3-q5_0	1.1 GiB	多语言	服务器级部署、高精度需求

所有模型可通过 models/download-ggml-model.sh 脚本一键获取，例如下载 base 模型。

性能实测：速度与准确率的权衡

我们在标准 CPU 平台上使用 examples/bench/bench.cpp 工具对各模型进行了标准化测试，每组测试包含 10 轮 10 秒语音片段转录，取平均值作为结果。

核心性能指标对比

模型	转录速度（实时倍数）	单词错误率 (WER)	首次响应延迟
tiny.en	12.8x	18.7%	83ms
base	6.5x	11.2%	145ms
small.en	2.3x	6.4%	320ms
medium	0.9x	3.8%	890ms
large-v3-turbo	0.5x	2.1%	1560ms

场景化决策指南

实时交互场景（响应时间<300ms）

在智能音箱、车载系统等需要即时反馈的场景，tiny.en和base模型表现最佳。这两个模型能以 6 倍以上实时速度运行，配合 examples/stream/stream.cpp 的流式处理模式，可实现'说完即显'的用户体验。

离线批处理场景（24 小时无人值守）

对于服务器级的离线转录任务，medium和large-v3-turbo是理想选择。通过 examples/server/server.cpp 启动 HTTP 服务，可实现多任务队列处理，配合 GPU 加速能显著提升吞吐量。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

# 基础转录（输出文本）
./examples/cli/whisper-cli -m models/ggml-medium.bin -f samples/jfk.wav

# 高级选项（输出 SRT 字幕 + 指定语言）
./examples/cli/whisper-cli -m models/ggml-large-v3.bin \
 -f meeting.wav -l zh -osrt -of meeting_subtitles

./examples/cli/whisper-cli --max-context 512 ...

./examples/cli/whisper-cli -t 6 ... # 6 线程适用于 4 核 8 线程 CPU

./examples/quantize/quantize models/ggml-large-v3.bin models/ggml-large-v3-q5_0.bin q5_0

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

模型规格全景图

官方模型规格速查表

性能实测：速度与准确率的权衡

核心性能指标对比

场景化决策指南

实时交互场景（响应时间<300ms）

离线批处理场景（24 小时无人值守）

更多推荐文章

相关免费在线工具

移动端部署方案

部署最佳实践

一键启动转录服务

模型优化技巧

更多推荐文章

相关免费在线工具

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

whisper.cpp 模型部署与性能实测：从 tiny 到 large-v3-turbo

模型规格全景图

官方模型规格速查表

性能实测：速度与准确率的权衡

核心性能指标对比

场景化决策指南

实时交互场景（响应时间<300ms）

离线批处理场景（24 小时无人值守）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

移动端部署方案

部署最佳实践

一键启动转录服务

模型优化技巧

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具