Whisper.cpp 是一个基于 OpenAI Whisper 模型的轻量级 C++ 实现,专门为本地语音识别而设计。它采用 ggml 格式,能够高效地在各种设备上运行,无需依赖云端服务。本指南将带你从零开始掌握 Whisper.cpp 的安装、配置和使用方法。
快速入门
5 分钟快速上手
想要立即体验 Whisper.cpp 的强大功能?只需三个简单步骤:
- 获取项目代码:
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
- 选择合适模型:
- 轻量级:tiny(75MB)适合快速测试
- 平衡型:base(142MB)兼顾速度与精度
- 高精度:small(466MB)提供更好的识别效果
- 运行首个识别任务:
# 使用 tiny 模型进行语音识别
./main -m models/ggml-tiny.bin -f your_audio.wav
系统要求检查
在开始之前,请确保你的系统满足以下基本要求:
- 操作系统:Linux、macOS 或 Windows
- 内存:至少 4GB(大型模型需要更多)
- 存储空间:根据所选模型大小预留相应空间
核心功能详解
模型体系解析
Whisper.cpp 提供了完整的模型体系,从轻量到高精度:
基础模型系列:
- tiny:75MB,最快速度,适合实时应用
- base:142MB,平衡性能,推荐日常使用
- small:466MB,高精度,适合专业场景
多语言支持:
- 通用模型:支持多种语言识别
- 英语专用模型:针对英语优化的版本(如 tiny.en、base.en)
量化版本:
- q5_0/q5_1:5 位量化,大幅减小模型体积
- q8_0:8 位量化,保持较高精度
核心参数配置
掌握关键参数设置,充分发挥模型潜力:
模型选择参数:
-m models/ggml-tiny.bin:使用 tiny 模型-m models/ggml-base.bin:使用 base 模型-m models/ggml-small.bin:使用 small 模型
性能优化参数:
-t 4:使用 4 个线程加速处理--translate:启用翻译功能-l zh:指定中文语言
输入格式支持
Whisper.cpp 支持广泛的音频格式:
- WAV、MP3、FLAC、M4A 等常见格式
- 采样率自动适配,无需手动转换
- 支持批量文件处理

