whisper.cpp 高性能语音识别推理实现 | 极客日志

C++AI算法

whisper.cpp 高性能语音识别推理实现

whisper.cpp 是 OpenAI Whisper 模型的高性能纯 C/C++ 推理实现，支持多平台及多种硬件加速。文章涵盖项目特性、安装配置、基础转录与实时音频处理示例，以及 Core ML、OpenVINO、CUDA 等高级加速功能。提供 Docker 使用方法和语言绑定支持，并列出不同模型的磁盘内存占用参考。

暖阳发布于 2026/4/8更新于 2026/5/2218 浏览

关于 whisper.cpp

项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别 (ASR) 模型的高性能推理实现，具有以下技术特性：

纯 C/C++ 实现，无外部依赖
针对 Apple Silicon 优化（ARM NEON/Accelerate/Metal/Core ML）
支持 x86 架构的 AVX 指令集
支持 POWER 架构的 VSX 指令集
混合 F16/F32 精度
支持整数量化
运行时零内存分配
支持 Vulkan/NVIDIA GPU 加速
支持 CPU-only 推理
提供 C 风格 API
支持语音活动检测 (VAD)

功能特性

多平台支持
- Mac OS (Intel/Apple Silicon)
- iOS/Android
- Linux/Windows/FreeBSD
- WebAssembly/Raspberry Pi
硬件加速支持
- Apple Neural Engine (Core ML)
- NVIDIA CUDA
- Vulkan 跨平台 GPU 加速
- OpenBLAS CPU 加速
- Ascend NPU 支持
高级功能
- 实时音频输入处理
- 置信度颜色标注
- 词级时间戳
- 说话人分离
- 卡拉 OK 式视频生成

安装配置

git clone https://github.com/ggml-org/whisper.cpp.git
 whisper.cpp
sh ./models/download-ggml-model.sh base.en
cmake -B build
cmake --build build --config Release

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

./build/bin/whisper-cli -f samples/jfk.wav

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0
./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav

./models/generate-coreml-model.sh base.en
cmake -B build -DWHISPER_COREML=1
cmake --build build -j --config Release

python convert-whisper-to-openvino.py --model base.en
cmake -B build -DWHISPER_OPENVINO=1
cmake --build build -j --config Release

cmake -B build -DGGML_CUDA=1
cmake --build build -j --config Release

模型	磁盘占用	内存占用
tiny	75 MiB	~273 MB
base	142 MiB	~388 MB
large	2.9 GiB	~3.9 GB

docker run -it --rm \
-v path/to/models:/models \
whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

whisper.cpp 高性能语音识别推理实现

关于 whisper.cpp

项目概览

相关链接资源

功能特性

安装配置

更多推荐文章

相关免费在线工具

使用示例

基础转录

实时音频处理

量化模型使用

高级功能

Core ML 加速 (Mac)

OpenVINO 加速

NVIDIA CUDA 加速

性能参考

扩展支持

Docker 使用

语言绑定

注意事项

更多推荐文章

相关免费在线工具

whisper.cpp 高性能语音识别推理实现

关于 whisper.cpp

项目概览

相关链接资源

功能特性

安装配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

使用示例

基础转录

实时音频处理

量化模型使用

高级功能

Core ML 加速 (Mac)

OpenVINO 加速

NVIDIA CUDA 加速

性能参考

扩展支持

Docker 使用

语言绑定

注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具