whisper.cpp - 高性能Whisper语音识别推理

文章目录


一、关于 whisper.cpp

1、项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别(ASR)模型的高性能推理实现,具有以下技术特性:

  • 纯C/C++实现,无外部依赖
  • 针对Apple Silicon优化(ARM NEON/Accelerate/Metal/Core ML)
  • 支持x86架构的AVX指令集
  • 支持POWER架构的VSX指令集
  • 混合F16/F32精度
  • 支持整数量化
  • 运行时零内存分配
  • 支持Vulkan/NVIDIA GPU加速
  • 支持CPU-only推理
  • 提供C风格API
  • 支持语音活动检测(VAD)

2、相关链接资源


3、功能特性

  1. 多平台支持
    • Mac OS (Intel/Apple Silicon)
    • iOS/Android
    • Linux/Windows/FreeBSD
    • WebAssembly/Raspberry Pi
  2. 硬件加速支持
    • Apple Neural Engine (Core ML)
    • NVIDIA CUDA
    • Vulkan跨平台GPU加速
    • OpenBLAS CPU加速
    • Ascend NPU支持
  3. 高级功能
    • 实时音频输入处理
    • 置信度颜色标注
    • 词级时间戳
    • 说话人分离
    • 卡拉OK式视频生成

二、安装配置

git clone https://github.com/ggml-org/whisper.cpp.git cd whisper.cpp sh ./models/download-ggml-model.sh base.en cmake -B build cmake --build build --config Release 

三、使用示例

1、基础转录

./build/bin/whisper-cli -f samples/jfk.wav 

2、实时音频处理

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

3、量化模型使用

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0 ./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav 

四、高级功能

1、Core ML加速(Mac)

./models/generate-coreml-model.sh base.en cmake -B build -DWHISPER_COREML=1 cmake --build build -j --config Release 

2、OpenVINO加速

python convert-whisper-to-openvino.py --model base.en cmake -B build -DWHISPER_OPENVINO=1 cmake --build build -j --config Release 

3、NVIDIA CUDA加速

cmake -B build -DGGML_CUDA=1 cmake --build build -j --config Release 

五、性能参考

模型磁盘占用内存占用
tiny75 MiB~273 MB
base142 MiB~388 MB
large2.9 GiB~3.9 GB

六、扩展支持

1、Docker使用

docker run -it --rm \ -v path/to/models:/models \ whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

2、语言绑定

  • Python/Rust/Go/Java/Ruby/.NET等
  • iOS(Swift)/Android(Java)移动端支持

七、注意事项

  1. 当前仅支持16-bit WAV音频输入
  2. 首次运行Core ML/OpenVINO需要编译时间
  3. 实时处理需要SDL2库支持

伊织 xAI 2025-05-18(日)

Read more

llamafactory微调qwen3-vl详细流程

llamafactory微调qwen3-vl详细流程

llamafactory微调qwen3-vl详细流程 目标:本文讲详细介绍多模态大模型使用llama-factory进行多模态模型微调(sft)的全部流程,以及微调后合并和工业落地部署方案。具体包括: 1. 环境安装部署 2. 数据集准备 3. 启动微调 4. 模型合并 5. 模型部署和请求方式(vllm部署) 示例模型: qwen2.5-vl-instruct qwen3-vl-instruct 环境安装 llama-factory环境准备 方式1 git直接下载 git clone --depth https://github.com/hiyouga/LLaMA-Factory.git 方式2 下载项目压缩包再解压 python环境安装 1. python虚拟环境创建 * conda create --name llama_env python=3.12 (默认已安装好anaconda或者minianaconda) * conda

llama-cpp-python Windows终极部署指南:从零开始轻松运行本地大模型

llama-cpp-python Windows终极部署指南:从零开始轻松运行本地大模型 【免费下载链接】llama-cpp-pythonPython bindings for llama.cpp 项目地址: https://gitcode.com/gh_mirrors/ll/llama-cpp-python 想要在Windows系统上体验本地大模型的强大功能,却总是被复杂的编译环境和依赖配置劝退?llama-cpp-python为你提供了完美的解决方案,这个项目将llama.cpp的高效推理能力封装为Python接口,让你能够用几行代码就能运行各种开源大模型。本指南将带你从零开始,用最简单的方式完成整个部署过程。 环境准备:告别复杂配置 系统要求检查 在开始之前,请确保你的系统满足以下基本要求: * Windows 10或更高版本 * Python 3.8及以上 * 至少4GB可用内存 * 支持AVX指令集的CPU Python环境快速搭建 打开命令提示符,执行以下步骤: # 创建专用虚拟环境 python -m venv llama-env # 激活环境

语音识别效率革命:whisper-large-v3-turbo一键部署指南

语音识别效率革命:whisper-large-v3-turbo一键部署指南 【免费下载链接】whisper-large-v3-turbo 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-large-v3-turbo 在人工智能语音识别领域,模型的性能与效率往往难以兼得。然而,最新发布的whisper-large-v3-turbo模型彻底打破了这一困境,在保持与whisper-large-v3近乎一致的识别质量基础上,实现了高达8倍的速度提升。对于需要处理大量语音数据的开发者、企业用户以及研究人员而言,这一突破性进展意味着更低的时间成本、更高的工作效率和更广泛的应用可能性。本教程将详细介绍如何通过极简的一键部署流程,快速将这一高效能模型应用到实际业务场景中。 模型优势深度解析:为何选择whisper-large-v3-turbo whisper-large-v3-turbo的核心竞争力来源于其创新性的模型架构优化。相较于前代模型,开发团队通过动态注意力机制调整、量化参数压缩以及推理流程重构三大技术手段,在保证语音识别