whisper.cpp - 高性能Whisper语音识别推理

文章目录


一、关于 whisper.cpp

1、项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别(ASR)模型的高性能推理实现,具有以下技术特性:

  • 纯C/C++实现,无外部依赖
  • 针对Apple Silicon优化(ARM NEON/Accelerate/Metal/Core ML)
  • 支持x86架构的AVX指令集
  • 支持POWER架构的VSX指令集
  • 混合F16/F32精度
  • 支持整数量化
  • 运行时零内存分配
  • 支持Vulkan/NVIDIA GPU加速
  • 支持CPU-only推理
  • 提供C风格API
  • 支持语音活动检测(VAD)

2、相关链接资源


3、功能特性

  1. 多平台支持
    • Mac OS (Intel/Apple Silicon)
    • iOS/Android
    • Linux/Windows/FreeBSD
    • WebAssembly/Raspberry Pi
  2. 硬件加速支持
    • Apple Neural Engine (Core ML)
    • NVIDIA CUDA
    • Vulkan跨平台GPU加速
    • OpenBLAS CPU加速
    • Ascend NPU支持
  3. 高级功能
    • 实时音频输入处理
    • 置信度颜色标注
    • 词级时间戳
    • 说话人分离
    • 卡拉OK式视频生成

二、安装配置

git clone https://github.com/ggml-org/whisper.cpp.git cd whisper.cpp sh ./models/download-ggml-model.sh base.en cmake -B build cmake --build build --config Release 

三、使用示例

1、基础转录

./build/bin/whisper-cli -f samples/jfk.wav 

2、实时音频处理

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

3、量化模型使用

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0 ./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav 

四、高级功能

1、Core ML加速(Mac)

./models/generate-coreml-model.sh base.en cmake -B build -DWHISPER_COREML=1 cmake --build build -j --config Release 

2、OpenVINO加速

python convert-whisper-to-openvino.py --model base.en cmake -B build -DWHISPER_OPENVINO=1 cmake --build build -j --config Release 

3、NVIDIA CUDA加速

cmake -B build -DGGML_CUDA=1 cmake --build build -j --config Release 

五、性能参考

模型磁盘占用内存占用
tiny75 MiB~273 MB
base142 MiB~388 MB
large2.9 GiB~3.9 GB

六、扩展支持

1、Docker使用

docker run -it --rm \ -v path/to/models:/models \ whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

2、语言绑定

  • Python/Rust/Go/Java/Ruby/.NET等
  • iOS(Swift)/Android(Java)移动端支持

七、注意事项

  1. 当前仅支持16-bit WAV音频输入
  2. 首次运行Core ML/OpenVINO需要编译时间
  3. 实时处理需要SDL2库支持

伊织 xAI 2025-05-18(日)

Read more

5分钟玩转Cute_Animal_For_Kids_Qwen_Image,儿童专属AI绘画一键生成

5分钟玩转Cute_Animal_For_Kids_Qwen_Image,儿童专属AI绘画一键生成 你是不是也经常为孩子讲故事时缺少配图而发愁?或者想给孩子做一套专属的动物认知卡片,却苦于不会画画?现在,这些问题都能轻松解决了。今天要介绍的这个AI工具——Cute_Animal_For_Kids_Qwen_Image,就是专门为小朋友打造的“会画画的魔法助手”。 它基于阿里通义千问大模型,专攻一个看似简单却极其实用的方向:生成适合儿童审美的可爱风格动物图片。不需要任何绘画基础,只要输入一句话,比如“一只戴着小红帽的棕色小熊在森林里采蘑菇”,就能立刻生成一张色彩明亮、形象萌趣的插画。 最棒的是,整个过程不到5分钟就能上手,完全零代码操作,家长、老师都能轻松使用。接下来,我就带你一步步体验这个神奇的AI绘画工具,让你也能成为孩子的“故事插画师”。 1. 为什么这款AI绘画特别适合孩子? 市面上的AI绘画工具不少,但大多数生成的图像偏写实或艺术化,不太符合小朋友的审美。而 Cute_Animal_For_Kids_Qwen_

从语法纠错到项目重构:Python+Copilot 的全流程开发效率提升指南

从语法纠错到项目重构:Python+Copilot 的全流程开发效率提升指南

文章目录 * 从语法纠错到项目重构:Python+Copilot 的全流程开发效率提升指南 💻✨ * 一、语法纠错:Copilot 如何成为你的“实时校对员” ✅ * 示例 1:自动修复缩进错误 * 示例 2:括号/引号自动闭合与修复 * 示例 3:类型注解缺失的智能补充 * 实战技巧:结合 Linter 使用 Copilot * 二、代码生成:从单行补全到完整函数实现 🧠⚡ * 示例 4:用注释驱动函数生成 * 示例 5:生成单元测试 * 示例 6:异步 HTTP 请求生成 * 三、调试辅助:Copilot 如何帮你“读懂”错误信息 🐞🔍 * 场景:遇到 `KeyError` 怎么办? * 场景:

别再搞混了!Copilot Chat 和 Microsoft 365 Copilot 详细对比

虽然名字听起来相似 —— Microsoft 365 Copilot 和 Microsoft 365 Copilot Chat —— 但它们在多个方面存在重要区别。更关键的是,它们是相辅相成、缺一不可的。 📌 什么是 Microsoft 365 Copilot Chat? Microsoft 365 Copilot Chat(简称 Copilot Chat),主要基于网页内容生成回答。 而 Microsoft 365 Copilot 则不仅基于网页内容,还结合了用户自身的数据(如邮件、会议、文件等)。 自 2025年1月15日 起,Copilot Chat 已对所有组织全面开放。 即使是订阅了 Microsoft 365 Business Basic 的客户,也能安全地使用 Copilot Chat。

Whisper Android离线语音识别完整指南

Whisper Android离线语音识别完整指南 【免费下载链接】whisper_androidOffline Speech Recognition with OpenAI Whisper and TensorFlow Lite for Android 项目地址: https://gitcode.com/gh_mirrors/wh/whisper_android 厌倦了网络依赖的语音识别应用?想要在Android设备上实现真正的离线语音转文字功能?Whisper Android项目为您带来了完美的解决方案!结合OpenAI的Whisper模型与TensorFlow Lite,这个开源项目让您随时随地享受高质量的语音识别服务。 🤔 为什么选择离线语音识别? 在当今移动互联网时代,网络连接并不总是可靠。想象一下这些场景: * 在信号较差的山区或地下室需要记录重要信息 * 出国旅行时无法使用网络服务 * 涉及隐私的敏感语音内容处理 离线语音识别正是解决这些痛点的最佳选择!它不仅保护您的隐私安全,还提供无延迟的即时响应体验。 🎯 项目核心优势对比 特性Jav