whisper.cpp - 高性能Whisper语音识别推理

文章目录


一、关于 whisper.cpp

1、项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别(ASR)模型的高性能推理实现,具有以下技术特性:

  • 纯C/C++实现,无外部依赖
  • 针对Apple Silicon优化(ARM NEON/Accelerate/Metal/Core ML)
  • 支持x86架构的AVX指令集
  • 支持POWER架构的VSX指令集
  • 混合F16/F32精度
  • 支持整数量化
  • 运行时零内存分配
  • 支持Vulkan/NVIDIA GPU加速
  • 支持CPU-only推理
  • 提供C风格API
  • 支持语音活动检测(VAD)

2、相关链接资源


3、功能特性

  1. 多平台支持
    • Mac OS (Intel/Apple Silicon)
    • iOS/Android
    • Linux/Windows/FreeBSD
    • WebAssembly/Raspberry Pi
  2. 硬件加速支持
    • Apple Neural Engine (Core ML)
    • NVIDIA CUDA
    • Vulkan跨平台GPU加速
    • OpenBLAS CPU加速
    • Ascend NPU支持
  3. 高级功能
    • 实时音频输入处理
    • 置信度颜色标注
    • 词级时间戳
    • 说话人分离
    • 卡拉OK式视频生成

二、安装配置

git clone https://github.com/ggml-org/whisper.cpp.git cd whisper.cpp sh ./models/download-ggml-model.sh base.en cmake -B build cmake --build build --config Release 

三、使用示例

1、基础转录

./build/bin/whisper-cli -f samples/jfk.wav 

2、实时音频处理

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

3、量化模型使用

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0 ./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav 

四、高级功能

1、Core ML加速(Mac)

./models/generate-coreml-model.sh base.en cmake -B build -DWHISPER_COREML=1 cmake --build build -j --config Release 

2、OpenVINO加速

python convert-whisper-to-openvino.py --model base.en cmake -B build -DWHISPER_OPENVINO=1 cmake --build build -j --config Release 

3、NVIDIA CUDA加速

cmake -B build -DGGML_CUDA=1 cmake --build build -j --config Release 

五、性能参考

模型磁盘占用内存占用
tiny75 MiB~273 MB
base142 MiB~388 MB
large2.9 GiB~3.9 GB

六、扩展支持

1、Docker使用

docker run -it --rm \ -v path/to/models:/models \ whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

2、语言绑定

  • Python/Rust/Go/Java/Ruby/.NET等
  • iOS(Swift)/Android(Java)移动端支持

七、注意事项

  1. 当前仅支持16-bit WAV音频输入
  2. 首次运行Core ML/OpenVINO需要编译时间
  3. 实时处理需要SDL2库支持

伊织 xAI 2025-05-18(日)

Read more

ChatGPT降AIGC率指令实战指南:从原理到最佳实践

AIGC率:一个开发者必须面对的质量指标 最近在项目里用ChatGPT这类大模型生成内容时,总被一个词困扰——AIGC率。简单来说,它衡量的是生成内容与模型训练数据中已有内容的相似度,或者说“机器味儿”有多浓。对于开发者而言,高AIGC率不仅意味着内容可能缺乏新意、流于模板化,在严肃的应用场景(如知识输出、创意写作、代码生成)中,更可能引发原创性不足、甚至潜在的合规风险。因此,学会通过指令(Prompt)有效控制AIGC率,从“能用”走向“用好”,成了我们进阶路上的必修课。 1. 高AIGC率问题的根源:为什么模型总在“复读”? 要解决问题,先要理解问题从何而来。大语言模型本质上是基于海量数据训练出的概率模型,其生成过程是预测下一个最可能的词元(Token)。这导致了几种常见的高AIGC率诱因: * 指令模糊或过于宽泛:当Prompt如“写一篇关于春天的文章”时,模型极易落入最常见的训练数据模式,产出千篇一律的套话。 * 缺乏具体约束与引导:没有提供独特的视角、具体的细节要求、期望的文体或情感基调,模型没有“

腾讯混元视频模型震撼开源:130亿参数重构AIGC视频生成范式

2024年12月3日,腾讯正式发布旗下首款文生视频大模型——混元视频生成系统(HunyuanVideo),以130亿参数规模刷新开源视频模型纪录。不同于行业普遍采用的闭源策略,腾讯此次将模型权重、推理代码及完整技术方案同步上传至代码托管平台,形成从算法到应用的全链路开放生态。该模型已率先登陆腾讯元宝APP"AI创作工坊",普通用户可通过自然语言描述生成专业级视频内容,开发者则能通过腾讯云API接入定制化服务。 四大核心能力重塑视频创作逻辑 混元视频生成系统凭借四大技术突破重新定义AIGC视频标准:在视觉呈现上,采用自研的动态光影渲染引擎,生成视频达到4K级超写实画质,发丝纹理、水面折射等物理细节可直接用于电影级后期制作;语义理解层面,通过多模态大模型深度解析文本指令,实现"描述即所得"的创作体验,例如精确生成"穿汉服的宇航员在火星种植桃树"这类跨概念组合场景;运动控制方面,创新的物理引擎模拟器确保主体运动符合力学规律,解决了传统模型中人物关节扭曲、物体漂浮等常见问题;叙事表达上,原生支持多镜头语言自动生成,可根据剧情需要完成推拉摇移等专业运镜转换,极大降低视频创作的技术门槛。

知网aigc检测多少算正常?怎么把知网ai率降到15%!

知网aigc检测多少算正常?怎么把知网ai率降到15%!

2025年起,高校已明确要求毕业论文要检测AIGC率,AI率高于30%或40%就不能参加答辩,而部分学校、硕士论文更加严格,要求在20%以内。 这其中,大多数高校使用的AIGC检测系统是知网、万方、维普等主流查重系统,这些系统的检测算法更加严谨,结果更可靠。 目前市面上主流的AIGC检测工具大概率是根据数据库中已有的文章,做分类模型,将检测文章输入,进而根据语言风格、写作习惯区分AI生成和人为写作。 但由于大模型的训练就是根据人类语料库进行的,哪怕是纯手写的论文也有概率被判定为AI痕迹,导致AIGC查重率过高。 有网友将朱自清的《荷塘月色》、刘慈欣的《流浪地球》上传到检测平台,意外发现这些文章的AI疑似度分别高达62.88%和52.88%。 比话就是为此类情况设计,帮助师生减少这种AI率误伤的概率。通过语义学习来优化内容质量,在保持论文学术专业性的同时降AI率,是师生们信赖的工具。 一、为什么比话能有效降低知网AIGC率? https://www.openorm.com/?source=ZEEKLOG 比话能很好地降知网ai率,有2个原因,一个是降AI工具通用的语义

【AIGC】ChatGPT 实用技巧:文本与数据的结构化方法全解析

【AIGC】ChatGPT 实用技巧:文本与数据的结构化方法全解析

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏: AIGC |ChatGPT 文章目录 * 💯前言 * 💯中文排版序号 * 1. 一级标题(First-Level Title) * 2. 二级标题(Second-Level Title) * 3. 三级标题(Third-Level Title) * 4. 四级标题(Fourth-Level Title) * 💯Markdown 语法 * 一级标题(First-Level Heading) * 二级标题(Second-Level Heading) * 子标题(Subheadings) * 列表(Lists) * 无序列表 * 有序列表 * 加粗和斜体(Bold and Italics) * 加粗 * 斜体 * 💯编程语法也是结构化 * YAML 语法结构的例子 * 1. 层级关系(