把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star

把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star

导读:

语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步,真正的工程挑战在后面:怎么把它跑在手机上?嵌入式设备上?浏览器里?怎么接入 NPU 加速?怎么在没有网络的环境下运行?

sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架(GitHub 10.9k stars,Apache 2.0 协议),它的定位很明确:将多种语音模型统一转成 ONNX 格式,部署到各类平台上,支持离线运行。覆盖 12 项语音功能、12 种编程语言、从服务器到嵌入式的多平台支持,最新版 v1.12.29 于 3 月 12 日发布。

本文将介绍 sherpa-onnx 的功能覆盖、模型生态、硬件适配方案上手方式

一、功能矩阵:不只是语音识别

sherpa-onnx 覆盖 12 项语音功能,远不止 ASR:

功能说明

语音识别(ASR)

流式 + 非流式两种模式

语音合成(TTS)

支持多种 TTS 引擎

说话人分离

多说话人场景

说话人识别

声纹匹配

说话人验证

一对一声纹确认

语种识别

自动检测语言

语音活动检测(VAD)

基于 silero-vad(轻量级语音端点检测模型)

关键词检测

唤醒词 / 热词触发

音频标签

环境音分类

标点恢复

为识别结果添加标点

语音增强

降噪(gtcrn、DPDFNet 等降噪模型)

音源分离

人声/伴奏分离(spleeter、UVR 等分离模型)

多平台覆盖

架构AndroidiOSWindowsmacOSLinuxHarmonyOS

x64

x86

arm64

arm32

riscv64

此外还支持 WebAssembly(浏览器端运行)、WearOS、openKylin、NVIDIA Jetson(Orin NX / Nano B01)、Raspberry Pi、RISC-V 开发板等。

12 种编程语言

C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal,加上 WebAssembly 支持。

二、模型生态:集成了哪些模型

sherpa-onnx 定位为推理部署框架,不包含模型训练功能,而是把各方的模型转成 ONNX(Open Neural Network Exchange,开放神经网络交换格式)纳入统一框架。以下是部分已集成的模型:

语音识别(ASR)

流式模型(实时场景):

模型支持语言

Zipformer(多语言版本)

中文、英文、韩文、法文等

Paraformer(流式版)

中英双语 / 中粤英三语

非流式模型(离线/批量场景):

模型支持语言

Whisper(tiny 到 large)

多语言

Moonshine(tiny / base / v2)

英文

SenseVoice

中文、英文、粤语、日文、韩文 + 多种中文方言

FireRedASR v2(CTC / AED)

中英文 + 20+ 种方言

Paraformer(离线版)

中英文 + 多种中文方言

NVIDIA Parakeet

英文

TeleSpeech

中文 + 多种方言

Dolphin

40 种亚洲语言 + 22 种中文方言

语音合成(TTS)

模型说明

Piper

多语言轻量 TTS

Matcha

中文、英文、中英混合

Supertonic2

v1.12.29 新增

ZipVoice

中英文语音克隆

PocketTTS

英文语音克隆

2026 年近期新增

版本日期新增模型/功能

v1.12.29

3/12

Supertonic2 TTS,多语言绑定同步更新

v1.12.28

2/28

Moonshine v2 ASR,多语言绑定同步更新

v1.12.27

2/26

FireRedASR CTC 模型,Rust VAD API

v1.12.26

2/24

PocketTTS 语音嵌入缓存,Rust ASR API

新模型接入时,团队会同步更新绝大多数语言的绑定,这是 sherpa-onnx 工程量最大的地方,也是它的核心价值——开发者不需要自己做模型转换和跨平台适配。

三、硬件适配:从服务器到嵌入式

NPU 加速

sherpa-onnx 支持 4 种 NPU:

NPU厂商典型设备

RKNN

瑞芯微

RK3588 等开发板

QNN

高通

骁龙平台手机/IoT

Ascend NPU

华为

昇腾 AI 处理器

Axera NPU

爱芯元智

边缘 AI 芯片

已验证的边缘设备

README 中列出的已测试设备包括:

NVIDIA Jetson:Orin NX(CPU + GPU)、Nano B01(CPU + GPU)Raspberry PiRISC-V 开发板:LicheePi4A、VisionFive 2国产 AI 开发板:旭日X3派、爱芯派、RK3588RV1126

浏览器端:WebAssembly

sherpa-onnx 提供完整的 WebAssembly 支持,可以在浏览器中直接运行语音识别、语音合成、说话人分离、VAD 等功能,无需后端服务器。项目在 HuggingFace 上提供了大量在线 demo,涵盖多种语言和模型组合。

四、上手方式

Python 安装

pip install sherpa-onnx 

预构建应用

sherpa-onnx 提供多种开箱即用的预构建应用,无需编译:

类型覆盖功能

Android APK

流式/非流式 ASR、TTS、VAD、音频标签、说话人识别/分离、关键词检测、语种识别

Flutter App

流式 ASR、TTS(Android/Linux/macOS/Windows)

Lazarus App

字幕生成

WebAssembly Demo

ASR、TTS、VAD、说话人分离、语音克隆(浏览器直接运行)

HuggingFace 在线体验

不需要安装任何东西,直接在浏览器中试用:

语音识别(多种模型可选)语音合成(Piper、Matcha、ZipVoice)说话人分离音频标签音源分离VAD + ASR 组合(Whisper、Moonshine、SenseVoice、Paraformer 等)

大部分 demo 提供国内镜像地址。

预训练模型下载

项目通过 GitHub Releases 提供各类预训练模型的下载,按功能分类:ASR 模型、TTS 模型、VAD 模型、关键词检测模型、音频标签模型、说话人识别模型、标点模型、说话人分割模型、语音增强模型、音源分离模型。

五、总结

sherpa-onnx 的价值不在于某个模型的精度有多高,而在于解决了"模型到部署"之间的工程鸿沟。它把 Whisper、Moonshine、SenseVoice、FireRedASR 等模型统一到一个框架里,让开发者用同一套 API 就能部署到手机、嵌入式设备、浏览器或服务器上。

适合关注的场景:

需要在离线环境下运行语音 AI(无网络依赖)需要将语音能力部署到移动端、嵌入式或浏览器在多个项目中使用不同的语音模型,希望统一部署框架需要 NPU 加速(瑞芯微、高通、华为昇腾、爱芯元智)

当前局限:

定位为推理部署框架,不包含模型训练功能,依赖上游模型的更新和质量部分新模型的集成存在滞后(需要等团队完成 ONNX 转换和全语言绑定)文档以英文为主,部分中文文档覆盖不完整

项目信息:

GitHub:https://github.com/k2-fsa/sherpa-onnx文档:https://k2-fsa.github.io/sherpa/onnx/index.html协议:Apache 2.0最新版本:v1.12.29(2026-03-12)社区:Discord

Read more

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

在2026年GTC大会上,英伟达创始人兼CEO黄仁勋抛出了一个振聋发聩的判断:“OpenClaw绝对是下一个ChatGPT”。 这一评价并非夸大其词,而是精准点出了AI产业的核心演进方向——从“被动回答”的语言交互,转向“主动行动”的任务执行。ChatGPT开启了大语言模型(LLM)的普及时代,让AI具备了理解和生成人类语言的能力,但它始终停留在“军师”的角色,只能提供方案建议;而OpenClaw的出现,彻底打破了这一局限,将AI变成了能动手干活的“数字员工”,完成了AI从“认知”到“执行”的关键跃迁,成为连接AI能力与现实场景的核心桥梁。 下面我将从技术本质出发,拆解OpenClaw的核心架构、关键技术实现,结合代码示例、架构图与流程图,深入解析其如何实现“行动型AI”的突破,以及为何能被黄仁勋寄予厚望,成为AI产业的下一个里程碑。 一、认知跃迁:从“回答型AI”到“行动型AI”的本质区别 要理解OpenClaw的价值,首先需要明确它与ChatGPT这类“回答型AI”的核心差异。

【AI】高效交互的艺术:AI提示工程与大模型对话指南

【AI】高效交互的艺术:AI提示工程与大模型对话指南

🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人等方向学习者 ❄️个人专栏:《AI》 ✨ 永远相信美好的事情即将发生 文章目录 * 前言 * 一、ChatatGPT介绍 * 二、什么是提示工程? * 三、大语言模型的底层原理 * 四、AI的相关术语 * 五、如何与AI(以ChatatGPT为例)更好交流 * 5.1 使用AI的核心 * 5.2 提示组成结构 * 5.3 创建好的提示的策略 * 5.4 提示的类别 * 5.5 创建在和AI提示的进阶框架 * 5.6如何减少AI回答的空洞无味感 * 5.7 如何提高AI回答的可读性 * 六、使用AI的更多技巧 * 6.1 高效提示的原则 * 6.

Stable Diffusion v1.5技术解密:从创意到商业化的AI图像生成革命

Stable Diffusion v1.5技术解密:从创意到商业化的AI图像生成革命 【免费下载链接】stable_diffusion_v1_5Stable Diffusion is a latent text-to-image diffusion model capable of generating photo-realistic images given any text input. 项目地址: https://ai.gitcode.com/openMind/stable_diffusion_v1_5 还在为AI图像生成的复杂技术而头疼吗?想要快速掌握这个价值数十亿美元市场背后的核心技术吗?今天,我将带你深入Stable Diffusion v1.5的技术内核,揭秘它如何从实验室走向商业化应用的完整路径。无论你是技术开发者、内容创作者还是企业决策者,这篇文章都将成为你进入AIGC世界的通行证 🚀 开篇:AI图像生成的三大痛点与解决方案 在深入技术细节之前,

七大AIGC测试工具横向评测:赋能软件测试的AI利器

七大AIGC测试工具横向评测:赋能软件测试的AI利器

在AI技术迅猛发展的2025年,AIGC(人工智能生成内容)工具已深度融入软件测试领域,显著提升测试效率和质量。本次评测聚焦七大主流工具:CodeWhisperer、GitHub Copilot、Testim、Selenium AI、Test.ai、Mabl和Functionize。评测基于实际测试场景(如Web/API测试、移动端兼容性验证),从核心功能、优缺点、适用性及成本四维度展开。目标是为测试工程师提供数据驱动的决策参考。评测方法包括工具实测(使用Python/Java测试脚本)、用户反馈分析(来源Stack Overflow和GitHub议题)及性能基准测试(错误检测率、执行速度)。以下是详细横向比较。 一、工具核心功能与评测结果 1. Amazon CodeWhisperer * 功能亮点:基于AWS的AI代码助手,专精于测试脚本生成。支持Python、Java等语言,能自动补全测试用例(如Selenium脚本),并集成漏洞扫描。实测中,生成100行测试代码的平均时间仅5秒,错误率低于5%。 * 优点: