sherpa-onnx 离线语音部署框架：支持 Whisper、Moonshine 等多模型跨平台 | 极客日志

PythonAI算法

sherpa-onnx 离线语音部署框架：支持 Whisper、Moonshine 等多模型跨平台

sherpa-onnx 是一个开源的离线语音推理部署框架，支持将 Whisper、Moonshine、SenseVoice 等多种语音模型统一转换为 ONNX 格式。它覆盖语音识别、合成、说话人分离等 12 项功能，支持 Android、iOS、WebAssembly 及多种嵌入式硬件（如 Jetson、RK3588）。框架提供多语言绑定和 NPU 加速方案，解决了模型从训练到边缘设备部署的工程鸿沟，适合离线环境下的语音 AI 应用开发。

奶糖兔发布于 2026/4/6更新于 2026/7/2867 浏览

sherpa-onnx 离线语音部署框架：支持 Whisper、Moonshine 等多模型跨平台

导读

语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer，几乎每个月都有新模型发布。但对开发者来说，选好模型只是第一步，真正的工程挑战在后面：怎么把它跑在手机上？嵌入式设备上？浏览器里？怎么接入 NPU 加速？怎么在没有网络的环境下运行？

sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架（GitHub 10.9k stars，Apache 2.0 协议），它的定位很明确：将多种语音模型统一转成 ONNX 格式，部署到各类平台上，支持离线运行。覆盖 12 项语音功能、12 种编程语言、从服务器到嵌入式的多平台支持，最新版 v1.12.29 于 3 月 12 日发布。

本文将介绍 sherpa-onnx 的功能覆盖、模型生态、硬件适配方案和上手方式。

一、功能矩阵：不只是语音识别

sherpa-onnx 覆盖 12 项语音功能，远不止 ASR：

功能	说明
语音识别（ASR）	流式 + 非流式两种模式
语音合成（TTS）	支持多种 TTS 引擎
说话人分离	多说话人场景
说话人识别	声纹匹配
说话人验证	一对一声纹确认
语种识别	自动检测语言
语音活动检测（VAD）	基于 silero-vad（轻量级语音端点检测模型）
关键词检测	唤醒词 / 热词触发
音频标签	环境音分类
标点恢复	为识别结果添加标点
语音增强	降噪（gtcrn、DPDFNet 等降噪模型）
音源分离	人声/伴奏分离（spleeter、UVR 等分离模型）

多平台覆盖

架构	Android	iOS	Windows	macOS	Linux	HarmonyOS
x64	✔		✔	✔	✔	✔
x86	✔		✔

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型	支持语言
Zipformer（多语言版本）	中文、英文、韩文、法文等
Paraformer（流式版）	中英双语 / 中粤英三语

模型	支持语言
Whisper（tiny 到 large）	多语言
Moonshine（tiny / base / v2）	英文
SenseVoice	中文、英文、粤语、日文、韩文 + 多种中文方言
FireRedASR v2（CTC / AED）	中英文 + 20+ 种方言
Paraformer（离线版）	中英文 + 多种中文方言
NVIDIA Parakeet	英文
TeleSpeech	中文 + 多种方言
Dolphin	40 种亚洲语言 + 22 种中文方言

模型	说明
Piper	多语言轻量 TTS
Matcha	中文、英文、中英混合
Supertonic2	v1.12.29 新增
ZipVoice	中英文语音克隆
PocketTTS	英文语音克隆

版本	日期	新增模型/功能
v1.12.29	3/12	Supertonic2 TTS，多语言绑定同步更新
v1.12.28	2/28	Moonshine v2 ASR，多语言绑定同步更新
v1.12.27	2/26	FireRedASR CTC 模型，Rust VAD API
v1.12.26	2/24	PocketTTS 语音嵌入缓存，Rust ASR API

NPU	厂商	典型设备
RKNN	瑞芯微	RK3588 等开发板
QNN	高通	骁龙平台手机/IoT
Ascend NPU	华为	昇腾 AI 处理器
Axera NPU	爱芯元智	边缘 AI 芯片

pip install sherpa-onnx

类型	覆盖功能
Android APK	流式/非流式 ASR、TTS、VAD、音频标签、说话人识别/分离、关键词检测、语种识别
Flutter App	流式 ASR、TTS（Android/Linux/macOS/Windows）
Lazarus App	字幕生成
WebAssembly Demo	ASR、TTS、VAD、说话人分离、语音克隆（浏览器直接运行）

sherpa-onnx 离线语音部署框架：支持 Whisper、Moonshine 等多模型跨平台

导读

一、功能矩阵：不只是语音识别

多平台覆盖

更多推荐文章

相关免费在线工具

12 种编程语言

二、模型生态：集成了哪些模型

语音识别（ASR）

语音合成（TTS）

2026 年近期新增

三、硬件适配：从服务器到嵌入式

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

四、上手方式

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

五、总结

适合关注的场景：

当前局限：

项目信息：

更多推荐文章

相关免费在线工具

sherpa-onnx 离线语音部署框架：支持 Whisper、Moonshine 等多模型跨平台

导读

一、功能矩阵：不只是语音识别

多平台覆盖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

12 种编程语言

二、模型生态：集成了哪些模型

语音识别（ASR）

语音合成（TTS）

2026 年近期新增

三、硬件适配：从服务器到嵌入式

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

四、上手方式

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

五、总结

适合关注的场景：

当前局限：

项目信息：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具