sherpa-onnx 离线语音框架：Whisper、Moonshine、SenseVoice

sherpa-onnx 离线语音部署框架

导读

语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer，几乎每个月都有新模型发布。但对开发者来说，选好模型只是第一步，真正的工程挑战在后面：怎么把它跑在手机上？嵌入式设备上？浏览器里？怎么接入 NPU 加速？怎么在没有网络的环境下运行？

sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架（GitHub 10.9k stars，Apache 2.0 协议），它的定位很明确：将多种语音模型统一转成 ONNX 格式，部署到各类平台上，支持离线运行。覆盖 12 项语音功能、12 种编程语言、从服务器到嵌入式的多平台支持，最新版 v1.12.29 于 3 月 12 日发布。

本文将介绍 sherpa-onnx 的功能覆盖、模型生态、硬件适配方案和上手方式。

一、功能矩阵：不只是语音识别

sherpa-onnx 覆盖 12 项语音功能，远不止 ASR：

功能	说明
语音识别（ASR）	流式 + 非流式两种模式
语音合成（TTS）	支持多种 TTS 引擎
说话人分离	多说话人场景
说话人识别	声纹匹配
说话人验证	一对一声纹确认
语种识别	自动检测语言
语音活动检测（VAD）	基于 silero-vad（轻量级语音端点检测模型）
关键词检测	唤醒词 / 热词触发
音频标签	环境音分类
标点恢复	为识别结果添加标点
语音增强	降噪（gtcrn、DPDFNet 等降噪模型）
音源分离	人声/伴奏分离（spleeter、UVR 等分离模型）

多平台覆盖

架构	Android	iOS	Windows	macOS	Linux	HarmonyOS
x64	✔		✔	✔	✔	✔
x86	✔		✔
arm64	✔	✔	✔	✔

模型	支持语言
Zipformer（多语言版本）	中文、英文、韩文、法文等
Paraformer（流式版）	中英双语 / 中粤英三语

模型	支持语言
Whisper（tiny 到 large）	多语言
Moonshine（tiny / base / v2）	英文
SenseVoice	中文、英文、粤语、日文、韩文 + 多种中文方言
FireRedASR v2（CTC / AED）	中英文 + 20+ 种方言
Paraformer（离线版）	中英文 + 多种中文方言
NVIDIA Parakeet	英文
TeleSpeech	中文 + 多种方言
Dolphin	40 种亚洲语言 + 22 种中文方言

模型	说明
Piper	多语言轻量 TTS
Matcha	中文、英文、中英混合
Supertonic2	v1.12.29 新增
ZipVoice	中英文语音克隆
PocketTTS	英文语音克隆

版本	日期	新增模型/功能
v1.12.29	3/12	Supertonic2 TTS，多语言绑定同步更新
v1.12.28	2/28	Moonshine v2 ASR，多语言绑定同步更新
v1.12.27	2/26	FireRedASR CTC 模型，Rust VAD API
v1.12.26	2/24	PocketTTS 语音嵌入缓存，Rust ASR API

NPU	厂商	典型设备
RKNN	瑞芯微	RK3588 等开发板
QNN	高通	骁龙平台手机/IoT
Ascend NPU	华为	昇腾 AI 处理器
Axera NPU	爱芯元智	边缘 AI 芯片

sherpa-onnx 离线语音框架：Whisper、Moonshine、SenseVoice

sherpa-onnx 离线语音部署框架

导读

一、功能矩阵：不只是语音识别

多平台覆盖

更多推荐文章

相关免费在线工具

12 种编程语言

二、模型生态：集成了哪些模型

语音识别（ASR）

语音合成（TTS）

2026 年近期新增

三、硬件适配：从服务器到嵌入式

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

四、上手方式

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

五、总结

适合关注的场景：

当前局限：

项目信息：

更多推荐文章

相关免费在线工具

类型	覆盖功能
Android APK	流式/非流式 ASR、TTS、VAD、音频标签、说话人识别/分离、关键词检测、语种识别
Flutter App	流式 ASR、TTS（Android/Linux/macOS/Windows）
Lazarus App	字幕生成
WebAssembly Demo	ASR、TTS、VAD、说话人分离、语音克隆（浏览器直接运行）

sherpa-onnx 离线语音框架：Whisper、Moonshine、SenseVoice

sherpa-onnx 离线语音部署框架

导读

一、功能矩阵：不只是语音识别

多平台覆盖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

12 种编程语言

二、模型生态：集成了哪些模型

语音识别（ASR）

语音合成（TTS）

2026 年近期新增

三、硬件适配：从服务器到嵌入式

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

四、上手方式

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

五、总结

适合关注的场景：

当前局限：

项目信息：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具