sherpa-onnx：将 Whisper、SenseVoice 等模型部署到手机的离线语音框架 | 极客日志

PythonAI算法

sherpa-onnx：将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

sherpa-onnx 是一个开源的语音推理部署框架，支持将 Whisper、Moonshine、SenseVoice 等多种模型统一转换为 ONNX 格式。它覆盖了 ASR、TTS、VAD 等 12 项功能，支持 C++、Python 等 12 种语言，可运行于 Android、iOS、WebAssembly 及多种嵌入式设备。该框架解决了模型到部署的工程鸿沟，提供 NPU 加速与离线运行能力，适合需要在无网络环境下集成语音能力的开发者。

虚拟内存发布于 2026/4/9更新于 2026/7/1942 浏览

sherpa-onnx：将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

sherpa-onnx：手机与嵌入式端的离线语音推理框架

语音 AI 模型更新迭代非常快，Whisper、Moonshine、SenseVoice 几乎每个月都有新版本。但对开发者而言，选好模型只是第一步，真正的工程挑战在于如何把它跑在手机上、嵌入式设备上或浏览器里，以及如何在没有网络的环境下运行。

sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架（Apache 2.0 协议），它的核心定位很明确：将多种语音模型统一转成 ONNX 格式，部署到各类平台上。最新版 v1.12.29 于 3 月 12 日发布，支持 12 项语音功能、12 种编程语言，覆盖从服务器到嵌入式设备的全场景。

功能覆盖：不止是识别

sherpa-onnx 的功能矩阵远不止 ASR 识别，它覆盖了 12 项核心能力：

功能	说明
语音识别（ASR）	流式 + 非流式两种模式
语音合成（TTS）	支持多种 TTS 引擎
说话人分离	多说话人场景处理
说话人识别	声纹匹配
说话人验证	一对一声纹确认
语种识别	自动检测语言
语音活动检测（VAD）	基于 silero-vad 轻量级模型
关键词检测	唤醒词 / 热词触发
音频标签	环境音分类
标点恢复	为识别结果添加标点
语音增强	降噪（gtcrn、DPDFNet 等）
音源分离	人声/伴奏分离（spleeter、UVR 等）

多平台覆盖

除了常见的 x64/x86/arm64 架构外，它还支持 WebAssembly（浏览器端）、WearOS、openKylin、NVIDIA Jetson（Orin NX / Nano B01）、Raspberry Pi、RISC-V 开发板等。

架构	Android	iOS	Windows	macOS	Linux	HarmonyOS
x64	✔		✔	✔	✔	✔
x86	✔		✔
arm64	✔	✔	✔	✔	✔	✔

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型	支持语言
Zipformer（多语言版本）	中文、英文、韩文、法文等
Paraformer（流式版）	中英双语 / 中粤英三语

模型	支持语言
Whisper（tiny 到 large）	多语言
Moonshine（tiny / base / v2）	英文
SenseVoice	中文、英文、粤语、日文、韩文 + 多种中文方言
FireRedASR v2（CTC / AED）	中英文 + 20+ 种方言
Paraformer（离线版）	中英文 + 多种中文方言
NVIDIA Parakeet	英文
TeleSpeech	中文 + 多种方言
Dolphin	40 种亚洲语言 + 22 种中文方言

模型	说明
Piper	多语言轻量 TTS
Matcha	中文、英文、中英混合
Supertonic2	v1.12.29 新增
ZipVoice	中英文语音克隆
PocketTTS	英文语音克隆

版本	日期	新增模型/功能
v1.12.29	3/12	Supertonic2 TTS，多语言绑定同步更新
v1.12.28	2/28	Moonshine v2 ASR，多语言绑定同步更新
v1.12.27	2/26	FireRedASR CTC 模型，Rust VAD API
v1.12.26	2/24	PocketTTS 语音嵌入缓存，Rust ASR API

NPU	厂商	典型设备
RKNN	瑞芯微	RK3588 等开发板
QNN	高通	骁龙平台手机/IoT
Ascend NPU	华为	昇腾 AI 处理器
Axera NPU	爱芯元智	边缘 AI 芯片

pip install sherpa-onnx

类型	覆盖功能
Android APK	流式/非流式 ASR、TTS、VAD、音频标签、说话人识别/分离、关键词检测、语种识别
Flutter App	流式 ASR、TTS（Android/Linux/macOS/Windows）
Lazarus App	字幕生成
WebAssembly Demo	ASR、TTS、VAD、说话人分离、语音克隆（浏览器直接运行）

sherpa-onnx：将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

sherpa-onnx：手机与嵌入式端的离线语音推理框架

功能覆盖：不止是识别

多平台覆盖

更多推荐文章

相关免费在线工具

模型生态：统一 ONNX 标准

语音识别（ASR）

语音合成（TTS）

近期更新动态

硬件适配：从服务器到边缘

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

快速上手

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

总结

适合关注的场景

当前局限

项目信息

更多推荐文章

相关免费在线工具

sherpa-onnx：将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

sherpa-onnx：手机与嵌入式端的离线语音推理框架

功能覆盖：不止是识别

多平台覆盖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型生态：统一 ONNX 标准

语音识别（ASR）

语音合成（TTS）

近期更新动态

硬件适配：从服务器到边缘

NPU 加速

已验证的边缘设备

浏览器端：WebAssembly

快速上手

Python 安装

预构建应用

HuggingFace 在线体验

预训练模型下载

总结

适合关注的场景

当前局限

项目信息

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具