跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

sherpa-onnx:将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

综述由AI生成sherpa-onnx 是一个开源的语音推理部署框架,支持将 Whisper、Moonshine、SenseVoice 等多种模型统一转换为 ONNX 格式。它覆盖了 ASR、TTS、VAD 等 12 项功能,支持 C++、Python 等 12 种语言,可运行于 Android、iOS、WebAssembly 及多种嵌入式设备。该框架解决了模型到部署的工程鸿沟,提供 NPU 加速与离线运行能力,适合需要在无网络环境下集成语音能力的开发者。

虚拟内存发布于 2026/4/9更新于 2026/5/2216 浏览
sherpa-onnx:将 Whisper、SenseVoice 等模型部署到手机的离线语音框架

sherpa-onnx:手机与嵌入式端的离线语音推理框架

语音 AI 模型更新迭代非常快,Whisper、Moonshine、SenseVoice 几乎每个月都有新版本。但对开发者而言,选好模型只是第一步,真正的工程挑战在于如何把它跑在手机上、嵌入式设备上或浏览器里,以及如何在没有网络的环境下运行。

sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架(Apache 2.0 协议),它的核心定位很明确:将多种语音模型统一转成 ONNX 格式,部署到各类平台上。最新版 v1.12.29 于 3 月 12 日发布,支持 12 项语音功能、12 种编程语言,覆盖从服务器到嵌入式设备的全场景。

功能覆盖:不止是识别

sherpa-onnx 的功能矩阵远不止 ASR 识别,它覆盖了 12 项核心能力:

功能说明
语音识别(ASR)流式 + 非流式两种模式
语音合成(TTS)支持多种 TTS 引擎
说话人分离多说话人场景处理
说话人识别声纹匹配
说话人验证一对一声纹确认
语种识别自动检测语言
语音活动检测(VAD)基于 silero-vad 轻量级模型
关键词检测唤醒词 / 热词触发
音频标签环境音分类
标点恢复为识别结果添加标点
语音增强降噪(gtcrn、DPDFNet 等)
音源分离人声/伴奏分离(spleeter、UVR 等)

多平台覆盖

除了常见的 x64/x86/arm64 架构外,它还支持 WebAssembly(浏览器端)、WearOS、openKylin、NVIDIA Jetson(Orin NX / Nano B01)、Raspberry Pi、RISC-V 开发板等。

架构AndroidiOSWindowsmacOSLinuxHarmonyOS
x64✔✔✔✔✔
x86✔✔
arm64✔✔✔✔✔✔
arm32✔✔✔
riscv64✔

此外还支持 C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal 等 12 种编程语言。

模型生态:统一 ONNX 标准

sherpa-onnx 定位为推理部署框架,不包含模型训练功能,而是把各方的模型转成 ONNX 纳入统一框架。以下是部分已集成的模型:

语音识别(ASR)

流式模型(实时场景):

模型支持语言
Zipformer(多语言版本)中文、英文、韩文、法文等
Paraformer(流式版)中英双语 / 中粤英三语

非流式模型(离线/批量场景):

模型支持语言
Whisper(tiny 到 large)多语言
Moonshine(tiny / base / v2)英文
SenseVoice中文、英文、粤语、日文、韩文 + 多种中文方言
FireRedASR v2(CTC / AED)中英文 + 20+ 种方言
Paraformer(离线版)中英文 + 多种中文方言
NVIDIA Parakeet英文
TeleSpeech中文 + 多种方言
Dolphin40 种亚洲语言 + 22 种中文方言

语音合成(TTS)

模型说明
Piper多语言轻量 TTS
Matcha中文、英文、中英混合
Supertonic2v1.12.29 新增
ZipVoice中英文语音克隆
PocketTTS英文语音克隆

近期更新动态

新模型接入时,团队会同步更新绝大多数语言的绑定,这是 sherpa-onnx 工程量最大的地方,也是它的核心价值——开发者不需要自己做模型转换和跨平台适配。

版本日期新增模型/功能
v1.12.293/12Supertonic2 TTS,多语言绑定同步更新
v1.12.282/28Moonshine v2 ASR,多语言绑定同步更新
v1.12.272/26FireRedASR CTC 模型,Rust VAD API
v1.12.262/24PocketTTS 语音嵌入缓存,Rust ASR API

硬件适配:从服务器到边缘

NPU 加速

sherpa-onnx 支持 4 种主流 NPU,方便在特定芯片上优化性能:

NPU厂商典型设备
RKNN瑞芯微RK3588 等开发板
QNN高通骁龙平台手机/IoT
Ascend NPU华为昇腾 AI 处理器
Axera NPU爱芯元智边缘 AI 芯片

已验证的边缘设备

README 中列出的已测试设备包括 NVIDIA Jetson(Orin NX、Nano B01)、Raspberry Pi、RISC-V 开发板(LicheePi4A、VisionFive 2)、国产 AI 开发板(旭日 X3 派、爱芯派、RK3588)以及 RV1126 等。

浏览器端:WebAssembly

项目提供完整的 WebAssembly 支持,可以在浏览器中直接运行语音识别、语音合成、说话人分离等功能,无需后端服务器。HuggingFace 上提供了大量在线 demo,涵盖多种语言和模型组合,大部分 demo 也提供国内镜像地址。

快速上手

Python 安装

pip install sherpa-onnx 

预构建应用

如果你不想编译,可以直接使用开箱即用的预构建应用:

类型覆盖功能
Android APK流式/非流式 ASR、TTS、VAD、音频标签、说话人识别/分离、关键词检测、语种识别
Flutter App流式 ASR、TTS(Android/Linux/macOS/Windows)
Lazarus App字幕生成
WebAssembly DemoASR、TTS、VAD、说话人分离、语音克隆(浏览器直接运行)

HuggingFace 在线体验

不需要安装任何东西,直接在浏览器中试用。支持的功能包括语音识别(多种模型可选)、语音合成(Piper、Matcha、ZipVoice)、说话人分离、音频标签、音源分离以及 VAD + ASR 组合(Whisper、Moonshine、SenseVoice、Paraformer 等)。

预训练模型下载

项目通过 GitHub Releases 提供各类预训练模型的下载,按功能分类:ASR 模型、TTS 模型、VAD 模型、关键词检测模型、音频标签模型、说话人识别模型、标点模型、说话人分割模型、语音增强模型、音源分离模型。

总结

sherpa-onnx 的价值不在于某个模型的精度有多高,而在于解决了'模型到部署'之间的工程鸿沟。它把 Whisper、Moonshine、SenseVoice、FireRedASR 等模型统一到一个框架里,让开发者用同一套 API 就能部署到手机、嵌入式设备、浏览器或服务器上。

适合关注的场景

  • 需要在离线环境下运行语音 AI(无网络依赖)
  • 需要将语音能力部署到移动端、嵌入式或浏览器
  • 在多个项目中使用不同的语音模型,希望统一部署框架
  • 需要 NPU 加速(瑞芯微、高通、华为昇腾、爱芯元智)

当前局限

  • 定位为推理部署框架,不包含模型训练功能,依赖上游模型的更新和质量
  • 部分新模型的集成存在滞后(需要等团队完成 ONNX 转换和全语言绑定)
  • 文档以英文为主,部分中文文档覆盖不完整

项目信息

  • GitHub: https://github.com/k2-fsa/sherpa-onnx
  • 文档: https://k2-fsa.github.io/sherpa/onnx/index.html
  • 协议: Apache 2.0
  • 最新版本: v1.12.29(2026-03-12)

目录

  1. sherpa-onnx:手机与嵌入式端的离线语音推理框架
  2. 功能覆盖:不止是识别
  3. 多平台覆盖
  4. 模型生态:统一 ONNX 标准
  5. 语音识别(ASR)
  6. 语音合成(TTS)
  7. 近期更新动态
  8. 硬件适配:从服务器到边缘
  9. NPU 加速
  10. 已验证的边缘设备
  11. 浏览器端:WebAssembly
  12. 快速上手
  13. Python 安装
  14. 预构建应用
  15. HuggingFace 在线体验
  16. 预训练模型下载
  17. 总结
  18. 适合关注的场景
  19. 当前局限
  20. 项目信息
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 原生应用开发:Llama 模型的高级用法
  • Trae AI 辅助编程核心技巧与场景实战
  • Python 爬虫入门:Requests 库十个小案例实战
  • AI、AGI、AIGC、NLP、LLM 与 ChatGPT 核心概念解析
  • 二分查找算法原理及常见变种解析
  • Open-AutoGLM 打造专属手机机器人
  • FUXA Web可视化系统实战指南:构建现代化工业监控平台
  • 基于 DeepSeek-R1-Distill-Llama-8B 的 OpenSpec 协议分析
  • VS Code 中 GitHub Copilot 与 Git 集成配置指南
  • 2026 年主流 AI 写作工具横向测评:逻辑、拟人与成本对比
  • JavaScript 前端基础入门教程
  • EhViewer 安卓端 E-Hentai 漫画浏览工具安装与使用指南
  • Eino ADK 核心解析:为什么 Agent 必须是一层独立抽象
  • 基于 Web 和 Android 的漫画阅读平台
  • OpenClaw Gateway 安装失败 systemctl --user is-enabled unavailable 排查与解决
  • 拒绝 AI 味:用 Anthropic Skill 提升前端设计审美
  • 注意力机制与 Transformer 模型实战详解
  • AutoFigure:基于长文本生成高质量科研插图的 AI 框架
  • AI 产品经理的核心职责及与传统产品经理的差异
  • 机器人调试学习规划

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online