sherpa-onnx 离线语音部署框架
导读
语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步,真正的工程挑战在后面:怎么把它跑在手机上?嵌入式设备上?浏览器里?怎么接入 NPU 加速?怎么在没有网络的环境下运行?
sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架(GitHub 10.9k stars,Apache 2.0 协议),它的定位很明确:将多种语音模型统一转成 ONNX 格式,部署到各类平台上,支持离线运行。覆盖 12 项语音功能、12 种编程语言、从服务器到嵌入式的多平台支持,最新版 v1.12.29 于 3 月 12 日发布。
本文将介绍 sherpa-onnx 的功能覆盖、模型生态、硬件适配方案和上手方式。
一、功能矩阵:不只是语音识别
sherpa-onnx 覆盖 12 项语音功能,远不止 ASR:
| 功能 | 说明 |
|---|---|
| 语音识别(ASR) | 流式 + 非流式两种模式 |
| 语音合成(TTS) | 支持多种 TTS 引擎 |
| 说话人分离 | 多说话人场景 |
| 说话人识别 | 声纹匹配 |
| 说话人验证 | 一对一声纹确认 |
| 语种识别 | 自动检测语言 |
| 语音活动检测(VAD) | 基于 silero-vad(轻量级语音端点检测模型) |
| 关键词检测 | 唤醒词 / 热词触发 |
| 音频标签 | 环境音分类 |
| 标点恢复 | 为识别结果添加标点 |
| 语音增强 | 降噪(gtcrn、DPDFNet 等降噪模型) |
| 音源分离 | 人声/伴奏分离(spleeter、UVR 等分离模型) |
多平台覆盖
| 架构 | Android | iOS | Windows | macOS | Linux | HarmonyOS |
|---|---|---|---|---|---|---|
| x64 | ✔ | ✔ | ✔ | ✔ | ✔ | |
| x86 | ✔ | ✔ | ||||
| arm64 | ✔ | ✔ | ✔ | ✔ |


