跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI写作AI

SenseVoice-Small ONNX 量化版部署与 Gradio 使用记录

SenseVoice-Small ONNX 量化版的部署路径并不复杂:先装好 modelscope、gradio、soundfile、librosa 和 onnxruntime,再启动 webui.py 打开本地 Gradio 页面即可。首次运行会下载模型,后续会快很多。界面支持示例音频、上传文件和麦克风录音三种识别方式,也给出了 Python 里通过 pipeline 直接调用模型的示例。实际使用时,音频越干净、语言越单一,识别结果通常越稳。

活在当下发布于 2026/6/300 浏览

SenseVoice-Small ONNX 量化版部署与 Gradio 使用记录

环境准备

先确认机器能跑得动。这个版本对环境要求不算高,但也别指望一台内存紧张的老机器顺手就能把模型和前端一起扛起来。

  • 操作系统:Linux(Ubuntu 18.04+)、Windows 10+ 或 macOS
  • Python 版本:Python 3.8 或更高
  • 内存:至少 4GB,实际使用里 8GB 会舒服很多
  • 存储空间:预留约 2GB 给模型文件和缓存

如果本机还没装 Python,可以去 Python 官网 下载对应安装包。

安装依赖

在终端或命令提示符里执行:

# 安装 ModelScope 和 Gradio
pip install modelscope gradio
# 安装音频处理相关库
pip install soundfile librosa
# 安装 ONNX 运行时(如果尚未安装)
pip install onnxruntime

这几个库各司其职:modelscope 负责拉起模型,gradio 提供网页界面,soundfile 和 librosa 处理音频,onnxruntime 则是量化版 ONNX 模型真正跑起来的关键。

启动 Gradio 界面

SenseVoice-Small 已经带了现成的 WebUI,启动方式比较直接:

# 进入 webui.py 所在目录(通常在/usr/local/bin/)
cd /usr/local/bin/
# 启动 Gradio 界面
python webui.py

启动后终端会看到类似输出:

Running on local URL: http://127.0.0.1:7860 

这就说明服务起来了。直接用浏览器打开这个地址就行。

第一次跑通常会多等一会儿,因为模型要先下载到本地。这个过程慢一点很正常,等它缓存完,后面启动会快得多。

在界面里做语音识别

打开 http://127.0.0.1:7860 后,界面里主要就这几块:示例音频、上传音频、录音、识别按钮。没什么花活,够用。

示例音频

这是最省事的入口。点一个示例,系统会自动载入音频,再点'开始识别'即可。适合先确认模型和前端都没问题。

上传本地音频

如果你有自己的文件,直接上传就行。常见的 MP3、WAV 这类格式基本都能处理。上传完点'开始识别',结果会显示在右侧。

实时录音

浏览器里点'点击录音',授权麦克风权限后就能直接录。录完停止,再点'开始识别'。这个方式更适合临时测试,但麦克风质量一般的话,识别结果也会跟着飘。

识别结果怎么看

识别完成后,页面会返回富文本格式的结果,常见内容包括:

  • 文字内容:转写出来的文本
  • 情感标识:说话时的情感状态
  • 事件标记:笑声、掌声之类的声音事件
  • 时间戳:如果开启了对应能力,会显示片段时间信息

如果你只是做普通转写,重点看文本就够了;情感和事件更多是附带信息,不必每次都盯着看。

识别效果怎么更稳

这类模型不是玄学,输入质量通常决定一半结果。

  • 尽量用干净音频,背景噪音越少越好
  • 音量别太小,也别把音频打爆
  • 单一语言场景通常比混语言场景更稳
  • 长音频最好拆开跑,别一口气全丢进去

常见问题

模型加载很慢

第一次运行要下载模型,所以慢是正常的。只要缓存下来,后面启动会轻很多。

识别结果不理想

先检查音频本身。录得不清楚、噪音太重、格式不合适,都会直接影响效果。必要时换一份更干净的音频再试。

页面打不开

先确认 python webui.py 真的执行成功了,再看本机防火墙或 7860 端口有没有被占用。

录音功能不能用

大概率是浏览器权限没开。Chrome 或 Edge 一般更省心。

支持的语言和格式

SenseVoice-Small 支持 50 多种语言,常见的中文、英语、日语、韩语,以及法语、德语、西班牙语等都在范围内。音频格式方面,MP3、WAV、FLAC、OGG 这些常见格式都能用。

在 Python 里直接调用

如果不是只想点网页,而是要塞进自己的项目里,可以直接用 ModelScope 的 pipeline:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

# 创建语音识别管道
asr_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='sensevoice-small-onnx-quantized'
)

# 识别音频文件
result = asr_pipeline('your_audio_file.wav')
print("识别结果:", result['text'])

这段代码的意思很直白:创建一个语音识别管道,传入音频文件,直接取 result['text'] 就能拿到转写结果。适合做脚本、服务接口,或者往现有系统里嵌。

小结

这套 ONNX 量化版的好处是启动门槛低,Gradio 界面也把基本操作都包好了。先把依赖装齐,跑起 webui.py,然后用示例音频或本地文件验证模型,最后再考虑接到自己的 Python 项目里。对大多数只想快速试用语音识别的人来说,这条路够直接。

目录

  1. SenseVoice-Small ONNX 量化版部署与 Gradio 使用记录
  2. 环境准备
  3. 安装依赖
  4. 安装 ModelScope 和 Gradio
  5. 安装音频处理相关库
  6. 安装 ONNX 运行时(如果尚未安装)
  7. 启动 Gradio 界面
  8. 进入 webui.py 所在目录(通常在/usr/local/bin/)
  9. 启动 Gradio 界面
  10. 在界面里做语音识别
  11. 示例音频
  12. 上传本地音频
  13. 实时录音
  14. 识别结果怎么看
  15. 识别效果怎么更稳
  16. 常见问题
  17. 支持的语言和格式
  18. 在 Python 里直接调用
  19. 创建语音识别管道
  20. 识别音频文件
  21. 小结
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Vitis AI 在 ZCU102 上的推理部署实录
  • JavaScript 基础:变量、DOM、表单与定时器
  • 5 款主流 AI PPT 工具实测与选型建议
  • C++ map、set 与关联式容器入门
  • Miloco 本地大模型智能家居部署与使用记录
  • 大模型上下文窗口 200k 到底是什么
  • Python、Spark 和 Hive 的数据分析差异
  • 用 pthread 实现一个 C++ 线程池
  • OpenClaw 橙皮书与蓝皮书实战笔记
  • 用 Rust 和 GLM-5 做一个流式翻译 CLI
  • Hunyuan-MT-7B-WEBUI 多语言翻译系统搭建与体验
  • 用提示词减少 AI 写作痕迹的几个实操办法
  • Qwen3-Embedding-4B 本地部署:llama.cpp 与 vLLM 集成
  • icomet-server:基于 C++ 的高并发推送服务
  • Typora 的安装与基础设置
  • Stable Diffusion 风格测试实操笔记
  • Web25 中 php_mt_seed 的爆破思路
  • ROS 里用 rqt 搭建调试面板
  • Spring Boot 自动配置与 @EnableAutoConfiguration 原理
  • 在 PyCharm 里让 Copilot 更懂项目上下文

相关免费在线工具

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online