SenseVoiceSmall 语音识别 WebUI 快速部署与使用指南
你是否试过上传一段会议录音,却只得到一堆错字连篇的文本?是否想让 AI 听懂说话人是开心还是烦躁,甚至能分辨出背景里的掌声和笑声?这篇教程将带你5 分钟内跑通 SenseVoiceSmall WebUI,亲眼看到它怎么把一段粤语对话自动标出 <|HAPPY|>,又怎么在英文采访里精准圈出 <|APPLAUSE|>。
这不是一个只能转文字的旧式 ASR 工具。它是阿里达摩院开源的SenseVoiceSmall,一个真正能'听懂情绪、听清事件'的语音理解模型。而我们用的这个镜像,已经帮你把所有依赖、GPU 加速、Gradio 界面全配好了——你只需要打开终端,敲几行命令,就能拥有一个本地可运行、带情感标签、支持中英日韩粤五语的语音分析控制台。
下面的内容,全程面向零基础用户。不需要你懂 PyTorch,不需要你调参,甚至不需要你下载模型文件。只要你会复制粘贴,就能完成。
为什么选 SenseVoiceSmall?
先说结论:普通 ASR 只做'听写',SenseVoiceSmall 在做'听懂'。
你可以把它想象成两个不同段位的速记员:
- 普通速记员(比如 Whisper、Paraformer):只管把声音变成字,谁说话、语气怎样、背景有没有音乐,一概不管。
- SenseVoiceSmall:不仅记下每个字,还会在旁边悄悄标注——'这句话是笑着讲的'、'这里有人鼓掌'、'后半段放着 BGM'。
这种能力,叫富文本识别(Rich Transcription)。它不是锦上添花的功能,而是直接改变了使用方式:
- 会议纪要里,你能一眼看出哪段发言引发了团队共鸣(
<|APPLAUSE|>),哪段技术讲解让听众皱眉(<|SAD|>); - 客服质检时,不用再人工听 200 条录音找情绪异常,系统自动标出所有
<|ANGRY|>片段; - 视频剪辑前,AI 已帮你把笑声、BGM、咳嗽声全部切分好,导出结构化时间轴。
更关键的是,它不挑语言。中文普通话、粤语、日语、韩语、英语,统统支持自动识别,无需手动切换模型。而且识别快——在 4090D 显卡上,10 秒音频从上传到出结果,不到 1 秒。
所以,如果你的需求是:
- 听懂'说了什么',也想知道'怎么说的'
- 处理多语种混合音频(比如中英夹杂的直播)
- 需要结构化输出(不只是纯文本,还要带标签、可解析)
- 希望开箱即用,不折腾环境
那 SenseVoiceSmall WebUI,就是你现在最该试试的那个工具。
三步启动:从镜像到可访问的网页界面
这个镜像已经预装了 Python 3.11、PyTorch 2.5、funasr、gradio、ffmpeg 等全部依赖。你唯一要做的,就是启动那个封装好的 WebUI 脚本。
确认服务是否已在运行
大多数情况下,镜像启动后会自动运行 WebUI 服务。你可以通过以下命令检查:
ps aux | grep app_sensevoice.py
如果看到类似 python app_sensevoice.py 的进程,说明服务已就绪。跳到 本地访问 Web 界面 即可。
手动启动(如未自动运行)
如果没看到进程,说明需要手动启动。按顺序执行以下三步:
第一步:确保音频解码库已安装
pip install av
为什么装 av?因为 SenseVoiceSmall 内部用它来读取 MP3/WAV 等常见格式。不装的话,上传音频会报错'Unsupported format'。
第二步:确认 Gradio 可用
pip install gradio
如果提示已安装,可跳过。Gradio 是构建网页界面的核心,没有它,你就看不到那个带上传按钮和结果框的页面。

