SenseVoiceSmall 语音识别 WebUI 快速部署与使用指南

你是否试过上传一段会议录音，却只得到一堆错字连篇的文本？是否想让 AI 听懂说话人是开心还是烦躁，甚至能分辨出背景里的掌声和笑声？这篇教程将带你5 分钟内跑通 SenseVoiceSmall WebUI，亲眼看到它怎么把一段粤语对话自动标出 <|HAPPY|>，又怎么在英文采访里精准圈出 <|APPLAUSE|>。

这不是一个只能转文字的旧式 ASR 工具。它是阿里达摩院开源的SenseVoiceSmall，一个真正能'听懂情绪、听清事件'的语音理解模型。而我们用的这个镜像，已经帮你把所有依赖、GPU 加速、Gradio 界面全配好了——你只需要打开终端，敲几行命令，就能拥有一个本地可运行、带情感标签、支持中英日韩粤五语的语音分析控制台。

下面的内容，全程面向零基础用户。不需要你懂 PyTorch，不需要你调参，甚至不需要你下载模型文件。只要你会复制粘贴，就能完成。

为什么选 SenseVoiceSmall？

先说结论：普通 ASR 只做'听写'，SenseVoiceSmall 在做'听懂'。

你可以把它想象成两个不同段位的速记员：

普通速记员（比如 Whisper、Paraformer）：只管把声音变成字，谁说话、语气怎样、背景有没有音乐，一概不管。
SenseVoiceSmall：不仅记下每个字，还会在旁边悄悄标注——'这句话是笑着讲的'、'这里有人鼓掌'、'后半段放着 BGM'。

这种能力，叫富文本识别（Rich Transcription）。它不是锦上添花的功能，而是直接改变了使用方式：

会议纪要里，你能一眼看出哪段发言引发了团队共鸣（<|APPLAUSE|>），哪段技术讲解让听众皱眉（<|SAD|>）；
客服质检时，不用再人工听 200 条录音找情绪异常，系统自动标出所有 <|ANGRY|> 片段；
视频剪辑前，AI 已帮你把笑声、BGM、咳嗽声全部切分好，导出结构化时间轴。

更关键的是，它不挑语言。中文普通话、粤语、日语、韩语、英语，统统支持自动识别，无需手动切换模型。而且识别快——在 4090D 显卡上，10 秒音频从上传到出结果，不到 1 秒。

所以，如果你的需求是：

听懂'说了什么'，也想知道'怎么说的'
处理多语种混合音频（比如中英夹杂的直播）
需要结构化输出（不只是纯文本，还要带标签、可解析）
希望开箱即用，不折腾环境

那 SenseVoiceSmall WebUI，就是你现在最该试试的那个工具。

三步启动：从镜像到可访问的网页界面

这个镜像已经预装了 Python 3.11、PyTorch 2.5、funasr、gradio、ffmpeg 等全部依赖。你唯一要做的，就是启动那个封装好的 WebUI 脚本。

确认服务是否已在运行

大多数情况下，镜像启动后会自动运行 WebUI 服务。你可以通过以下命令检查：

ps aux | grep app_sensevoice.py

如果看到类似 python app_sensevoice.py 的进程，说明服务已就绪。跳到 本地访问 Web 界面 即可。

手动启动（如未自动运行）

如果没看到进程，说明需要手动启动。按顺序执行以下三步：

第一步：确保音频解码库已安装

pip install av

为什么装 av？因为 SenseVoiceSmall 内部用它来读取 MP3/WAV 等常见格式。不装的话，上传音频会报错'Unsupported format'。

第二步：确认 Gradio 可用

pip install gradio

如果提示已安装，可跳过。Gradio 是构建网页界面的核心，没有它，你就看不到那个带上传按钮和结果框的页面。

标签	含义	实际意义
`<	HAPPY	>`
`<	APPLAUSE	>`
`<	BGM	>`
`<	LAUGHTER	>`
`<	SAD	>`

问题现象	可能原因	解决方法
上传后无反应，按钮变灰	浏览器阻止了本地文件读取（尤其 Safari）	换 Chrome/Firefox；或改用'录音'功能，绕过文件上传限制
结果全是乱码或空	音频采样率非 16kHz，且 ffmpeg 未正确重采样	在服务器执行 `ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav` 转格式后再上传
识别速度慢（>5 秒）	GPU 未被调用，退化为 CPU 推理	执行 `nvidia-smi` 确认显卡驱动正常；检查 `app_sensevoice.py` 中 `device="cuda:0"` 是否被注释；重启服务

SenseVoiceSmall 语音识别 WebUI 快速部署与使用指南