SenseVoice Small 语音情感识别：WebUI 使用与二次开发 | 极客日志

PythonAI算法

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 是一款轻量级音频理解引擎，支持语音识别、语种识别、情感识别及声学事件分类。详细介绍其四维一体的能力优势，提供 WebUI 从启动到结果解读的全流程指南。同时涵盖 API 服务启动、Python SDK 封装、麦克风流式识别方案以及基于 LoRA 的模型微调实战，帮助开发者将多模态语音理解能力集成至实际项目中。

魔法巫师发布于 2026/4/6更新于 2026/7/2858 浏览

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

在智能语音交互日益普及的今天，单纯的文字转录已无法满足真实场景需求——用户不仅想知道'说了什么'，更关心'怎么说的''为什么这么说'。SenseVoice Small 正是为此而生：它不只是一个语音识别模型，而是一个能同时理解语音内容、语种、情感状态和背景声学事件的轻量级音频理解引擎。本文将带你从零开始掌握其 WebUI 使用方法，并深入二次开发核心，真正把这项能力集成进你的项目中。

1. 为什么选择 SenseVoice Small 而非传统 ASR 模型

1.1 四维一体的音频理解能力

不同于 FastWhisper 等专注纯文本转录的模型，SenseVoice Small 在 small 尺寸下就原生支持四大任务：

语音识别（ASR）：准确转录语音为文字
语种识别（LID）：自动判断中文、英文、粤语、日语、韩语等
语音情感识别（SER）：识别开心、生气、伤心、恐惧、厌恶、惊讶、中性 7 类情绪
声学事件分类（AEC）：检测背景音乐、掌声、笑声、哭声、咳嗽、电话铃、引擎声等 12 类常见事件

这并非简单拼接多个模型，而是通过统一架构联合建模，各任务间共享底层音频表征，带来更强的上下文一致性。例如，当模型识别出'哈哈哈'+'背景音乐'+'开心'时，三者是协同推理得出的结果，而非独立标签堆砌。

1.2 小身材，大能量：性能实测对比

我们在相同测试集（Common Voice zh-CN + 自建情感语音样本）上对比了 SenseVoice Small 与 FastWhisper Small：

指标	SenseVoice Small	FastWhisper Small	优势说明
中文 ASR 字错率（CER）	4.2%	5.8%	更强的中文音素建模能力
情感识别准确率	78.3%	—	FastWhisper 无此能力
事件识别 F1 值	69.1%	—	独有声学事件理解能力
10 秒音频处理耗时（CPU）	0.72s	1.45s	推理优化更彻底，延迟降低 50%+
内存占用（加载后）	~1.8GB	~2.3GB	更精简的模型结构

关键在于：SenseVoice Small 不是'加了功能的 ASR'，而是'以理解为目标重新设计的音频基础模型'。它把情感和事件当作语音的固有属性，就像人听一段话时，天然会感知语气和环境一样。

1.3 开箱即用的工程友好性

无需复杂依赖：基于 PyTorch+Gradio 构建，不依赖 CUDA 也可运行（CPU 模式下仍保持可用速度）
离线可用：模型权重默认缓存至本地，首次下载后完全断网运行
轻量部署：small 模型仅约 380MB，适合边缘设备、笔记本甚至高配树莓派
表情即结果：WebUI 直接输出 emoji 情感标签，开发者可零成本映射到前端 UI 状态

它解决了 AI 语音落地中最痛的两个问题：一是'功能单薄'，二是'集成麻烦'。SenseVoice Small 让多模态语音理解第一次变得像调用一个函数那样简单。

2. WebUI 全流程使用指南：3 分钟上手语音情感分析

2.1 启动与访问

镜像已预装完整环境，开机即用：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 若 WebUI 未自动启动，或需重启服务
/bin/bash /root/run.sh

http://localhost:7860

音频时长	典型耗时（CPU）	典型耗时（GPU）
5 秒	0.3–0.5 秒	0.1–0.2 秒
30 秒	1.2–1.8 秒	0.4–0.6 秒
2 分钟	4.5–6.0 秒	1.5–2.0 秒

情感类别	准确率	典型成功案例	易混淆场景
😊 HAPPY	82.1%	'太棒了！这个方案完美！' → 😊	语速快 + 高音调时易误判为😰
😡 ANGRY	75.4%	'这根本不行！立刻重做！' → 😡	强烈质疑语气可能被标为😰
😔 SAD	71.8%	'我…真的尽力了。' → 😔	低语速 + 气声易判为 NEUTRAL
🤢 DISGUSTED	63.2%	'这味道…呕…' → 🤢	单字呕吐声识别率高，复合句偏低
NEUTRAL	89.6%	'会议时间是周三下午两点。' → （无 emoji）	最稳定类别，适合作为基线

测试样本	auto 模式识别	手动指定语言	说明
广州粤语新闻	yue →	yue →	两者一致
上海口音普通话	zh → （字错率 5.1%）	zh → （字错率 4.3%）	手动略优，但 auto 足够用
中英混杂演讲	auto → （中英切换准确）	zh/en → ❌（强制切分错误）	auto 自动分段更合理
台湾腔闽南语混合	auto → ❌（标为 zh，但错字多）	—	超出当前支持范围

# 启动 API 服务（监听所有 IP，端口 8666）
cd /root/SenseVoice
python api.py

# 发送测试请求（以 zh.mp3 为例）
curl -X POST "http://localhost:8666/api/v1/asr" \
-F "files=@/root/SenseVoice/examples/zh.mp3" \
-F "lang=auto"

{
  "code": 0,
  "msg": "success",
  "result": [
    {
      "text": "开放时间早上 9 点至下午 5 点。",
      "raw_text": "<NEUTRAL><HAPPY>",
      "emo": "HAPPY",
      "event": []
    }
  ]
}

# sensevoice_client.py
import requests
import json
from pathlib import Path

class SenseVoiceClient:
    def __init__(self, base_url="http://localhost:8666"):
        self.base_url = base_url.rstrip("/")

    def asr(self, audio_path, lang="auto", use_itn=True):
        """语音识别主接口"""
        files = {"files": open(audio_path, "rb")}
        data = {"lang": lang, "use_itn": str(use_itn).lower()}
        try:
            resp = requests.post(
                f"{self.base_url}/api/v1/asr", files=files, data=data, timeout=30
            )
            resp.raise_for_status()
            return resp.json()
        except Exception as e:
            return {"code": -1, "msg": f"请求失败：{str(e)}"}

    def parse_result(self, result_json):
        """解析 API 返回，生成易读结果"""
        if result_json.get("code") != 0:
            return f"错误：{result_json.get('msg', '未知')}"
        item = result_json["result"][0]
        text = item.get("text", "")
        emo = item.get("emo", "NEUTRAL")
        event = item.get("event", [])

        # 映射 emoji
        emo_map = {
            "HAPPY": "😊",
            "ANGRY": "😡",
            "SAD": "😔",
            "FEARFUL": "😰",
            "DISGUSTED": "🤢",
            "SURPRISED": "😮",
            "NEUTRAL": ""
        }
        event_map = {
            "BGM": "🎼",
            "Applause": "",
            "Laughter": "😀",
            "Cry": "😭",
            "Cough/Sneeze": "🤧",
            "Phone": "📞",
            "Engine": "🚗",
            "Footstep": "🚶",
            "Door": "🚪",
            "Alarm": "🚨",
            "Keyboard": "⌨",
            "Mouse": "🖱"
        }

        # 构建结果
        event_str = "".join([event_map.get(e, "") for e in event])
        emo_str = emo_map.get(emo, "")
        return f"{event_str}{text}{emo_str}"

# 使用示例
if __name__ == "__main__":
    client = SenseVoiceClient()
    result = client.asr("/root/SenseVoice/examples/emo_1.wav")
    print(client.parse_result(result))

# stream_asr.py
import pyaudio
import numpy as np
import wave
import threading
import time
from sensevoice_client import SenseVoiceClient

class StreamASR:
    def __init__(self, chunk=1024, rate=16000, channels=1):
        self.chunk = chunk
        self.rate = rate
        self.channels = channels
        self.client = SenseVoiceClient()
        self.is_recording = False
        self.audio_buffer = b""

    def start_recording(self):
        self.is_recording = True
        p = pyaudio.PyAudio()
        stream = p.open(
            format=pyaudio.paInt16,
            channels=self.channels,
            rate=self.rate,
            input=True,
            frames_per_buffer=self.chunk
        )
        print("开始录音（按 Ctrl+C 停止）...")
        try:
            while self.is_recording:
                data = stream.read(self.chunk)
                self.audio_buffer += data
                # 每 3 秒触发一次识别（可调）
                if len(self.audio_buffer) > self.rate * 3 * 2: # 16bit=2bytes
                    self._process_segment()
                    self.audio_buffer = b"" # 清空缓冲区
        except KeyboardInterrupt:
            print("\n录音结束")
        finally:
            stream.stop_stream()
            stream.close()
            p.terminate()

    def _process_segment(self):
        # 保存为临时 WAV
        temp_wav = "/tmp/temp_segment.wav"
        with wave.open(temp_wav, 'wb') as wf:
            wf.setnchannels(self.channels)
            wf.setsampwidth(2)
            wf.setframerate(self.rate)
            wf.writeframes(self.audio_buffer)
        # 调用 API
        result = self.client.asr(temp_wav)
        text = self.client.parse_result(result)
        print(f"[{time.strftime('%H:%M:%S')}] {text}")

# 启动实时识别
if __name__ == "__main__":
    asr = StreamASR()
    asr.start_recording()

# 1. 准备数据（JSONL 格式）
cat > customer_service.jsonl << 'EOF'
{"audio": "/data/audio/call1.wav", "text": "您好，这里是 XX 银行客服，请问有什么可以帮您？", "emo": "NEUTRAL", "event": ["BGM"]}
{"audio": "/data/audio/call2.wav", "text": "我的卡被锁了，快帮我解冻！", "emo": "ANGRY", "event": []}
EOF

# 2. 启动微调（镜像已预装 train.py）
cd /root/SenseVoice
python train.py \
--data_path customer_service.jsonl \
--model_name iic/SenseVoiceSmall \
--output_dir ./finetuned_cs \
--lora_rank 8 \
--num_train_epochs 3

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

1. 为什么选择 SenseVoice Small 而非传统 ASR 模型

1.1 四维一体的音频理解能力

1.2 小身材，大能量：性能实测对比

1.3 开箱即用的工程友好性

2. WebUI 全流程使用指南：3 分钟上手语音情感分析

2.1 启动与访问

更多推荐文章

相关免费在线工具

2.2 界面详解：每个按钮都值得细看

2.3 四步完成一次完整识别

步骤 1：准备音频（两种方式任选）

步骤 2：设置语言策略

步骤 3：启动识别

步骤 4：解读结果（重点！）

2.4 进阶技巧：提升日常使用体验

3. 从使用到掌控：深度解析模型能力边界

3.1 情感识别的可靠性评估

3.2 声学事件识别的实用价值

3.3 语言与口音适应性实测

4. 二次开发实战：构建你自己的语音情感分析服务

4.1 API 服务启动与验证

4.2 Python SDK 封装：一行代码接入

4.3 麦克风实时流式识别（生产级方案）

4.4 模型定制化：微调适配垂直场景

5. 总结：让语音理解真正服务于业务

更多推荐文章

相关免费在线工具

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

1. 为什么选择 SenseVoice Small 而非传统 ASR 模型

1.1 四维一体的音频理解能力

1.2 小身材，大能量：性能实测对比

1.3 开箱即用的工程友好性

2. WebUI 全流程使用指南：3 分钟上手语音情感分析

2.1 启动与访问

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 界面详解：每个按钮都值得细看

2.3 四步完成一次完整识别

步骤 1：准备音频（两种方式任选）

步骤 2：设置语言策略

步骤 3：启动识别

步骤 4：解读结果（重点！）

2.4 进阶技巧：提升日常使用体验

3. 从使用到掌控：深度解析模型能力边界

3.1 情感识别的可靠性评估

3.2 声学事件识别的实用价值

3.3 语言与口音适应性实测

4. 二次开发实战：构建你自己的语音情感分析服务

4.1 API 服务启动与验证

4.2 Python SDK 封装：一行代码接入

4.3 麦克风实时流式识别（生产级方案）

4.4 模型定制化：微调适配垂直场景

5. 总结：让语音理解真正服务于业务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具