快速阅读
- FunASR 是由阿里巴巴达摩院开源的语音识别工具包,支持多种功能,包括语音识别、语音活动检测、标点恢复、说话人验证等。
- FunASR 提供了预训练模型和易于使用的接口,支持快速部署,满足不同场景的应用需求。
- 本文将介绍 FunASR 的主要功能、技术原理,并提供运行示例和安装教程。
正文(附运行示例)
FunASR 是什么
FunASR 是由阿里巴巴达摩院开源的语音识别工具包,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它支持多种功能,如语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证和多人对话语音识别等。FunASR 提供了便捷的脚本和教程,支持预训练模型的推理与微调,使用户能够快速部署语音识别服务。
该工具包基于 ModelScope 生态,集成了多种先进的模型架构,如 Paraformer、Tri-Branch 等,支持流式与非流式处理,适用于实时通话、会议记录、客服质检等多种业务场景。
FunASR 的主要功能
- 语音识别(ASR):将语音信号转换为文本信息,支持中文、英文及多语言混合识别。
- 语音活动检测(VAD):识别语音信号中的有效语音部分,过滤掉静音或背景噪音,常用于预处理阶段。
- 标点恢复:在语音识别结果中自动添加标点符号,提高文本的可读性,便于后续 NLP 处理。
- 说话人验证:识别并验证说话人的身份,用于安全认证场景。
- 说话人分离:在多人对话中区分不同说话人的声音,生成带说话人标签的转录文本。
- 多说话人 ASR:处理多人同时说话的场景,识别和区分每个人的语音内容。
- 时间戳预测:为识别出的文本片段提供精确的时间对齐信息。
- 情感识别:分析音频中的情绪状态,如开心、生气、中立等。
如何运行 FunASR
安装教程
确保已安装以下依赖环境:
python>=3.8
torch>=1.13
torchaudio
使用 pip 安装:
pip3 install -U funasr
或者从源代码安装:
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./
如果需要使用工业预训练模型,安装 modelscope 与 huggingface_hub(可选):
pip3 install -U modelscope huggingface huggingface_hub
运行示例
非实时语音识别
使用 Paraformer 模型进行语音识别,支持批量处理:
from funasr import AutoModel
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", batch_size_s=, hotword=)
(res)


