Fun-ASR 在中文普通话任务准确率超越 Whisper-small 近 5 个百分点
在智能语音技术快速发展的背景下,语音识别正从'能听清'向'听得准、理解对'演进。尤其在中文场景下,用户对识别精度的要求日益提高,通用大模型如 Whisper 在面对中文普通话的复杂语境时,仍常出现术语不准、数字混乱等问题。
由钉钉联合通义实验室推出的 Fun-ASR 系统是一款专为中文优化的轻量级端到端语音识别系统,在多个标准测试集上实现了相较 Whisper-small 接近 5 个百分点的准确率提升。这标志着语音识别正从'通用可用'走向'垂直精准'。
为什么 Fun-ASR 能在中文任务上胜出?
通用模型设计目标是覆盖多种语言,中文只是其中之一,因此对汉语特有的构词方式、数字表达等缺乏深度建模。Fun-ASR 从底层做了针对性改进:
- 子词切分策略重构:采用更适合中文构词规律的 BPE 变体,减少错误切分;
- 声学 - 语言联合建模增强:预训练阶段引入大量真实中文语料,熟悉实际发音模式;
- 本地化后处理内置化:将 ITN(逆文本归一化)直接集成进推理流程,输出即标准化结果。
实测数据显示,在包含教育、医疗、金融等领域的混合测试集中,Fun-ASR-Nano-2512 的 WER(词错误率)仅为 8.7%,而 Whisper-small 在相同条件下达到 13.5% —— 差距接近 4.8 个百分点,尤其在数字、专有名词识别上的提升最为显著。
不只是模型:一套真正可用的语音识别解决方案
高准确率的 ASR 模型离落地应用还有距离。Fun-ASR 的最小版本 Fun-ASR-Nano-2512 集成了多项工程级功能:
热词增强机制
在企业场景中,'热词'往往是决定识别成败的关键。Fun-ASR 支持动态注入热词列表,并通过注意力引导机制提升相关词汇的优先级。
result = model.generate(
audio_file="meeting.mp3",
hotwords=["开放时间", "营业时间", "客服电话"],
itn=True,
lang="zh"
)
开发者只需传入字符串列表即可生效,无需重新训练或微调模型。
内置 ITN 文本规整
Fun-ASR 内置了强大的 ITN 模块,能够自动完成以下转换:
- 数字规整:
两百三十四→234 - 日期标准化:
二零二五年春节→2025 年春节 - 单位统一:
五点五千克→5.5kg - 缩写还原:
WIFI→Wi-Fi
这一切都在推理过程中同步完成,用户可以直接获取清洁文本。
VAD 辅助分割
传统 ASR 模型在处理超过 10 分钟的音频时常出现内存溢出或识别质量下降的问题。Fun-ASR 通过集成 Voice Activity Detection(VAD)模块,先将长录音按语句片段切分,再逐段识别,最后拼接结果。这种方法不仅提升了稳定性,还带来了额外好处:静音段被自动跳过,整体处理速度更快。
实时流式体验是如何实现的?
尽管当前版本的 Fun-ASR 模型本身不支持增量流式解码,但系统通过巧妙设计模拟出了接近实时的交互效果。
其核心思路是:前端采集 + VAD 触发 + 快速识别 + 结果拼接
具体流程如下:
- 浏览器通过 Web Audio API 获取麦克风流;

