Fun-ASR 在中文普通话任务准确率超越 Whisper-small 近 5 个百分点

Fun-ASR 针对中文场景优化，相比 Whisper-small 在普通话任务 WER 降低约 5%。支持热词增强、ITN 文本规整及 VAD 分割，提供 WebUI 批量处理与多环境部署方案，适用于会议转写、客服录音等场景。

全栈工匠发布于 2026/4/5更新于 2026/4/286 浏览

Fun-ASR 在中文普通话任务准确率超越 Whisper-small 近 5 个百分点

在智能语音技术快速发展的背景下，语音识别正从'能听清'向'听得准、理解对'演进。尤其在中文场景下，用户对识别精度的要求日益提高，通用大模型如 Whisper 在面对中文普通话的复杂语境时，仍常出现术语不准、数字混乱等问题。

由钉钉联合通义实验室推出的 Fun-ASR 系统是一款专为中文优化的轻量级端到端语音识别系统，在多个标准测试集上实现了相较 Whisper-small 接近 5 个百分点的准确率提升。这标志着语音识别正从'通用可用'走向'垂直精准'。

为什么 Fun-ASR 能在中文任务上胜出？

通用模型设计目标是覆盖多种语言，中文只是其中之一，因此对汉语特有的构词方式、数字表达等缺乏深度建模。Fun-ASR 从底层做了针对性改进：

子词切分策略重构：采用更适合中文构词规律的 BPE 变体，减少错误切分；
声学 - 语言联合建模增强：预训练阶段引入大量真实中文语料，熟悉实际发音模式；
本地化后处理内置化：将 ITN（逆文本归一化）直接集成进推理流程，输出即标准化结果。

实测数据显示，在包含教育、医疗、金融等领域的混合测试集中，Fun-ASR-Nano-2512 的 WER（词错误率）仅为 8.7%，而 Whisper-small 在相同条件下达到 13.5% —— 差距接近 4.8 个百分点，尤其在数字、专有名词识别上的提升最为显著。

不只是模型：一套真正可用的语音识别解决方案

高准确率的 ASR 模型离落地应用还有距离。Fun-ASR 的最小版本 Fun-ASR-Nano-2512 集成了多项工程级功能：

热词增强机制

在企业场景中，'热词'往往是决定识别成败的关键。Fun-ASR 支持动态注入热词列表，并通过注意力引导机制提升相关词汇的优先级。

result = model.generate(
    audio_file="meeting.mp3",
    hotwords=["开放时间", "营业时间", "客服电话"],
    itn=True,
    lang="zh"
)

开发者只需传入字符串列表即可生效，无需重新训练或微调模型。

内置 ITN 文本规整

Fun-ASR 内置了强大的 ITN 模块，能够自动完成以下转换：

数字规整：两百三十四 → 234
日期标准化：二零二五年春节 → 2025 年春节
单位统一：五点五千克 → 5.5kg
缩写还原：WIFI → Wi-Fi

这一切都在推理过程中同步完成，用户可以直接获取清洁文本。

VAD 辅助分割

传统 ASR 模型在处理超过 10 分钟的音频时常出现内存溢出或识别质量下降的问题。Fun-ASR 通过集成 Voice Activity Detection（VAD）模块，先将长录音按语句片段切分，再逐段识别，最后拼接结果。这种方法不仅提升了稳定性，还带来了额外好处：静音段被自动跳过，整体处理速度更快。

实时流式体验是如何实现的？

尽管当前版本的 Fun-ASR 模型本身不支持增量流式解码，但系统通过巧妙设计模拟出了接近实时的交互效果。

其核心思路是：前端采集 + VAD 触发 + 快速识别 + 结果拼接

具体流程如下：

浏览器通过 Web Audio API 获取麦克风流；