中国电信发布星辰语音大模型 支持 30 种方言混说
更适配中文的语音大模型来了。来自中国电信人工智能研究院,由 AI 领域 Fellow 大满贯科学家李学龙带队,发布了首个能听懂 30 多种多方言混说的大模型。
号称最难方言、"魔鬼的语言"的温州话,也不在话下。此外,该模型还具备超自然的语音生成能力。在 2024 智算云生态大会上,星辰语音大模型被官宣发布并开源。

要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。开源且支持 30 种方言,有且只有星辰这么一个。作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。
首个支持 30 种方言混说语音大模型
此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上。它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言。
实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。
它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。同时在**NIST(美国国家标准与技术研究院)**举办的低资源粤语电话 Babel 语音识别任务上,取得业内最优结果。
并且已经在智能客服、12345 热线等场景中落地。据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约 200 万通电话。
智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现 31 省全覆盖,每天处理 125 万通客服电话。
传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下,需要维护多个方言模型。另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。
但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。
我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。
核心技术架构
在官方披露中,我们看到这些信息。
首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模。
超大规模语音预训练
Scaling Law 成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。
为了解决这一问题,他们提出了'蒸馏 + 膨胀'联合训练算法,最终实现 80 层模型稳定训练。据介绍,这一算法是业内首创。
多方言联合建模
基于离散语音表征,语音识别大模型通过'从语音到 token 再到文本'的建模新范式,将推理时语音传输比特率降低数十倍。
另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为 1%。
这是星辰语音大模型能率先实现单一模型识别 30 种方言混说的关键。这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。
而在数据准备上,中国电信 AI 研究院透露,他们已构建超 30 种、超 30 万小时的高质量方言数据库。
在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。
有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。
为什么专为方言推出语音大模型?
在公开采访中,中国电信对这一问题做出了回应。
首先,技术价值驱动。




