中国电信发布星辰语音大模型支持 30 种方言混说

中国电信人工智能研究院发布星辰语音大模型，支持 30 多种方言混说识别，攻克温州话等难点方言。该模型采用超大规模语音预训练和多方言联合建模技术，通过离散语音表征降低标注数据需求至 1%，已在智能客服、12345 热线等场景落地。作为央企首个开源语音大模型，其旨在保护濒危方言、提升沟通效率，并完善语义、语音、视觉全模态布局，目标是成为领先的通用人工智能服务提供商。

道系青年发布于 2025/2/6更新于 2026/6/219 浏览

中国电信发布星辰语音大模型支持 30 种方言混说

更适配中文的语音大模型来了。来自中国电信人工智能研究院，由 AI 领域 Fellow 大满贯科学家李学龙带队，发布了首个能听懂 30 多种多方言混说的大模型。

号称最难方言、"魔鬼的语言"的温州话，也不在话下。此外，该模型还具备超自然的语音生成能力。在 2024 智算云生态大会上，星辰语音大模型被官宣发布并开源。

中国电信星辰语音大模型

要知道，当前语音模型开源开放本来就少，而针对方言更是特定方言特定模型。开源且支持 30 种方言，有且只有星辰这么一个。作为首个完成大语言模型的研发且开源的央企，中国电信现在又在语音模态领域秀起了肌肉。

首个支持 30 种方言混说语音大模型

此次发布的能支持最多方言的语音大模型，核心功能主要体现在识别上。它打破了单一模型只能识别特定单一方言的困境，可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言。

实际上，它早已获得国际权威赛事的能力认证，以及多个实际场景中落地。

它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上，星辰语音识别大模型斩获了语音识别赛道冠军。同时在**NIST（美国国家标准与技术研究院）**举办的低资源粤语电话 Babel 语音识别任务上，取得业内最优结果。

并且已经在智能客服、12345 热线等场景中落地。据介绍，星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户，日均处理约 200 万通电话。

智能客服翼声平台也接入了星辰大模型的语音理解和分析能力，实现 31 省全覆盖，每天处理 125 万通客服电话。

传统语音识别模型的处理方式，是针对一种方言单独训练一个模型。这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下，需要维护多个方言模型。另一方面，很难触达更小众的方言，他们数据量本身比较少，标注成本非常高，增强合成挑战大，很难单独训练出比较好的识别效果。

但中国电信不仅发布并开源，性能水平位于业内前列，而且还十分落地，那么星辰语音大模型又是如何炼成的。

我们知道，这背后不仅是大模型训练，还有前期数据准备，后期推理加速等等一整套系统工程，对于企业是技术工程以及资源等综合能力体现。

核心技术架构

在官方披露中，我们看到这些信息。

首先在大模型训练上，采用了这两个关键技术：超大规模语音预训练和多方言联合建模。

超大规模语音预训练

Scaling Law 成为共识，那么在大规模参数以及多样性数据集情下，很可能就会出现模型预训练坍缩问题，即输出生成质量下降，变得重复、无意义以及缺乏多样性。

为了解决这一问题，他们提出了'蒸馏 + 膨胀'联合训练算法，最终实现 80 层模型稳定训练。据介绍，这一算法是业内首创。

多方言联合建模

基于离散语音表征，语音识别大模型通过'从语音到 token 再到文本'的建模新范式，将推理时语音传输比特率降低数十倍。

另外，联合建模使得模型学习到了各个方言之间的共性，显著降低了对新方言标注数据的需求。实验显示，有标注数据需求量降低为 1%。

这是星辰语音大模型能率先实现单一模型识别 30 种方言混说的关键。这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言，可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。

而在数据准备上，中国电信 AI 研究院透露，他们已构建超 30 种、超 30 万小时的高质量方言数据库。

在算力基础设施上面，在官宣首个大模型开源时就曾披露过，中国电信作为国内最早进入云计算领域的运营商，积累了大量算力建设和算力调度的核心技术。

有数据算力资源、有技术能力和场景积累，再加上大佬把持，中国电信语音大模型由此得以炼成。

为什么专为方言推出语音大模型？

在公开采访中，中国电信对这一问题做出了回应。

首先，技术价值驱动。

中国电信发布星辰语音大模型支持 30 种方言混说