大模型落地：从拼性能到拼赋能

在过去的两年中，以大模型为代表的通用人工智能开启了一个全新的时代。从'百模大战'到'千模竞技'，各种文生文、文生图、图生视频、文生视频甚至多模态大模型层出不穷。在经历了最初的繁荣生长后，行业发展逐渐进入理性期。落地应用，成为企业最基本的目标。

行业趋势：从拼性能到拼赋能

10 月 24 日，第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节在合肥开幕。在这场盛会上，诸多基于 AI 大模型的应用产品得以发布展示，显示出星火大模型在教育、医疗、能源、汽车、工业、金融、法律等领域不断拓展的潜力。

而从普通市民角度来看，一场城市的'AI 嘉年华'，又让人们直观感受到大模型正切入人们生活的方方面面，迎来规模化应用落地的新时代。以技术创新为底座，解放生产力，释放想象力。大模型将如何收获'产业果实'，赋能千行百业？

大模型'落地'：从拼性能到拼赋能

'超拟人'交互体验

在大会开幕式上，科大讯飞董事长刘庆峰首先公布了讯飞星火大模型应用成绩单，并发布讯飞星火 4.0 Turbo。根据真实数据背靠背的测试，其 7 大能力超过 GPT-4 Turbo，代码能力和数学能力超越 GPT-4o。由艾伦人工智能研究所、OpenAI 等国内外权威单位发布的 14 项主流测试集中，讯飞星火 4.0-Turbo 在其中 9 项测试集超过 GPT-4o。

与此同时，国产超大规模智算平台'飞星二号'正式启动。大模型技术底座能力，是产业化应用最坚实的底气。但另一个层面，大模型狂飙 2 年，已经过了不断比拼技术数据的阶段，更多的是要从需求出发去做技术提升。

'万物智联'是未来社会的典型特征。刘庆峰说，在万物智能时代，不仅是语音，整个人机交互领域都将上一个全新的台阶。科大讯飞定义了万物智能时代的人机交互（AIUI）标准，并且通过了国际组织的认定，已经在去年 5 月正式发布了国际标准，包括远场高噪、全双工、多语种多方言等多个方面，此次 1024，标准再次升级，新增了多模态、超拟人、个性化。

多模态是指多种视觉、听觉等感官信息在一起协同作用的状态。开幕式上，科大讯飞超拟人数字人首次亮相。多模态的交互从超拟人的语音变成超拟人的数字人，实现语音、视频、图文的全部联动的多模态交互。

多模态视觉能力加持下的人机交互有多惊喜？超拟人数字人不仅可以'角色扮演'，能够模仿孙悟空、蜡笔小新、小猪佩奇等多种角色，音色、语气甚至人设都模仿得惟妙惟肖。

'原来是给一张照片就可以有嘴型；今天，我们把嘴型、表情、动作全部贯穿起来，所有的表情动作整体化地用我们的大模型技术自动生成，而且实现了表情动作的语义贯穿，统一文本、语音和表情，实现跨模态的语义的一致性。'

从语音交互拓展到音视频流的实时多模态互动，情境感知更全面。不光有语音，场景、文字、物体、姿态、着装都可以看到，任务理解就会更精准；因为有语音、有手势、有行为，还有情绪，就可以使游戏、学习、购物、美食、知识问答、绘本伴读更有趣；在具身智能机器人以及汽车等新终端越来越多的未来，可以实现全新的人机交互的升级，做很多原来做不成的事。

值得一提的是，科大讯飞还首次发布星火多语言大模型，除中英文外，可支持俄、日、阿、法等 8 个语种。'我们要代表中国给世界提供第二种选择。'

大模型'落地'：从拼性能到拼赋能