大模型落地:从拼性能到拼赋能
在过去的两年中,以大模型为代表的通用人工智能开启了一个全新的时代。从'百模大战'到'千模竞技',各种文生文、文生图、图生视频、文生视频甚至多模态大模型层出不穷。在经历了最初的繁荣生长后,行业发展逐渐进入理性期。落地应用,成为企业最基本的目标。
行业趋势:从拼性能到拼赋能
10 月 24 日,第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节在合肥开幕。在这场盛会上,诸多基于 AI 大模型的应用产品得以发布展示,显示出星火大模型在教育、医疗、能源、汽车、工业、金融、法律等领域不断拓展的潜力。
而从普通市民角度来看,一场城市的'AI 嘉年华',又让人们直观感受到大模型正切入人们生活的方方面面,迎来规模化应用落地的新时代。以技术创新为底座,解放生产力,释放想象力。大模型将如何收获'产业果实',赋能千行百业?

'超拟人'交互体验
在大会开幕式上,科大讯飞董事长刘庆峰首先公布了讯飞星火大模型应用成绩单,并发布讯飞星火 4.0 Turbo。根据真实数据背靠背的测试,其 7 大能力超过 GPT-4 Turbo,代码能力和数学能力超越 GPT-4o。由艾伦人工智能研究所、OpenAI 等国内外权威单位发布的 14 项主流测试集中,讯飞星火 4.0-Turbo 在其中 9 项测试集超过 GPT-4o。
与此同时,国产超大规模智算平台'飞星二号'正式启动。大模型技术底座能力,是产业化应用最坚实的底气。但另一个层面,大模型狂飙 2 年,已经过了不断比拼技术数据的阶段,更多的是要从需求出发去做技术提升。
'万物智联'是未来社会的典型特征。刘庆峰说,在万物智能时代,不仅是语音,整个人机交互领域都将上一个全新的台阶。科大讯飞定义了万物智能时代的人机交互(AIUI)标准,并且通过了国际组织的认定,已经在去年 5 月正式发布了国际标准,包括远场高噪、全双工、多语种多方言等多个方面,此次 1024,标准再次升级,新增了多模态、超拟人、个性化。
多模态是指多种视觉、听觉等感官信息在一起协同作用的状态。开幕式上,科大讯飞超拟人数字人首次亮相。多模态的交互从超拟人的语音变成超拟人的数字人,实现语音、视频、图文的全部联动的多模态交互。
多模态视觉能力加持下的人机交互有多惊喜?超拟人数字人不仅可以'角色扮演',能够模仿孙悟空、蜡笔小新、小猪佩奇等多种角色,音色、语气甚至人设都模仿得惟妙惟肖。
'原来是给一张照片就可以有嘴型;今天,我们把嘴型、表情、动作全部贯穿起来,所有的表情动作整体化地用我们的大模型技术自动生成,而且实现了表情动作的语义贯穿,统一文本、语音和表情,实现跨模态的语义的一致性。'
从语音交互拓展到音视频流的实时多模态互动,情境感知更全面。不光有语音,场景、文字、物体、姿态、着装都可以看到,任务理解就会更精准;因为有语音、有手势、有行为,还有情绪,就可以使游戏、学习、购物、美食、知识问答、绘本伴读更有趣;在具身智能机器人以及汽车等新终端越来越多的未来,可以实现全新的人机交互的升级,做很多原来做不成的事。
值得一提的是,科大讯飞还首次发布星火多语言大模型,除中英文外,可支持俄、日、阿、法等 8 个语种。'我们要代表中国给世界提供第二种选择。'










