虽然今年只过去了三分之一,但 AI 领域的创新和迭代速度,依然会让不少人发出疑问:你还有多少惊喜是'朕'不知道的?
如果说 2023 年的大模型风暴还集中在'对话'上,那么,今年 AI 带来的震撼,就突破了文字乃至图像的范畴。
2 月中旬,OpenAI 发布的'文生视频'(text-to-video)的大模型工具 Sora 直接生成 60 秒一镜到底、不同景别流畅切换的视频,将文生视频的效果提升数个维度。3 月中旬,Suno 团队发布的 Suno AI V3 版本,只要输入简单的文字描述,就可以生成两分钟以内、不同流派风格的音乐作品,效果惊艳。
短短一年,大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,大模型的能力维度变得更加丰富多元。
通往 AGI 之路
AGI,通用人工智能,AI 从业人士追寻的理想和目标,通俗地说,AGI 的目标是模仿并超越人类的智力水平。但迄今为止,尚未有现实 AGI 成果出现,个中原因便在于,当前的 AI 无法克服认知模型复杂性这一难题。
人脑是天生的多任务处理器,机器不是。
当下的技术发展,使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就,例如以 AlphaFold 和 AlphaZero 为代表的专业领域 AI,以及文书纠正 AI Grammarly,DALL·E 2,Imagen 等生图 AI。但它们的强大仅局限于特定领域。
当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时,大脑会自动将颜色、形状、气味等不同维度信息进行综合处理,这种对人类而言十分简单的事情,对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息,并进行综合性的处理,这将是重要突破,也意味着 AI 能够更加智能,能处理更加复杂的事情,提供更加有价值的帮助。
大模型在文字、图片、视频、语音等方面取得的进展,意义便在于此。
当其他大模型在特定领域内谋求突破时,一位来自中国的选手正在打破模型间的围墙。4 月 17 日,在「天工」大模型发布一周年之际,昆仑万维宣布,「天工 3.0」以及「天工 SkyMusic」正式开启公测。
根据官方介绍,「天工 3.0」是 4000 亿级参数全球最大规模的开源 MoE 大模型,也是中国首个音乐 AIGC SOTA。相较上一代,「天工 3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升,其模型技术知识能力提升超过 20%,数学/推理/代码/文创能力提升超过 30%。
而且,「天工 3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了 AI 搜索、AI 写作、AI 长文本阅读、AI 对话、AI 语音合成、AI 图片生成、AI 漫画创作、AI 图片识别、AI 音乐生成、AI 代码写作、AI 表格生成等多项能力,实现了对大模型的多模态突破。
从搜索、查找、定方案,到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作,如今在「天工 3.0」可以全部搞定,这无疑能带来极大的便利。
惠及用户的同时,「天工 3.0」会成为虚拟世界与物理世界的接口,并充当用户在虚拟世界的智能管家,「天工 3.0」的价值将是平台级的。
在这个过程中,机器处理来自用户的各种复杂需求,输入了更多数据,进行了更多模态的后台处理,这样的输入输出对于 AI 变得更加智能,意义重大。
AI Agent 与创作平权
「天工 3.0」会的多,但绝不是把一堆功能生硬的粘合在一起,其更底层的支撑,来自于模型能力层的提升。
大模型很强,但用好有门槛。大部分普通用户没有代码开发经验,更不具备训练大模型提示词工程能力,要把大模型调教成趁手的个人 AI 助理,用户自己得先花时间好好学习。
针对这一现状,「天工 3.0」深度训练 Agent 的能力,针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

以买车这个日常生活中的典型场景为例,传统做法是找到对应车型的介绍,再自己列出不同车型的核心参数进行比较,涉及到很多繁琐的工作,这件事在「天工 3.0」这儿变得特别简单。
当在搜索框中输入'特斯拉 Model 3 和 Model Y 哪个好'时,「天工 3.0」首先会联网查询最新信息。









