大模型突破对话边界：天工 3.0 与 SkyMusic 评测

综述由AI生成大模型正从单一对话向多模态应用演进，OpenAI Sora 与 Suno AI 展示了视频与音乐生成的潜力。昆仑万维发布的天工 3.0 作为 4000 亿参数开源 MoE 模型，在语义理解、逻辑推理及多模态能力上实现突破，支持搜索增强、代码调用及图表生成。其内置的 Agent 能力可独立规划复杂任务，如车型对比分析。此外，天工 SkyMusic 作为国内首个音乐 AIGC SOTA 模型，采用端到端音频生成技术，在人声清晰度、方言支持及音质上表现优异，超越部分海外竞品。昆仑万维通过 All in AGI 战略，致力于降低创作门槛，推动文化平权与产业变革。

女王发布于 2025/2/7更新于 2026/5/3018 浏览

虽然今年只过去了三分之一，但 AI 领域的创新和迭代速度，依然会让不少人发出疑问：你还有多少惊喜是'朕'不知道的？

如果说 2023 年的大模型风暴还集中在'对话'上，那么，今年 AI 带来的震撼，就突破了文字乃至图像的范畴。

2 月中旬，OpenAI 发布的'文生视频'（text-to-video）的大模型工具 Sora 直接生成 60 秒一镜到底、不同景别流畅切换的视频，将文生视频的效果提升数个维度。3 月中旬，Suno 团队发布的 Suno AI V3 版本，只要输入简单的文字描述，就可以生成两分钟以内、不同流派风格的音乐作品，效果惊艳。

短短一年，大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同，大模型的能力维度变得更加丰富多元。

通往 AGI 之路

AGI，通用人工智能，AI 从业人士追寻的理想和目标，通俗地说，AGI 的目标是模仿并超越人类的智力水平。但迄今为止，尚未有现实 AGI 成果出现，个中原因便在于，当前的 AI 无法克服认知模型复杂性这一难题。

人脑是天生的多任务处理器，机器不是。

当下的技术发展，使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就，例如以 AlphaFold 和 AlphaZero 为代表的专业领域 AI，以及文书纠正 AI Grammarly，DALL·E 2，Imagen 等生图 AI。但它们的强大仅局限于特定领域。

当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时，大脑会自动将颜色、形状、气味等不同维度信息进行综合处理，这种对人类而言十分简单的事情，对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息，并进行综合性的处理，这将是重要突破，也意味着 AI 能够更加智能，能处理更加复杂的事情，提供更加有价值的帮助。

大模型在文字、图片、视频、语音等方面取得的进展，意义便在于此。

当其他大模型在特定领域内谋求突破时，一位来自中国的选手正在打破模型间的围墙。4 月 17 日，在「天工」大模型发布一周年之际，昆仑万维宣布，「天工 3.0」以及「天工 SkyMusic」正式开启公测。

根据官方介绍，「天工 3.0」是 4000 亿级参数全球最大规模的开源 MoE 大模型，也是中国首个音乐 AIGC SOTA。相较上一代，「天工 3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升，其模型技术知识能力提升超过 20%，数学/推理/代码/文创能力提升超过 30%。

而且，「天工 3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力，集成了 AI 搜索、AI 写作、AI 长文本阅读、AI 对话、AI 语音合成、AI 图片生成、AI 漫画创作、AI 图片识别、AI 音乐生成、AI 代码写作、AI 表格生成等多项能力，实现了对大模型的多模态突破。

从搜索、查找、定方案，到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作，如今在「天工 3.0」可以全部搞定，这无疑能带来极大的便利。

惠及用户的同时，「天工 3.0」会成为虚拟世界与物理世界的接口，并充当用户在虚拟世界的智能管家，「天工 3.0」的价值将是平台级的。

在这个过程中，机器处理来自用户的各种复杂需求，输入了更多数据，进行了更多模态的后台处理，这样的输入输出对于 AI 变得更加智能，意义重大。