智谱 AI 正式发布新一代基座大模型 GLM-4
2024 年 1 月 16 日,在举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布了新一代基座大模型 。这是国产大模型领域的一个重磅里程碑,标志着国产大模型的技术水平迈上了新的台阶。
智谱 AI 于 2024 年 1 月 16 日发布新一代基座大模型 GLM-4,性能较上一代提升 60%,多项指标逼近 GPT-4。GLM-4 具备 128K 超长上下文窗口,在 MMLU、GSM8K、HumanEval 等权威评测中达到 GPT-4 的 90%-100% 水平。新增 GLM-4-All Tools 支持自主规划与工具调用,强化 Agent 能力。同时推出 GLMs 个性化智能体定制,并发布包含算力、资金及 API 支持的开源基金,旨在构建繁荣的大模型生态,加速 AGI 进程。

2024 年 1 月 16 日,在举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布了新一代基座大模型 。这是国产大模型领域的一个重磅里程碑,标志着国产大模型的技术水平迈上了新的台阶。
经历了三个月的技术迭代,GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升。这一提升不仅体现在基础语言理解能力上,更体现在复杂推理、代码生成及多模态处理等多个维度,使其直接逼近业界标杆 GPT-4 的水平。
在人工智能领域,GPT-4 长期以来被视为大模型技术的黄金标准。GLM-4 的诞生,意味着国产大模型在核心能力上真正做到了与 GPT-4 比肩。根据智谱 AI CEO 张鹏的介绍,GLM-4 带来了多项关键能力的突破。
GLM-4 支持 128K 上下文窗口长度,单次提示词可处理文本达到 300 页。这一特性对于需要处理长文档的场景至关重要,例如法律合同分析、医疗报告总结、长篇技术文档检索等。在总结信息、内容抽取、复杂推理、代码等多个应用场景中,GLM-4 展现了强大的复杂长文本处理能力。
智谱 AI 技术团队重点解决了长上下文全局信息因失焦导致的精度下降问题。在著名的 "Needle in a Haystack"(大海捞针)测试中,在 128K 文本长度内,GLM-4 模型可实现几乎 100% 的精度召回。这意味着模型能够精准定位并提取长文档中的关键信息,而不会遗漏或混淆上下文,极大地提升了其在企业级应用中的可靠性。
智谱 AI 进行的多项大模型权威评测结果证实了 GLM-4 的强大性能。具体数据如下:
在指令跟随能力方面,GLM-4 也实现了媲美 GPT-4 的水准。根据指令跟随评估基准 IFEval 的结果,GLM-4 在 Prompt 提示词跟随(中文)方面达到了 GPT-4 88% 的水平;在指令跟随(中文)方面,达到了 GPT-4 90% 的水平。这表明模型能够更准确地理解并执行用户的复杂指令,减少了对提示词工程的依赖。
在实际落地应用过程中,模型的中文对齐能力格外重要。基于公开数据集 AlignBench 的评估结果,GLM-4 超过了 GPT-4 在 6 月 13 日发布的版本,逼近 GPT-4 最新(11 月 6 日版本)效果。在专业能力、中文理解、角色扮演方面,GLM-4 甚至超过了最新 GPT-4 的精度,唯一有待提升的是 GLM-4 在中文推理方面的能力。这体现了智谱 AI 在中文语料训练上的深厚积累。
多模态能力的水平,是决定模型能否应用于复杂现实场景的关键因素。此次 GLM-4 的多模态能力能够实现长足的进步,正是基于不断进化的智谱 AI 多模态理解模型 CogVLM 和文生图模型 CogView。
其中,最新发布的 CogView3 效果明显超过开源最佳的 Stable Diffusion XL,逼近最新 OpenAI 发布的 DALL-E 3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3 的效果都达到 DALL-E 3 90% 以上水平,平均达到 95% 左右的相对性能。这使得 GLM-4 不仅能处理文本,还能高质量地理解和生成图像,为 AIGC 应用提供了更丰富的可能性。
大模型本身还不足以解决所有问题,在实际的使用过程中,我们常常需要同时借助多种工具,比如网页浏览、数据分析、图像生成。传统的调用方式往往需要开发者编写复杂的代码来串联不同的 API,或者用户需要学习特定的提示词技巧。
张鹏在演讲中提到了这一难点:"一直以来,普通用户甚至是开发者,需要用像魔法咒语一样的提示词或者机器才能解读执行的代码、调用大模型的各种能力,无论是回答问题、作画还是使用外部的知识源,总觉得大模型还是没那么聪明。"
这些复杂任务,都可以依靠 Agent(智能体) 来完成。强大的 Agent 能力,同样是提升 GLM-4 模型使用体验的关键因素之一。在这一次的技术开放日,智谱 AI 正式推出了 GLM-4-All Tools。
GLM-4-All Tools 提供了一系列强大的内置工具,让 GLM-4 实现了自主根据用户意图,自动理解、规划复杂指令,自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。开发者和用户可以更轻松地使用 GLM-4 模型,不再需要为提示词担心。
在现场演示中,以文生图为例,GLM-4-All Tools 能够准确地根据上下文语境进行 AI 绘图创作。面对涉及复杂计算的指令,GLM-4 内嵌了代码解释器,能够自动进行复杂的方程或者微积分求解。对比 GSM8K、Math 以及 Math23K 三个数据集上的结果,GLM-4 取得了与 GPT-4 All Tools 相当的性能。
此外,GLM-4-All Tools 可以自动处理各种任务,包括文件处理、数据分析、图表绘制等,处理的文件类型覆盖常用的 Excel、PDF、PPT 等格式。在信息检索方面,All Tools 使得 GLM-4 从早期的检索自动增强升级为目前模型对网页的自动浏览能力。这意味着模型具备了实时获取互联网信息的能力,解决了大模型知识截止的问题。
"GLM 系列模型的全家桶能力,终于实现了 All-In-One。" 张鹏总结道。从全行业的角度来说,GLM-4-All Tools 的意义或许更为突出。基于比肩 GPT-4 的基座大模型能力,这一功能的上线将为应用、行业模型和商业化落地案例开辟出更加广阔的实践空间。
能力水平的高低决定了大模型能否在未来的竞争中生存下去,而围绕大模型构筑起完善的生态链能够助力它们走得更远。二者缺一不可,相互促进。智谱 AI 在推进自家 GLM 系列模型研发时注重能力与生态 "并举",将广大开发者、用户、开源社区、科研界以及产业链上下游合作伙伴都纳入进来。
一项重磅推出是 GLMs 个性化智能体定制能力,为包括无编程基础开发者在内的所有人提供了创建专属智能体的新渠道。目前,该功能已经上线智谱清言官网。基于 GLM-4 模型的强大基础能力,任何用户都可以使用简单的提示词创建定制化的 GLM 智能体。
智能体创建地址已同步上线,用户可以分享自己创建的各种智能体。现场演示中,GLM 智能体 "智谱 DevDay" 成功总结了技术开放日上午的议程,内容准确、没有遗漏。GLMs 定制化智能体可以让任何人使用并充分挖掘 GLM-4 模型的潜力,结合自身所在领域以及专业知识、创意和智慧,自由创建更加多样化的智能体,实现便捷开发,进一步构建开放的大模型社区生态。
接下来,GLMs 模型应用商店以及开发者分成计划也将同期发布。这些与 GLMs 智能体一道构成了智谱 AI 在扩大开发者生态层面的重要尝试和迈出的关键步伐,让开发者应用大模型的门槛不断降低。
对于模型开源和对开源社区的贡献,智谱 AI 也一直走在国内外前列。智谱 AI 先后开源了中英双语对话大模型 ChatGLM-6B 和 ChatGLM2-6B,全球累计下载量超过了 1000 万,GitHub 星标累计超过 5.4 万。这些开源模型也 "开花结果",开发者已经在其上开发出了 600 多项优秀的大模型应用开源项目。
此次,智谱 AI 针对开源社区发起了开源开放的大模型开源基金,概括为三个 "一千":
这些都是智谱 AI 为开发者和开源社区谋得的实打实的实惠,通过奖励为大模型普及、推广和应用做出贡献的开发者组织和个人,充分调动他们的积极性,进一步推动大模型研发,促进整个开源生态的发展。
同时面向科研界,联合中国计算机学会和中国中文信息学会社会媒体处理专委会分别发起了 CCF - 智谱大模型基金和 SMP - 智谱大模型交叉学科基金,围绕预训练大模型理论、算法、模型、应用以及与各领域的交叉创新做 "深" 文章。
为了助力生态伙伴走好大模型创业的 "长征路",智谱 AI 还面向全球大模型初创团队和小微企业升级了 "Z 计划" 创业基金,总额 10 亿人民币,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用,旨在支持更多大模型原始创新和能力升级。
大模型的研发和应用涉及复杂的产业链条,任重而道远。从上述措施中,我们看到了智谱 AI 对于开发者生态、开源社区和客户的坚定承诺。正如张鹏所言:"一枝独秀不是春,中国人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量。"
自 ChatGPT 推出以来,我们见证了轰轰烈烈的百模大战、此起彼伏的 AIGC 应用落地以及成为厂商全新角逐点的 AI Agent。要想在每一个阶段都不被落下,则要事事争先、抓住每一次发展时机。
面向即将到来的更激烈的大模型之争,智谱 AI 已经做好了准备。正如此次技术开放日的一系列模型发布和能力升级,其每次都能给出及时的回应:一方面不断夯实并升级 GLM 基座大模型的能力,并抓住 AI Agent 发展契机形成自己的 GLM 智能体发展体系,将大模型的应用做得更深、更广、更全;另一方面联动开发者、社区、科研界以及客户等各方,无死角地构筑起一个更宏大的模型生态圈层,打造更完整的生态链。
2024 年伊始,智谱 AI 带来了国产大模型带来了好消息,并以此为起点瞄准 AGI 之路。在未来的技术求索和产业应用道路上,智谱 AI 会成为最先赶超 OpenAI 的国内大模型创业力量吗?我们拭目以待。GLM-4 的发布不仅是智谱 AI 技术实力的体现,更是中国大模型产业迈向成熟的重要一步,为后续的行业应用落地奠定了坚实的基础。随着生态的不断完善,我们有理由相信,基于 GLM-4 的各类创新应用将在未来一年内迎来爆发式增长,深刻改变我们的工作方式和生活方式。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online