大模型的叙事逻辑正在发生显著变化。过去三年,关注点主要集中在回答的准确性、速度与智能程度;随着 Agent 产品的涌现,重心已转向真实世界的复杂任务执行。现在的核心问题是:谁能真正承担任务?
2 月 12 日凌晨,智谱正式发布了 GLM-5。经过实测,相比上一代 GLM-4.7,这次更新带来了显著的代际跨越。
模型规格与训练创新
首先关注底层规格。参数规模从 355B(32B 激活)跃升至 744B(40B 激活),预训练数据量从 23T tokens 增加至 28.5T tokens。同时引入高效稀疏注意力机制,在维持长上下文能力的同时有效压缩部署成本。这意味着整体模型体量翻倍,但部署成本并未同比例增加,且表现更加稳定。
更深层的变化在于训练范式的革新。强化学习是大模型从'能用'走向'好用'的关键,但在超大模型上往往效率低下。GLM-5 团队构建了一套名为'slime'的异步强化学习基础设施,大幅提升训练吞吐量。这使得后训练不再是粗颗粒度的修补,而是高频、细粒度的迭代优化。模型不仅在能力上增强,优化路径也更为系统。
全球开源模型综合排名第一
效果如何?在推理、代码与智能体任务上,GLM-5 已成为全球开源模型中的最佳表现者,并开始逼近一线闭源模型。

一个值得注意的例子是 Vending Bench 2 基准测试,该测试要求模型经营一年的'自动售货机业务'。GLM-5 最终账户余额达到 4,432 美元,在开源模型中排名第一,接近 Claude Opus 4.5。这里考验的不是答题,而是资源调度、长期决策与策略稳定性。

从对话转向工作,大模型进入 Agentic 时代
定位变化同样关键。GLM-5 不再单纯强调'聊天能力',而是明确面向复杂系统工程与长周期 Agent 任务。在内部 CC-Bench-V2 评测中,其在前端、后端与长任务执行上显著超越 GLM-4.7,缩小了与顶级模型的差距。
这透露出一个重要趋势:基础模型正在从'对话产品'转向'工作基础设施'。就像 Office 之于知识工作者,IDE 之于工程师,大模型正在成为一套生产力系统。GLM-5 已支持将文本或原始材料直接转化为 .docx、.pdf、.xlsx 等文件——PRD、财务报表、课程讲义、试卷、执行手册、菜单——实现从输入到交付的一步完成。
生成内容的能力已被各大厂商卷到极致,未来大模型的突破重点将长期聚焦在'完成工作闭环'方面。

与此同时,GLM-5 已在 Hugging Face 与 ModelScope 开源,权重采用 MIT License;开发者可在 api.z.ai 与 BigModel.cn 调用。此外,GLM-5 兼容 Claude Code 与 OpenClaw,这意味着顶尖开源模型现在可以通过 OpenClaw 进行跨应用与跨设备执行操作。
实测:细节逼近真实体验,Agent 模式工作流拆解专业
前端能力越来越强了!相比前一代,GLM-5 在前端细节上更加丰富和丝滑,呈现风格也更贴近现实应用的审美。

这是之前 GLM-4.7 跑的效果对比:








