GLM-5 发布：开源模型新标杆，Agentic 能力与训练架构解析

大模型的叙事逻辑正在发生显著变化。过去三年，关注点主要集中在回答的准确性、速度与智能程度；随着 Agent 产品的涌现，重心已转向真实世界的复杂任务执行。现在的核心问题是：谁能真正承担任务？

2 月 12 日凌晨，智谱正式发布了 GLM-5。经过实测，相比上一代 GLM-4.7，这次更新带来了显著的代际跨越。

模型规格与训练创新

首先关注底层规格。参数规模从 355B（32B 激活）跃升至 744B（40B 激活），预训练数据量从 23T tokens 增加至 28.5T tokens。同时引入高效稀疏注意力机制，在维持长上下文能力的同时有效压缩部署成本。这意味着整体模型体量翻倍，但部署成本并未同比例增加，且表现更加稳定。

更深层的变化在于训练范式的革新。强化学习是大模型从'能用'走向'好用'的关键，但在超大模型上往往效率低下。GLM-5 团队构建了一套名为'slime'的异步强化学习基础设施，大幅提升训练吞吐量。这使得后训练不再是粗颗粒度的修补，而是高频、细粒度的迭代优化。模型不仅在能力上增强，优化路径也更为系统。

全球开源模型综合排名第一

效果如何？在推理、代码与智能体任务上，GLM-5 已成为全球开源模型中的最佳表现者，并开始逼近一线闭源模型。

一个值得注意的例子是 Vending Bench 2 基准测试，该测试要求模型经营一年的'自动售货机业务'。GLM-5 最终账户余额达到 4,432 美元，在开源模型中排名第一，接近 Claude Opus 4.5。这里考验的不是答题，而是资源调度、长期决策与策略稳定性。

从对话转向工作，大模型进入 Agentic 时代

定位变化同样关键。GLM-5 不再单纯强调'聊天能力'，而是明确面向复杂系统工程与长周期 Agent 任务。在内部 CC-Bench-V2 评测中，其在前端、后端与长任务执行上显著超越 GLM-4.7，缩小了与顶级模型的差距。

这透露出一个重要趋势：基础模型正在从'对话产品'转向'工作基础设施'。就像 Office 之于知识工作者，IDE 之于工程师，大模型正在成为一套生产力系统。GLM-5 已支持将文本或原始材料直接转化为 .docx、.pdf、.xlsx 等文件——PRD、财务报表、课程讲义、试卷、执行手册、菜单——实现从输入到交付的一步完成。

生成内容的能力已被各大厂商卷到极致，未来大模型的突破重点将长期聚焦在'完成工作闭环'方面。

与此同时，GLM-5 已在 Hugging Face 与 ModelScope 开源，权重采用 MIT License；开发者可在 api.z.ai 与 BigModel.cn 调用。此外，GLM-5 兼容 Claude Code 与 OpenClaw，这意味着顶尖开源模型现在可以通过 OpenClaw 进行跨应用与跨设备执行操作。