GLM-5 发布:大模型向真实世界复杂任务发起冲锋
大模型叙事逻辑已出现明显变化。过去三年关注点在于谁更会回答问题、回答得更聪明准确快速;随着一系列 Agent 产品涌现,大模型开始向真实世界的复杂任务发起冲锋。现在的问题变成:谁能真正承担任务?
2 月 12 日凌晨,智谱正式发布了 GLM-5。
模型训练大幅创新
参数规模从 355B(32B 激活)跃升到 744B(40B 激活),预训练数据从 23T tokens 增加到 28.5T tokens,同时引入 DeepSeek Sparse Attention,在维持长上下文能力的同时压缩部署成本。虽然整体模型大了一倍,但部署成本没有增加多少,模型表现更加稳定。
真正的变化发生在训练范式上。强化学习一直是大模型从'能用'走向'好用'的关键,但效率极低,尤其在超大模型上几乎难以规模化。GLM-5 团队为此构建了一套名为'slime'的异步强化学习基础设施,大幅提升训练吞吐量,让后训练不再是粗颗粒度修补,而是高频、细粒度迭代。
全球开源模型综合排名第一
在推理、代码与智能体任务上,GLM-5 已经成为全球开源模型中的最佳表现者,并开始逼近一线闭源模型。
在衡量长期规划能力的 Vending Bench 2 上——一个要求模型经营一年'自动售货机业务'的基准测试——GLM-5 最终账户余额达到 4,432 美元,在开源模型中排名第一,接近 Claude Opus 4.5。这里考验的不是答题,而是资源调度、长期决策与策略稳定性。


从对话转向工作,大模型转向 Agentic 时代
GLM-5 不再强调'聊天能力',而是明确面向复杂系统工程与长周期 Agent 任务。在内部 CC-Bench-V2 评测中,其在前端、后端与长任务执行上显著超越 GLM-4.7,缩小与顶级模型的差距。
基础模型正在从'对话产品'转向'工作基础设施'。就像 Office 之于知识工作者,IDE 之于工程师,大模型正在成为一套'生产力系统'。
GLM-5 已经支持将文本或原始材料直接转化为 .docx、.pdf、.xlsx 等文件——PRD、财务报表、课程讲义、试卷、执行手册、菜单——从输入到交付,一步完成。

据官方透露,GLM-5 模型已在 Hugging Face 与 ModelScope 开源,权重采用 MIT License;开发者可在 api.z.ai 与 BigModel.cn 调用。
此外,GLM-5 已经兼容 Claude Code 与 OpenClaw。这意味着这款顶尖的开源模型现在可以通过 OpenClaw 进行跨应用与跨设备执行操作。
实测:细节逼近真实使用体验,Agent 模式工作流拆解如同专业人士
前端能力越来越强了!相比前一代的 4.7,GLM-5 在前端细节上更加丰富和丝滑,呈现风格也更加贴近现实应用的审美。

这是之前 GLM-4.7 跑的效果:








