凌晨GLM-5炸场！世界开源模型第一名！模型训练大幅创新！实测：Agentic能力、前端细节逼近专业人士，可模拟手机OS，游戏秒运行！代际变化

优质文章学习记录

10 Apr 2026 — 7 min read

大模型叙事逻辑已经出现了极为明显的变化。过去三年，大家更会关注：谁更会回答问题，谁回答得更聪明、准确、快速？但随着一系列Agent产品的涌现，大模型也开始向真实世界的复杂任务发起冲锋。现在的问题变成：谁能真正承担任务？

GLM-5 终于来了！

2月12日凌晨，智谱正式发布了GLM-5。

早上，小编就围绕它展开了测评。先说一句话感受，可以说非常跟上一代GLM-4.7，比起来，代际变化非常大。

一句话感受，是一场非常激进的扩张。

模型训练大幅创新

先来看模型和参数，参数规模从 355B（32B 激活）跃升到 744B（40B 激活），预训练数据从 23T tokens 增加到 28.5T tokens，同时引入 DeepSeek Sparse Attention，在维持长上下文能力的同时压缩部署成本。

这样，虽然整体模型大了一倍、但部署成本没有增加多少，同时，模型表现更加稳定了。

真正的变化发生在训练范式上。

强化学习一直是大模型从“能用”走向“好用”的关键，但问题是效率极低，尤其在超大模型上几乎难以规模化。GLM-5 团队为此构建了一套名为“ slime”的异步强化学习基础设施，大幅提升训练吞吐量，让后训练不再是粗颗粒度修补，而是高频、细粒度迭代。这意味着模型不仅在能力上变强，在优化路径上也更系统。

全球开源模型综合排名第一

效果如何？

在推理、代码与智能体任务上，GLM-5 已经成为全球开源模型中的最佳表现者，并开始逼近一线闭源模型。

有一个例子值得注意。

在衡量长期规划能力的 Vending Bench 2 上——一个要求模型经营一年“自动售货机业务”的基准测试——GLM-5 最终账户余额达到 4,432 美元，在开源模型中排名第一，接近 Claude Opus 4.5。这里考验的不是答题，而是资源调度、长期决策与策略稳定性。

从对话转向工作，大模型转向Agentic时代

更值得注意的是定位变化。

GLM-5 不再强调“聊天能力”，而是明确面向复杂系统工程与长周期 Agent 任务。在内部 CC-Bench-V2 评测中，其在前端、后端与长任务执行上显著超越 GLM-4.7，缩小与顶级模型的差距。

这其实透露出一个更重要的趋势变化：基础模型正在从“对话产品”转向“工作基础设施”。（从 Claude Opus4.6 也能看出来这个趋势越来越明显。）

就像 Office 之于知识工作者，IDE 之于工程师，大模型正在成为一套“生产力系统”。

GLM-5 已经支持将文本或原始材料直接转化为 .docx、.pdf、.xlsx 等文件——PRD、财务报表、课程讲义、试卷、执行手册、菜单——从输入到交付，一步完成。

这也说明，生成内容这种能力已经被各大模型厂商卷到足够Cover了，今年以后的大模型的突破重点，将长期聚焦在“完成工作闭环”方面。

与此同时，据官方透露，GLM-5模型已在 Hugging Face 与 ModelScope 开源，权重采用 MIT License；开发者可在 api.z.ai 与 BigModel.cn 调用，

而且，GLM- 5 已经兼容 Claude Code 与 OpenClaw。

这也就意味着，这款顶尖的开源模型现在可以通过 OpenClaw 进行跨应用与跨设备执行操作。

实测：细节逼近真实使用体验，Agent模式工作流拆解如同专业人士、可模拟手机操作系统

前端能力越来越强了！

相比前一代的4.7，GLM-5在前端细节上更加丰富和丝滑，呈现风格也更加贴近现实应用的审美。

这是之前小编在GLM-4.7跑的效果：

更厉害的来了。一位网友甚至让GLM-5造了一款可以运行的手机。

不仅手机做了出来，手机里的各种应用都可以点击运行，比如日历、贪吃蛇、音乐等等，可以说非常逼真、惊艳了！

此外，小编还特意测试了Agent模式。这次的测试题目是：

为一家AI Infra创业公司生成一份融资路演PPT大纲（15页） 要求： 包含市场分析 竞争格局 技术壁垒 商业模式 财务预测 团队介绍 每一页写出标题 + 3个核心要点

可以看出该模式下，GLM-5的工作流已经化身成了一位具备撰写融资路演PPT经验的专业人士，工作流拆解得非常严谨靠谱。另外小编还注意到GLM-5会自主调用pptskills来帮助自己生成PPT大纲。

最后生成的PPT大纲版式如下，当然从效果看，还需要人工进一步在细节上进行调整。

当然小编还注意到，智谱这次还推出了其他新产品 OCR、Image和Audio。

可以看出智谱，正在从代码模型拓展到多模态模型的布局。而这也是转向复杂系统任务的必然之举。

插曲：神秘模型被传就是GLM-5

上周在OpenRouter的一个名为“Pony Alpha ”的神秘模型突然爆红（排名第一），就被网友爆料是智谱的GLM-5，因为风格很像GLM，而且聊天时，模型说自己是z.ai创造的。但官方目前还没有明确回应该消息是否属实。

写在最后：大模型，注定吞噬一切

大模型叙事逻辑已经出现了极为明显的变化。

过去三年，大家更会关注：谁更会回答问题，谁回答得更聪明、准确、快速？

但随着一系列Agent产品的涌现，大模型也开始向真实世界的复杂任务发起冲锋。现在的问题变成：谁能真正承担任务？

如果说 GLM-4.5 是“会推理、会写代码的模型”，那么 GLM-5 的野心更直接——成为复杂系统里的执行者。

顺着这个脉络，当复杂系统的Agentic Engineering 这座堡垒也被大模型攻克之后，恐怕之后的主命题就会变成：让AI自己去运营一家公司，看好未来几个月、甚至几年的现金流了吧。

总之，时代切换的周期已经越来越短了。

VSCode + Copilot 保姆级 AI 编程实战教程，免费用 Claude，夯爆了！

从安装到实战，手把手教你用 VSCode + GitHub Copilot 进行 AI 编程你好，我是程序员鱼皮。 AI 编程工具现在是真的百花齐放，Cursor、Claude Code、OpenCode、…… 每隔一段时间就冒出来一个新选手。之前我一直沉迷于 Cursor 和 Claude Code，直到最近做新项目时认真体验了一把 GitHub Copilot，才发现这玩意儿真夯啊！先简单介绍一下主角。VSCode 是微软出品的全球最流行的代码编辑器，装机量破亿；GitHub Copilot 则是 GitHub 官方出品的 AI 编程助手插件，直接安装在 VSCode 中使用。个人体验下来，相比其他 AI 编程工具有 4 大优势： 1. 支持最新 AI 大模型，

告别复杂操作：灵感画廊极简AI绘画体验

告别复杂操作：灵感画廊极简AI绘画体验 "见微知著，凝光成影。将梦境的碎片，凝结为永恒的视觉诗篇。" 你是否曾经被复杂的AI绘画工具劝退？参数太多、界面太乱、学习成本太高...现在，这一切都将成为过去。灵感画廊（Atelier of Light and Shadow）基于Stable Diffusion XL 1.0打造，却彻底摒弃了工业化的复杂界面，为你提供一个如艺术沙龙般恬静的创作空间。 1. 为什么选择灵感画廊？传统的AI绘画工具往往让人望而生畏。密密麻麻的参数滑块、晦涩难懂的技术术语、需要反复调试的复杂设置...这些都不是创作者想要的。灵感画廊完全不同。它相信：真正的创作应该专注于灵感本身，而不是技术细节。这里没有"提示词"，只有"梦境描述"；没有"反向词"

从 Copilot 到工程化 Agent 执行框架：基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

引言：AI Coding 进入规范驱动自动化时代当前，许多开发者在使用 AI 编程助手时正普遍面临—个痛点：在处理大型项目时， AI 似乎会“遗忘”上下文，导致代码回归、引入新 Bug 或生成不符合项目规范的混乱代码。正如研发同学反复出现的挫败感： “代码库越大， AI 弄得越乱”。这种被称为“Vibe Coding”的模式，是 AI 辅助工程必要的、但也是原始的第—步。它更像—种不可预测的艺术，而非可重复、可扩展的科学。要真正释放 AI 的生产力，我们必须迎来—次范式的进化：从凭感觉的“Vibe Coding” ，转向由规范驱动的（Spec-Driven Development）专业化 AI 工程新范式。本文将深入探讨如何将强大的

FLUX.1-dev与Stable Diffusion对比评测：图像质量与生成速度

FLUX.1-dev与Stable Diffusion对比评测：图像质量与生成速度作为一名长期关注AI图像生成技术的开发者，我一直在寻找能够在质量和速度之间取得最佳平衡的解决方案。最近，Black Forest Labs开源的FLUX.1-dev模型引起了我的注意，特别是它声称能够在消费级硬件上运行，同时保持出色的图像质量。今天我将通过实际测试，从图像细节、风格控制、生成速度等多个维度，对比FLUX.1-dev与大家熟悉的Stable Diffusion，看看这两个模型在实际使用中究竟表现如何。 1. 测试环境与方法为了确保对比的公平性，我搭建了统一的测试环境。使用NVIDIA RTX 4090显卡，24GB显存，Intel i9-13900K处理器，64GB DDR5内存。操作系统为Ubuntu 22.04，所有测试都在相同的硬件和软件环境下进行。测试方法包括定量评估和定性分析。定量方面主要测量生成速度、内存占用等硬性指标；定性方面则通过同一组提示词生成图像，从视觉质量、细节表现、风格一致性等角度进行对比。我选择了50组涵盖不同场景的提示词，包括人物肖像、风景