凌晨GLM-5炸场!世界开源模型第一名!模型训练大幅创新!实测:Agentic能力、前端细节逼近专业人士,可模拟手机OS,游戏秒运行!代际变化

凌晨GLM-5炸场!世界开源模型第一名!模型训练大幅创新!实测:Agentic能力、前端细节逼近专业人士,可模拟手机OS,游戏秒运行!代际变化

大模型叙事逻辑已经出现了极为明显的变化。过去三年,大家更会关注:谁更会回答问题,谁回答得更聪明、准确、快速?但随着一系列Agent产品的涌现,大模型也开始向真实世界的复杂任务发起冲锋。现在的问题变成:谁能真正承担任务?

GLM-5 终于来了!

2月12日凌晨,智谱正式发布了GLM-5。

早上,小编就围绕它展开了测评。先说一句话感受,可以说非常跟上一代GLM-4.7,比起来,代际变化非常大。

一句话感受,是一场非常激进的扩张。

模型训练大幅创新

先来看模型和参数,参数规模从 355B(32B 激活)跃升到 744B(40B 激活),预训练数据从 23T tokens 增加到 28.5T tokens,同时引入 DeepSeek Sparse Attention,在维持长上下文能力的同时压缩部署成本。

这样,虽然整体模型大了一倍、但部署成本没有增加多少,同时,模型表现更加稳定了。

真正的变化发生在训练范式上。

强化学习一直是大模型从“能用”走向“好用”的关键,但问题是效率极低,尤其在超大模型上几乎难以规模化。GLM-5 团队为此构建了一套名为“ slime”的异步强化学习基础设施,大幅提升训练吞吐量,让后训练不再是粗颗粒度修补,而是高频、细粒度迭代。这意味着模型不仅在能力上变强,在优化路径上也更系统。

全球开源模型综合排名第一

效果如何?

在推理、代码与智能体任务上,GLM-5 已经成为全球开源模型中的最佳表现者,并开始逼近一线闭源模型。

图片

有一个例子值得注意。

在衡量长期规划能力的 Vending Bench 2 上——一个要求模型经营一年“自动售货机业务”的基准测试——GLM-5 最终账户余额达到 4,432 美元,在开源模型中排名第一,接近 Claude Opus 4.5。这里考验的不是答题,而是资源调度、长期决策与策略稳定性。

图片
从对话转向工作,大模型转向Agentic时代

更值得注意的是定位变化。

GLM-5 不再强调“聊天能力”,而是明确面向复杂系统工程与长周期 Agent 任务。在内部 CC-Bench-V2 评测中,其在前端、后端与长任务执行上显著超越 GLM-4.7,缩小与顶级模型的差距。

这其实透露出一个更重要的趋势变化:基础模型正在从“对话产品”转向“工作基础设施”。(从 Claude Opus4.6 也能看出来这个趋势越来越明显。)

就像 Office 之于知识工作者,IDE 之于工程师,大模型正在成为一套“生产力系统”。

GLM-5 已经支持将文本或原始材料直接转化为 .docx、.pdf、.xlsx 等文件——PRD、财务报表、课程讲义、试卷、执行手册、菜单——从输入到交付,一步完成。

这也说明,生成内容这种能力已经被各大模型厂商卷到足够Cover了,今年以后的大模型的突破重点,将长期聚焦在“完成工作闭环”方面。

图片

与此同时,据官方透露,GLM-5模型已在 Hugging Face 与 ModelScope 开源,权重采用 MIT License;开发者可在 api.z.ai 与 BigModel.cn 调用,

而且,GLM- 5 已经兼容 Claude Code 与 OpenClaw。

这也就意味着,这款顶尖的开源模型现在可以通过 OpenClaw 进行跨应用与跨设备执行操作

实测:细节逼近真实使用体验,Agent模式工作流拆解如同专业人士、可模拟手机操作系统

前端能力越来越强了!

相比前一代的4.7,GLM-5在前端细节上更加丰富和丝滑,呈现风格也更加贴近现实应用的审美。

图片

这是之前小编在GLM-4.7跑的效果:

图片

更厉害的来了。一位网友甚至让GLM-5造了一款可以运行的手机。

不仅手机做了出来,手机里的各种应用都可以点击运行,比如日历、贪吃蛇、音乐等等,可以说非常逼真、惊艳了!

图片

此外,小编还特意测试了Agent模式。这次的测试题目是:

为一家AI Infra创业公司生成一份融资路演PPT大纲(15页) 要求: 包含市场分析 竞争格局 技术壁垒 商业模式 财务预测 团队介绍 每一页写出标题 + 3个核心要点

可以看出该模式下,GLM-5的工作流已经化身成了一位具备撰写融资路演PPT经验的专业人士,工作流拆解得非常严谨靠谱。另外小编还注意到GLM-5会自主调用pptskills来帮助自己生成PPT大纲。

图片

最后生成的PPT大纲版式如下,当然从效果看,还需要人工进一步在细节上进行调整。

图片

当然小编还注意到,智谱这次还推出了其他新产品 OCR、Image和Audio。

可以看出智谱,正在从代码模型拓展到多模态模型的布局。而这也是转向复杂系统任务的必然之举。

图片
插曲:神秘模型被传就是GLM-5

上周在OpenRouter的一个名为“Pony Alpha ”的神秘模型突然爆红(排名第一),就被网友爆料是智谱的GLM-5,因为风格很像GLM,而且聊天时,模型说自己是z.ai创造的。但官方目前还没有明确回应该消息是否属实。

图片
写在最后:大模型,注定吞噬一切

大模型叙事逻辑已经出现了极为明显的变化。

过去三年,大家更会关注:谁更会回答问题,谁回答得更聪明、准确、快速?

但随着一系列Agent产品的涌现,大模型也开始向真实世界的复杂任务发起冲锋。现在的问题变成:谁能真正承担任务?

如果说 GLM-4.5 是“会推理、会写代码的模型”,那么 GLM-5 的野心更直接——成为复杂系统里的执行者。

顺着这个脉络,当复杂系统的Agentic Engineering 这座堡垒也被大模型攻克之后,恐怕之后的主命题就会变成:让AI自己去运营一家公司,看好未来几个月、甚至几年的现金流了吧。

总之,时代切换的周期已经越来越短了。

Read more

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南 "见微知著,凝光成影。将梦境的碎片,凝结为永恒的视觉诗篇。" 你是否曾经梦想过拥有一个属于自己的艺术创作空间?一个不需要复杂技术背景,只需轻轻描述心中所想,就能让AI帮你将梦境转化为精美画作的地方?今天我要介绍的"灵感画廊"就是这样一个神奇的工具。 基于Stable Diffusion XL 1.0打造,这个创作终端不仅技术强大,更重要的是它极其友好——无论是对创作者还是对你的电脑硬件。即使只有8GB显存的GPU,也能流畅运行,生成1024x1024高清画质。接下来,我将手把手带你搭建这个艺术创作空间。 1. 环境准备与快速部署 在开始之前,我们先来看看需要准备什么。整个过程比想象中简单很多,不需要复杂的配置,只需要几个简单的步骤。 1.1 系统要求与依赖安装 首先确保你的环境满足以下要求: * NVIDIA显卡(建议8GB以上显存) * Python 3.8或更高版本

当前机器人在家庭场景落地难在哪里?

当前机器人在家庭场景落地难在哪里?

当前机器人在家庭场景落地难在哪里? 让机器人成为像电影里那样全能的“家庭保姆”,目前还面临着三大核心挑战:技术瓶颈、成本压力和隐私安全。虽然我们在春晚等场合看到了机器人的惊艳表现,但家庭环境的复杂性和不可预测性,让机器人从“舞台表演”到“入户干活”之间还存在巨大鸿沟。 ⚙️ 技术瓶颈:从“专才”到“通才”的跨越 当前机器人最大的短板在于其“大脑”的泛化能力和“身体”的灵巧度不足,难以应对家庭这种非结构化环境。 1. 续航焦虑:目前的消费级机器人续航时间普遍较短,大约只有 1.5至2小时。这对于需要长时间工作的家务或陪伴场景来说远远不够,机器人可能干一会儿就得去充电,无法满足全天候的需求。 2. 精细操作能力弱:机器人的“双手”还不够灵巧。它们可以完成预设好的简单抓取,但在面对“拿起玻璃杯倒水”、“叠衣服”或处理易碎品等需要精细力控和复杂协调的任务时,往往力不从心。行业数据显示,灵巧手的平均寿命甚至不足2个月,远未达到实用化的标准。 3. 环境适应性差:

2025开源智能家居平台完全指南:构建自主可控的智能生活系统

2025开源智能家居平台完全指南:构建自主可控的智能生活系统 【免费下载链接】corehome-assistant/core: 是开源的智能家居平台,可以通过各种组件和插件实现对家庭中的智能设备的集中管理和自动化控制。适合对物联网、智能家居以及想要实现家庭自动化控制的开发者。 项目地址: https://gitcode.com/GitHub_Trending/co/core 在智能家居快速发展的今天,选择一个真正开放、可定制的控制平台至关重要。本文将深入解析2025年最新开源智能家居平台的核心技术突破,帮助你从零开始打造专属的智能生活系统。作为完全开源的解决方案,该平台打破了品牌壁垒,让你真正掌控自己的智能家居生态。 1. 设备互联革命:如何解决智能家居设备碎片化难题 传统智能家居的痛点 不同品牌设备间的兼容性问题长期困扰用户,往往需要多个App控制不同设备,形成"智能孤岛"。调查显示,普通家庭平均使用3.7个不同品牌的智能设备,每个设备都有独立的控制界面和协议标准。 统一设备抽象层技术 2025版本引入革命性的"设备抽象层"技术,通过统一的设备模型解决兼容性问题:

在ESP32-S3部署mimiclaw,基于deepseek并用飞书机器人开展对话-feishu

在ESP32-S3部署mimiclaw,基于deepseek并用飞书机器人开展对话-feishu

最近mimiclaw火爆,其开发团队也在密集更新,我看3天前已经可以用“飞书机器人”对话交互了。 目前网络上能查到的部署资料相对滞后,现在将飞书机器人的部署整理如下: 1. 前提 已经安装好ESP-IDF,并支持vscode编译esp32固件。 2. api-key准备 * 注册deepseek, * 创建APIkey, * 并充值,新注册的用户余额为零,无法使用 3. 飞书机器人 我是在飞书个人版中,创建的机器人。 1. 访问飞书开放平台,单击创建企业自建应用,填写应用名称和描述,选择应用图标,单击创建。 2. 左侧导航栏单击凭证与基础信息 页面,复制App ID(格式如 cli_xxx)和App Secret。 3. 配置事件订阅。 1. 在飞书开放平台左侧导航栏单击事件与回调,在事件配置页签中单击订阅方式,选择使用 长连接 接收事件,单击保存。 2. 在事件配置页面,单击添加事件,