清华智谱开源7440亿参数的智能体GLM-5

Ne0inhk

23 Mar 2026 — 6 min read

简介

我们正式推出GLM-5，面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能（AGI）智能效能的最重要途径之一。相比GLM-4.5，GLM-5将参数量从3550亿（激活320亿）扩展至7440亿（激活400亿），预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制（DSA），在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题，在大语言模型中规模化部署面临挑战。为此我们开发了slime——创新的异步RL基础设施，显著提升训练吞吐效率，支持更精细化的训练后迭代。得益于预训练与训练后的双重突破，GLM-5在各类学术基准测试中较GLM-4.7实现显著提升，在推理、编程和智能体任务领域达到全球开源模型顶尖水平，进一步缩小与前沿模型的差距。

基准测试

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (w/ Tools)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3	50.8	59.3	54.2	54.0
Terminal-Bench 2.0 (Claude Code)	56.2 / 61.1 †	32.8	46.4	-	57.9	-	-
CyberGym	43.2	23.5	17.3	41.3	50.6	39.9	-
BrowseComp	62.0	52.0	51.4	60.6	37.0	37.8	-
BrowseComp (w/ Context Manage)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
BrowseComp-Zh	72.7	66.6	65.0	62.3	62.4	66.8	76.1
τ²-Bench	89.7	87.4	85.3	80.2	91.6	90.7	85.5
MCP-Atlas (Public Set)	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Tool-Decathlon	38.0	23.8	35.2	27.8	43.5	36.4	46.3
Vending Bench 2	$4,432.12	$2,376.82	$1,034.00	$1,198.46	$4,967.06	$5,478.16	$3,591.33

*：指其全套测试的得分。

†：Terminal-Bench 2.0的验证版本，修复了一些模糊指令。
详见脚注获取更多评估细节。

脚注

人类终极考试（HLE）及其他推理任务：我们评估时设置最大生成长度为131,072个token（temperature=1.0, top_p=0.95, max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；带*标记的结果来自完整数据集。我们使用GPT-5.2（中等规模）作为评判模型。对于带工具的HLE评估，我们使用最大上下文长度202,752个token。
SWE-bench与SWE-bench多语言版：我们使用OpenHands运行SWE-bench测试套件，并采用定制化的指令提示。设置参数：temperature=0.7, top_p=0.95, max_new_tokens=16384，上下文窗口为200K。
浏览器交互评测（BrowserComp）：在没有上下文管理的情况下，我们仅保留最近5轮对话的细节。启用上下文管理时，采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
终端基准测试2.0（Terminus 2）：我们使用Terminus框架评估，参数为timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192，上下文窗口为128K。资源限制为16核CPU和32GB内存。
终端基准测试2.0（Claude代码版）：在Claude Code 2.1.14（思考模式，默认计算量）中评估，参数为temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异，我们移除了挂钟时间限制，但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题，并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果（参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）。
网络攻防演练（CyberGym）：在Claude Code 2.1.18（思考模式，禁用网页工具）中评估，参数为temperature=1.0, top_p=1.0, max_new_tokens=32000，每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。
MCP-Atlas图谱测试：所有模型均在500项公开子集的思考模式下评估，每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
τ²基准测试：在零售和电信领域添加了小型提示调整，以避免因用户提前终止导致的失败。针对航空领域，我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
自动售货机基准测试2：由安顿实验室独立运行。

本地部署GLM-5

环境准备

vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。

vLLM使用 Docker 作为：

docker pull vllm/vllm-openai:nightly

或者使用 pip：

```shell pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly ```

然后升级transformers：

``` pip install git+https://github.com/huggingface/transformers.git ```

SGLang使用 Docker 作为：

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPUdocker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8\ --gpu-memory-utilization 0.85\ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8

查看配方获取更多详情。

xLLM 及其他昇腾 NPU请查阅部署指南此处。

SGLang

python3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --mem-fraction-static 0.85\ --served-model-name glm-5-fp8

查看 sglang 教程获取更多细节。

Flutter for OpenHarmony：Flutter 三方库 pem — 在鸿蒙应用中优雅处理加密证书与密钥（适配鸿蒙 HarmonyOS Next ohos）

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net。 Flutter for OpenHarmony：Flutter 三方库 pem — 在鸿蒙应用中优雅处理加密证书与密钥（适配鸿蒙 HarmonyOS Next ohos）在现代移动应用的网络安全、数字签名及加密传输中，证书的管理是基石。无论是对接 HTTPS 的私有根证书，还是在进行 RSA 加密时加载私钥，我们通常会接触到 PEM (Privacy-Enhanced Mail) 格式的文件——即那些以 -----BEGIN CERTIFICATE----- 开头的文本块。在 Flutter for OpenHarmony 开发中，如何高效地解析和编码这些 Base64 文本数据？pem 库提供了一套标准的、纯 Dart 的工具包。今天，我们将实战如何利用它在鸿蒙项目里完成安全底座的构建。一、

Ubuntu(arm64)设备上安装chromium浏览器

一、下载软件包（2种方式） 1、windows 下载，然后上传到Linux上访问 http://ports.ubuntu.com/pool/universe/c/chromium-browser/ 分别下载以下四个包 chromium-codecs-ffmpeg-extra_112.0.5615.49-0ubuntu0.18.04.1_arm64.deb chromium-browser_112.0.5615.49-0ubuntu0.18.04.1_arm64.deb chromium-chromedriver_112.0.5615.49-0ubuntu0.18.04.1_arm64.deb chromium-browser-l10n_112.0.

Flutter for OpenHarmony: Flutter 三方库 week_of_year 为鸿蒙应用提供精准的年度周数统计与业务分析支持（日历计算专家）

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net 前言在进行 OpenHarmony 的办公自动化（OA）、排班管理或财务统计应用开发时，我们经常需要处理“周”的概念。 1. 周报提交：今天是今年的第几周？ 2. 生产计划：第 15 周需要完成哪些鸿蒙节点的部署？ 3. 数据报表：按周对鸿蒙设备的运行状态进行汇总。虽然 Dart 的 DateTime 类非常强大，但它并没有原生支持“获取当前是第几周”。week_of_year 软件包通过对 DateTime 对象的精简扩展，让你能一行代码获取 ISO-8601 标准的周数。一、周数计算逻辑模型符合国际标准（ISO-8601）的周数计算，通常将包含一年中第一个周四的那一周定为第 1 周。 DateTime

【Linux系列】Linux 环境变量详解与实战：让你的命令行如虎添翼

🫧 励志不掉头发的内向程序员：个人主页 ✨️ 个人专栏: 《C++语言》《Linux学习》 🌅偶尔悲伤，偶尔被幸福所完善 👓️博主简介: 文章目录 * 前言 * 一、基本概念 * 1.1、命令行参数 * 二、常见的环境变量 * 三、查看环境变量的方法 * 四、环境变量相关的命令 * 五、环境变量的组织方式 * 六、通过代码如何获取环境变量 * 七、通过系统调用获取或设置环境变量 * 八、环境变量通常是具有全局属性的 * 总结前言我们在了解完了我们的进程调度与优先级，本章节我们来看看环境变量和命令行参数是什么。我想大家可能会有疑惑，我们写的程序运行时需要 " ./ "。但是我们 ls、cd 等命令却不需要。这就和我们环境变量有关了。我们一起来看看环境变量是什么吧。一、基本概念环境变量（environment variables）一般是指在操作系统中用来指定操作系统运行环境的一些参数。

简介