清华智谱开源7440亿参数的智能体GLM-5

Ne0inhk

23 Mar 2026 — 6 min read

简介

我们正式推出GLM-5，面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能（AGI）智能效能的最重要途径之一。相比GLM-4.5，GLM-5将参数量从3550亿（激活320亿）扩展至7440亿（激活400亿），预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制（DSA），在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题，在大语言模型中规模化部署面临挑战。为此我们开发了slime——创新的异步RL基础设施，显著提升训练吞吐效率，支持更精细化的训练后迭代。得益于预训练与训练后的双重突破，GLM-5在各类学术基准测试中较GLM-4.7实现显著提升，在推理、编程和智能体任务领域达到全球开源模型顶尖水平，进一步缩小与前沿模型的差距。

基准测试

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (w/ Tools)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3	50.8	59.3	54.2	54.0
Terminal-Bench 2.0 (Claude Code)	56.2 / 61.1 †	32.8	46.4	-	57.9	-	-
CyberGym	43.2	23.5	17.3	41.3	50.6	39.9	-
BrowseComp	62.0	52.0	51.4	60.6	37.0	37.8	-
BrowseComp (w/ Context Manage)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
BrowseComp-Zh	72.7	66.6	65.0	62.3	62.4	66.8	76.1
τ²-Bench	89.7	87.4	85.3	80.2	91.6	90.7	85.5
MCP-Atlas (Public Set)	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Tool-Decathlon	38.0	23.8	35.2	27.8	43.5	36.4	46.3
Vending Bench 2	$4,432.12	$2,376.82	$1,034.00	$1,198.46	$4,967.06	$5,478.16	$3,591.33

*：指其全套测试的得分。

†：Terminal-Bench 2.0的验证版本，修复了一些模糊指令。
详见脚注获取更多评估细节。

脚注

人类终极考试（HLE）及其他推理任务：我们评估时设置最大生成长度为131,072个token（temperature=1.0, top_p=0.95, max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；带*标记的结果来自完整数据集。我们使用GPT-5.2（中等规模）作为评判模型。对于带工具的HLE评估，我们使用最大上下文长度202,752个token。
SWE-bench与SWE-bench多语言版：我们使用OpenHands运行SWE-bench测试套件，并采用定制化的指令提示。设置参数：temperature=0.7, top_p=0.95, max_new_tokens=16384，上下文窗口为200K。
浏览器交互评测（BrowserComp）：在没有上下文管理的情况下，我们仅保留最近5轮对话的细节。启用上下文管理时，采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
终端基准测试2.0（Terminus 2）：我们使用Terminus框架评估，参数为timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192，上下文窗口为128K。资源限制为16核CPU和32GB内存。
终端基准测试2.0（Claude代码版）：在Claude Code 2.1.14（思考模式，默认计算量）中评估，参数为temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异，我们移除了挂钟时间限制，但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题，并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果（参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）。
网络攻防演练（CyberGym）：在Claude Code 2.1.18（思考模式，禁用网页工具）中评估，参数为temperature=1.0, top_p=1.0, max_new_tokens=32000，每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。
MCP-Atlas图谱测试：所有模型均在500项公开子集的思考模式下评估，每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
τ²基准测试：在零售和电信领域添加了小型提示调整，以避免因用户提前终止导致的失败。针对航空领域，我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
自动售货机基准测试2：由安顿实验室独立运行。

本地部署GLM-5

环境准备

vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。

vLLM使用 Docker 作为：

docker pull vllm/vllm-openai:nightly

或者使用 pip：

```shell pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly ```

然后升级transformers：

``` pip install git+https://github.com/huggingface/transformers.git ```

SGLang使用 Docker 作为：

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPUdocker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8\ --gpu-memory-utilization 0.85\ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8

查看配方获取更多详情。

xLLM 及其他昇腾 NPU请查阅部署指南此处。

SGLang

python3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --mem-fraction-static 0.85\ --served-model-name glm-5-fp8

查看 sglang 教程获取更多细节。

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践 * 0. 前言 * 1. 基于扩散模型的文本生成图像 * 2. 将文本输入编码为嵌入向量 * 3. 条件 UNet 模型中的文本数据融合机制 * 4. 使用 Stable Diffusion 模型生成图像 * 相关链接 0. 前言在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。 1. 基于扩散模型的文本生成图像在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet

什么是Agentic AI？Agentic AI 与传统 AIGC 有什么区别？

什么是 Agentic AI？Agentic AI 与传统 AIGC 有什么区别？ 1. 引言近年来，人工智能（AI）技术飞速发展，其中以生成式 AI（AIGC，Artificial Intelligence Generated Content）和 Agentic AI（智能代理 AI）最为热门。AIGC 通过深度学习模型生成文本、图像、视频等内容，而 Agentic AI 则更进一步，能够自主感知、决策并执行任务。那么，Agentic AI 究竟是什么？它与传统的 AIGC 有何不同？在本文中，我们将深入探讨 Agentic AI 的概念、技术原理、

AI安全：视觉提示词注入攻击代码/实战教学｜针对Hugging Face开源大模型Stable Diffusion Model

提到提示词注入（Prompt Injection），大家的第一反应往往是精心构造的文本越狱指令。而在图生图任务中，输入图像在本质上扮演了视觉提示词的角色，与文本指令共同指导生成模型。基于这一视角，本文展示针对视觉提示词的注入攻击：通过PGD对抗攻击算法对输入图像进行像素级微调，使其生成的违规图像能够绕过开源大模型的NSFW安全检测机制。临近毕业，感觉市场对提示词注入比较感兴趣，因本人读博期间一直研究对抗攻击算法，所以决定尝试用对抗攻击的思路完成提示词注入攻击，误导开源模型生成违规图像。完整代码链接：https://github.com/YujiangLi0v0/Injection_Attack_Inpainting.git 目录 * 一、 NSFW防线：开源模型的安全过滤机制 * 二、攻击场景定义 (Threat Model) * 三、环境搭建 * 四、核心攻击流程详解 * 4.1. 固定随机因子 * 4.2 数据预处理 * 4.3. 攻击部分 * 4.3.1 重写扩散模型推理过程

在昇腾 NPU 上跑 Llama 大模型：从 “踩坑到通关” 的全程实战记

在昇腾 NPU 上跑 Llama 大模型：从 “踩坑到通关” 的搞笑实战记本文分享了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程。提供踩坑经验。作者因其他硬件价格高、服务器昂贵，选择昇腾 NPU，其自主可控的达芬奇架构、完善的开源生态及 GitCode 免费测试资源是主要吸引力。文中详细介绍了 GitCode 上创建昇腾 Notebook 实例的关键配置、环境验证方法，以及安装 transformers 库、下载部署模型的步骤，还记录了遇到的 “torch.npu 找不到”“模型下载需权限” 等四个常见问题及解决方案。通过测试英文生成、中文对话、代码生成三种场景，得出 16-17 tokens/s 的吞吐量，虽低于预期但性能稳定，并给出使用 MindSpeed-LLM 框架、

简介