清华智谱开源7440亿参数的智能体GLM-5

Ne0inhk

22 Mar 2026 — 6 min read

简介

我们正式推出GLM-5，面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能（AGI）智能效能的最重要途径之一。相比GLM-4.5，GLM-5将参数量从3550亿（激活320亿）扩展至7440亿（激活400亿），预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制（DSA），在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题，在大语言模型中规模化部署面临挑战。为此我们开发了slime——创新的异步RL基础设施，显著提升训练吞吐效率，支持更精细化的训练后迭代。得益于预训练与训练后的双重突破，GLM-5在各类学术基准测试中较GLM-4.7实现显著提升，在推理、编程和智能体任务领域达到全球开源模型顶尖水平，进一步缩小与前沿模型的差距。

基准测试

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (w/ Tools)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3	50.8	59.3	54.2	54.0
Terminal-Bench 2.0 (Claude Code)	56.2 / 61.1 †	32.8	46.4	-	57.9	-	-
CyberGym	43.2	23.5	17.3	41.3	50.6	39.9	-
BrowseComp	62.0	52.0	51.4	60.6	37.0	37.8	-
BrowseComp (w/ Context Manage)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
BrowseComp-Zh	72.7	66.6	65.0	62.3	62.4	66.8	76.1
τ²-Bench	89.7	87.4	85.3	80.2	91.6	90.7	85.5
MCP-Atlas (Public Set)	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Tool-Decathlon	38.0	23.8	35.2	27.8	43.5	36.4	46.3
Vending Bench 2	$4,432.12	$2,376.82	$1,034.00	$1,198.46	$4,967.06	$5,478.16	$3,591.33

*：指其全套测试的得分。

†：Terminal-Bench 2.0的验证版本，修复了一些模糊指令。
详见脚注获取更多评估细节。

脚注

人类终极考试（HLE）及其他推理任务：我们评估时设置最大生成长度为131,072个token（temperature=1.0, top_p=0.95, max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；带*标记的结果来自完整数据集。我们使用GPT-5.2（中等规模）作为评判模型。对于带工具的HLE评估，我们使用最大上下文长度202,752个token。
SWE-bench与SWE-bench多语言版：我们使用OpenHands运行SWE-bench测试套件，并采用定制化的指令提示。设置参数：temperature=0.7, top_p=0.95, max_new_tokens=16384，上下文窗口为200K。
浏览器交互评测（BrowserComp）：在没有上下文管理的情况下，我们仅保留最近5轮对话的细节。启用上下文管理时，采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
终端基准测试2.0（Terminus 2）：我们使用Terminus框架评估，参数为timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192，上下文窗口为128K。资源限制为16核CPU和32GB内存。
终端基准测试2.0（Claude代码版）：在Claude Code 2.1.14（思考模式，默认计算量）中评估，参数为temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异，我们移除了挂钟时间限制，但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题，并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果（参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）。
网络攻防演练（CyberGym）：在Claude Code 2.1.18（思考模式，禁用网页工具）中评估，参数为temperature=1.0, top_p=1.0, max_new_tokens=32000，每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。
MCP-Atlas图谱测试：所有模型均在500项公开子集的思考模式下评估，每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
τ²基准测试：在零售和电信领域添加了小型提示调整，以避免因用户提前终止导致的失败。针对航空领域，我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
自动售货机基准测试2：由安顿实验室独立运行。

本地部署GLM-5

环境准备

vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。

vLLM使用 Docker 作为：

docker pull vllm/vllm-openai:nightly

或者使用 pip：

```shell pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly ```

然后升级transformers：

``` pip install git+https://github.com/huggingface/transformers.git ```

SGLang使用 Docker 作为：

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPUdocker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8\ --gpu-memory-utilization 0.85\ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8

查看配方获取更多详情。

xLLM 及其他昇腾 NPU请查阅部署指南此处。

SGLang

python3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --mem-fraction-static 0.85\ --served-model-name glm-5-fp8

查看 sglang 教程获取更多细节。

【毕业论文没思路？paperxm智能写作一键解决！】

毕业论文写作困境的常见原因缺乏明确的研究方向或选题，导致难以展开论文框架。文献综述不足，无法有效支撑论点，造成写作停滞。时间管理不当，临近截止日期时压力倍增。对学术写作规范不熟悉，格式和逻辑容易出错。 paperxm的链接我就给大家放着了哈：www.paperxm.com Paperxm智能写作工具的核心功能基于自然语言处理技术，自动生成论文大纲和初稿，提供选题建议。内置文献检索模块，快速匹配相关学术资源，辅助文献综述。支持多语言写作，满足不同学科领域的表达需求。实时语法检查和格式修正，确保论文符合学术规范。如何使用Paperxm 它从开题报告、文献综述、论文写作还有仿写、到最后的答辩PPT都能帮我直接解决！优势一：节省时间使用paperxm写论文，可以让我告别繁琐的资料搜集和整理工作。paperxm能迅速从海量资料中筛选出有用的信息，为我的论文提供有力支持。这样一来，你就有更多的时间去思考、创新，提高论文质量。优势二：提高写作质量 paperxm具有强大的语言处理能力，可以帮助我优化句子结构、纠正语法错误，甚至提供写作建议。这意味着，我的论文在pape

2026最火的6款免费AI写作软件测评：ai写网文哪个好用？这款ai消痕工具

很多朋友想在业余时间写写番茄、起点网文或者搞搞短剧赚点外快，但总是卡在“憋不出字”或者“大纲写崩”上。现在都2026年了，用ai写作软件来辅助写小说早就不是秘密了。但是，网文平台的审核越来越严，很多新手直接用AI生成的文章发出去，立马就被平台判定为“AI生成”导致限流，不仅没流量，连全勤奖都拿不到。今天，我们就抛开那些晦涩难懂的技术术语，用大白话给大家实测目前市面上热度最高的6款免费ai写作平台。到底ai写网文哪家强？怎么解决让人头疼的“机器味”？这篇超详细的避坑指南，建议想靠文字搞钱的朋友直接收藏！一、 6大热门免费AI小说工具优缺点大盘点我们选了大家最常搜的几款工具，直接看它们在实际写小说、写剧本时的真实表现。 1. 豆包：起名和找灵感的“点子王” * 优点：速度飞快，完全免费。你如果卡文了，或者不知道主角叫什么、书名怎么起才能吸引人，直接问豆包，它能一秒钟给你吐出几十个极其符合抖音、小红书调性的网感标题和名字。 * 缺点：千万别让它直接给你写正文！它的AI味太重了，动不动就是“嘴角勾起一抹弧度”、“倒吸一口凉气”。把这种文发到小说平台，

GitHub Copilot 教程

文章来源：https://vscode.it-docs.cn/docs/copilot/overview.html GitHub Copilot 为 Visual Studio Code 增加了多代理开发功能。规划好你的方法，然后让AI代理在项目中实现并验证代码变更。并行运行多个代理会话：本地、后台或云端。从一个中心视角管理所有角色。内联建议、内联聊天和智能行为会帮助你完成整个编码流程。代理与代理会话代理端到端地处理完整的编码任务。给代理一个高级任务，它会将工作拆分成步骤，编辑文件，运行终端命令，调用工具，并在遇到错误或测试失败时自我纠正。每个任务都运行在一个代理会话中，这是一个持续存在的对话，你可以跟踪、暂停、继续或交接给另一个代理。重要你们组织可能在VS Code中禁用了代理。请联系你的管理员以启用此功能。从中央视图管理会话并行运行多个代理会话，每个会话专注于不同的任务。聊天面板中的会话视图为你提供了一个统一的地方来监控所有活跃会话，无论是本地运行、后台还是云端运行。查看每次会话的状态，切换，查看文件变更，

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码【AI辅助开发系列】

🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 1. Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 2. Visual Studio 安装和管理 GitHub Copilot 3. Visual Studio 使用 GitHub Copilot 扩展 4. Visual Studio 使用 GitHub Copilot 聊天 5. Visual Studio 使用 GitHub Copilot 协助调试 6. Visual Studio 使用 IntelliCode AI 辅助代码开发 7. Visual Studio 玩转 IntelliCode AI辅助开发

简介