智谱开源 7440 亿参数智能体模型 GLM-5

智谱发布 GLM-5 模型，参数量达 7440 亿，激活 400 亿。相比前代，预训练数据增至 28.5 万亿 token，集成智谱稀疏注意力机制。在推理、编程及智能体任务基准测试中表现优异，支持 vLLM、SGLang 等框架本地部署。

雪落无声发布于 2026/3/30更新于 2026/5/2529 浏览

简介

我们正式推出 GLM-5，面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能（AGI）智能效能的最重要途径之一。相比 GLM-4.5，GLM-5 将参数量从 3550 亿（激活 320 亿）扩展至 7440 亿（激活 400 亿），预训练数据从 23 万亿 token 增至 28.5 万亿 token。GLM-5 还集成了智谱稀疏注意力机制（DSA），在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型'达标'与'卓越'之间的鸿沟。然而由于 RL 训练效率问题，在大语言模型中规模化部署面临挑战。为此我们开发了 slime——创新的异步 RL 基础设施，显著提升训练吞吐效率，支持更精细化的训练后迭代。得益于预训练与训练后的双重突破，GLM-5 在各类学术基准测试中较 GLM-4.7 实现显著提升，在推理、编程和智能体任务领域达到全球开源模型顶尖水平，进一步缩小与前沿模型的差距。

基准测试

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (w/ Tools)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

人类终极考试（HLE）及其他推理任务：我们评估时设置最大生成长度为 131,072 个 token（temperature=1.0, top_p=0.95, max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；带*标记的结果来自完整数据集。我们使用 GPT-5.2（中等规模）作为评判模型。对于带工具的 HLE 评估，我们使用最大上下文长度 202,752 个 token。
SWE-bench 与 SWE-bench 多语言版：我们使用 OpenHands 运行 SWE-bench 测试套件，并采用定制化的指令提示。设置参数：temperature=0.7, top_p=0.95, max_new_tokens=16384，上下文窗口为 200K。
浏览器交互评测（BrowserComp）：在没有上下文管理的情况下，我们仅保留最近 5 轮对话的细节。启用上下文管理时，采用与 DeepSeek-v3.2 和 Kimi K2.5 相同的全丢弃策略。
终端基准测试 2.0（Terminus 2）：我们使用 Terminus 框架评估，参数为 timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192，上下文窗口为 128K。资源限制为 16 核 CPU 和 32GB 内存。
终端基准测试 2.0（Claude 代码版）：在 Claude Code 2.1.14（思考模式，默认计算量）中评估，参数为 temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异，我们移除了挂钟时间限制，但保留每项任务的 CPU 和内存约束。分数取 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题，并在已消除歧义指令的验证版 Terminal-Bench 2.0 数据集上补充了结果（参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）。
网络攻防演练（CyberGym）：在 Claude Code 2.1.18（思考模式，禁用网页工具）中评估，参数为 temperature=1.0, top_p=1.0, max_new_tokens=32000，每项任务限时 250 分钟。结果基于 1,507 项任务的单次 Pass@1 通过率。
MCP-Atlas 图谱测试：所有模型均在 500 项公开子集的思考模式下评估，每项任务限时 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。
τ²基准测试：在零售和电信领域添加了小型提示调整，以避免因用户提前终止导致的失败。针对航空领域，我们应用了 Claude Opus 4.5 系统卡中提出的领域修复方案。
自动售货机基准测试 2：由安顿实验室独立运行。

docker pull vllm/vllm-openai:nightly

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

pip install git+https://github.com/huggingface/transformers.git

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPU
docker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5-fp8

python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85 \
--served-model-name glm-5-fp8

智谱开源 7440 亿参数智能体模型 GLM-5

简介

基准测试

更多推荐文章

相关免费在线工具

脚注

本地部署 GLM-5

环境准备

部署

vLLM

SGLang

更多推荐文章

相关免费在线工具

智谱开源 7440 亿参数智能体模型 GLM-5

简介

基准测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

脚注

本地部署 GLM-5

环境准备

部署

vLLM

SGLang

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具