跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
PythonAI算法

清华智谱开源 7440 亿参数智能体模型 GLM-5

GLM-5 是清华智谱开源的 7440 亿参数智能体模型,预训练数据达 28.5 万亿 token。相比前代,参数量与激活数显著提升,集成深度求索稀疏注意力机制(DSA)。在推理、编程及智能体任务基准测试中表现优异,支持 vLLM、SGLang 等框架本地部署。

t ag发布于 2026/3/24更新于 2026/5/56 浏览

简介

我们正式推出 GLM-5,面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能(AGI)智能效能的最重要途径之一。相比 GLM-4.5,GLM-5 将参数量从 3550 亿(激活 320 亿)扩展至 7440 亿(激活 400 亿),预训练数据从 23 万亿 token 增至 28.5 万亿 token。GLM-5 还集成了深度求索稀疏注意力机制(DSA),在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于 RL 训练效率问题,在大语言模型中规模化部署面临挑战。为此我们开发了 slime——创新的异步 RL 基础设施,显著提升训练吞吐效率,支持更精细化的训练后迭代。得益于预训练与训练后的双重突破,GLM-5 在各类学术基准测试中较 GLM-4.7 实现显著提升,在推理、编程和智能体任务领域达到全球开源模型顶尖水平,进一步缩小与前沿模型的差距。

基准测试

GLM-5GLM-4.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (xhigh)
HLE30.524.825.131.528.437.235.4
HLE (w/ Tools)50.442.840.851.843.4*45.8*45.5*
AIME 2026 I92.792.992.792.593.390.6-
HMMT Nov. 202596.993.590.291.191.793.097.1
IMOAnswerBench82.582.078.381.878.583.386.3
GPQA-Diamond86.085.782.487.687.091.992.4
SWE-bench Verified77.873.873.176.880.976.280.0
SWE-bench Multilingual73.366.770.273.077.565.072.0
Terminal-Bench 2.0 (Terminus 2)56.2 / 60.7 †41.039.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)56.2 / 61.1 †32.846.4-57.9--
CyberGym43.223.517.341.350.639.9-
BrowseComp62.052.051.460.637.037.8-
BrowseComp (w/ Context Manage)75.967.567.674.967.859.265.8
BrowseComp-Zh72.766.665.062.362.466.876.1
τ²-Bench89.787.485.380.291.690.785.5
MCP-Atlas (Public Set)67.852.062.263.865.266.668.0
Tool-Decathlon38.023.835.227.843.536.446.3
Vending Bench 2$4,432.12$2,376.82$1,034.00$1,198.46$4,967.06$5,478.16$3,591.33

*:指其全套测试的得分。

†:Terminal-Bench 2.0 的验证版本,修复了一些模糊指令。 详见脚注获取更多评估细节。

脚注

  • 人类终极考试(HLE)及其他推理任务:我们评估时设置最大生成长度为 131,072 个 token(temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;带*标记的结果来自完整数据集。我们使用 GPT-5.2(中等规模)作为评判模型。对于带工具的 HLE 评估,我们使用最大上下文长度 202,752 个 token。
  • SWE-bench 与 SWE-bench 多语言版:我们使用 OpenHands 运行 SWE-bench 测试套件,并采用定制化的指令提示。设置参数:temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为 200K。
  • 浏览器交互评测(BrowserComp):在没有上下文管理的情况下,我们仅保留最近 5 轮对话的细节。启用上下文管理时,采用与 DeepSeek-v3.2 和 Kimi K2.5 相同的全丢弃策略。
  • 终端基准测试 2.0(Terminus 2):我们使用 Terminus 框架评估,参数为 timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为 128K。资源限制为 16 核 CPU 和 32GB 内存。
  • 终端基准测试 2.0(Claude 代码版):在 Claude Code 2.1.14(思考模式,默认计算量)中评估,参数为 temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异,我们移除了挂钟时间限制,但保留每项任务的 CPU 和内存约束。分数取 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题,并在已消除歧义指令的验证版 Terminal-Bench 2.0 数据集上补充了结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。
  • 网络攻防演练(CyberGym):在 Claude Code 2.1.18(思考模式,禁用网页工具)中评估,参数为 temperature=1.0, top_p=1.0, max_new_tokens=32000,每项任务限时 250 分钟。结果基于 1,507 项任务的单次 Pass@1 通过率。
  • MCP-Atlas 图谱测试:所有模型均在 500 项公开子集的思考模式下评估,每项任务限时 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。
  • τ²基准测试:在零售和电信领域添加了小型提示调整,以避免因用户提前终止导致的失败。针对航空领域,我们应用了 Claude Opus 4.5 系统卡中提出的领域修复方案。
  • 自动售货机基准测试 2:由 安顿实验室 独立运行。

本地部署 GLM-5

环境准备

vLLM、SGLang 和 xLLM 均支持 GLM-5 的本地部署。此处提供简易部署指南。

vLLM 使用 Docker 作为:

docker pull vllm/vllm-openai:nightly 

或者使用 pip:

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

然后升级 transformers:

pip install git+https://github.com/huggingface/transformers.git

SGLang 使用 Docker 作为:

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPU
docker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM
vllm serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-5-fp8

查看 配方 获取更多详情。

  • xLLM 及其他昇腾 NPU 请查阅部署指南 此处。
SGLang
python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8

查看 sglang 教程 获取更多细节。

目录

  1. 简介
  2. 基准测试
  3. 脚注
  4. 本地部署 GLM-5
  5. 环境准备
  6. 部署
  7. vLLM
  8. SGLang
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Ubuntu 24.04 下使用 Docker Compose 本地部署 Whisper 语音识别服务
  • 基于 Web-Check 和 cpolar 的远程网站安全检测方案
  • Spring AI 框架快速开发大模型项目指南
  • IDEA 中修改 Git 用户名的方法
  • AI 时代的生产力变革:非技术背景者的开发新路径
  • 大模型学习路线:从新手到专家的完整路径
  • 法奥机器人ROS2环境搭建
  • 基于 DeepFace 与 OpenCV 的实时情绪分析器
  • 2024 年中国大模型落地路线图
  • CentOS 搭建私人漫画库:Teemii + cpolar 公网访问
  • Google Stitch 工具简介、安装使用与案例应用指南
  • 具身智能机器人协同与全模态 AI 模型技术架构解析
  • 腾讯混元大模型升级与原生工具链发布,助力企业零门槛落地
  • LeetCode Hot100:除自身以外数组的乘积
  • Stream-Omni:多模态交互的视觉、语音、文本融合
  • TeleGrip 基于 VR 的机械臂遥操作系统源码解析
  • Arduino BLDC 模糊动态任务调度机器人
  • Git 下载及安装教程(适用于 Windows/macOS/Linux)
  • Python 使用 Folium 实现高德地图热力图可视化
  • Python 开发 MongoDB 数据库 MCP Server 实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online