清华智谱开源7440亿参数的智能体GLM-5

简介

我们正式推出GLM-5,面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能(AGI)智能效能的最重要途径之一。相比GLM-4.5,GLM-5将参数量从3550亿(激活320亿)扩展至7440亿(激活400亿),预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制(DSA),在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题,在大语言模型中规模化部署面临挑战。为此我们开发了slime——创新的异步RL基础设施,显著提升训练吞吐效率,支持更精细化的训练后迭代。得益于预训练与训练后的双重突破,GLM-5在各类学术基准测试中较GLM-4.7实现显著提升,在推理、编程和智能体任务领域达到全球开源模型顶尖水平,进一步缩小与前沿模型的差距。

基准测试

GLM-5GLM-4.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (xhigh)
HLE30.524.825.131.528.437.235.4
HLE (w/ Tools)50.442.840.851.843.4*45.8*45.5*
AIME 2026 I92.792.992.792.593.390.6-
HMMT Nov. 202596.993.590.291.191.793.097.1
IMOAnswerBench82.582.078.381.878.583.386.3
GPQA-Diamond86.085.782.487.687.091.992.4
SWE-bench Verified77.873.873.176.880.976.280.0
SWE-bench Multilingual73.366.770.273.077.565.072.0
Terminal-Bench 2.0 (Terminus 2)56.2 / 60.7 †41.039.350.859.354.254.0
Terminal-Bench 2.0 (Claude Code)56.2 / 61.1 †32.846.4-57.9--
CyberGym43.223.517.341.350.639.9-
BrowseComp62.052.051.460.637.037.8-
BrowseComp (w/ Context Manage)75.967.567.674.967.859.265.8
BrowseComp-Zh72.766.665.062.362.466.876.1
τ²-Bench89.787.485.380.291.690.785.5
MCP-Atlas (Public Set)67.852.062.263.865.266.668.0
Tool-Decathlon38.023.835.227.843.536.446.3
Vending Bench 2$4,432.12$2,376.82$1,034.00$1,198.46$4,967.06$5,478.16$3,591.33
*:指其全套测试的得分。

†:Terminal-Bench 2.0的验证版本,修复了一些模糊指令。
详见脚注获取更多评估细节。

脚注

  • 人类终极考试(HLE)及其他推理任务:我们评估时设置最大生成长度为131,072个token(temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;带*标记的结果来自完整数据集。我们使用GPT-5.2(中等规模)作为评判模型。对于带工具的HLE评估,我们使用最大上下文长度202,752个token。
  • SWE-bench与SWE-bench多语言版:我们使用OpenHands运行SWE-bench测试套件,并采用定制化的指令提示。设置参数:temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为200K。
  • 浏览器交互评测(BrowserComp):在没有上下文管理的情况下,我们仅保留最近5轮对话的细节。启用上下文管理时,采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
  • 终端基准测试2.0(Terminus 2):我们使用Terminus框架评估,参数为timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为128K。资源限制为16核CPU和32GB内存。
  • 终端基准测试2.0(Claude代码版):在Claude Code 2.1.14(思考模式,默认计算量)中评估,参数为temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异,我们移除了挂钟时间限制,但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题,并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。
  • 网络攻防演练(CyberGym):在Claude Code 2.1.18(思考模式,禁用网页工具)中评估,参数为temperature=1.0, top_p=1.0, max_new_tokens=32000,每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。
  • MCP-Atlas图谱测试:所有模型均在500项公开子集的思考模式下评估,每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
  • τ²基准测试:在零售和电信领域添加了小型提示调整,以避免因用户提前终止导致的失败。针对航空领域,我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
  • 自动售货机基准测试2:由安顿实验室独立运行。

本地部署GLM-5

环境准备

vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。

vLLM使用 Docker 作为:

docker pull vllm/vllm-openai:nightly 

或者使用 pip:

```shell pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly ``` 

然后升级transformers:

``` pip install git+https://github.com/huggingface/transformers.git ``` 

SGLang使用 Docker 作为:

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPUdocker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8\ --gpu-memory-utilization 0.85\ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8 

查看配方获取更多详情。

  • xLLM 及其他昇腾 NPU请查阅部署指南 此处

SGLang

python3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --mem-fraction-static 0.85\ --served-model-name glm-5-fp8 

查看 sglang 教程 获取更多细节。

Read more

【Python】Python / PyCharm 虚拟环境详搭建与使用详解

【Python】Python / PyCharm 虚拟环境详搭建与使用详解

文章目录 * 什么是虚拟环境 * 虚拟环境的作用 * 如何搭建虚拟环境 * 方法1: 使用Python内置venv模块 * 方法2: 使用virtualenv * 方法3: 使用conda(适用于Anaconda/Miniconda用户) * 在PyCharm中使用虚拟环境 * 创建新项目时: * 为已有项目添加虚拟环境: * 使用已有虚拟环境: * 虚拟环境搭建成功 * 报错:禁止在系统上运行脚本 * 原因:PowerShell 执行策略限制 * 解决方法 * 方法 1:临时允许脚本运行(推荐) * 方法 2:永久修改执行策略 * 方法 3:改用 CMD 激活虚拟环境 * 管理虚拟环境中的包 什么是虚拟环境 虚拟环境(Virtual Environment) 是Python中用于隔离项目依赖的工具,其允许我们在同一台机器上为不同的Python项目创建独立的环境,每个环境可以有自己独立的Python版本和第三方库。 虚拟环境的作用 1. 依赖隔离:不同项目可以使用不同版本

华为OD机试真题-网上商城优惠活动 (Py/Java/C/C++/Js/Go)

华为OD机试真题-网上商城优惠活动 (Py/Java/C/C++/Js/Go)

华为OD机试双机位C卷-网上商城优惠活动 华为OD机试双机位C卷 - 华为OD上机考试双机位C卷 100分题型 华为OD机试双机位C卷真题目录点击查看: 华为OD机试双机位C卷真题题库目录|机考题库 + 算法考点详解 题目描述 某网上商场举办优惠活动,发布了满减、打折、无门槛3种优惠券。 分别为:每满100元优惠10元,无使用数限制,如100 ~ 199元可以使用1张减10元,200 ~ 299可使用2张减20元,以此类推; 92折券,1次限使用1张,如100元,则优惠后为92元; 无门槛5元优惠券,无使用数限制,直接减5元。 优惠券使用限制每次最多使用2种优惠券,2种优惠可以叠加(优惠叠加时以优惠后的价格计算),以购物200元为例,可以先用92折券优惠到184元,再用1张满减券优惠10元,最终价格是174元,也可以用满减券2张优惠20元为180元,再使用92折券优惠到165(165.6向下取整),不同使用顺序的优惠价格不同,以最优惠价格为准。在一次购物种,同一类型优惠券使用多张时必须一次性使用,不能分多次拆开使用(不允许先使用1张满减券,再用打折券,再使用一张满减券)。

深入理解 Python 异步编程:async、await 与同步函数详解

目录 1. 引言 2. 同步函数 vs 异步函数 3. async 关键字详解 4. await 关键字详解 5. asyncio.create_task 详解 6. 实际应用场景 7. 常见误区 8. 最佳实践 9. 总结 引言 在现代 Python 开发中,异步编程已经成为处理 I/O 密集型任务的标准方式。理解 async、await 和同步函数的区别,对于编写高效、可扩展的应用程序至关重要。 本文将通过理论解释、代码示例和实际场景,帮助你全面理解 Python 异步编程的核心概念。 同步函数 vs 异步函数 什么是同步函数? 同步函数是传统的函数调用方式,

(第二篇)Spring AI 基础入门:从环境搭建到模型接入全攻略(覆盖国内外模型 + 本地部署)

(第二篇)Spring AI 基础入门:从环境搭建到模型接入全攻略(覆盖国内外模型 + 本地部署)

前言:为什么要学 Spring AI?         最近在做 AI 应用开发时,发现很多朋友卡在了工具链整合这一步:用原生 SDK 调用 OpenAI 要处理一堆 HTTP 请求,切换到通义千问又得改大量代码,本地部署 Llama3 更是不知道怎么和 Spring 项目结合…         直到接触了 Spring AI 才发现,这个框架简直是为 Java 开发者量身定做的 AI 开发工具 —— 它把不同模型的调用逻辑标准化了,不管是 OpenAI、通义千问还是本地 Llama3,都能用几乎一样的 API 调用。         这篇教程从基础环境讲到实战接口,全程手把手操作,哪怕是 AI 开发新手,跟着走也能跑通第一个 Spring AI 应用。 目录 基础环境搭建:JDK17+