跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

智谱 GLM-5 旗舰模型开源及昇腾部署指南

GLM-5 模型开源发布,参数规模扩展至 744B,在编程与 Agent 任务上表现优异。支持昇腾硬件部署,提供 vLLM-Ascend 推理及训练复现方案。涵盖端到端应用开发、通用助手等场景,具备长程任务执行能力。

极客工坊发布于 2026/3/21更新于 2026/6/428 浏览
智谱 GLM-5 旗舰模型开源及昇腾部署指南

智谱 GLM-5 旗舰模型开源

GLM-5 正式开源,昇腾 AI 基础软硬件实现适配,为该模型的推理部署和训练复现提供全流程支持。

学界与业界正逐渐形成一种共识,大模型从写代码、写前端,进化到写工程、完成大任务,即从 "Vibe Coding" 变革为 "Agentic Engineering"。GLM-5 是这一变革的产物:在 Coding 与 Agent 能力上,GLM-5 取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。

在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球前四、开源第一。

[图片]

一、更大基座,更强智能

GLM-5 全新基座为从 "写代码" 到 "写工程" 的能力演进提供了坚实基础:

  • **参数规模扩展:**从 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。
  • **异步强化学习:**构建全新的 "Slime" 框架、支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。
  • **稀疏注意力机制:**首次集成 DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升 Token Efficiency。

二、Coding 能力:对齐 Claude Opus 4.5

GLM-5 在编程能力上实现了对齐 Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型 SOTA。在 SWEbench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能超过 Gemini3 Pro。

[图片]

三、Agent 能力:SOTA 级长程任务执行

GLM-5 在 Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一。在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。

[图片]

四、Agentic Engineering 典型场景

场景一:端到端应用开发

许多开发者使用 GLM-5 完成了真正能用、能玩、能上线的应用。

开发者们用 GLM-5 制作出了横版解谜游戏、Agent 交互世界、论文版'抖音'等应用,这些应用已开放下载,或已提交商店审核。这些案例展示了 GLM-5 在复杂系统工程中端到端交付可部署产品的能力。

场景二:通用 Agent 助手

GLM-5 较强的 Agentic 工具调用能力,使其成为通用 Agent 助手的理想基座模型。

接入 GLM-5,用户可以拥有一个智能的实习生,帮你搜索网站、定时整理资讯、发布推文、编程等。团队推出了 AutoGLM 版本的 OpenClaw,支持一键完成配置,帮助用户极速部署专属 7×24 小时智能助手。

场景三:Z Code 全流程编程

当 GLM-5 进化到能跑完整个闭环,编程工具也需要以此为核心重构。为此,团队推出 Z Code。用户只需把需求说清楚,模型会自动拆解任务,多智能体并发完成代码、跑命令、调试、预览和提交等开发全流程。

在 Z Code 上,用户甚至可以用手机远程指挥桌面端 Agent,解决以往需要很久的工程任务。

值得一提的是,Z Code 也是全程由 GLM 模型参与开发完成。

场景四:办公文档直接输出

GLM-5 拥有更强大的复杂系统工程和长程智能体能力,可将文本或素材直接转换为 .docx、.pdf 和 .xlsx 文件。

用户可以让 GLM-5 直接输出产品需求文档、教案、试卷、电子表格、财务报告、流程表、菜单等文档。

五、基于昇腾部署模型指导

目前业界主流推理引擎 vLLM-Ascend、SGLang 和 xLLM 已支持高效部署,以下为基于 vLLM-Ascend 部署推理 GLM-5 模型步骤:

模型权重

  • **GLM-5(BF16 版本):**请前往官方模型仓库下载。
  • **GLM-5-w4a8(无 mtp 的量化版本):**请前往官方模型仓库下载。
  • 可使用相关工具对模型进行基础量化。
  • 建议将模型权重下载至多节点共享目录,例如 /root/.cache/。

以下为在 Atlas 800T A3 机型上使用 vLLM-Ascend:GLM 5 版本部署该模型。

环境准备

# 根据您的设备更新 --device(Atlas A3:/dev/davinci[0-15])。 # 根据您的环境更新 vllm-ascend 镜像。 # 注意:您需要提前将权重下载至 /root/.cache。 # 更新 vllm-ascend 镜像,alm5-a3 可替换为:glm5;glm5-openeuler;glm5-a3-openeuler export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3 export NAME=vllm-ascend # 使用定义的变量运行容器 # 注意:若使用 Docker 桥接网络,请提前开放可供多节点通信的端口 docker run --rm \ --name $NAME \ --net=host \ --shm-size=1g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci8 \ --device /dev/davinci9 \ --device /dev/davinci10 \ --device /dev/davinci11 \ --device /dev/davinci12 \ --device /dev/davinci13 \ --device /dev/davinci14 \ --device /dev/davinci15 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -it $IMAGE bash

此外,如果您不希望使用上述 Docker 镜像,也可通过源码完整构建:

  • 从源码安装 vllm-ascend,请参考具体安装指南,要对 GLM-5 进行推理,您需要将 vllm、vllm-ascend、transformers 升级至主分支:
# 升级 vllm git clone https://atomgit.com/GitHub_Trending/vl/vllm.git cd vllm git checkout 978a37c82387ce4a40aaadddcdbaf4a06fc4d590 VLLM_TARGET_DEVICE=empty pip install -v . # 升级 vllm-ascend git clone https://atomgit.com/gh_mirrors/vl/vllm-ascend.git cd vllm-ascend git submodule update --init --recursive pip install -v . # 重新安装 transformers pip install git+https://atomgit.com/GitHub_Trending/tra/transformers.git

部署

1.单节点部署
A3 系列
  • 量化模型 glm-5-w4a8 可部署于单台 Atlas 800 A3(128G × 8)。

执行以下脚本进行在线推理。

export HCCL_OP_EXPANSION_MODE="AIV" export OMP_PROC_BIND=false export OMP_NUM_THREADS=10 export VLLM_USE_V1=1 export HCCL_BUFFSIZE=200 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export VLLM_ASCEND_BALANCE_SCHEDULING=1 vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-w4a8 \ --host 0.0.0.0 \ --port 8077 \ --data-parallel-size 1 \ --tensor-parallel-size 16 \ --enable-expert-parallel \ --seed 1024 \ --served-model-name glm-5 \ --max-num-seqs 8 \ --max-model-len 66600 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --gpu-memory-utilization 0.95 \ --quantization ascend \ --enable-chunked-prefill \ --enable-prefix-caching \ --async-scheduling \ --additional-config '{"multistream_overlap_shared_expert":true}' \ --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \ --speculative-config '{"num_speculative_tokens": 3, "method": "deepseek_mtp"}'

注意: 参数说明如下:

  • 对于单节点部署,低延迟场景下推荐使用 dp1tp16 并关闭专家并行。
  • --async-scheduling:异步调度是一种优化推理效率的技术,允许非阻塞的任务调度,以提高并发性和吞吐量,尤其在处理大规模模型时效果明显。
2.多节点部署
A3 系列
  • glm-5-bf16:至少需要 2 台 Atlas 800 A3(128G × 8)。

在两台节点上分别执行以下脚本。

  • 节点 0
# 通过 ifconfig 获取本机信息 # nic_name 为当前节点 local_ip 对应的网卡接口名称 nic_name="xxx" local_ip="xxx" # node0_ip 的值必须与节点 0(主节点)中设置的 local_ip 一致 node0_ip="xxxx" export HCCL_OP_EXPANSION_MODE="AIV" export HCCL_IF_IP=$local_ip export GLOO_SOCKET_IFNAME=$nic_name export TP_SOCKET_IFNAME=$nic_name export HCCL_SOCKET_IFNAME=$nic_name export OMP_PROC_BIND=false export OMP_NUM_THREADS=10 export VLLM_USE_V1=1 export HCCL_BUFFSIZE=200 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-address $node0_ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \ --speculative-config '{"num_speculative_tokens": 3, "method": "deepseek_mtp"}'
  • 节点 1
# 通过 ifconfig 获取本机信息 # nic_name 为当前节点 local_ip 对应的网卡接口名称 nic_name="xxx" local_ip="xxx" # node0_ip 的值必须与节点 0(主节点)中设置的 local_ip 一致 node0_ip="xxxx" export HCCL_OP_EXPANSION_MODE="AIV" export HCCL_IF_IP=$local_ip export GLOO_SOCKET_IFNAME=$nic_name export TP_SOCKET_IFNAME=$nic_name export HCCL_SOCKET_IFNAME=$nic_name export OMP_PROC_BIND=false export OMP_NUM_THREADS=10 export VLLM_USE_V1=1 export HCCL_BUFFSIZE=200 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --headless \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 1 \ --data-parallel-address $node0_ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \ --speculative-config '{"num_speculative_tokens": 3, "method": "deepseek_mtp"}'

👉 推理部署:请参考官方文档示例。

精度评估

使用 AISBench
  1. 详细步骤请参阅官方文档进行精度评估。
  2. 执行后即可获得评估结果。

基于昇腾实现 GLM-5 的训练复现

GLM-5 采用了 DeepSeek Sparse Attention(DSA)架构,针对 DSA 训练场景,昇腾团队设计并实现了昇腾亲和融合算子,从两方面进行优化:一是优化 Lightning Indexer Loss 计算阶段的内存占用,二是利用昇腾 Cube 和 Vector 单元的流水并行来进一步提升计算效率。

更多内容详见 Mindspeed Atomgit 代码仓。

目录

  1. 智谱 GLM-5 旗舰模型开源
  2. 一、更大基座,更强智能
  3. 二、Coding 能力:对齐 Claude Opus 4.5
  4. 三、Agent 能力:SOTA 级长程任务执行
  5. 四、Agentic Engineering 典型场景
  6. 场景一:端到端应用开发
  7. 场景二:通用 Agent 助手
  8. 场景三:Z Code 全流程编程
  9. 场景四:办公文档直接输出
  10. 五、基于昇腾部署模型指导
  11. 模型权重
  12. 环境准备
  13. 根据您的设备更新 --device(Atlas A3:/dev/davinci[0-15])。 # 根据您的环境更新 vllm-ascend 镜像。 # 注意:您需要提前将权重下载至 /root/.cache。 # 更新 vllm-ascend 镜像,alm5-a3 可替换为:glm5;glm5-openeuler;glm5-a3-openeuler export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3 export NAME=vllm-ascend # 使用定义的变量运行容器 # 注意:若使用 Docker 桥接网络,请提前开放可供多节点通信的端口 docker run --rm \ --name $NAME \ --net=host \ --shm-size=1g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci8 \ --device /dev/davinci9 \ --device /dev/davinci10 \ --device /dev/davinci11 \ --device /dev/davinci12 \ --device /dev/davinci13 \ --device /dev/davinci14 \ --device /dev/davinci15 \ --device /dev/davincimanager \ --device /dev/devmmsvm \ --device /dev/hisihdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccntool:/usr/local/Ascend/driver/tools/hccntool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascendinstall.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -it $IMAGE bash
  14. 升级 vllm git clone https://atomgit.com/GitHubTrending/vl/vllm.git cd vllm git checkout 978a37c82387ce4a40aaadddcdbaf4a06fc4d590 VLLMTARGETDEVICE=empty pip install -v . # 升级 vllm-ascend git clone https://atomgit.com/ghmirrors/vl/vllm-ascend.git cd vllm-ascend git submodule update --init --recursive pip install -v . # 重新安装 transformers pip install git+https://atomgit.com/GitHub_Trending/tra/transformers.git
  15. 部署
  16. 1.单节点部署
  17. A3 系列
  18. 2.多节点部署
  19. A3 系列
  20. 通过 ifconfig 获取本机信息 # nicname 为当前节点 localip 对应的网卡接口名称 nicname="xxx" localip="xxx" # node0ip 的值必须与节点 0(主节点)中设置的 localip 一致 node0ip="xxxx" export HCCLOPEXPANSIONMODE="AIV" export HCCLIFIP=$localip export GLOOSOCKETIFNAME=$nicname export TPSOCKETIFNAME=$nicname export HCCLSOCKETIFNAME=$nicname export OMPPROCBIND=false export OMPNUMTHREADS=10 export VLLMUSEV1=1 export HCCLBUFFSIZE=200 export PYTORCHNPUALLOCCONF=expandablesegments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-address $node0ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config '{"cudagraphmode": "FULLDECODEONLY"}' \ --speculative-config '{"numspeculativetokens": 3, "method": "deepseekmtp"}'
  21. 通过 ifconfig 获取本机信息 # nicname 为当前节点 localip 对应的网卡接口名称 nicname="xxx" localip="xxx" # node0ip 的值必须与节点 0(主节点)中设置的 localip 一致 node0ip="xxxx" export HCCLOPEXPANSIONMODE="AIV" export HCCLIFIP=$localip export GLOOSOCKETIFNAME=$nicname export TPSOCKETIFNAME=$nicname export HCCLSOCKETIFNAME=$nicname export OMPPROCBIND=false export OMPNUMTHREADS=10 export VLLMUSEV1=1 export HCCLBUFFSIZE=200 export PYTORCHNPUALLOCCONF=expandablesegments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --headless \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 1 \ --data-parallel-address $node0ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config '{"cudagraphmode": "FULLDECODEONLY"}' \ --speculative-config '{"numspeculativetokens": 3, "method": "deepseekmtp"}'
  22. 精度评估
  23. 使用 AISBench
  24. 基于昇腾实现 GLM-5 的训练复现
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 YOLOv8 的无人机道路损伤检测系统:四类裂缝与坑洼识别
  • 力扣 Hot100 普通数组经典题目 Python 实现
  • 通义万相 2.1 模型升级与应用拓展实践
  • Conda 与 Python 版本管理实战指南
  • WSL2 + Docker Desktop 安装与 Ubuntu 镜像迁移至 D 盘指南
  • TarsosDSP Java 实时音频处理指南
  • 2025 华为 OD 机试真题题库与 OJ 刷题指南
  • Fooocus 部署指南:本地手动配置与云端一键启用对比
  • C++ DFS 与 BFS 算法实战详解
  • 黑客入门指南:零基础掌握五项核心能力
  • Coze 全解析:100 个落地用途与发布使用指南
  • 5 款免费跨平台 SSH 工具横评:连接稳定性与功能对比
  • 开源轻小说机翻机器人:从部署到架构解析
  • 从零搭建Clawdbot+企微机器人:单向推送全流程指南(新手可玩)
  • Gomoon 开源:一款支持多模型与本地向量化存储的桌面大模型工具
  • Python vs Java:AI 项目选型指南
  • Manual2Skill:利用 VLM 阅读说明书指导机器人家具组装
  • OpenClaw 深度调优:5 步让 AI 助手从聊天变实干
  • OpenCV 安装与构建完整指南
  • 二维云台激光打靶系统设计:基于 STM32F407 与视觉伺服控制

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online