GLM-4.5 深度技术解析:智谱AI打造的全能开源基座模型

推理、编码、智能体三位一体——一个模型,三大核心能力

一、引言

长期以来,AI领域存在一个"不可能三角":推理能力编码能力智能体能力很难在一个模型中同时达到顶级水平。开发者往往需要在不同任务间切换不同模型,这不仅增加了系统复杂度,也制约了真正智能的自主Agent应用的落地。

2025年,智谱AI(Zhipu AI / Z.ai)发布了 GLM-4.5 系列,打破了这一困局。这是一个基于 Mixture-of-Experts (MoE) 架构的开源大语言模型家族,在推理、编码和智能体(Agentic)三个维度上同时达到了开源模型的顶尖水平,并在12项行业标准基准测试中综合排名第3,仅次于极少数顶级闭源模型。

更重要的是,GLM-4.5 系列采用 MIT 开源协议发布,支持商用和二次开发,为整个开源社区带来了巨大价值。


二、模型家族一览

GLM-4.5 系列包含两个核心语言模型和一个视觉语言模型:

模型总参数量激活参数量上下文长度定位
GLM-4.5355B32B128K旗舰模型,追求极致性能
GLM-4.5-Air106B12B128K轻量高效版,性价比之选
GLM-4.5V基于GLM-4.5-Air12B128K视觉语言模型,支持图像与视频理解

两个语言模型均为混合推理模型(Hybrid Reasoning Model),支持两种工作模式:

  • Thinking 模式:针对复杂任务进行深度推理和工具调用,类似 Chain-of-Thought 的逐步思考
  • Non-thinking 模式:针对简单查询快速响应,降低延迟

三、架构设计:深度优先的MoE创新

3.1 "更深而非更宽"的设计哲学

与 DeepSeek-V3 等同类模型倾向于扩展模型宽度不同,GLM-4.5 采取了**“深度优先”**的设计策略——更多的层数、相对更小的隐藏维度。团队的实验表明,在同等算力预算下,更深的网络结构能显著提升推理能力。

3.2 MoE路由机制

GLM-4.5 使用了**无损失平衡路由(Loss-free Balance Routing)**配合 Sigmoid 门控机制:

  • 每个 token 只激活一小部分专家(32B/355B 或 12B/106B),大幅降低推理时的计算开销
  • 路由策略避免了传统 MoE 中常见的负载不均衡问题
  • 既保留了大模型的知识容量,又实现了小模型级别的推理效率

3.3 注意力机制的创新

GLM-4.5 在注意力层引入了多项关键优化:

  • 分组查询注意力(Grouped-Query Attention, GQA):提升推理效率,减少 KV Cache 开销
  • 部分 RoPE 位置编码:灵活处理不同长度的序列
  • QK-Norm:对注意力 logits 进行归一化,稳定训练过程
  • 96 个注意力头:在隐藏维度为 5,120 的配置下,使用了约 2.5 倍于常规设计的注意力头数量

一个有趣的发现是:虽然更多的注意力头并未降低训练 loss,但在 MMLU、BBH 等推理基准测试上却带来了持续的性能提升——这是一个"优化指标 vs 泛化能力"之间权衡取舍的绝佳案例。

3.4 多 Token 预测(Multi-Token Prediction, MTP)

GLM-4.5 内置了 MTP 预测头,配合 EAGLE 推测解码算法,可在推理时一次性预测多个 token,从而将推理速度提升 2-3 倍。


四、训练流程:三阶段课程式学习

GLM-4.5 的训练采用了精心设计的多阶段课程(Curriculum):

预训练 (Pre-training) → 中期训练 (Mid-training) → 后训练 (Post-training) ↓ 

Read more

OpenClaw对接飞书机器人高频踩坑实战指南:从插件安装到回调配对全解析

前言 当前企业办公场景中,将轻量级AI框架OpenClaw与飞书机器人结合,能够快速实现智能交互、流程自动化等功能。然而,在实际对接过程中,开发者常常因权限配置、环境依赖、回调设置等细节问题陷入反复试错。本文以“问题解决”为核心,梳理了10个典型踩坑点,每个问题均配套原因分析、排查步骤和实操案例。同时,补充高效调试技巧与功能扩展建议,帮助开发者系统性地定位并解决对接障碍,提升落地效率。所有案例基于Windows 11环境、OpenClaw最新稳定版及飞书开放平台最新界面验证,解决方案可直接复用。 一、前置准备(快速自查) 为避免基础环境问题浪费时间,建议在开始前确认以下三点: * OpenClaw已正确安装,终端执行 openclaw -v 可查看版本(建议使用最新版,旧版本可能存在插件兼容风险)。 * Node.js版本不低于v14,npm版本不低于v6,通过 node -v 和 npm -v 验证,防止因依赖版本过低导致插件安装失败。 * 飞书账号需具备企业开发者权限(企业账号需管理员授权,个人账号默认具备)

具身神经-机器人运控通讯架构与实现系列

具身智能热潮之下,大量企业投身具身行业。在机器人本体控制方案上各家争鸣,但是试错路径太长,不少团队会在底层控制方案上走大量的弯路,导致资源浪费、项目延期甚至破产。 以第一性原则,探索当前具身机器人通讯架构实现最优解,加速具身机器人行业底层控制(通讯)系统技术方向收敛。尽可能帮助机器人本体系统工程师减少试错。 本系列仅针对机器人本体控制系统底层通讯部分:小脑<--->执行器/传感器之间的架构和具体实现。 gitee链接:https://gitee.com/Lenz_s_law/embodied-nerve 博文汇总 欢迎投稿 通讯架构分析篇 * MIT开源四足机器狗通讯架构分析 * 智元灵犀X1通讯分析1-整机通讯架构 * 智元灵犀X1通讯分析2-CANFD性能优化 * 宇树G1主控拆解分析 * RS485、CAN/FD、EtherCAT三种主流机器人总线方案分析 CAN/FD技术篇 * CAN/FD总线性能分析-机器人应用 * 机器人CAN/FD总线通讯架构设计 * 机器人CAN/FD接口关键性能指标 * 机器人CAN/FD接口扩展/实现方案

6层高速PCB设计,立创-逻辑派FPGA-G1开发板,万字笔记。基于立创EDA高速PCB,FPGA,GW2A-LV18PG256C8/17、GD32F303CBT6学习笔记

6层高速PCB设计,立创-逻辑派FPGA-G1开发板,万字笔记。基于立创EDA高速PCB,FPGA,GW2A-LV18PG256C8/17、GD32F303CBT6学习笔记

个人声明:本文章为个人学习PCB六层板设计的学习记录。官方资料请参考嘉立创的相关教程。 我用的是嘉立创EDA的专业版。最后我会放上立创开源广场的连接,大家可以去看一下,跟着官方学习一下,官方非常权威 开源广场的地址我放在文章中,因为需要一个DXF文件,需要导入到EDA 并且六层以下都可以免费打板,对我帮助非常大,尤其是像我这种刚入门的新手来说,给予了很多试错机会,毕竟每个月可以免费打两次。而且立创EDA还是免费的,打开网页就能画板子,相当方便快捷。 一.笔记前资料准备 立创·逻辑派FPGA-G1是一款面向学习和开发的国产FPGA开发板,它的一大特点是采用了FPGA与ARM Cortex-M内核相结合的异构架构,并提供了非常完善的开源资料。 主控:GW2A-LV18PG256C8/17、GD32F303CBT6 FPGA逻辑单元:20KHz。 ARM主频:120MHz。 DDR3内存:2Gbit FPGA端存储:FLASH16M/64M/128M ARM端存储:TF卡2GB/4GB/16GB/32GB FPGA端8P接口支持:Gowin程序下载、GAO在线逻辑仿真