智谱 AI 发布 GLM-4 基座大模型，性能逼近 GPT-4

智谱 AI 于 2024 年 1 月 16 日发布新一代基座大模型 GLM-4，性能较上一代提升 60%，多项指标逼近 GPT-4。GLM-4 具备 128K 超长上下文窗口，在 MMLU、GSM8K、HumanEval 等权威评测中达到 GPT-4 的 90%-100% 水平。新增 GLM-4-All Tools 支持自主规划与工具调用，强化 Agent 能力。同时推出 GLMs 个性化智能体定制，并发布包含算力、资金及 API 支持的开源基金，旨在构建繁荣的大模型生态，加速 AGI 进程。

ApiHolic发布于 2025/2/6更新于 2026/7/2335 浏览

智谱 AI 正式发布新一代基座大模型 GLM-4

2024 年 1 月 16 日，在举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上，智谱 AI 正式发布了新一代基座大模型 GLM-4。这是国产大模型领域的一个重磅里程碑，标志着国产大模型的技术水平迈上了新的台阶。

经历了三个月的技术迭代，GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升。这一提升不仅体现在基础语言理解能力上，更体现在复杂推理、代码生成及多模态处理等多个维度，使其直接逼近业界标杆 GPT-4 的水平。

综合能力全面跃升：比肩 GPT-4 的国产基座

在人工智能领域，GPT-4 长期以来被视为大模型技术的黄金标准。GLM-4 的诞生，意味着国产大模型在核心能力上真正做到了与 GPT-4 比肩。根据智谱 AI CEO 张鹏的介绍，GLM-4 带来了多项关键能力的突破。

超长上下文窗口与长文本处理能力

GLM-4 支持 128K 上下文窗口长度，单次提示词可处理文本达到 300 页。这一特性对于需要处理长文档的场景至关重要，例如法律合同分析、医疗报告总结、长篇技术文档检索等。在总结信息、内容抽取、复杂推理、代码等多个应用场景中，GLM-4 展现了强大的复杂长文本处理能力。

智谱 AI 技术团队重点解决了长上下文全局信息因失焦导致的精度下降问题。在著名的 "Needle in a Haystack"（大海捞针）测试中，在 128K 文本长度内，GLM-4 模型可实现几乎 100% 的精度召回。这意味着模型能够精准定位并提取长文档中的关键信息，而不会遗漏或混淆上下文，极大地提升了其在企业级应用中的可靠性。

权威评测数据表现

智谱 AI 进行的多项大模型权威评测结果证实了 GLM-4 的强大性能。具体数据如下：

MMLU (Massive Multitask Language Understanding): 得分 81.5，达到 GPT-4 水平的 94%。该测试评估模型在多个学科领域的知识掌握程度。
GSM8K (Grade School Math 8K): 得分 87.6，达到 GPT-4 水平的 95%。主要衡量数学推理能力。
MATH: 得分 47.9，达到 GPT-4 水平的 91%。专注于高难度数学问题的解决。
BBH (Big Bench Hard): 得分 82.25，达到 GPT-4 水平的 99%。涵盖多种复杂的推理任务。
HellaSwag: 得分 85.4，达到 GPT-4 水平的 90%。评估常识推理和句子完成能力。
HumanEval: 得分 72，达到 GPT-4 水平的 100%。专门测试代码生成能力，表明 GLM-4 在编程辅助方面已达到顶尖水平。

在指令跟随能力方面，GLM-4 也实现了媲美 GPT-4 的水准。根据指令跟随评估基准 IFEval 的结果，GLM-4 在 Prompt 提示词跟随（中文）方面达到了 GPT-4 88% 的水平；在指令跟随（中文）方面，达到了 GPT-4 90% 的水平。这表明模型能够更准确地理解并执行用户的复杂指令，减少了对提示词工程的依赖。

中文对齐与专业能力

在实际落地应用过程中，模型的中文对齐能力格外重要。基于公开数据集 AlignBench 的评估结果，GLM-4 超过了 GPT-4 在 6 月 13 日发布的版本，逼近 GPT-4 最新（11 月 6 日版本）效果。在专业能力、中文理解、角色扮演方面，GLM-4 甚至超过了最新 GPT-4 的精度，唯一有待提升的是 GLM-4 在中文推理方面的能力。这体现了智谱 AI 在中文语料训练上的深厚积累。

多模态能力的长足进步

多模态能力的水平，是决定模型能否应用于复杂现实场景的关键因素。此次 GLM-4 的多模态能力能够实现长足的进步，正是基于不断进化的智谱 AI 多模态理解模型 CogVLM 和文生图模型 CogView。

其中，最新发布的 CogView3 效果明显超过开源最佳的 Stable Diffusion XL，逼近最新 OpenAI 发布的 DALL-E 3。在对齐、保真、安全、组合布局等各个评测维度上，CogView3 的效果都达到 DALL-E 3 90% 以上水平，平均达到 95% 左右的相对性能。这使得 GLM-4 不仅能处理文本，还能高质量地理解和生成图像，为 AIGC 应用提供了更丰富的可能性。

GLM-4-All Tools 上线：Agent 能力的质变

大模型本身还不足以解决所有问题，在实际的使用过程中，我们常常需要同时借助多种工具，比如网页浏览、数据分析、图像生成。传统的调用方式往往需要开发者编写复杂的代码来串联不同的 API，或者用户需要学习特定的提示词技巧。

张鹏在演讲中提到了这一难点："一直以来，普通用户甚至是开发者，需要用像魔法咒语一样的提示词或者机器才能解读执行的代码、调用大模型的各种能力，无论是回答问题、作画还是使用外部的知识源，总觉得大模型还是没那么聪明。"

智谱 AI 发布 GLM-4 基座大模型，性能逼近 GPT-4

智谱 AI 正式发布新一代基座大模型 GLM-4

综合能力全面跃升：比肩 GPT-4 的国产基座

超长上下文窗口与长文本处理能力

权威评测数据表现

中文对齐与专业能力

多模态能力的长足进步

GLM-4-All Tools 上线：Agent 能力的质变

更多推荐文章

相关免费在线工具

自主规划与工具调用

立足智能体开发：构筑繁荣生态

GLMs 个性化智能体定制能力

开源基金与生态投入

AGI 元年：智谱 AI 的开局与展望

更多推荐文章

相关免费在线工具

智谱 AI 发布 GLM-4 基座大模型，性能逼近 GPT-4

智谱 AI 正式发布新一代基座大模型 GLM-4

综合能力全面跃升：比肩 GPT-4 的国产基座

超长上下文窗口与长文本处理能力

权威评测数据表现

中文对齐与专业能力

多模态能力的长足进步

GLM-4-All Tools 上线：Agent 能力的质变

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

自主规划与工具调用

立足智能体开发：构筑繁荣生态

GLMs 个性化智能体定制能力

开源基金与生态投入

AGI 元年：智谱 AI 的开局与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具