GLM-4 开源发布:9B 模型性能超越 Llama-3
1 月 16 日,智谱 AI 技术开放日(Zhipu DevDay)推出了新一代基座大模型 GLM-4。在距今不到 5 个月的时间里,该系列模型正式开源,引发了业界的广泛关注。
本次开源的核心是 GLM-4-9B 模型及其人类偏好对齐版本 GLM-4-9B-Chat。在语义理解、数学推理、代码生成及知识问答等多方面的数据集测评中,GLM-4-9B 表现出超越 Llama-3-8B 的卓越性能。
模型特点
基础与对话能力
- 多轮对话:GLM-4-9B-Chat 支持流畅的多轮上下文交互。
- 长文本推理:原生支持最大 128K 上下文的长文本处理,能够精准定位关键信息。
- 超长上下文:推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型。
高级功能
- 网页浏览与代码执行:具备联网搜索和代码解释器能力,可解决复杂任务。
- 自定义工具调用:支持 Function Call,方便集成第三方 API 或本地工具。
- 多语言支持:涵盖日语、韩语、德语等 26 种语言。
多模态能力
- GLM-4V-9B:基于 GLM-4-9B 构建的多模态模型。
- 高分辨率:支持 1120 * 1120 分辨率下的中英双语多轮对话。
- 评测表现:在中英文综合能力、感知推理、文字识别、图表理解等方面,表现优于 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus。
开放模型列表
| 模型名称 | 类型 | 上下文长度 |
|---|---|---|
| GLM-4-9B | 基础模型 | 8K |
| GLM-4-9B-Chat | 对话模型 | 128K |
| GLM-4-9B-Chat-1M | 对话模型 | 1M |
| GLM-4V-9B | 多模态模型 | 8K |
评测结果摘要
- 对话模型:在多个典型任务指标上超越了 Llama-3-8B-Instruct 和 ChatGLM3-6B。
- 长文本能力:在 LongBench-Chat 基准测试中表现优异,展现了强大的信息检索与总结能力。
- 多语言能力:在多语言数据集上展现了良好的泛化性能。
- 工具调用:在 Berkeley Function Calling Leaderboard 上取得高分,API 调用准确率高。
- 多模态评测:在视觉理解相关任务上超越了主流闭源模型。
部署与使用指南
环境准备
推荐使用 Python 3.8+ 环境,并安装必要的依赖库。


