GLM-4 开源发布：9B 模型性能超越 Llama-3 | 极客日志

编程语言AI算法

GLM-4 开源发布：9B 模型性能超越 Llama-3

智谱 AI 开源 GLM-4 系列模型，其中 GLM-4-9B 在语义、数学、推理及代码能力上表现优异。该系列支持多轮对话、长文本（最高 1M 上下文）、工具调用及多模态功能。评测显示其对话模型超越 Llama-3-8B，多模态模型媲美 GPT-4-turbo。提供 GitHub 与 HuggingFace 下载链接，支持本地部署与 API 调用。

微码行者发布于 2025/2/7更新于 2026/6/220 浏览

GLM-4 开源发布：9B 模型性能超越 Llama-3

GLM-4 开源发布：9B 模型性能超越 Llama-3

1 月 16 日，智谱 AI 技术开放日（Zhipu DevDay）推出了新一代基座大模型 GLM-4。在距今不到 5 个月的时间里，该系列模型正式开源，引发了业界的广泛关注。

本次开源的核心是 GLM-4-9B 模型及其人类偏好对齐版本 GLM-4-9B-Chat。在语义理解、数学推理、代码生成及知识问答等多方面的数据集测评中，GLM-4-9B 表现出超越 Llama-3-8B 的卓越性能。

模型特点

基础与对话能力

多轮对话：GLM-4-9B-Chat 支持流畅的多轮上下文交互。
长文本推理：原生支持最大 128K 上下文的长文本处理，能够精准定位关键信息。
超长上下文：推出了支持 1M 上下文长度（约 200 万中文字符）的 GLM-4-9B-Chat-1M 模型。

高级功能

网页浏览与代码执行：具备联网搜索和代码解释器能力，可解决复杂任务。
自定义工具调用：支持 Function Call，方便集成第三方 API 或本地工具。
多语言支持：涵盖日语、韩语、德语等 26 种语言。

多模态能力

GLM-4V-9B：基于 GLM-4-9B 构建的多模态模型。
高分辨率：支持 1120 * 1120 分辨率下的中英双语多轮对话。
评测表现：在中英文综合能力、感知推理、文字识别、图表理解等方面，表现优于 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus。

开放模型列表

模型名称	类型	上下文长度
GLM-4-9B	基础模型	8K
GLM-4-9B-Chat	对话模型	128K
GLM-4-9B-Chat-1M	对话模型	1M
GLM-4V-9B	多模态模型	8K

评测结果摘要

对话模型：在多个典型任务指标上超越了 Llama-3-8B-Instruct 和 ChatGLM3-6B。
长文本能力：在 LongBench-Chat 基准测试中表现优异，展现了强大的信息检索与总结能力。
多语言能力：在多语言数据集上展现了良好的泛化性能。
工具调用：在 Berkeley Function Calling Leaderboard 上取得高分，API 调用准确率高。
多模态评测：在视觉理解相关任务上超越了主流闭源模型。

部署与使用指南

环境准备

推荐使用 Python 3.8+ 环境，并安装必要的依赖库。

pip install torch transformers accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

def load_model():
    model_name = "THUDM/glm-4-9b-chat"
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        device_map="auto",
        trust_remote_code=True
    ).eval()
    return model, tokenizer

def chat(model, tokenizer):
    query = "你好，请介绍一下 GLM-4 模型的特点。"
    response, history = model.chat(tokenizer, query, history=[])
    print(response)

if __name__ == "__main__":
    model, tokenizer = load_model()
    chat(model, tokenizer)