GLM-4-9B 是清华大学和智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能,其通用能力评测结果甚至超越了 Llama-3-8B 开源大模型,多模态版本也与 GPT-4 版本齐平。
除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用和长文本推理等高级功能。GLM-4 模型增加了多语言支持,支持包括日语、韩语、德语在内的 26 种语言。GLM-4-9B 还推出了支持 1M 上下文长度(约 200 万中文字符)的模型。
环境准备
在开始部署之前,请确保您的开发环境满足以下基本要求:
- 操作系统:Linux (推荐 Ubuntu 20.04+) 或 macOS。
- Python 版本:建议 Python 3.8 及以上。
- 硬件要求:
- 显存 (VRAM):建议至少 16GB 以流畅运行 FP16 精度模型;若使用量化版本可降低至 8GB。
- CPU:多核处理器有助于数据预处理。
- 依赖安装:
如果需要使用 CUDA 加速,请确保已安装对应版本的 NVIDIA 驱动和 cuDNN。pip install torch transformers accelerate tiktoken sentencepiece
第一步:下载模型文件
由于模型参数文件较大,无法直接通过 Git 拉取完整权重,需配合 git-lfs 工具使用。官方模型托管于 ModelScope 平台。
brew install git-lfs
# 初始化 git lfs
git lfs install
# 克隆模型仓库
git clone https://www.modelscope.cn/ZhipuAI/glm-4-9b-chat-1m.git GLM-4-9B-Chat-1M
总共有 10 个模型参数文件,平均每个文件 1.8GB 大小,总计 18GB 左右。在下载过程中若出现中断,可尝试重新执行 git lfs pull 命令继续下载。
第二步:配置代码库
GLM-4 的官方 GitHub 代码库提供了丰富的使用样例和微调脚本。我们需要获取并调整这些代码以适应本地路径。
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
第三步:启动 GLM-4 客户端
打开代码库中的 basic_demo/trans_cli_demo.py 文件,修改第 18 行的模型路径 MODEL_PATH 参数,指向刚才下载的本地路径。
# 修改前
# MODEL_PATH = os.environ.get('MODEL_PATH', 'THUDM/glm-4-9b-chat')
# 修改后
MODEL_PATH = os.environ.get('MODEL_PATH', '/path/to/local/GLM-4-9B-Chat-1M')
确保已安装必要的 Python 工具包:
pip install tiktoken accelerate
启动大模型客户端:
python trans_cli_demo.py
预期输出示例:


