本地部署 GLM-4-9B 开源大模型方法及对话测试

GLM-4-9B 是清华大学和智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能，其通用能力评测结果甚至超越了 Llama-3-8B 开源大模型，多模态版本也与 GPT-4 版本齐平。

除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用和长文本推理等高级功能。GLM-4 模型增加了多语言支持，支持包括日语、韩语、德语在内的 26 种语言。GLM-4-9B 还推出了支持 1M 上下文长度（约 200 万中文字符）的模型。

环境准备

在开始部署之前，请确保您的开发环境满足以下基本要求：

操作系统：Linux (推荐 Ubuntu 20.04+) 或 macOS。
Python 版本：建议 Python 3.8 及以上。
硬件要求：
- 显存 (VRAM)：建议至少 16GB 以流畅运行 FP16 精度模型；若使用量化版本可降低至 8GB。
- CPU：多核处理器有助于数据预处理。
依赖安装：
```
pip install torch transformers accelerate tiktoken sentencepiece
```
如果需要使用 CUDA 加速，请确保已安装对应版本的 NVIDIA 驱动和 cuDNN。

第一步：下载模型文件

由于模型参数文件较大，无法直接通过 Git 拉取完整权重，需配合 git-lfs 工具使用。官方模型托管于 ModelScope 平台。

brew install git-lfs

# 初始化 git lfs
git lfs install

# 克隆模型仓库
git clone https://www.modelscope.cn/ZhipuAI/glm-4-9b-chat-1m.git GLM-4-9B-Chat-1M

总共有 10 个模型参数文件，平均每个文件 1.8GB 大小，总计 18GB 左右。在下载过程中若出现中断，可尝试重新执行 git lfs pull 命令继续下载。

第二步：配置代码库

GLM-4 的官方 GitHub 代码库提供了丰富的使用样例和微调脚本。我们需要获取并调整这些代码以适应本地路径。

git clone https://github.com/THUDM/GLM-4.git
cd GLM-4

第三步：启动 GLM-4 客户端

打开代码库中的 basic_demo/trans_cli_demo.py 文件，修改第 18 行的模型路径 MODEL_PATH 参数，指向刚才下载的本地路径。

# 修改前
# MODEL_PATH = os.environ.get('MODEL_PATH', 'THUDM/glm-4-9b-chat')

# 修改后
MODEL_PATH = os.environ.get('MODEL_PATH', '/path/to/local/GLM-4-9B-Chat-1M')

确保已安装必要的 Python 工具包：

pip install tiktoken accelerate

启动大模型客户端：

python trans_cli_demo.py

预期输出示例：

本地部署 GLM-4-9B 开源大模型方法及对话测试

环境准备

第一步：下载模型文件

第二步：配置代码库

第三步：启动 GLM-4 客户端

更多推荐文章

相关免费在线工具

第四步：性能与优化分析

总结

更多推荐文章

相关免费在线工具

本地部署 GLM-4-9B 开源大模型方法及对话测试

环境准备

第一步：下载模型文件

第二步：配置代码库

第三步：启动 GLM-4 客户端

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第四步：性能与优化分析

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具