从零开始离线部署私有大模型 ChatGLM-6B
大模型的应用通常包含三个阶段:直接使用、使用 API 定制应用程序、以及离线部署加微调以实现私有数据模型化。作为技术从业者,关注第二和第三阶段尤为重要。本文将详细介绍如何在本地 Windows 环境下从 0 开始离线部署 ChatGLM-6B 大语言模型。
1. 环境要求与准备
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 GLM 架构,拥有 62 亿参数。结合模型量化技术,用户可以在消费级显卡上进行本地部署。
推荐硬件配置:
- 操作系统:Windows 11 / Linux
- CPU:Intel Core i7 或更高(如 13700KF)
- 内存:32GB RAM
- 显卡:NVIDIA RTX 3090 (24GB 显存) 或更高
ChatGLM-6B 可在最小 6GB 显存上运行,但为了获得流畅体验,建议显存不低于 16GB。如果没有合适的本地显卡,也可以考虑租用云服务商的 A100 GPU 服务器进行试用。
2. 开发环境安装
2.1 安装 Python
前往 Python 官网下载并安装 Python。安装过程中务必勾选'Add python.exe to PATH',以便在命令行中直接调用 Python。
安装完成后,打开终端输入以下命令验证版本:
python --version
确保输出为 Python 3.8 或更高版本。
2.2 安装 CUDA Toolkit
PyTorch 对 CUDA 版本有特定要求。目前 PyTorch 稳定版通常支持 CUDA 11.8。请前往 NVIDIA 官网下载 CUDA Toolkit Archive 中的 11.8 版本。
安装完成后,可通过 nvcc --version 检查是否安装成功。
2.3 安装 PyTorch
根据 CUDA 版本,在 PyTorch 官网获取对应的安装命令。例如,对于 CUDA 11.8 版本:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
2.4 安装 Git
从 Git 官网下载并安装 Git for Windows,确保将 Git Bash 添加到系统路径,方便后续克隆代码库。
3. 部署 ChatGLM-6B 代码
3.1 克隆项目
使用 Git 命令克隆官方仓库:
git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B
3.2 安装依赖
进入项目目录后,安装所需的 Python 依赖包:
pip install -r requirements.txt
如果网络不稳定,建议使用国内镜像源加速安装。
3.3 下载模型权重
默认情况下,代码执行时会自动下载模型。若无法自动下载,需手动下载模型文件。
- 访问清华大学开源社区或 Hugging Face 获取模型权重。
- 将下载的模型文件解压至指定目录,例如
D:\chatglm-6b-models。 - 在运行脚本时指定模型路径。
4. 运行与测试
启动 Python 交互环境或直接运行推理脚本。在项目根目录下,通常存在 run.py 或类似脚本用于演示。
命令行运行示例:


