从零开始离线部署私有大模型 ChatGLM-6B

大模型的应用通常包含三个阶段：直接使用、使用 API 定制应用程序、以及离线部署加微调以实现私有数据模型化。作为技术从业者，关注第二和第三阶段尤为重要。本文将详细介绍如何在本地 Windows 环境下从 0 开始离线部署 ChatGLM-6B 大语言模型。

1. 环境要求与准备

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 GLM 架构，拥有 62 亿参数。结合模型量化技术，用户可以在消费级显卡上进行本地部署。

推荐硬件配置：

操作系统：Windows 11 / Linux
CPU：Intel Core i7 或更高（如 13700KF）
内存：32GB RAM
显卡：NVIDIA RTX 3090 (24GB 显存) 或更高

ChatGLM-6B 可在最小 6GB 显存上运行，但为了获得流畅体验，建议显存不低于 16GB。如果没有合适的本地显卡，也可以考虑租用云服务商的 A100 GPU 服务器进行试用。

2. 开发环境安装

2.1 安装 Python

前往 Python 官网下载并安装 Python。安装过程中务必勾选'Add python.exe to PATH'，以便在命令行中直接调用 Python。

安装完成后，打开终端输入以下命令验证版本：

python --version

确保输出为 Python 3.8 或更高版本。

2.2 安装 CUDA Toolkit

PyTorch 对 CUDA 版本有特定要求。目前 PyTorch 稳定版通常支持 CUDA 11.8。请前往 NVIDIA 官网下载 CUDA Toolkit Archive 中的 11.8 版本。

安装完成后，可通过 nvcc --version 检查是否安装成功。

2.3 安装 PyTorch

根据 CUDA 版本，在 PyTorch 官网获取对应的安装命令。例如，对于 CUDA 11.8 版本：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2.4 安装 Git

从 Git 官网下载并安装 Git for Windows，确保将 Git Bash 添加到系统路径，方便后续克隆代码库。

3. 部署 ChatGLM-6B 代码

3.1 克隆项目

使用 Git 命令克隆官方仓库：

git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B

3.2 安装依赖

进入项目目录后，安装所需的 Python 依赖包：

pip install -r requirements.txt

如果网络不稳定，建议使用国内镜像源加速安装。

3.3 下载模型权重

默认情况下，代码执行时会自动下载模型。若无法自动下载，需手动下载模型文件。

访问清华大学开源社区或 Hugging Face 获取模型权重。
将下载的模型文件解压至指定目录，例如 D:\chatglm-6b-models。
在运行脚本时指定模型路径。

4. 运行与测试

启动 Python 交互环境或直接运行推理脚本。在项目根目录下，通常存在 run.py 或类似脚本用于演示。

命令行运行示例：

从零开始离线部署私有大模型 ChatGLM-6B