私有化部署清华 ChatGLM2-6B 大模型实践指南
背景与动机
随着大语言模型技术的快速发展,商业 API 的成本逐渐成为企业应用的瓶颈。OpenAI 等闭源模型的调用费用较高,且存在数据隐私泄露风险。ChatGLM2-6B 作为清华大学开源的轻量级大语言模型,在保持较好效果的同时支持私有化部署,能够显著降低 Token 成本并保障数据安全。
本文基于 CentOS 8 环境,详细记录从硬件准备、环境配置到服务部署的全流程,并提供常见问题排查方案。
一、前期准备
1. 硬件要求
ChatGLM2-6B 对显存有一定要求。官方推荐至少 16GB 显存以运行 FP16 精度版本。若使用量化版本(如 INT4),8GB 显存亦可运行。
- GPU: NVIDIA V100 (32GB) 或更高性能显卡(如 RTX 3090/4090)。
- 内存: 建议 32GB 以上。
- 硬盘: 预留 200GB 空间用于模型权重及缓存。
- 系统: CentOS 7/8 或 Ubuntu 20.04+。
可通过以下命令检查 GPU 信息:
lspci | grep -i nvidia
输出示例应包含类似 Tesla V100 SXM2 32GB 的信息。
2. 软件依赖
- Git (用于克隆代码)
- Python 3.11+ (推荐使用源码编译安装以确保兼容性)
- CUDA Toolkit (需与 PyTorch 版本匹配)
- pip (Python 包管理工具)
二、环境搭建
1. 安装 Git 与 SSH 配置
服务器端若未安装 Git,可使用镜像加速安装:
yum install -y git
克隆项目前需配置 GitHub SSH Key。本地生成密钥:
ssh-keygen -t rsa -C "[email protected]"
将生成的公钥内容添加到 GitHub 账户的 SSH Keys 设置中,随后测试连接:
ssh -T [email protected]
2. 获取源代码与模型权重
克隆官方仓库:
git clone [email protected]:THUDM/ChatGLM-6B.git
cd ChatGLM-6B
下载模型权重文件至 THUDM 目录下。由于 HuggingFace 访问限制,建议使用国内镜像或代理。若使用 Git LFS 下载大文件,需先安装:
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.rpm.sh | sudo bash
sudo yum install -y git-lfs
git lfs install
验证安装后,执行克隆:
git clone https://huggingface.co/THUDM/chatglm2-6b
注意:若网络不稳定,建议先在本地下载好模型文件,再通过 scp 传输至服务器指定目录。


