私有化部署清华 ChatGLM2-6B 大模型实践指南 | 极客日志

PythonAI算法

私有化部署清华 ChatGLM2-6B 大模型实践指南

综述由AI生成在 Linux 环境下私有化部署清华开源大语言模型 ChatGLM2-6B 的完整流程。内容涵盖硬件与软件环境准备、Git 与 Python 依赖配置、模型权重下载、CLI 与 Web Demo 运行、Nginx 反向代理及 WebSocket 支持配置，以及 API 调用示例与性能监控方法。文章重点解决了显存不足、网络代理、端口转发等常见问题，旨在帮助开发者低成本构建安全可控的本地大模型服务。

laoliangsh发布于 2025/2/6更新于 2026/6/317 浏览

私有化部署清华 ChatGLM2-6B 大模型实践指南

背景与动机

随着大语言模型技术的快速发展，商业 API 的成本逐渐成为企业应用的瓶颈。OpenAI 等闭源模型的调用费用较高，且存在数据隐私泄露风险。ChatGLM2-6B 作为清华大学开源的轻量级大语言模型，在保持较好效果的同时支持私有化部署，能够显著降低 Token 成本并保障数据安全。

本文基于 CentOS 8 环境，详细记录从硬件准备、环境配置到服务部署的全流程，并提供常见问题排查方案。

一、前期准备

1. 硬件要求

ChatGLM2-6B 对显存有一定要求。官方推荐至少 16GB 显存以运行 FP16 精度版本。若使用量化版本（如 INT4），8GB 显存亦可运行。

GPU: NVIDIA V100 (32GB) 或更高性能显卡（如 RTX 3090/4090）。
内存: 建议 32GB 以上。
硬盘: 预留 200GB 空间用于模型权重及缓存。
系统: CentOS 7/8 或 Ubuntu 20.04+。

可通过以下命令检查 GPU 信息：

lspci | grep -i nvidia

输出示例应包含类似 Tesla V100 SXM2 32GB 的信息。

2. 软件依赖

Git (用于克隆代码)
Python 3.11+ (推荐使用源码编译安装以确保兼容性)
CUDA Toolkit (需与 PyTorch 版本匹配)
pip (Python 包管理工具)

二、环境搭建

1. 安装 Git 与 SSH 配置

服务器端若未安装 Git，可使用镜像加速安装：

yum install -y git

克隆项目前需配置 GitHub SSH Key。本地生成密钥：

ssh-keygen -t rsa -C "[email protected]"

将生成的公钥内容添加到 GitHub 账户的 SSH Keys 设置中，随后测试连接：

ssh -T [email protected]

2. 获取源代码与模型权重

克隆官方仓库：

git clone [email protected]:THUDM/ChatGLM-6B.git
cd ChatGLM-6B

下载模型权重文件至 THUDM 目录下。由于 HuggingFace 访问限制，建议使用国内镜像或代理。若使用 Git LFS 下载大文件，需先安装：

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.rpm.sh | sudo bash
sudo yum install -y git-lfs
git lfs install

验证安装后，执行克隆：

git clone https://huggingface.co/THUDM/chatglm2-6b

注意：若网络不稳定，建议先在本地下载好模型文件，再通过 scp 传输至服务器指定目录。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

wget https://www.python.org/ftp/python/3.11.4/Python-3.11.4.tgz
tar -xzf Python-3.11.4.tgz
cd Python-3.11.4
./configure --enable-optimizations
make && make install

alternatives --install /usr/bin/pip pip /usr/local/bin/pip3.11 1
alternatives --set pip /usr/local/bin/pip3.11
/usr/local/bin/python3.11 -m pip install --upgrade pip

pip3.11 install -r requirements.txt

readline 报错: 若遇到 ERROR: Failed building wheel for readline，需安装底层库：
```
yum install -y ncurses-devel
pip3.11 install readline
```
中文乱码: 编辑 .vimrc 添加 set encoding=utf-8，或在脚本开头指定编码。

python3.11 cli_demo.py

python3.11 web_demo.py

systemctl start firewalld
firewall-cmd --zone=public --add-port=7860/tcp --permanent
firewall-cmd --reload

yum install -y nginx

server {
    listen 80;
    server_name localhost;
    location / {
        proxy_pass http://localhost:7860;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_read_timeout 1800;
        proxy_connect_timeout 1800;
        
        # WebSocket 支持配置
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
}

sudo systemctl start nginx
sudo systemctl status nginx

import requests

url = "http://<内网 IP>:80/v1/chat/completions"
data = {
    "model": "chatglm2-6b",
    "messages": [
        {"role": "user", "content": "请介绍一下人工智能的发展历史"}
    ],
    "stream": False
}

response = requests.post(url, json=data)
print(response.json())

watch -n 1 nvidia-smi

access_log /var/log/nginx/chatglm_access.log;
error_log /var/log/nginx/chatglm_error.log;

错误现象	可能原因	解决方案
OOM (Out of Memory)	显存不足	使用量化版本或减小 batch_size
Connection Refused	端口未开放	检查防火墙与 Nginx 配置
WebSocket Error	协议不匹配	确保 Nginx 配置了 Upgrade 头
Model Load Fail	路径错误	确认 weights 目录结构正确

私有化部署清华 ChatGLM2-6B 大模型实践指南

私有化部署清华 ChatGLM2-6B 大模型实践指南

背景与动机

一、前期准备

1. 硬件要求

2. 软件依赖

二、环境搭建

1. 安装 Git 与 SSH 配置

2. 获取源代码与模型权重

更多推荐文章

相关免费在线工具

3. Python 环境配置

三、模型运行与调试

1. 命令行交互

2. Web 界面部署

四、Nginx 反向代理配置

1. 安装 Nginx

2. 配置文件编写

3. 启动服务

五、API 调用与集成

六、性能优化与监控

1. 显存优化

2. 资源监控

3. 日志管理

七、总结

更多推荐文章

相关免费在线工具

私有化部署清华 ChatGLM2-6B 大模型实践指南

私有化部署清华 ChatGLM2-6B 大模型实践指南

背景与动机

一、前期准备

1. 硬件要求

2. 软件依赖

二、环境搭建

1. 安装 Git 与 SSH 配置

2. 获取源代码与模型权重

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Python 环境配置

三、模型运行与调试

1. 命令行交互

2. Web 界面部署

四、Nginx 反向代理配置

1. 安装 Nginx

2. 配置文件编写

3. 启动服务

五、API 调用与集成

六、性能优化与监控

1. 显存优化

2. 资源监控

3. 日志管理

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具