ChatGLM3 本地化部署与常见问题排查指南

项目简介

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是该系列中的开源模型，在保留对话流畅、部署门槛低等特性的基础上，引入了更强大的基础模型和完整的功能支持（如工具调用、代码执行）。

环境准备

Python 环境

项目要求 Python 环境最低版本为 3.10。安装完成后，可通过以下命令查看版本：

python --version

Conda 环境

推荐使用 Miniconda 管理环境。安装完成后使用 conda -V 确认版本号。

部署步骤

获取项目

克隆官方仓库到本地：

git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3

安装依赖

使用 pip 安装项目所需的依赖包：

pip install -r requirements.txt

启动演示

进入 basic_demo 目录，运行 Streamlit 脚本：

streamlit run web_demo_streamlit.py

首次执行时会自动下载约 11GB 的模型文件。注意网络连接稳定性，国内用户可能需要配置代理以确保模型权重下载成功。

常见问题排查

CPU 运算警告

如果控制台出现 WARNING:root:Some parameters are on the meta device...，说明模型正在使用 CPU 或磁盘卸载进行计算，速度极慢。需确保 PyTorch 正确识别了 GPU。

修改加载代码

默认配置可能未强制指定设备。编辑 web_demo_streamlit.py 中的 get_model 函数，显式指定 CUDA 设备并进行量化：

def get_model():
    tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH, trust_remote_code=True)
    # 指定 device_map="cuda" 并使用 4bit 量化以节省显存
    model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True, device_map="cuda").quantize(4).cuda()
    return tokenizer, model

PyTorch 与 CUDA 版本匹配

若仍无法调用 GPU，请检查 PyTorch 是否安装了 CUDA 支持版本。

验证 PyTorch CUDA 状态：

 torch
(torch.cuda.is_available())
(torch.__version__)

ChatGLM3 本地化部署与常见问题排查指南