ChatGLM3 本地化部署与常见问题排查指南
项目简介
ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是该系列中的开源模型,在保留对话流畅、部署门槛低等特性的基础上,引入了更强大的基础模型和完整的功能支持(如工具调用、代码执行)。
环境准备
Python 环境
项目要求 Python 环境最低版本为 3.10。安装完成后,可通过以下命令查看版本:
python --version
Conda 环境
推荐使用 Miniconda 管理环境。安装完成后使用 conda -V 确认版本号。
部署步骤
获取项目
克隆官方仓库到本地:
git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3
安装依赖
使用 pip 安装项目所需的依赖包:
pip install -r requirements.txt
启动演示
进入 basic_demo 目录,运行 Streamlit 脚本:
streamlit run web_demo_streamlit.py
首次执行时会自动下载约 11GB 的模型文件。注意网络连接稳定性,国内用户可能需要配置代理以确保模型权重下载成功。
常见问题排查
CPU 运算警告
如果控制台出现 WARNING:root:Some parameters are on the meta device...,说明模型正在使用 CPU 或磁盘卸载进行计算,速度极慢。需确保 PyTorch 正确识别了 GPU。
修改加载代码
默认配置可能未强制指定设备。编辑 web_demo_streamlit.py 中的 get_model 函数,显式指定 CUDA 设备并进行量化:
def get_model():
tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH, trust_remote_code=True)
# 指定 device_map="cuda" 并使用 4bit 量化以节省显存
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True, device_map="cuda").quantize(4).cuda()
return tokenizer, model
PyTorch 与 CUDA 版本匹配
若仍无法调用 GPU,请检查 PyTorch 是否安装了 CUDA 支持版本。
-
验证 PyTorch CUDA 状态:
torch (torch.cuda.is_available()) (torch.__version__)


