国产大语言模型 ChatGLM3 本地部署与功能扩展指南
1. 概述
ChatGLM3 是由智谱 AI 推出的一系列开源大语言模型。本文详细介绍如何在本地环境中搭建 ChatGLM3-6B 模型,配置运行环境,并通过 Web 界面、API 接口及自定义工具进行功能扩展。
2. 环境准备
2.1 硬件要求
- 显存:建议 8GB 以上。若显存小于 8GB,建议使用量化版本(4-bit)。
- CUDA:需安装对应版本的 NVIDIA CUDA Toolkit。
- Python:推荐 Python 3.10 或更高版本。
2.2 软件依赖
使用 Anaconda 管理虚拟环境,确保依赖隔离。
# 创建名为 chatglm3-demo 的 conda 环境
conda create -n chatglm3-demo python=3.11
conda activate chatglm3-demo
3. 源码与模型下载
3.1 获取源码
从 GitHub 或 ModelScope 克隆项目代码。
git clone https://github.com/THUDM/ChatGLM3.git
cd ChatGLM3-main
3.2 下载模型权重
推荐使用国内镜像源 ModelScope 加速下载。
# 进入模型目录
mkdir -p THUDM/chatglm3-6b
# 使用 git lfs 拉取模型文件
注意:如果显卡显存有限(如 8GB 以下),建议下载 chatglm3-6b 基础版并配合量化使用。
4. 安装依赖
修改 requirements.txt 以指定明确的 PyTorch 版本,避免 CUDA 版本不匹配。
# requirements.txt 示例
torch>=2.0
torchvision==0.15.0
torchaudio==2.0.0
transformers==4.30.0
执行安装命令:
pip install -r requirements.txt
若遇到 mdtex2html 缺失错误,可单独安装:
pip install mdtex2html
5. 内存优化与量化
默认情况下,模型以 FP16 精度加载,约需 13GB 显存。若显存不足,可使用 4-bit 量化加载。
5.1 检查显存
使用 nvidia-smi 查看 GPU 状态。
5.2 量化加载代码
在启动脚本中修改模型加载方式:
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=).quantize().cuda()


