本地 CPU 环境部署 ChatGLM-6B 大模型与量化技术实践
引言
ChatGLM-6B 是清华大学 KEG 实验室和智谱 AI 联合开发的一款开源中英双语对话模型。该模型基于 GLM(General Language Model)架构,拥有约 62 亿参数。相比于早期的 GLM-130B,ChatGLM-6B 在保持较强语言理解能力的同时,显著降低了资源需求,使得在消费级硬件上运行成为可能。
传统的 LLM 部署通常依赖高性能 GPU 以提供足够的显存和计算能力。然而,对于个人开发者或资源受限的场景,利用 CPU 进行推理并结合模型量化技术(如 INT4),可以在普通笔记本电脑甚至台式机 CPU 环境下流畅运行大模型。本文将详细介绍如何在本地 CPU 环境中部署 ChatGLM-6B 的 INT4 量化版本,实现无需显卡的智能对话功能。
环境准备
1. 系统要求
- 操作系统:Windows 10/11, Linux (Ubuntu/CentOS), macOS
- CPU:支持 AVX2 指令集的现代处理器(Intel Core i5/i7 或 AMD Ryzen 及以上)
- 内存:建议 16GB 以上 RAM(INT4 量化后模型权重占用约 4GB,加上 Python 进程开销,8GB 勉强可用但推荐 16GB)
- Python 版本:Python 3.8 或更高版本
2. 安装基础工具
确保已安装 Git、Python 和 pip。若使用 Windows 系统,还需安装 C++ 编译环境以编译量化内核。
Windows 用户编译环境配置
由于 ChatGLM-6B 的量化内核包含 C++ 代码,需要本地编译器支持。推荐使用 MinGW-w64 或 Visual Studio Build Tools。
- 下载并安装 MinGW-w64 或 TDM-GCC。
- 安装时务必勾选
OpenMP支持选项,否则后续编译会报错。 - 验证安装:在命令行输入
gcc -v,若能显示版本信息则配置成功。
Linux/Mac 用户
通常系统自带 gcc 或 clang,若无则通过包管理器安装:
sudo apt-get install build-essential gcc g++
项目部署步骤
第 1 步:克隆项目仓库
从官方 GitHub 仓库克隆代码,避免使用第三方镜像站以确保安全性。
git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B
第 2 步:安装依赖库
进入项目目录,安装 requirements.txt 中列出的依赖。
pip install -r requirements.txt
注意:
- PyTorch 安装时请指定 CPU 版本,不要安装 CUDA 版本,以减少不必要的显存占用和依赖冲突。
- 例如:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
第 3 步:下载量化模型
为了在 CPU 上高效运行,我们需要下载 INT4 量化版本的模型权重。INT4 量化将浮点数参数压缩为 4 位整数,大幅降低内存占用。
访问 HuggingFace 下载页面获取模型文件:


