本地 CPU 环境部署 ChatGLM-6B 大模型与量化技术实践

引言

ChatGLM-6B 是清华大学 KEG 实验室和智谱 AI 联合开发的一款开源中英双语对话模型。该模型基于 GLM（General Language Model）架构，拥有约 62 亿参数。相比于早期的 GLM-130B，ChatGLM-6B 在保持较强语言理解能力的同时，显著降低了资源需求，使得在消费级硬件上运行成为可能。

传统的 LLM 部署通常依赖高性能 GPU 以提供足够的显存和计算能力。然而，对于个人开发者或资源受限的场景，利用 CPU 进行推理并结合模型量化技术（如 INT4），可以在普通笔记本电脑甚至台式机 CPU 环境下流畅运行大模型。本文将详细介绍如何在本地 CPU 环境中部署 ChatGLM-6B 的 INT4 量化版本，实现无需显卡的智能对话功能。

环境准备

1. 系统要求

操作系统：Windows 10/11, Linux (Ubuntu/CentOS), macOS
CPU：支持 AVX2 指令集的现代处理器（Intel Core i5/i7 或 AMD Ryzen 及以上）
内存：建议 16GB 以上 RAM（INT4 量化后模型权重占用约 4GB，加上 Python 进程开销，8GB 勉强可用但推荐 16GB）
Python 版本：Python 3.8 或更高版本

2. 安装基础工具

确保已安装 Git、Python 和 pip。若使用 Windows 系统，还需安装 C++ 编译环境以编译量化内核。

Windows 用户编译环境配置

由于 ChatGLM-6B 的量化内核包含 C++ 代码，需要本地编译器支持。推荐使用 MinGW-w64 或 Visual Studio Build Tools。

下载并安装 MinGW-w64 或 TDM-GCC。
安装时务必勾选 OpenMP 支持选项，否则后续编译会报错。
验证安装：在命令行输入 gcc -v，若能显示版本信息则配置成功。

Linux/Mac 用户

通常系统自带 gcc 或 clang，若无则通过包管理器安装：

sudo apt-get install build-essential gcc g++

项目部署步骤

第 1 步：克隆项目仓库

从官方 GitHub 仓库克隆代码，避免使用第三方镜像站以确保安全性。

git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B

第 2 步：安装依赖库

进入项目目录，安装 requirements.txt 中列出的依赖。

pip install -r requirements.txt

注意：

PyTorch 安装时请指定 CPU 版本，不要安装 CUDA 版本，以减少不必要的显存占用和依赖冲突。
例如：pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

第 3 步：下载量化模型

为了在 CPU 上高效运行，我们需要下载 INT4 量化版本的模型权重。INT4 量化将浮点数参数压缩为 4 位整数，大幅降低内存占用。

访问 HuggingFace 下载页面获取模型文件： https://huggingface.co/THUDM/chatglm-6b-int4/tree/main

或者直接使用 transformers 库自动下载（需联网）：

from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True)

第 4 步：修改启动代码

默认的 web_demo.py 是针对 GPU 优化的，需要修改为适配 CPU 和量化内核。

打开 web_demo.py 文件，找到模型加载部分，进行如下修改：

原 GPU 代码：

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

修改为 CPU 代码：

import torch
from transformers import AutoModel, AutoTokenizer

# 加载 INT4 量化模型
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).float()

# 强制在 CPU 上运行
model = model.cpu()
model.eval()

第 5 步：编译量化内核

如果直接运行出现错误，提示找不到 .so 或 .dll 文件，说明量化内核未编译。需要手动编译 C++ 源文件。

在项目根目录下找到 quantization_kernels.c 和 quantization_kernels_parallel.c。

Linux/macOS 编译命令：

gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels.c -shared -o quantization_kernels.so
gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels_parallel.c -shared -o quantization_kernels_parallel.so

Windows 编译命令（MinGW）：

gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels.c -shared -o quantization_kernels.dll
gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels_parallel.c -shared -o quantization_kernels_parallel.dll

编译成功后，会在目录下生成对应的动态链接库文件。如果 Python 代码中未自动加载，可手动指定路径：

model = model.quantize(bits=4, kernel_file="./quantization_kernels.so") # Linux
# model = model.quantize(bits=4, kernel_file="./quantization_kernels.dll") # Windows

第 6 步：运行 Web 演示

完成上述步骤后，运行主程序启动本地服务。

python web_demo.py

终端输出类似 Running on local URL: http://127.0.0.1:7860 即表示服务启动成功。在浏览器中打开该地址即可开始对话。

性能测试与评估

推理速度

在 CPU 环境下，INT4 量化模型的推理速度明显快于 FP16 全精度模型。具体速度取决于 CPU 核心数和单核性能。一般现代 i5/i7 处理器每秒可生成 10-30 个 token。

效果对比

ChatGLM-6B 在中文语境下的表现优于许多同量级的英文模型。虽然其逻辑推理和代码生成能力略逊于 GPT-4 等顶级模型，但在日常问答、文本摘要、简单任务规划方面已达到较高水平，能够满足大部分个人辅助需求。

常见问题排查

内存不足：如果运行时报错 OOM，尝试关闭其他占用内存的程序，或增加虚拟内存。
编译报错：检查是否安装了 OpenMP 库，以及 GCC 版本是否过旧。
模型加载慢：首次加载模型需要从硬盘读取到内存，请耐心等待；后续会话速度会加快。

优化建议

多进程推理：对于高并发场景，可考虑使用 FastAPI 封装接口，配合多线程处理请求。
模型裁剪：如果仅需特定领域能力，可尝试对模型进行微调或剪枝。
混合精度：根据硬件情况，尝试 FP16 或 BF16 模式以获得更好的精度平衡。

结语

通过在本地 CPU 环境部署 ChatGLM-6B 量化模型，开发者可以低成本地体验大语言模型的能力，无需依赖昂贵的云端 API 或高端显卡。这不仅有助于学习大模型部署流程，也为隐私敏感型应用提供了可行的本地化解决方案。随着硬件算力的提升和量化技术的进步，未来本地运行更大参数的模型将成为常态。

本地 CPU 环境部署 ChatGLM-6B 大模型与量化技术实践