大模型本地部署指南：基于 llama.cpp 在 CPU 上运行 LLaMA2

如果你对大模型感兴趣，但尚未接触过实际部署，本文将在自己的笔记本上带你搭建并运行一个大语言模型。我们将以 Meta 开源的 LLaMA2 模型为例，通过 llama.cpp 框架快速完成搭建并体验。

1. 背景与原理

目前主流的大模型如 ChatGPT 多为闭源，我们只能通过 API 或商业化产品使用。Meta 开源了 LLaMA 系列模型，其中数字代表参数量（如 LLaMA-7B 为 70 亿参数）。虽然参数量巨大，但经过量化微调后，其效果可媲美千亿级商业模型。

然而，大模型通常依赖 GPU 进行推理。为了在传统 CPU 电脑上运行，社区开发了 llama.cpp 项目。该项目使用 C++ 重写，相比 Python 生态更加轻量，且能利用 CPU 特性（如 Intel AVX2 指令集）进行极致性能优化。一般 4GB 以上内存即可满足基础运行需求，适合大多数笔记本电脑。

注意：本文以 Linux 环境为例，默认读者熟悉 Linux 操作。Windows 和 MacOS 用户可参考项目主页自行配置。

2. 环境准备

2.1 系统要求

操作系统：Linux (Ubuntu 20.04+), macOS, Windows (WSL)
内存：建议 8GB 以上（运行 7B 模型至少需 6GB 空闲内存）
编译器：GCC 9.0+ 或 Clang
工具：Git, Make, Python3

2.2 安装依赖

sudo apt-get update
sudo apt-get install -y build-essential git python3-pip cmake

3. 编译 llama.cpp

3.1 获取源码

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

3.2 编译核心库

执行 make 命令进行编译。若需启用特定硬件加速（如 CUDA），可设置环境变量，但本文聚焦 CPU 模式。

make

编译完成后，目录中将生成 main 可执行文件，这是后续交互的核心程序。

常见问题：若编译报错缺少依赖，请检查是否安装了 cmake 或 python3-dev。部分旧版本可能需要调整 Makefile 中的 CXXFLAGS。

4. 下载模型文件

4.1 了解 GGUF 格式

llama.cpp 支持 GGUF (GGML Unified Format) 格式的模型文件。这是一种量化格式，将 FP16 模型压缩为 INT4 或 INT8，大幅降低显存占用。

4.2 下载步骤

由于 HuggingFace 访问限制，建议使用国内镜像。

pip3 install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download TheBloke/Llama-2-7b-Chat-GGUF llama-2-7b-chat.Q4_K_M.gguf --local-dir .

大模型本地部署指南：基于 llama.cpp 在 CPU 上运行 LLaMA2