1. 为什么需要关注 llama.cpp
大模型往往需要数十 GB 显存,但在 llama.cpp 出现后,普通电脑也能运行。llama.cpp 是用 C/C++ 编写的开源项目,核心目标是在消费级硬件(如笔记本电脑 CPU)上高效运行大型语言模型。它更像是一个专注于最小资源消耗的'推理引擎'。其优势主要源于纯 C/C++ 实现带来的极致性能,以及模型量化技术带来的体积与速度优化。量化技术可在不明显损失效果的前提下,优化文件大小和加载速度。
2. 第一步:准备 llama.cpp 工作环境
2.1 获取与编译 llama.cpp
源码托管在 GitHub,需克隆到本地。打开终端执行:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
进入项目目录后,运行 make 命令编译。Makefile 会自动检测硬件架构进行优化。编译完成后生成关键可执行文件:
main:核心推理程序,用于加载模型并与模型对话。quantize:量化工具,负责把高精度模型转换成低精度格式。server:简单的 HTTP API 服务端,可直接把模型包装成 Web 服务。
若编译失败,通常是因为缺少基础构建工具(如 gcc、make),根据系统提示安装即可。
2.2 准备你的第一个模型
llama.cpp 最通用且推荐的格式是 GGUF。这是一种专为高效推理设计的模型文件格式。
模型可从 Hugging Face Models 网站搜索获取,建议加上'GGUF'关键词过滤。例如搜索'Llama-2-7b-chat GGUF'。
找到合适仓库后,建议直接在网页上下载 .gguf 模型文件,而不是用 git clone 克隆整个仓库,以避免 Git LFS 导致文件不完整的问题。
下载好的 .gguf 文件,建议放在项目根目录下的 models 文件夹里,这样便于后续管理。

