1. llama.cpp 简介与优势
llama.cpp 是一个用 C/C++ 编写的开源项目,核心目标是在消费级硬件(如笔记本电脑 CPU)上以最高效的方式运行大型语言模型。它更像一个专注于最小资源消耗的推理引擎。
量化技术可以在不明显损失效果的前提下,将模型文件大小和加载速度优化到极致。
2. 环境搭建与模型准备
2.1 获取与编译 llama.cpp
llama.cpp 的源码托管在 GitHub 上,首先将其克隆到本地。打开终端执行以下命令:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
进入项目目录后,直接运行 make 命令进行编译。Makefile 会自动检测系统硬件架构并进行优化编译。编译完成后,目录下会生成几个关键的可执行文件:
- main:核心推理程序,用来加载模型并与模型对话。
- quantize:量化工具,负责把高精度模型转换成低精度格式。
- server:简单的 HTTP API 服务端,可以直接把模型包装成 Web 服务。
如果编译失败,通常是缺少基础的构建工具(如 gcc、make),根据系统提示安装即可。
2.2 准备 GGUF 模型
llama.cpp 支持多种模型格式,最通用且推荐的是 GGUF 格式。这是一种专为高效推理设计的模型文件格式。
可在 Hugging Face 网站上搜索感兴趣的模型并加上'GGUF'关键词过滤。例如搜索'Llama-2-7b-chat GGUF'。找到合适的模型仓库后,建议在网页上直接下载 GGUF 模型文件,而不是用 git clone 克隆整个仓库,以避免 Git LFS 导致文件不完整的问题。
下载好的 .gguf 文件,建议放在项目根目录下的 models 文件夹里。

