1. 为什么需要关注 llama.cpp
AI 大模型通常需要大量显存资源。想在本地运行 7B 参数模型,以往可能需要昂贵显卡。llama.cpp 是一个用 C/C++ 编写的开源项目,核心目标是在消费级硬件(如笔记本电脑 CPU)上高效运行大型语言模型。它不像 PyTorch 那样是庞大的深度学习框架,更像专注于推理的引擎。
llama.cpp 通过纯 C/C++ 实现带来极致性能,并结合模型量化技术优化体积与速度。量化可理解为在不明显损失效果的前提下压缩模型大小和加载时间。
下文将介绍从原始模型到 API 服务的完整流程,帮助开发者快速上手本地大模型体验或低成本部署私有 AI 应用。
2. 准备 llama.cpp 工作环境
2.1 获取与编译 llama.cpp
llama.cpp 源码托管在 GitHub,需克隆到本地。打开终端执行以下命令:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
Makefile 会自动检测系统硬件架构并进行优化编译。完成后会生成关键可执行文件:
main:核心推理程序,用于加载模型并与模型对话。quantize:量化工具,负责将高精度模型转换为低精度格式。server:HTTP API 服务端,可将模型包装成 Web 服务。
编译过程通常一两分钟即可完成。若失败,请检查是否安装 gcc、make 等基础构建工具。
2.2 准备你的第一个模型
llama.cpp 支持多种模型格式,最通用推荐的是 GGUF 格式。这是一种专为高效推理设计的模型文件格式。
模型仓库推荐 Hugging Face。搜索模型时加上'GGUF'关键词过滤,例如搜索'Llama-2-7b-chat GGUF'。
找到合适仓库后,建议直接在网页下载 GGUF 模型文件,而非使用 git clone 克隆整个仓库。部分仓库因 Git LFS 问题可能导致文件不完整,加载时报错。稳妥做法是在模型文件列表中找到类似 llama-2-7b-chat.Q4_K_M.gguf 的文件直接下载。
下载好的 .gguf 文件,建议放在项目根目录下的 models 文件夹里,这样便于文件管理。

