llama.cpp 量化模型部署实战：从模型转换到 API 服务

llama.cpp 是一个用 C/C++ 编写的开源项目，核心目标是在消费级硬件（如笔记本电脑 CPU）上高效运行大型语言模型。它不像 PyTorch 那样是庞大的深度学习框架，更像是一个专注于最小资源消耗的推理引擎。

其优势主要在于两点：纯 C/C++ 实现带来的极致性能，以及模型量化技术带来的体积与速度优化。量化可以理解为在不明显损失效果的前提下，将模型文件大小和加载速度优化到极致。

llama.cpp 源码托管在 GitHub 上。打开终端执行以下命令克隆项目：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

进入项目目录后，运行 make 命令编译。Makefile 会自动检测系统硬件架构并进行优化。编译完成后会生成关键可执行文件：

llama.cpp 最通用且推荐的格式是 GGUF。这是一种专为高效推理设计的模型文件格式。

模型可从 Hugging Face 获取。在 Hugging Face Models 网站上搜索模型并加上'GGUF'关键词过滤。例如搜索'Llama-2-7b-chat GGUF'。

找到合适的模型仓库后，建议直接在网页上下载 .gguf 模型文件，而不是用 git clone 克隆整个仓库，以避免 Git LFS 问题导致文件不完整。下载好的文件建议放在项目根目录下的 models 文件夹里，可以把模型文件放进去，方便后续调用。

更多推荐文章