llama.cpp 量化模型部署实战：从模型转换到 API 服务

llama.cpp 是一个用 C/C++ 编写的开源项目，核心目标是在消费级硬件（如笔记本电脑 CPU）上以最高效的方式运行大型语言模型。它更像一个专注于最小资源消耗的推理引擎。

量化技术可以在不明显损失效果的前提下，将模型文件大小和加载速度优化到极致。

llama.cpp 的源码托管在 GitHub 上，首先将其克隆到本地。打开终端执行以下命令：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

进入项目目录后，直接运行 make 命令进行编译。Makefile 会自动检测系统硬件架构并进行优化编译。编译完成后，目录下会生成几个关键的可执行文件：

如果编译失败，通常是缺少基础的构建工具（如 gcc、make），根据系统提示安装即可。

llama.cpp 支持多种模型格式，最通用且推荐的是 GGUF 格式。这是一种专为高效推理设计的模型文件格式。

可在 Hugging Face 网站上搜索感兴趣的模型并加上'GGUF'关键词过滤。例如搜索'Llama-2-7b-chat GGUF'。找到合适的模型仓库后，建议在网页上直接下载 GGUF 模型文件，而不是用 git clone 克隆整个仓库，以避免 Git LFS 导致文件不完整的问题。

下载好的 .gguf 文件，建议放在项目根目录下的 models 文件夹里。

更多推荐文章