llama.cpp 安装与使用指南
最近尝试了 llama.cpp 这个开源框架,整理一下安装过程及核心用法,供参考。
llama.cpp 是一个高性能的推理框架,专为在 CPU 和 GPU 上运行 LLaMA 系列及其他兼容 Transformer 模型设计。它的优势在于轻量、跨平台,即便在没有独立显卡的设备上也能跑起来,同时对显存的利用率相当高。
1. 项目介绍
llama.cpp 的核心能力包括:
- 多格式支持:兼容 Q4、Q5、Q8、Q2 等多种量化格式,显著降低显存占用。
- 多后端适配:支持 CPU、GPU(CUDA、Metal、OpenCL、Vulkan)等多种计算后端。
- 接口丰富:提供简单易用的命令行工具(CLI)以及 HTTP 服务接口。
- 模型兼容:支持 Hugging Face 上的大多数主流模型(如 LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等),但需转换为 GGUF 格式。
项目地址:https://github.com/ggerganov/llama.cpp
2. 安装方法
2.1 使用预编译版本(推荐新手)
对于不想折腾环境的用户,直接下载二进制包最省事。
- 前往 Releases 页面下载适配当前系统的压缩包(Windows/Linux/macOS)。
- 解压到目标目录即可。
验证安装是否成功:
./llama-cli --help
2.2 从源代码构建(适合定制化需求)
如果你需要特定功能或想深入理解底层,源码构建是更好的选择。
依赖环境
- 系统:Linux / macOS / Windows WSL
- 工具链:cmake (>= 3.20), make, gcc / clang
- 加速库:CUDA Toolkit(如需 GPU 加速)
构建步骤(Linux / macOS)
# 克隆项目
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 创建构建目录
mkdir build && cd build
# GPU 版本(CUDA)
cmake .. -DLLAMA_CUBLAS=ON
make -j$(nproc)
# CPU 版本
cmake ..
make -j$(nproc)
构建完成后会生成三个主要可执行文件:
llama-cli:命令行推理工具llama-server:HTTP API 服务quantize:模型量化工具

