1. 先把环境搭起来
llama.cpp 是个用 C/C++ 写的轻量级推理引擎,常见用法是把 Hugging Face 上的模型转成 GGUF,再在本地机器上跑推理。它的特点很直接:不追求花哨,胜在能落地,Mac Apple Silicon、Windows/Linux 的 CPU,以及带 NVIDIA 显卡的机器都能接。
硬件路径大致就三种:纯 CPU、苹果机器上的 Metal、NVIDIA CUDA。软件层面主要是编译工具链。Linux 和 macOS 用户通常直接用系统终端和包管理器就够了;Windows 我更建议走 WSL2,省掉不少原生环境里反复踩坑的时间。
无论选哪条路,先确认编译工具链在不在。终端里跑一下
gcc --version或clang --version,没有的话再补。Ubuntu 上装build-essential,macOS 直接xcode-select --install。
2. 编译 llama.cpp:按机器来,不要一把梭
拿到源码之后,最好先别急着跑模型,先把二进制编出来。llama.cpp 的编译方式不算复杂,但不同硬件对应的参数不一样,照着机器选,比默认全开更稳。
2.1 拉代码和准备依赖
先克隆仓库:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
然后把基础依赖补齐。make 在 Linux 上一般已经有了,macOS 装了 Xcode Command Line Tools 也会带上。再装上 cmake 和 pkg-config:
# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config
2.2 CPU 版本编译:最省心,也最通用
如果只是想先把流程跑通,CPU 版本是最稳的起点。它不依赖额外图形接口,基本所有机器都能编。
make
这条命令会自动根据当前环境生成可执行文件,比如 main、llama-cli、llama-server 等。编完后可以用 ./llama-cli -h 看看是否正常。没有 GPU 的机器到这里就够用了,只是速度通常不会太快;如果机器上有可用的加速单元,再往下走会更划算。
2.3 Metal 版本编译:Apple Silicon 上该开的就开
如果你用的是 M1、M2、M3 这类 Apple Silicon,Metal 值得启用。它能把一部分计算压到集成 GPU 上,实际体验通常比纯 CPU 好一截。编译时需要显式打开 Metal 支持。

