llama.cpp 多环境部署实战：CPU、Metal 与 CUDA 编译

1. 先把环境搭起来

llama.cpp 是个用 C/C++ 写的轻量级推理引擎，常见用法是把 Hugging Face 上的模型转成 GGUF，再在本地机器上跑推理。它的特点很直接：不追求花哨，胜在能落地，Mac Apple Silicon、Windows/Linux 的 CPU，以及带 NVIDIA 显卡的机器都能接。

硬件路径大致就三种：纯 CPU、苹果机器上的 Metal、NVIDIA CUDA。软件层面主要是编译工具链。Linux 和 macOS 用户通常直接用系统终端和包管理器就够了；Windows 我更建议走 WSL2，省掉不少原生环境里反复踩坑的时间。

无论选哪条路，先确认编译工具链在不在。终端里跑一下 gcc --version 或 clang --version，没有的话再补。Ubuntu 上装 build-essential，macOS 直接 xcode-select --install。

2. 编译 llama.cpp：按机器来，不要一把梭

拿到源码之后，最好先别急着跑模型，先把二进制编出来。llama.cpp 的编译方式不算复杂，但不同硬件对应的参数不一样，照着机器选，比默认全开更稳。

2.1 拉代码和准备依赖

先克隆仓库：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

然后把基础依赖补齐。make 在 Linux 上一般已经有了，macOS 装了 Xcode Command Line Tools 也会带上。再装上 cmake 和 pkg-config：

# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config

2.2 CPU 版本编译：最省心，也最通用

如果只是想先把流程跑通，CPU 版本是最稳的起点。它不依赖额外图形接口，基本所有机器都能编。

make

这条命令会自动根据当前环境生成可执行文件，比如 main、llama-cli、llama-server 等。编完后可以用 ./llama-cli -h 看看是否正常。没有 GPU 的机器到这里就够用了，只是速度通常不会太快；如果机器上有可用的加速单元，再往下走会更划算。

2.3 Metal 版本编译：Apple Silicon 上该开的就开

如果你用的是 M1、M2、M3 这类 Apple Silicon，Metal 值得启用。它能把一部分计算压到集成 GPU 上，实际体验通常比纯 CPU 好一截。编译时需要显式打开 Metal 支持。

llama.cpp 多环境部署实战：CPU、Metal 与 CUDA 编译

1. 先把环境搭起来

2. 编译 llama.cpp：按机器来，不要一把梭

2.1 拉代码和准备依赖

2.2 CPU 版本编译：最省心，也最通用

2.3 Metal 版本编译：Apple Silicon 上该开的就开

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

llama.cpp 多环境部署实战：CPU、Metal 与 CUDA 编译

1. 先把环境搭起来

2. 编译 llama.cpp：按机器来，不要一把梭

2.1 拉代码和准备依赖

2.2 CPU 版本编译：最省心，也最通用

2.3 Metal 版本编译：Apple Silicon 上该开的就开

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具