llama.cpp 多环境部署指南：CPU 到 CUDA/Metal 高效推理

1. 环境准备：从零开始的硬件与软件栈

llama.cpp 是一个用 C/C++ 编写的轻量级推理引擎，能将 Hugging Face 上庞大的模型转换为 GGUF 格式文件，并在本地电脑（Mac Apple Silicon、Windows/Linux CPU 或 NVIDIA GPU）上流畅运行。本文介绍从环境准备到跨平台高效推理的完整流程，重点分享不同硬件下的部署差异及性能调优。

硬件环境主要分为三种：纯 CPU、苹果电脑的 Metal（Apple Silicon M 系列芯片），或者带有 NVIDIA 显卡的电脑。软件栈主要围绕 llama.cpp 的编译环境。对于大多数 Linux 和 macOS 用户，系统自带的终端和包管理器（如 apt、brew）即可。Windows 用户推荐使用 WSL2（Windows Subsystem for Linux），它能提供近乎原生的 Linux 环境。

注意：无论你选择哪种硬件路径，第一步都是确保你的系统有基础的编译工具链。打开终端，输入 gcc --version 或 clang --version 查看，如果没有，就用 sudo apt install build-essential（Ubuntu）或 xcode-select --install（macOS）来安装。

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

拿到 llama.cpp 的源代码后，需要根据硬件环境进行编译，生成最适合机器的可执行文件。

2.1 获取源代码与基础准备

首先克隆仓库：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

接下来需要编译工具 make。通常 Linux 系统已自带，macOS 用户若安装了 Xcode Command Line Tools 也会包含 make。此外还需安装 cmake 和 pkg-config：

# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config

2.2 CPU 版本编译：最通用的起点

CPU 版本兼容性最广，不依赖特殊图形 API，完全依靠中央处理器计算。编译命令如下：

make

该命令会自动检测系统环境，编译出纯 CPU 版本的可执行文件，如 main、llama-cli、llama-server 等。编译完成后，可运行 ./llama-cli -h 确认。对于无 GPU 的用户，此步骤已足够。但 CPU 推理速度相对较慢，若有 GPU 建议继续后续步骤。

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

如果你使用的是搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac，Metal Performance Shaders (MPS) 是性能利器。它允许计算任务直接跑在强大的集成 GPU 上。编译时，我们需要显式地启用 Metal 支持。

llama.cpp 多环境部署指南：CPU 到 CUDA/Metal 高效推理

1. 环境准备：从零开始的硬件与软件栈

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

2.1 获取源代码与基础准备

2.2 CPU 版本编译：最通用的起点

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

llama.cpp 多环境部署指南：CPU 到 CUDA/Metal 高效推理

1. 环境准备：从零开始的硬件与软件栈

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

2.1 获取源代码与基础准备

2.2 CPU 版本编译：最通用的起点

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具