llama.cpp 多环境部署指南：从 CPU 到 CUDA/Metal 的高效推理实践

对于希望在本地运行大模型的用户，llama.cpp 是一个轻量级推理引擎选项。它用 C/C++ 编写，能将 Hugging Face 上的 GGUF 格式模型在 Mac、Windows 或 Linux 上流畅运行。

本文介绍从环境准备到跨平台高效推理的完整流程。重点分享在不同硬件（CPU、Apple Metal、NVIDIA CUDA）下的部署差异及性能调优。无需 C++ 专家背景，跟随步骤操作即可搭建离线大模型助手。

硬件支持包括纯 CPU、Apple Metal（Apple Silicon）以及 NVIDIA CUDA。软件栈围绕 llama.cpp 编译环境构建。Linux 和 macOS 用户可使用系统终端和包管理器。Windows 用户推荐使用 WSL2 提供原生 Linux 环境。

注意：确保系统有基础编译工具链。输入 gcc --version 或 clang --version 检查，若无则安装。

获取源代码后，需根据硬件环境编译生成可执行文件。

克隆仓库并准备编译工具：

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp

安装 make、cmake 和 pkg-config：

# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config

CPU 版本不依赖特殊图形 API，完全依靠中央处理器计算。编译命令如下：

make

编译完成后运行 ./llama-cli -h 确认。若机器无 GPU，此版本已足够，但速度相对较慢。

如果你用的是搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac，Metal Performance Shaders (MPS) 是性能利器。它允许计算任务直接跑在强大的集成 GPU 上。编译时，我们需要显式地启用 Metal 支

更多推荐文章