llama.cpp 量化大模型部署与运行指南

llama.cpp 的安装编译、GPU 加速配置、GGUF 模型获取、命令行运行及 API 服务启动方法。涵盖 Linux/macOS/Windows 环境准备，CUDA/Metal/OpenCL 后端开启，以及 Python 集成示例。同时提供常见编译错误（如 BLAS）的排查方案，并建议通过 Docker 简化部署流程。

PentesterX发布于 2026/4/6更新于 2026/7/2354 浏览

跑量化模型，llama.cpp 基于 C/C++ 实现，支持 CPU+GPU 量化推理，命令行参数精细，适合 GGUF 格式模型。本文介绍安装、运行全过程及常见问题排查。

一、什么是 llama.cpp？为什么它如此重要？

llama.cpp 的核心思想是让大模型运行在普通人的消费级硬件上。它通过以下关键技术实现了这一目标：

C/C++ 实现：没有复杂的 Python 依赖，编译后即是原生可执行文件，性能极高。
模型量化 (Quantization)：将模型权重从传统的 32 位或 16 位浮点数，压缩成更小的整数（如 4 位、5 位）。这使得模型文件大小和内存占用都减少数倍，而对模型性能的影响却很小。
GGUF 格式：一种专为 llama.cpp 设计的模型文件格式，将模型结构和量化后的权重打包在一起，方便分发和加载。
硬件优化：充分利用现代 CPU 的向量指令集（如 AVX2）和 GPU 的并行计算能力（如 Apple Metal, NVIDIA CUDA），实现惊人的推理速度。

01.第一步：环境准备与基础编译

首先，我们需要安装编译 llama.cpp 所需的基础工具。

macOS: 打开终端 (Terminal)，运行 xcode-select --install。
Linux (Ubuntu/Debian): 运行 sudo apt update && sudo apt install build-essential git cmake。
Windows: 安装 Git for Windows, CMake, 以及带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition。

然后，克隆项目仓库：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

在进行下一步编译之前，我们先来了解如何开启 GPU 加速。

02.第二步：开启 GPU 加速（核心步骤）

默认情况下，llama.cpp 只使用 CPU。要发挥硬件的最大潜力，你需要在编译时明确告诉它使用哪个 GPU 后端。

编译命令详解

llama.cpp 使用 cmake 进行编译。开启 GPU 支持的关键是在 cmake 命令后附加 -D 标志。

**对于 AMD/Intel GPU 用户 (使用 OpenCL 或 Vulkan):**这是一个更通用的选项，但性能可能不如官方支持的 CUDA 和 Metal。

# 使用 OpenCL
cmake -B build -DLLAMA_CLBLAST=ON
cmake --build build --config Release -j

**对于 NVIDIA GPU 用户 (使用 CUDA):**你需要先安装 NVIDIA CUDA Toolkit。安装后，执行：

cmake -B build -DLLAMA_CUDA=ON
cmake --build build --config Release -j

对于 Apple Silicon (M1/M2/M3/M4) 用户 (使用 Metal):

cmake -B build -DLLAMA_METAL=ON
cmake --build build --config Release -j

这会开启 Apple 的 Metal 图形和计算框架，性能极佳。

编译成功后，生成的 llama-cli 和 server 等工具就具备了 GPU 加速的能力。

若编译报错，可参考相关 Issue 解决方案，例如在 RHEL 系统中可能需要升级 GCC 或修改 CMakeLists.txt。

如何控制 CPU 和 GPU 的使用？

llama.cpp 通过一个核心参数来控制模型有多少层被'卸载'到 GPU 上运行：

跑量化模型，llama.cpp 基于 C/C++ 实现，支持 CPU+GPU 量化推理，命令行参数精细，适合 GGUF 格式模型。本文介绍安装、运行全过程及常见问题排查。

一、什么是 llama.cpp？为什么它如此重要？

llama.cpp 的核心思想是让大模型运行在普通人的消费级硬件上。它通过以下关键技术实现了这一目标：

C/C++ 实现：没有复杂的 Python 依赖，编译后即是原生可执行文件，性能极高。
模型量化 (Quantization)：将模型权重从传统的 32 位或 16 位浮点数，压缩成更小的整数（如 4 位、5 位）。这使得模型文件大小和内存占用都减少数倍，而对模型性能的影响却很小。
GGUF 格式：一种专为 llama.cpp 设计的模型文件格式，将模型结构和量化后的权重打包在一起，方便分发和加载。
硬件优化：充分利用现代 CPU 的向量指令集（如 AVX2）和 GPU 的并行计算能力（如 Apple Metal, NVIDIA CUDA），实现惊人的推理速度。

01.第一步：环境准备与基础编译

首先，我们需要安装编译 llama.cpp 所需的基础工具。

macOS: 打开终端 (Terminal)，运行 xcode-select --install。
Linux (Ubuntu/Debian): 运行 sudo apt update && sudo apt install build-essential git cmake。
Windows: 安装 Git for Windows, CMake, 以及带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition。

然后，克隆项目仓库：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

在进行下一步编译之前，我们先来了解如何开启 GPU 加速。

02.第二步：开启 GPU 加速（核心步骤）

默认情况下，llama.cpp 只使用 CPU。要发挥硬件的最大潜力，你需要在编译时明确告诉它使用哪个 GPU 后端。

编译命令详解

llama.cpp 使用 cmake 进行编译。开启 GPU 支持的关键是在 cmake 命令后附加 -D 标志。

**对于 AMD/Intel GPU 用户 (使用 OpenCL 或 Vulkan):**这是一个更通用的选项，但性能可能不如官方支持的 CUDA 和 Metal。

# 使用 OpenCL
cmake -B build -DLLAMA_CLBLAST=ON
cmake --build build --config Release -j

**对于 NVIDIA GPU 用户 (使用 CUDA):**你需要先安装 NVIDIA CUDA Toolkit。安装后，执行：

cmake -B build -DLLAMA_CUDA=ON
cmake --build build --config Release -j

对于 Apple Silicon (M1/M2/M3/M4) 用户 (使用 Metal):

cmake -B build -DLLAMA_METAL=ON
cmake --build build --config Release -j

这会开启 Apple 的 Metal 图形和计算框架，性能极佳。

编译成功后，生成的 llama-cli 和 server 等工具就具备了 GPU 加速的能力。

若编译报错，可参考相关 Issue 解决方案，例如在 RHEL 系统中可能需要升级 GCC 或修改 CMakeLists.txt。

如何控制 CPU 和 GPU 的使用？

llama.cpp 通过一个核心参数来控制模型有多少层被'卸载'到 GPU 上运行：

分类	参数	解释
模型加载	`-m, --model <path>`	(必需) 指定本地 GGUF 模型文件路径。
	`-hf, --hf-repo <repo>`	从 Hugging Face Hub 加载模型，例如 `ggml-org/gemma-2-9b-it-GGUF`。
硬件与性能	`-ngl, --n-gpu-layers <N>`	(最重要) 将模型的 N 层卸载到 GPU。
	`-t, --threads <N>`	使用的 CPU 线程数。
	`-b, --batch-size <N>`	提示词处理的批处理大小，可以影响速度。
	`--mlock`	将模型锁定在内存中，防止被交换到硬盘，对性能有益。
上下文管理	`-c, --ctx-size <N>`	上下文窗口大小（单位：token）。模型能'记住'的对话长度。
	`--prompt-cache <file>`	将处理过的提示词缓存到文件，下次加载相同提示词时会更快。
生成控制	`-n, --n-predict <N>`	模型一次最多生成的 token 数量。设为 `-1` 表示无限生成。
	`--temp <value>`	温度。控制随机性。值越低（如 0.2）回答越确定；越高（如 1.2）越有创意。
	`--top-k <N>`	Top-K 采样。在每一步，模型只从概率最高的 K 个词中选择。
	`--top-p <value>`	Top-P (Nucleus) 采样。从累积概率超过 P 的最小词集中选择。通常比 Top-K 效果更好。
	`--repeat-penalty <value>`	重复惩罚。大于 1 的值会惩罚重复出现的词，有效减少复读。常用 `1.1`。
交互与提示词	`-p, --prompt <text>`	初始提示词。
	`-f, --file <path>`	从文件加载初始提示词。
	`-i, --interactive`	进入交互模式，可以持续对话。
	`-r, --reverse-prompt <text>`	在交互模式下，指定用户的输入提示符，例如 `-r "User:"`。
	`--color`	让输出带上颜色，区分用户和模型的输入。

llama.cpp 量化大模型部署与运行指南

一、什么是 llama.cpp？为什么它如此重要？

01.第一步：环境准备与基础编译

02.第二步：开启 GPU 加速（核心步骤）

编译命令详解

如何控制 CPU 和 GPU 的使用？

llama.cpp 量化大模型部署与运行指南

一、什么是 llama.cpp？为什么它如此重要？

01.第一步：环境准备与基础编译

02.第二步：开启 GPU 加速（核心步骤）

编译命令详解

如何控制 CPU 和 GPU 的使用？

更多推荐文章

相关免费在线工具

03.第三步：获取 GGUF 模型

方式一：手动下载 (推荐，更稳定)

方式二：从 Hugging Face 直接加载 (方便快捷)

方式三：ModelScope

04.第四步：运行模型与参数深度解析

1. 基础运行示例（GPU 加速）

2. 更多实用示例 (来自官方 README)

3. Web UI 与 OpenAI 兼容 API (server)

4. llama-cli 核心参数深度解析

05.第五步：Python 集成（带 GPU 加速）

06.第六步：常见问题排查 (Troubleshooting)

问题：编译时提示'BLAS not found'

更多推荐文章

相关免费在线工具

llama.cpp 量化大模型部署与运行指南

一、什么是 llama.cpp？为什么它如此重要？

01.第一步：环境准备与基础编译

02.第二步：开启 GPU 加速（核心步骤）

编译命令详解

如何控制 CPU 和 GPU 的使用？

llama.cpp 量化大模型部署与运行指南

一、什么是 llama.cpp？为什么它如此重要？

01.第一步：环境准备与基础编译

02.第二步：开启 GPU 加速（核心步骤）

编译命令详解

如何控制 CPU 和 GPU 的使用？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

03.第三步：获取 GGUF 模型

方式一：手动下载 (推荐，更稳定)

方式二：从 Hugging Face 直接加载 (方便快捷)

方式三：ModelScope

04.第四步：运行模型与参数深度解析

1. 基础运行示例（GPU 加速）

2. 更多实用示例 (来自官方 README)

3. Web UI 与 OpenAI 兼容 API (server)

4. llama-cli 核心参数深度解析

05.第五步：Python 集成（带 GPU 加速）

06.第六步：常见问题排查 (Troubleshooting)

问题：编译时提示'BLAS not found'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具