llama.cpp 量化大模型内网部署与运行实战 | 极客日志

C++AI算法

llama.cpp 量化大模型内网部署与运行实战

llama.cpp 允许在消费级硬件上高效运行量化大模型，利用 C/C++ 实现高性能推理。教程涵盖环境编译、GPU 加速配置、GGUF 模型加载及命令行参数详解，并包含 Python 集成示例与常见编译问题排查，适合本地化部署参考。

佛系玩家发布于 2026/4/11更新于 2026/5/2313 浏览

llama.cpp 量化大模型内网部署与运行实战

跑量化模型，llama.cpp 依然是方便的选择。它基于 C/C++ 实现，性能极高，支持 CPU+GPU 混合推理，命令行参数精细，对 GGUF 格式支持良好。本文将详细介绍安装、运行全过程，并分享一些实际踩坑的经验。

一、什么是 `llama.cpp`？为什么它如此重要？

llama.cpp 的核心思想是让大模型运行在普通人的消费级硬件上。它通过以下关键技术实现了这一目标：

C/C++ 实现：没有复杂的 Python 依赖，编译后即是原生可执行文件，性能极高。
模型量化 (Quantization)：将模型权重从传统的 32 位或 16 位浮点数，压缩成更小的整数（如 4 位、5 位）。这使得模型文件大小和内存占用都减少数倍，而对模型性能的影响却很小。
GGUF 格式：一种专为 llama.cpp 设计的模型文件格式，将模型结构和量化后的权重打包在一起，方便分发和加载。
硬件优化：充分利用现代 CPU 的向量指令集（如 AVX2）和 GPU 的并行计算能力（如 Apple Metal, NVIDIA CUDA），实现惊人的推理速度。

二、环境准备与基础编译

首先，我们需要安装编译 llama.cpp 所需的基础工具。

macOS: 打开终端 (Terminal)，运行 xcode-select --install。
Linux (Ubuntu/Debian): 运行 sudo apt update && sudo apt install build-essential git cmake。
Windows: 安装 Git for Windows, CMake, 以及带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition。

然后，克隆项目仓库：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

在进行下一步编译之前，我们先来了解如何开启 GPU 加速。

三、开启 GPU 加速（核心步骤）

默认情况下，llama.cpp 只使用 CPU。要发挥硬件的最大潜力，你需要在编译时明确告诉它使用哪个 GPU 后端。

编译命令详解

llama.cpp 使用 cmake 进行编译。开启 GPU 支持的关键是在 cmake 命令后附加 -D 标志。

对于 AMD/Intel GPU 用户 (使用 OpenCL 或 Vulkan): 这是一个更通用的选项，但性能可能不如官方支持的 CUDA 和 Metal。

cmake -B build -DLLAMA_CLBLAST=ON
cmake --build build --config Release -j

对于 NVIDIA GPU 用户 (使用 CUDA): 你需要先安装 NVIDIA CUDA Toolkit。安装后，执行：

cmake -B build -DLLAMA_CUDA=ON
cmake --build build --config Release -j

对于 Apple Silicon (M1/M2/M3/M4) 用户 (使用 Metal):

cmake -B build -DLLAMA_METAL=ON
cmake --build build --config Release -j

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

cp llama.cpp/build/bin/llama-* ./models/

modelscope download --model unsloth/gpt-oss-120b

modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir

./build/bin/llama-cli -m ./models/Qwen2-7B-Instruct.Q4_K_M.gguf -ngl 999 --color -c 4096 -n 1024 -p "你好，请详细介绍一下光合作用的过程。"

./build/bin/llama-cli -m ./models/Qwen2-7B-Instruct.Q4_K_M.gguf -ngl 22 --color -c 4096 -n 1024 -p "你好，请详细介绍一下光合作用的过程。"

# -f 指定要测试的文件，-c 指定上下文长度
./build/bin/llama-cli -m ./models/your-model.gguf -f ./path/to/your/test-file.txt -c 2048 --perplexity

# -i 进入交互模式
# -r "User:" 当模型生成 "User:" 时，会停止并等待你的输入
# --in-prefix " " 在你的输入前加上一个空格，防止粘连
./build/bin/llama-cli -m ./models/your-model.gguf -i -r "User:" --in-prefix " " -p "A chat between a user and an assistant.\nUser: Hello!\nAssistant:"

# llama-cli 会自动下载并运行 ggml-org/gemma-2-9b-it-GGUF 模型
./build/bin/llama-cli -hf ggml-org/gemma-2-9b-it-GGUF -p "你好，介绍一下自己。" -n 128

# -m 指定模型，-ngl 指定 GPU 层数，--host 0.0.0.0 允许局域网访问
./build/bin/server -m ./models/your-model.gguf -ngl 35 -c 4096 --host 0.0.0.0 --port 3003

分类	参数	解释
模型加载	`-m, --model <path>`	(必需) 指定本地 GGUF 模型文件路径。
	`-hf, --hf-repo <repo>`	从 Hugging Face Hub 加载模型，例如 `ggml-org/gemma-2-9b-it-GGUF`。
硬件与性能	`-ngl, --n-gpu-layers <N>`	(最重要) 将模型的 N 层卸载到 GPU。
	`-t, --threads <N>`	使用的 CPU 线程数。
	`-b, --batch-size <N>`	提示词处理的批处理大小，可以影响速度。
	`--mlock`	将模型锁定在内存中，防止被交换到硬盘，对性能有益。
上下文管理	`-c, --ctx-size <N>`	上下文窗口大小（单位：token）。模型能'记住'的对话长度。
	`--prompt-cache <file>`	将处理过的提示词缓存到文件，下次加载相同提示词时会更快。
生成控制	`-n, --n-predict <N>`	模型一次最多生成的 token 数量。设为 `-1` 表示无限生成。
	`--temp <value>`	温度。控制随机性。值越低（如 0.2）回答越确定；越高（如 1.2）越有创意。
	`--top-k <N>`	Top-K 采样。在每一步，模型只从概率最高的 K 个词中选择。
	`--top-p <value>`	Top-P (Nucleus) 采样。从累积概率超过 P 的最小词集中选择。通常比 Top-K 效果更好。
	`--repeat-penalty <value>`	重复惩罚。大于 1 的值会惩罚重复出现的词，有效减少复读。常用 `1.1`。
交互与提示词	`-p, --prompt <text>`	初始提示词。
	`-f, --file <path>`	从文件加载初始提示词。
	`-i, --interactive`	进入交互模式，可以持续对话。
	`-r, --reverse-prompt <text>`	在交互模式下，指定用户的输入提示符，例如 `-r "User:"`。
	`--color`	让输出带上颜色，区分用户和模型的输入。

from llama_cpp import Llama

# 加载模型
llm = Llama(
    model_path="./models/你的模型文件名.gguf",
    n_ctx=4096,       # 上下文长度
    n_threads=8,      # CPU 线程数
    n_gpu_layers=-1   # -1 表示尝试将所有层都卸载到 GPU
                      # 设为 0 表示纯 CPU
                      # 设为正整数 N 表示卸载 N 层
)

# 创建对话
response = llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": "你好，请介绍一下北京这座城市。"
        }
    ]
)
print(response['choices'][0]['message']['content'])

cmake --build build --config Release -j

# 清理旧的 build 目录
rm -rf build
# 重新配置，并开启 BLAS 支持
cmake -B build -DLLAMA_BLAS=ON
# 如果你同时需要 GPU 加速，可以将标志合并
# 例如，对于 NVIDIA GPU:
# cmake -B build -DLLAMA_CUDA=ON -DLLAMA_BLAS=ON

sudo apt update
sudo apt install libopenblas-dev

llama.cpp 量化大模型内网部署与运行实战

llama.cpp 量化大模型内网部署与运行实战

一、什么是 `llama.cpp`？为什么它如此重要？

二、环境准备与基础编译

三、开启 GPU 加速（核心步骤）

编译命令详解

更多推荐文章

相关免费在线工具

如何控制 CPU 和 GPU 的使用？

四、获取 GGUF 模型

方式一：手动下载 (推荐，更稳定)

方式二：从 Hugging Face 直接加载 (方便快捷)

方式三：ModelScope

五、运行模型与参数深度解析

1. 基础运行示例（GPU 加速）

2. 更多实用示例 (来自官方 README)

3. Web UI 与 OpenAI 兼容 API (`server`)

4. `llama-cli` 核心参数深度解析

六、Python 集成（带 GPU 加速）

七、常见问题排查 (Troubleshooting)

问题：编译时提示'BLAS not found'

更多推荐文章

相关免费在线工具

llama.cpp 量化大模型内网部署与运行实战

llama.cpp 量化大模型内网部署与运行实战

一、什么是 llama.cpp？为什么它如此重要？

二、环境准备与基础编译

三、开启 GPU 加速（核心步骤）

编译命令详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

如何控制 CPU 和 GPU 的使用？

四、获取 GGUF 模型

方式一：手动下载 (推荐，更稳定)

方式二：从 Hugging Face 直接加载 (方便快捷)

方式三：ModelScope

五、运行模型与参数深度解析

1. 基础运行示例（GPU 加速）

2. 更多实用示例 (来自官方 README)

3. Web UI 与 OpenAI 兼容 API (server)

4. llama-cli 核心参数深度解析

六、Python 集成（带 GPU 加速）

七、常见问题排查 (Troubleshooting)

问题：编译时提示'BLAS not found'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

一、什么是 `llama.cpp`？为什么它如此重要？

3. Web UI 与 OpenAI 兼容 API (`server`)

4. `llama-cli` 核心参数深度解析