llama-bench 实战：本地大模型性能调优完全指南 | 极客日志

Shell / BashAI

llama-bench 实战：本地大模型性能调优完全指南

借助 llama.cpp 内置的 llama-bench 工具，可以精确测量本地大模型的提示处理和文本生成速度。通过调整 GPU 层数（-ngl）、线程数（-t）和批处理大小（-b），能显著提升吞吐量，例如完全卸载到 GPU 后生成速度可提升近 10 倍。利用多模型对比和 JSON/CSV 等导出格式，可系统化追踪性能变化，快速定位瓶颈。

编程诗人发布于 2026/6/3更新于 2026/7/13 浏览

跑本地模型的人最后都会问：我这硬件到底能跑多快？llama.cpp 自带的 llama-bench 就是用来回答这个问题的。它能给出精确的 tokens/秒，帮你把硬件利用率压榨到极限。

核心指标就两个：提示词处理速度（PP） 和 文本生成速度（TG）。PP 决定长文档喂入的效率，TG 直接影响对话流畅感。

准备与基础跑分

先编译出 llama-bench：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make llama-bench

有了 GGUF 模型后，直接跑默认测试：

./llama-bench -m models/7B/ggml-model-q4_0.gguf

输出是 Markdown 表格，默认测试提示词处理 512 tokens、文本生成 128 tokens。下面是 RTX 4080 上的典型结果：

model	size	params	backend	ngl	test	t/s
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	pp512	2368.80±93.24
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	tg128	131.42±0.59

t/s 列即 tokens/秒，±后面是多次运行的标准差。

测试模式可以组合：单独测提示处理（-p 1024 -n 0）、单独测生成（-p 0 -n 256），或者模拟真实对话用 -pg 512,128。我习惯先用默认跑一遍摸底，再按自己的典型用例定制参数。

调参三板斧

GPU 层数：最立竿见影的优化

-ngl 控制卸载到 GPU 的层数。如果显存放得下，直接设为 99 一次性卸载所有层。对比一下 7B 模型在 RTX 4080 上的效果：

./llama-bench -m models/7B/ggml-model-q4_0.gguf -ngl 10,20,30,35

ngl	pp512 t/s	tg128 t/s
10	373.36±2.25	13.45±0.93
35	2400.01±7.72	131.66±0.49

从 13 涨到 131 t/s，接近 10 倍提升。所以有 GPU 时，-ngl 99 几乎是我的首选，除非显存不够。

线程数：别贪多

CPU 推理靠多线程，但线程数超过物理核心后，上下文切换反而拖慢速度。在 8 核 CPU 上，可以试试这几个值：

./llama-bench -t 4,8,16,32 -p 64 -n 16

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

threads	pp64 t/s	tg16 t/s
4	23.18±0.06	12.22±0.07
8	32.29±1.21	16.71±0.66
16	33.52±0.03	15.32±0.05

./llama-bench -b 128,256,512,1024 -p 1024 -n 0

n_batch	pp1024 t/s
128	1436.51±3.66
1024	2498.61±13.58

./llama-bench \
  -m models/7B/ggml-model-q4_0.gguf \
  -m models/7B/ggml-model-q8_0.gguf \
  -p 0 -n 128,256

格式	参数	用途
Markdown	`-o md`	直接贴文档
CSV	`-o csv`	拖进 Excel 画图
JSON	`-o json`	用 Python 处理
SQL	`-o sql`	存数据库追踪趋势

./llama-bench -o json > performance.json

{
  "build_commit": "8cf427ff",
  "cpu_info": "AMD Ryzen 7 7800X3D",
  "gpu_info": "NVIDIA RTX 4080",
  "model_type": "qwen2 7B Q4_K - Medium",
  "avg_ts": 119.844681,
  "stddev_ts": 0.699739,
  "samples_ts": [120.038, 120.203, 118.624, 120.377, 119.982]
}

现象	可能原因	对策
GPU 占用低，生成慢	模型层没卸到 GPU	`-ngl 99` 全卸
线程数加高反而慢	上下文切换开销	`-t` 设为核心数
测试直接 OOM	批处理太大或显存不足	降 `-b`，用量化更激进的模型
结果波动大	后台程序干扰	确保没有其他 GPU 进程，多跑几次 `-r 10`

llama-bench 实战：本地大模型性能调优完全指南

准备与基础跑分

调参三板斧

GPU 层数：最立竿见影的优化

线程数：别贪多

更多推荐文章

相关免费在线工具

批处理：提升长上下文吞吐

多模型对比与数据导出

常见坑与解决思路

更多推荐文章

相关免费在线工具

llama-bench 实战：本地大模型性能调优完全指南

准备与基础跑分

调参三板斧

GPU 层数：最立竿见影的优化

线程数：别贪多

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

批处理：提升长上下文吞吐

多模型对比与数据导出

常见坑与解决思路

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具