llama.cpp 基准测试与调参实战

本地跑大语言模型，速度问题通常不是'硬件行不行'，而是参数有没有喂对。很多人会碰到这种情况：同一台机器，别人的 tokens/秒 明显更高，自己却一直上不去。llama-bench 的价值就在这里——它把测试流程尽量固定下来，先把基线跑出来，再谈优化，不然很容易把偶然波动当成调参成果。

先看清楚要测什么

llama-bench 主要看两类指标：

PP（Prompt Processing）：提示词处理速度，反映模型吃输入的效率。
TG（Text Generation）：生成速度，直接关系到对话时的体感。

这两个数经常不是一起涨的。某些参数会明显提升 PP，但 TG 没怎么动；也有些配置生成更顺手，处理长上下文却一般。只盯一个指标，很容易调偏。

环境准备和基础跑法

先把 llama.cpp 编出来，生成 llama-bench：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make llama-bench

准备好 GGUF 模型后，可以直接跑默认测试：

./llama-bench -m models/7B/ggml-model-q4_0.gguf

默认输出是 Markdown 表格，里面会给出提示词处理和文本生成的平均速度。示例大概长这样：

model	size	params	backend	ngl	test	t/s
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	pp512	2368.80±93.24
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	tg128	131.42±0.59

llama-bench 还支持几种常见测试方式，够用就行，不必把参数堆得太满：

测试模式	参数组合	适用场景
仅提示词处理	`-p 1024 -n 0`	评估长文档理解性能
仅文本生成	`-p 0 -n 256`	优化对话生成流畅度
混合测试	`-pg 512,128`	模拟实际对话场景

真正影响速度的几个参数

GPU 层分配 `-ngl`

-ngl 基本是最先该试的参数。它决定多少层模型会被卸载到 GPU 上。层数越多，通常越快，但也更容易碰到显存边界。这个参数不是越大越好，顶满之后如果显存吃紧，反而会让测试结果变得不稳定。

./llama-bench -m models/7B/ggml-model-q4_0.gguf -ngl 10,20,30,35

ngl	pp512 t/s	tg128 t/s
10	373.36±2.25	13.45±0.93
35	2400.01±7.72	131.66±0.49

threads	pp64 t/s	tg16 t/s
4	23.18±0.06	12.22±0.07
8	32.29±1.21	16.71±0.66
16	33.52±0.03	15.32±0.05

n_batch	pp1024 t/s
128	1436.51±3.66
1024	2498.61±13.58

格式	参数	应用场景
Markdown	`-o md`	直接嵌入文档
CSV	`-o csv`	Excel 数据透视表分析
JSON	`-o json`	导入 Python 进行可视化
SQL	`-o sql`	存入数据库长期追踪

性能瓶颈	症状	解决方案
GPU 未充分利用	pg t/s 低，GPU 占用<50%	增加 `-ngl` 至 99，完全卸载模型
CPU 线程争用	高线程数时 t/s 下降	减少线程数至 CPU 核心数
内存不足	测试崩溃或卡顿	降低批处理大小，使用更小量化模型

llama.cpp 基准测试与调参实战

llama.cpp 基准测试与调参实战

先看清楚要测什么

环境准备和基础跑法

真正影响速度的几个参数

GPU 层分配 `-ngl`

更多推荐文章

相关免费在线工具

线程数 `-t`

批处理大小 `-b`

多模型和自动化输出

跑基准时别忽略的细节

结语

更多推荐文章

相关免费在线工具

llama.cpp 基准测试与调参实战

llama.cpp 基准测试与调参实战

先看清楚要测什么

环境准备和基础跑法

真正影响速度的几个参数

GPU 层分配 -ngl

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

线程数 -t

批处理大小 -b

多模型和自动化输出

跑基准时别忽略的细节

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

GPU 层分配 `-ngl`

线程数 `-t`

批处理大小 `-b`