llama.cpp 性能基准测试与参数调优实战指南 | 极客日志

C++AI算法

llama.cpp 性能基准测试与参数调优实战指南

llama.cpp 的 llama-bench 工具是本地部署大语言模型时的性能优化利器。它提供标准化的测试流程，涵盖 PP（提示词处理）和 TG（文本生成）两大核心指标。通过调整 GPU 层数（-ngl）、线程数（-t）及批处理大小（-b），开发者可显著挖掘硬件潜力，实现吞吐量倍增。工具支持多种输出格式便于自动化分析，配合最佳实践能有效解决 GPU 未利用、CPU 争用等常见瓶颈。定期运行基准测试有助于追踪迭代效果，确保模型在特定硬件上达到最优响应速度。

修罗发布于 2026/4/9更新于 2026/7/2544 浏览

llama.cpp 性能基准测试与参数调优实战指南

在本地部署大语言模型（LLM）时，性能优化往往是绕不开的核心问题。同样的硬件配置，为何有人能跑 100 tokens/秒，而你却卡在 20 tokens/秒？这通常源于参数配置的差异。本文将深入探讨 llama.cpp 官方提供的性能测试工具——llama-bench，通过标准化测试流程和参数调优技巧，帮助开发者挖掘硬件潜力。

为什么需要标准化性能测试？

相同的模型在不同硬件和参数配置下，吞吐量（tokens/秒）可能相差数倍。llama-bench 工具通过标准化的测试流程，帮助开发者验证硬件利用率、对比不同量化模型的性能差异，并优化线程数、GPU 层分配等关键参数。

核心指标

llama-bench 主要关注两类核心性能指标：

PP（Prompt Processing）：提示词处理速度（tokens/秒），衡量模型理解输入的效率。
TG（Text Generation）：文本生成速度（tokens/秒），决定对话响应的流畅度。

快速上手：完成基准测试

环境准备

确保已编译 llama.cpp 项目，生成 llama-bench 可执行文件：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make llama-bench

基础测试命令

使用默认参数运行基准测试（需提前准备好 GGUF 格式模型）：

./llama-bench -m models/7B/ggml-model-q4_0.gguf

默认测试将输出 Markdown 格式的结果表格，包含提示词处理（512 tokens）和文本生成（128 tokens）的平均速度：

model	size	params	backend	ngl	test	t/s
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	pp512	2368.80±93.24
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	tg128	131.42±0.59

测试类型详解

llama-bench 支持三种测试模式，通过参数组合灵活配置：

测试模式	参数组合	适用场景
仅提示词处理	`-p 1024 -n 0`	评估长文档理解性能
仅文本生成	`-p 0 -n 256`	优化对话生成流畅度
混合测试	`-pg 512,128`	模拟实际对话场景

参数调优实战：从瓶颈到突破

GPU 层分配（-ngl）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

./llama-bench -m models/7B/ggml-model-q4_0.gguf -ngl 10,20,30,35

ngl	pp512 t/s	tg128 t/s
10	373.36±2.25	13.45±0.93
35	2400.01±7.72	131.66±0.49

./llama-bench -t 4,8,16,32 -p 64 -n 16

threads	pp64 t/s	tg16 t/s
4	23.18±0.06	12.22±0.07
8	32.29±1.21	16.71±0.66
16	33.52±0.03	15.32±0.05

./llama-bench -b 128,256,512,1024 -p 1024 -n 0

n_batch	pp1024 t/s
128	1436.51±3.66
1024	2498.61±13.58

./llama-bench \
  -m models/7B/ggml-model-q4_0.gguf \
  -m models/7B/ggml-model-q8_0.gguf \
  -p 0 -n 128,256

格式	参数	应用场景
Markdown	`-o md`	直接嵌入文档
CSV	`-o csv`	Excel 数据透视表分析
JSON	`-o json`	导入 Python 进行可视化
SQL	`-o sql`	存入数据库长期追踪

./llama-bench -o json > performance.json

{
  "build_commit": "8cf427ff",
  "cpu_info": "AMD Ryzen 7 7800X3D",
  "gpu_info": "NVIDIA RTX 4080",
  "model_type": "qwen2 7B Q4_K - Medium",
  "avg_ts": 119.844681,
  "stddev_ts": 0.699739,
  "samples_ts": [120.038, 120.203, 118.624, 120.377, 119.982]
}

性能瓶颈	症状	解决方案
GPU 未充分利用	pg t/s 低，GPU 占用<50%	增加 `-ngl` 至 99，完全卸载模型
CPU 线程争用	高线程数时 t/s 下降	减少线程数至 CPU 核心数
内存不足	测试崩溃或卡顿	降低批处理大小，使用更小量化模型

llama.cpp 性能基准测试与参数调优实战指南

llama.cpp 性能基准测试与参数调优实战指南

为什么需要标准化性能测试？

核心指标

快速上手：完成基准测试

环境准备

基础测试命令

测试类型详解

参数调优实战：从瓶颈到突破

GPU 层分配（-ngl）

更多推荐文章

相关免费在线工具

线程数优化（-t）

批处理大小（-b）

高级应用：自动化测试与数据分析

多模型对比测试

输出格式与自动化分析

性能测试最佳实践

测试环境标准化

常见瓶颈与解决方案

总结

更多推荐文章

相关免费在线工具

llama.cpp 性能基准测试与参数调优实战指南

llama.cpp 性能基准测试与参数调优实战指南

为什么需要标准化性能测试？

核心指标

快速上手：完成基准测试

环境准备

基础测试命令

测试类型详解

参数调优实战：从瓶颈到突破

GPU 层分配（-ngl）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

线程数优化（-t）

批处理大小（-b）

高级应用：自动化测试与数据分析

多模型对比测试

输出格式与自动化分析

性能测试最佳实践

测试环境标准化

常见瓶颈与解决方案

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具