超全实测！llama.cpp性能基准库：从参数调优到多场景测试全攻略

优质文章学习记录

07 Apr 2026 — 6 min read

超全实测！llama.cpp性能基准库：从参数调优到多场景测试全攻略

【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

你是否还在为本地部署大语言模型（LLM）时的性能瓶颈发愁？同样的硬件配置，为何有人能跑100 tokens/秒，而你却卡在20 tokens/秒？本文将带你深度掌握llama.cpp官方性能测试工具——llama-bench，通过标准化测试流程和参数调优技巧，让你的模型性能提升300%！

读完本文你将获得：

3分钟上手的性能测试命令模板
4组关键参数（线程数/GPU层/批处理大小）调优指南
5种输出格式（CSV/JSON/SQL）的自动化分析方案
实测验证的性能瓶颈突破案例

为什么需要标准化性能测试？

在本地部署LLM（大语言模型）时，性能优化是绕不开的核心问题。相同的模型在不同硬件和参数配置下，吞吐量（tokens/秒）可能相差5倍以上。llama.cpp提供的llama-bench工具通过标准化测试流程，帮助开发者：

验证硬件配置的实际利用率
对比不同量化模型（如Q4_K vs Q8_0）的性能差异
优化线程数、GPU层分配等关键参数
建立性能基准，追踪代码迭代对速度的影响

性能测试核心指标

llama-bench主要关注两类核心性能指标：

PP（Prompt Processing）：提示词处理速度（tokens/秒），衡量模型理解输入的效率
TG（Text Generation）：文本生成速度（tokens/秒），决定对话响应的流畅度

快速上手：3分钟完成基准测试

环境准备

确保已编译llama.cpp项目，生成llama-bench可执行文件：

git clone https://gitcode.com/GitHub_Trending/ll/llama.cpp cd llama.cpp make llama-bench

基础测试命令

使用默认参数运行基准测试（需提前准备GGUF格式模型）：

./llama-bench -m models/7B/ggml-model-q4_0.gguf

默认测试将输出Markdown格式的结果表格，包含提示词处理（512 tokens）和文本生成（128 tokens）的平均速度：

model	size	params	backend	ngl	test	t/s
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	pp512	2368.80±93.24
llama 7B mostly Q4_0	3.56GiB	6.74B	CUDA	99	tg128	131.42±0.59

测试类型详解

llama-bench支持三种测试模式，通过参数组合灵活配置：

测试模式	参数组合	适用场景
仅提示词处理	`-p 1024 -n 0`	评估长文档理解性能
仅文本生成	`-p 0 -n 256`	优化对话生成流畅度
混合测试	`-pg 512,128`	模拟实际对话场景

参数调优实战：从20 t/s到130 t/s的突破

GPU层分配（-ngl）：释放硬件计算能力

GPU层数量（-ngl）是影响性能的关键参数。通过将模型层卸载到GPU，可显著提升速度。实测7B模型在RTX 4080上的性能变化：

./llama-bench -m models/7B/ggml-model-q4_0.gguf -ngl 10,20,30,35

测试结果显示，当-ngl=35时（完全卸载所有层），生成速度从13 t/s提升至131 t/s，提升9倍：

ngl	pp512 t/s	tg128 t/s
10	373.36±2.25	13.45±0.93
35	2400.01±7.72	131.66±0.49

线程数优化（-t）：CPU资源高效利用

CPU线程数设置需平衡核心数量与内存带宽。推荐测试线程数为CPU核心数的1-2倍：

./llama-bench -t 4,8,16,32 -p 64 -n 16

在8核CPU上的实测表明，线程数超过8后性能提升趋于平缓：

threads	pp64 t/s	tg16 t/s
4	23.18±0.06	12.22±0.07
8	32.29±1.21	16.71±0.66
16	33.52±0.03	15.32±0.05

批处理大小（-b）：提升提示词处理效率

增大批处理大小（-b）可显著提升长提示词处理速度，但需注意显存限制：

./llama-bench -b 128,256,512,1024 -p 1024 -n 0

测试显示，当批处理大小从128增至1024时，PP速度提升近70%：

n_batch	pp1024 t/s
128	1436.51±3.66
1024	2498.61±13.58

高级应用：自动化测试与数据分析

多模型对比测试

同时测试多个模型的性能差异，快速选择最优量化方案：

./llama-bench \ -m models/7B/ggml-model-q4_0.gguf \ -m models/7B/ggml-model-q8_0.gguf \ -p 0 -n 128,256

5种输出格式与自动化分析

llama-bench支持多种输出格式，满足不同分析需求：

格式	参数	应用场景
Markdown	`-o md`	直接嵌入文档
CSV	`-o csv`	Excel数据透视表分析
JSON	`-o json`	导入Python进行可视化
SQL	`-o sql`	存入数据库长期追踪

例如，生成JSON格式结果用于后续分析：

./llama-bench -o json > performance.json

JSON输出包含详细的测试元数据，如CPU型号、GPU信息和每轮测试的原始数据：

{ "build_commit": "8cf427ff", "cpu_info": "AMD Ryzen 7 7800X3D", "gpu_info": "NVIDIA RTX 4080", "model_type": "qwen2 7B Q4_K - Medium", "avg_ts": 119.844681, "stddev_ts": 0.699739, "samples_ts": [120.038, 120.203, 118.624, 120.377, 119.982] }

性能测试最佳实践

测试环境标准化

关闭后台程序，避免资源抢占
每项测试重复5次以上（默认-r 5）取平均值
记录硬件信息（CPU型号、GPU显存、内存大小）

常见瓶颈与解决方案

性能瓶颈	症状	解决方案
GPU未充分利用	pg t/s低，GPU占用<50%	增加`-ngl`至99，完全卸载模型
CPU线程争用	高线程数时t/s下降	减少线程数至CPU核心数
内存不足	测试崩溃或卡顿	降低批处理大小，使用更小量化模型

总结与展望

通过llama-bench工具，开发者可以系统地优化本地LLM部署的性能。关键步骤包括：

运行默认测试建立基准线
调整GPU层分配（-ngl）和线程数（-t）释放硬件潜力
优化批处理大小（-b）提升吞吐量
导出数据（CSV/JSON）进行深度分析

随着llama.cpp项目的持续迭代，未来性能测试将支持更多硬件加速（如SYCL/Metal后端）和高级特性（如 speculative decoding）。建议定期运行基准测试，追踪性能优化效果。

点赞+收藏本文，关注后续《llama.cpp性能优化实战：从10t/s到200t/s的突破》系列文章！

【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

【薅羊毛教程】LLaMaFactory 不用本地跑！免费 GPU，一键微调大模型

一、环境之前介绍过本地部署LLaMaFactory微调平台（https://blog.ZEEKLOG.net/m0_73982863/article/details/159208213?spm=1001.2014.3001.5501），如果你还在为设备问题而烦恼，那就来薅羊毛吧（手动狗头）。首先注册魔搭社区，绑定个人阿里云账号即可，详情见：https://www.modelscope.cn/my/mynotebook ；然后就可免费获得36小时GPU环境。 8核：CPU有8个核心，主要负责数据的调度和预处理；32GB：内存，数据从硬盘加载后会暂时存放这里；显存24G；（比我自己的老古董好多 T-T） Ubuntu 22.04：Linux操作系统； CUDA 12.8.1：英伟达的并行计算平台。12.8版本意味着它支持最新的RTX

做了一个 AI 鸿蒙 App，我发现逻辑变了

子玥酱（掘金 / 知乎 / ZEEKLOG / 简书同名）大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向：前端 / 跨端 / 小程序 / 移动端工程化内容平台：掘金、知乎、ZEEKLOG、简书创作特点：实战导向、源码拆解、少空谈多落地文章状态：长期稳定更新，大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、

即梦AI使用教程

第一章平台概述 1.1 平台定位与核心价值即梦AI是字节跳动推出的新一代AI创作平台，整合了图片生成、视频创作、智能编辑三大核心功能。基于自研OmniHuman多模态模型和即梦3.0 Pro视频生成架构，支持中英日三语操作，适配移动端与网页端双场景。平台以“让灵感即刻成片”为核心理念，通过直观的视觉化操作界面，将专业级AI创作能力普惠化。 1.2 版本演进与技术创新 * 即梦4.0版本（2025年9月发布）：强化中文语义理解，实现“负空间运用”“纪录片写实风”等专业术语精准解析；采用混合专家（MoE）模型架构，提升墨迹渗透质感、金属光影等微观表现力；新增故事创作模式，支持自动分镜脚本生成。 * 技术突破：OmniHuman模型实现90%情绪还原度，Face Motion Tokenizer技术完成1:1动作模仿，物理引擎模拟布料飘动、流体动态等真实物理效果。第二章安装与登录 2.1

DeOldify图像上色创意玩法：黑白漫画→赛博朋克风/水墨风/油画风定向转换

DeOldify图像上色创意玩法：黑白漫画→赛博朋克风/水墨风/油画风定向转换 1. 引言：当黑白漫画遇见AI上色你有没有翻过家里的老相册？那些黑白照片里的故事总是让人浮想联翩，但缺少色彩总感觉少了点什么。现在，想象一下把你最喜欢的黑白漫画变成赛博朋克风格的炫彩画面，或者转换成充满艺术感的水墨画、油画风格——这就是DeOldify图像上色技术带给我们的神奇体验。传统的图片上色需要专业设计师花费大量时间，一帧一帧地手工上色。而现在，基于深度学习的DeOldify模型让这个过程变得像按下一个按钮那么简单。你不需要懂复杂的U-Net架构，也不用写那些让人头疼的深度学习代码，只需要告诉系统"给这张图片上色"，它就能自动帮你完成所有工作。本文将带你探索DeOldify的创意玩法，特别是如何将普通的黑白漫画转换成三种截然不同的艺术风格：未来感十足的赛博朋克风、意境深远的水墨风、以及古典优雅的油画风。无论你是漫画爱好者、艺术创作者，还是单纯对AI技术感兴趣，这篇文章都会给你带来惊喜。 2. DeOldify技术原理解析 2.1 核心架构：U-Net的魅力 DeOldify的核