Meta-Llama-3-8B-Instruct 推理性能测试：不同 batch size 的影响

引言

随着大语言模型在实际应用中的广泛部署，推理效率与吞吐能力成为决定用户体验和系统成本的关键因素。Meta-Llama-3-8B-Instruct 作为 Llama 3 系列中兼具性能与可部署性的中等规模模型，凭借其 80 亿参数、支持 8k 上下文以及对指令遵循任务的优化，在单卡场景下展现出极强的实用性。

本文聚焦于 vLLM 推理框架下运行 Meta-Llama-3-8B-Instruct 模型时，不同 batch size 对推理延迟、生成速度和显存占用的影响，并通过 Open WebUI 构建完整的对话服务界面，验证其在真实交互场景下的表现。实验环境基于消费级 GPU（如 RTX 3060），旨在为中小型开发者提供可复现、可落地的性能参考。

此外，我们还将展示如何结合 vLLM 与 Open WebUI 快速搭建一个高效、易用的对话系统，并以 DeepSeek-R1-Distill-Qwen-1.5B 为例进行横向体验对比，帮助读者理解不同模型在响应质量与资源消耗之间的权衡。

实验环境与配置

硬件与软件环境

GPU：NVIDIA RTX 3060 12GB
CUDA 版本：12.1
Python：3.10
vLLM：0.4.0.post1
Open WebUI：0.3.8
模型格式：TheBloke/Meta-Llama-3-8B-Instruct-GPTQ（INT4 量化）
上下文长度：8192 tokens
调度策略：Continuous Batching + PagedAttention（vLLM 默认启用）

测试方法设计

为了评估 batch size 的影响，设定以下测试变量：

输入序列长度：固定为 512 tokens
输出序列长度：最大生成 256 tokens
并发请求数：模拟 1~8 个用户同时发送请求
batch size：设置为 1、2、4、8 进行对比
指标采集：
- 首 token 延迟（Time to First Token, TTFT）
- 平均 token 生成延迟（Time per Output Token）
- 总生成时间
- 显存峰值使用量（nvidia-smi 监控）

所有测试重复 5 次取平均值，确保数据稳定性。

不同 batch size 下的性能表现分析

显存占用情况

Batch Size	显存峰值 (GB)
1	7.2
2	7.4
4	7.8
8	8.3

从数据可见，由于 vLLM 使用 PagedAttention 技术实现了高效的 KV Cache 管理，batch size 增加并未导致显存线性增长。即使在 batch=8 时，显存仅增加约 1.1 GB，仍远低于 RTX 3060 的 12 GB 限制，说明该配置下具备良好的扩展潜力。

关键提示：GPTQ-INT4 量化将原始 fp16 模型从 ~16 GB 压缩至 ~4 GB，极大降低了部署门槛，是实现'单卡可跑'的核心技术基础。

Batch Size	TTFT (ms)
1	128
2	142
4	167
8	203

Batch Size	Tpot (ms/token)
1	18
2	15
4	13
8	12

Batch Size	输出 Tokens/sec
1	55.6
2	133.3
4	307.7
8	666.7

维度	Meta-Llama-3-8B-Instruct	DeepSeek-R1-Distill-Qwen-1.5B
参数量	8B	1.5B
显存占用（INT4）	~8.3 GB	~2.1 GB
推理速度（tokens/s）	666（batch=8）	1200（batch=8）
英文问答质量	★★★★★	★★★☆☆
中文理解能力	★★★☆☆（需微调）	★★★★☆
指令遵循能力	极强，接近 GPT-3.5	一般，偶有忽略约束
代码生成能力	HumanEval 45+	未公开，实测较弱
上下文长度	8k	32k

Meta-Llama-3-8B-Instruct 推理性能测试：不同 batch size 的影响