Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1.引言

随着大模型在各类智能应用中的广泛应用，高效的推理硬件成为关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借其高算力、低能耗以及对 SGLang 的深度优化，能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例，通过在昇腾 NPU 上的实测，展示其在吞吐量、延迟和资源利用方面的优势，并探索可行的优化策略，为开发者在今后的开发中提供可参考的案例。

本文采用云端开发环境进行实战，支持 Python、SGLang 及昇腾 NPU 相关依赖，无需本地复杂环境配置即可直接运行代码和进行实验。

2.实验环境与准备

2.1 实验环境准备

进入开发平台后选择对应的开发环境配置：

计算类型选 NPU（使用 Atlas 800T，搭配 32v CPU+64GB 内存），适合大模型推理/训练；
容器镜像是 ubuntu22.04+Python3.11+CANN8.2+SGLang，直接兼容昇腾 + SGLang 的开发需求；

启动环境后进入控制台，使用 npu-smi info 指令查询 NPU 的硬件信息和运行状态，确保开发环境正常。

使用 python3 --version 查看 python 版本：

使用 python3 -c "import sglang; print(f'SGLang Version: {sglang.__version__} is ready and loaded!')" 指令查看 SGLang 是否安装好。

2.2 模型加载

在进行 Llama 3-8B 的推理前，需要先确保模型已在本地可用。选择 Llama 3-8B 主要基于以下考虑：其参数量适中，既能保证生成质量，又不会对硬件提出过高要求，非常适合在专用推理硬件上进行性能测试和优化。

对于 SGLang 来说，Llama 3-8B 的结构与算子类型能够充分发挥其编译器优化能力，包括算子融合、内存布局优化和流水线调度等，从而提升推理效率。昇腾 NPU 在矩阵运算、张量处理以及多核并行方面具备显著优势，能够高效执行 Llama 3-8B 的计算图，实现低延迟、高吞吐的推理性能。

首次运行时，如果本地没有模型，会自动下载并缓存；以后直接加载本地模型即可。

创建一个 load.py 文件：

import os
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 设置本地模型存储路径
home_dir = os.path.expanduser("~")
model_dir = os.path.join(home_dir, "models/Llama-3-8B")

# 判断模型是否已经存在
if not os.path.exists(model_dir):
    print(f"Downloading model to {model_dir}...")
    # 下载 tokenizer 和模型权重
    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    print("Download complete")
else:
    ()
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype=torch.float16, device_map=)


inputs = tokenizer(, return_tensors=).to(model.device)
 torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=)
(tokenizer.decode(outputs[], skip_special_tokens=))

批量大小（batch_size）	序列长度（seq_len）	延迟（latency）(秒)	吞吐量（throughput）(tokens / 秒)	说明
1	128	1.024	125	小批量下性能较低
2	128	0.554	462.5	批量提升后性能开始优化
4	128	0.288	1775	性能明显提升
8	128	0.147	6950	延迟进一步降低，吞吐量大幅增长
16	128	0.074	27500

import torch import torch_npu import time from transformers import AutoTokenizer, AutoModelForCausalLM # =============================== # 模型加载 # =============================== model_name = "/path/to/your/model" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, device_map="npu" # 在 Ascend NPU 上推理 ) model.eval() # =============================== # 测试配置 # =============================== batch_sizes = [1, 2, 4, 8, 16] # 模拟不同批量大小 seq_lengths = [64, 128, 256] # 模拟不同生成长度 num_iters = 10 # 每种配置生成轮次 prompt = "Describe the architecture and optimization of Ascend NPU." # =============================== # 压力测试函数 # =============================== def stress_test(batch_size, seq_len): """执行单次压力测试，返回平均吞吐量和平均延迟""" texts = [prompt] * batch_size inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True).to("npu") # warmup，避免首次生成编译影响计时 for _ in range(3): model.generate(**inputs, max_new_tokens=32) total_tokens = 0 total_latency = 0.0 for _ in range(num_iters): start = time.time() output = model.generate(**inputs, max_new_tokens=seq_len) end = time.time() gen_tokens = (output.shape[-1] - inputs["input_ids"].shape[-1]) * batch_size total_tokens += gen_tokens latency = end - start total_latency += latency avg_latency = total_latency / num_iters avg_throughput = total_tokens / total_latency return avg_latency, avg_throughput # =============================== # 批量 + 长序列压力测试 # =============================== print("Batch, SeqLen, AvgLatency(s), AvgThroughput(tokens/s)") for seq_len in seq_lengths: for bs in batch_sizes: avg_lat, avg_th = stress_test(bs, seq_len) print(f"{bs}, {seq_len}, {avg_lat:.3f}, {avg_th:.2f}") # =============================== # 单 token 延迟分析 # =============================== bs_test = 4 seq_test = 128 inputs = tokenizer([prompt]*bs_test, return_tensors="pt", padding=True, truncation=True).to("npu") output = model.generate(**inputs, max_new_tokens=seq_test) total_tokens = (output.shape[-1] - inputs["input_ids"].shape[-1]) * bs_test start = time.time() _ = model.generate(**inputs, max_new_tokens=seq_test) end = time.time() e2e_latency = end - start per_token_latency = e2e_latency / total_tokens print(f"\nE2E Latency for batch {bs_test}, seq {seq_test}: {e2e_latency:.3f}s") print(f"Per-token Latency: {per_token_latency*1000:.2f} ms/token")

批量大小（Batch）	序列长度（SeqLen）	平均延迟（AvgLatency）(秒)	平均吞吐量（AvgThroughput）(tokens / 秒)
1	64	0.038	1704.22（此配置下吞吐量最优）
2	64	0.078	1646.42
4	64	0.156	1640.38
8	64	0.308	1662.26
16	64	0.615	1665.44
1	128	0.076	1675.37
2	128	0.155	1655.19
4	128	0.309	1657.79
8	128	0.619	1654.24
16	128	1.221	1676.65
1	256	0.157	1631.56（此配置下吞吐量略低）
2	256	0.306	1673.5
4	256	0.616	1662.48
8	256	1.225	1672.28
16	256	2.425	1688.87（大序列 + 大批次下吞吐量仍稳定）

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1.引言

2.实验环境与准备

2.1 实验环境准备

2.2 模型加载

更多推荐文章

相关免费在线工具

3.性能基准测试

3.1 推理吞吐量测试

3.2 推理时延测试

3.3 显存占用测试

3.4 批量吞吐量/时延自动化测试

4.压力测试

5.总结

更多推荐文章

相关免费在线工具

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1.引言

2.实验环境与准备

2.1 实验环境准备

2.2 模型加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.性能基准测试

3.1 推理吞吐量测试

3.2 推理时延测试

3.3 显存占用测试

3.4 批量吞吐量/时延自动化测试

4.压力测试

5.总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具