Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测 | 极客日志

PythonAI算法

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

综述由AI生成Llama 3-8B-Instruct 在昇腾 NPU 上结合 SGLang 框架进行了详细的性能实测。文章涵盖了环境搭建、模型加载、推理引擎配置及多种基准测试方法。测试结果显示，该组合在吞吐量、延迟和显存控制方面表现优异，特别是在大批量并发和长序列生成场景下，NPU 展现出强大的并行计算能力和资源利用率，适合实际生产环境的部署。

人间过客发布于 2026/3/28更新于 2026/6/915 浏览

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1. 引言

随着大模型在各类智能应用中的广泛应用，高效的推理硬件成为关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借其高算力、低能耗以及对 SGLang 的深度优化，能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例，通过在昇腾 NPU 上的实测，展示其在吞吐量、延迟和资源利用方面的优势，并探索可行的优化策略，为开发者在今后的开发中提供可参考的案例。

2. 实验环境与准备

2.1 环境配置

为了快速验证，我们推荐使用云端开发环境或本地搭建昇腾开发栈。这里采用 Ubuntu 22.04 + Python 3.11 + CANN 8.2 + SGLang 的组合，直接兼容昇腾 + SGLang 的开发需求。

启动环境后，使用 npu-smi info 指令查询 NPU 的硬件信息和运行状态，确保开发环境没有任何问题。

检查 Python 版本：

python3 --version

确认 SGLang 安装情况：

python3 -c "import sglang; print(f'SGLang Version: {sglang.version} is ready and loaded!')"

硬件信息以及软件配置确认无误后，即可进入实操环节。

2.2 模型加载

在进行 Llama 3-8B 的推理前，需要先确保模型已在本地可用。选择 Llama 3-8B 主要基于以下考虑：其参数量适中，既能保证生成质量，又不会对硬件提出过高要求，非常适合在专用推理硬件上进行性能测试和优化。

对于 SGLang 来说，Llama 3-8B 的结构与算子类型能够充分发挥其编译器优化能力，包括算子融合、内存布局优化和流水线调度等，从而提升推理效率。昇腾 NPU 在矩阵运算、张量处理以及多核并行方面具备显著优势，能够高效执行 Llama 3-8B 的计算图，实现低延迟、高吞吐的推理性能。

首次运行时，如果本地没有模型，会自动下载并缓存；以后直接加载本地模型即可。

创建一个 load.py 文件：

import os
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 设置本地模型存储路径
home_dir = os.path.expanduser("~")
model_dir = os.path.join(home_dir, "models/Llama-3-8B")

# 判断模型是否已经存在
if not os.path.exists(model_dir):
    print(f"Downloading model to {model_dir}...")
    # 下载 tokenizer 和模型权重
    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    model = AutoModelForCausalLM.from_pretrained(, cache_dir=model_dir)
    ()
:
    ()
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForCausalLM.from_pretrained(
        model_dir,
        torch_dtype=torch.float16,
        device_map=
    )


inputs = tokenizer(, return_tensors=).to(model.device)
 torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=)
    (tokenizer.decode(outputs[], skip_special_tokens=))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# sglang_engine_setup.py
import os
import time
import sglang as sgl

# -----------------------------
# 环境配置
# -----------------------------
os.environ['MAX_JOBS'] = '1'
os.environ['SGLANG_TARGET_BACKEND'] = 'ascend'
MODEL_PATH = os.path.expanduser("~/models/Llama-3-8B")

# -----------------------------
# 初始化 SGLang Engine
# -----------------------------
print("Initializing SGLang Engine (Backend: Ascend)...")
try:
    engine = sgl.Engine(
        model_path=MODEL_PATH,
        tp_size=1,  # 张量并行度，单卡即可
        trust_remote_code=True,  # 允许运行模型自带 Python 代码
        backend="ascend",  # 指定使用昇腾 NPU
        dtype="float16"  # 使用 FP16 精度，节省显存
    )
    print("✅ Engine initialized successfully! NPU memory allocated.\n")
except Exception as e:
    print(f"❌ Engine initialization failed: {e}")
    raise

# inference_function.py
BATCH_SIZE = 4
MAX_NEW_TOKENS = 50

def run_inference(prompts):
    """使用 SGLang Engine 执行推理，返回输出列表"""
    outputs = []
    for prompt in prompts:
        out = engine.generate(prompt, max_new_tokens=MAX_NEW_TOKENS)
        outputs.append(out)
    return outputs

# 测试输入
test_prompts = ["Hello world!"] * BATCH_SIZE
sample_output = run_inference(test_prompts)
print("Sample output:", sample_output[0])

import torch
import torch_npu
from transformers import AutoTokenizer, AutoModelForCausalLM
import time

model_name = "/path/to/your/model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="npu"  # 在 Ascend 上推理
)
model.eval()

prompt = "Describe the architecture of Ascend NPU."
inputs = tokenizer(prompt, return_tensors="pt").to("npu")

# Warmup
for _ in range(5):
    model.generate(**inputs, max_new_tokens=32)

num_iters = 20
total_tokens = 0
start = time.time()

for _ in range(num_iters):
    out = model.generate(**inputs, max_new_tokens=128)
    gen_tokens = out.shape[-1] - inputs["input_ids"].shape[-1]
    total_tokens += gen_tokens

end = time.time()
throughput = total_tokens / (end - start)
print(f"Throughput: {throughput:.2f} tokens/sec")

import torch
import torch_npu
import time
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "/path/to/model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="npu"
)
model.eval()

inputs = tokenizer("Hello, explain NPU.", return_tensors="pt").to("npu")

# Warmup
for _ in range(5):
    model.generate(**inputs, max_new_tokens=16)

# E2E Latency
start = time.time()
output = model.generate(**inputs, max_new_tokens=64)
end = time.time()
latency_ms = (end - start) * 1000
print(f"E2E Latency: {latency_ms:.2f} ms")

# Per-token Latency
input_len = inputs["input_ids"].shape[-1]
output_len = output.shape[-1]
gen_token_count = output_len - input_len
print(f"Per-Token Latency: {latency_ms/gen_token_count:.2f} ms/token")

import torch_npu
# 返回当前 NPU 设备占用情况（单位 Bytes）
allocated = torch_npu.memory.npu_memory_reserved()
cached = torch_npu.memory.npu_memory_allocated()
print(f"Reserved HBM: {allocated/1024/1024:.2f} MB")
print(f"Allocated HBM: {cached/1024/1024:.2f} MB")

npu-smi info

import torch
import torch_npu
import time
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "/path/to/your/model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="npu"
)
model.eval()

def measure(bs=1, seq=128):
    text = "Ascend NPU performance test. " * (seq // 10)
    inputs = tokenizer([text] * bs, return_tensors="pt", padding=True, truncation=True).to("npu")
    
    # warmup
    for _ in range(3):
        model.generate(**inputs, max_new_tokens=32)
    
    start = time.time()
    out = model.generate(**inputs, max_new_tokens=seq)
    end = time.time()
    
    # 统计 tokens
    input_len = inputs["input_ids"].shape[-1]
    output_len = out.shape[-1]
    gen_tokens = (output_len - input_len) * bs
    latency = end - start
    throughput = gen_tokens / latency
    return latency, throughput, gen_tokens

print("batch_size, seq_len, latency(s), throughput(tokens/s)")
for bs in [1, 2, 4, 8, 16]:
    lat, th, tk = measure(bs=bs, seq=128)
    print(f"{bs}, 128, {lat:.3f}, {th:.2f}")

批量大小（batch_size）	序列长度（seq_len）	延迟（latency）(秒)	吞吐量（throughput）(tokens / 秒)	说明
1	128	1.024	125	小批量下性能较低
2	128	0.554	462.5	批量提升后性能开始优化
4	128	0.288	1775	性能明显提升
8	128	0.147	6950	延迟进一步降低，吞吐量大幅增长
16	128	0.074	27500

import torch
import torch_npu
import time
from transformers import AutoTokenizer, AutoModelForCausalLM

# ===============================
# 模型加载
# ===============================
model_name = "/path/to/your/model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="npu"  # 在 Ascend NPU 上推理
)
model.eval()

# ===============================
# 测试配置
# ===============================
batch_sizes = [1, 2, 4, 8, 16]  # 模拟不同批量大小
seq_lengths = [64, 128, 256]  # 模拟不同生成长度
num_iters = 10  # 每种配置生成轮次
prompt = "Describe the architecture and optimization of Ascend NPU."

# ===============================
# 压力测试函数
# ===============================
def stress_test(batch_size, seq_len):
    """执行单次压力测试，返回平均吞吐量和平均延迟"""
    texts = [prompt] * batch_size
    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True).to("npu")
    
    # warmup，避免首次生成编译影响计时
    for _ in range(3):
        model.generate(**inputs, max_new_tokens=32)
    
    total_tokens = 0
    total_latency = 0.0
    
    for _ in range(num_iters):
        start = time.time()
        output = model.generate(**inputs, max_new_tokens=seq_len)
        end = time.time()
        
        gen_tokens = (output.shape[-1] - inputs["input_ids"].shape[-1]) * batch_size
        total_tokens += gen_tokens
        latency = end - start
        total_latency += latency
    
    avg_latency = total_latency / num_iters
    avg_throughput = total_tokens / total_latency
    return avg_latency, avg_throughput

# ===============================
# 批量 + 长序列压力测试
# ===============================
print("Batch, SeqLen, AvgLatency(s), AvgThroughput(tokens/s)")
for seq_len in seq_lengths:
    for bs in batch_sizes:
        avg_lat, avg_th = stress_test(bs, seq_len)
        print(f"{bs}, {seq_len}, {avg_lat:.3f}, {avg_th:.2f}")

# ===============================
# 单 token 延迟分析
# ===============================
bs_test = 4
seq_test = 128
inputs = tokenizer([prompt]*bs_test, return_tensors="pt", padding=True, truncation=True).to("npu")
output = model.generate(**inputs, max_new_tokens=seq_test)
total_tokens = (output.shape[-1] - inputs["input_ids"].shape[-1]) * bs_test

start = time.time()
_ = model.generate(**inputs, max_new_tokens=seq_test)
end = time.time()

e2e_latency = end - start
per_token_latency = e2e_latency / total_tokens

print(f"\nE2E Latency for batch {bs_test}, seq {seq_test}: {e2e_latency:.3f}s")
print(f"Per-token Latency: {per_token_latency*1000:.2f} ms/token")

批量大小（Batch）	序列长度（SeqLen）	平均延迟（AvgLatency）(秒)	平均吞吐量（AvgThroughput）(tokens / 秒)
1	64	0.038	1704.22（此配置下吞吐量最优）
2	64	0.078	1646.42
4	64	0.156	1640.38
8	64	0.308	1662.26
16	64	0.615	1665.44
1	128	0.076	1675.37
2	128	0.155	1655.19
4	128	0.309	1657.79
8	128	0.619	1654.24
16	128	1.221	1676.65
1	256	0.157	1631.56（此配置下吞吐量略低）
2	256	0.306	1673.5
4	256	0.616	1662.48
8	256	1.225	1672.28
16	256	2.425	1688.87（大序列 + 大批次下吞吐量仍稳定）

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1. 引言

2. 实验环境与准备

2.1 环境配置

2.2 模型加载

更多推荐文章

相关免费在线工具

SGLang Engine 配置

构建推理函数

3. 性能基准测试

3.1 推理吞吐量测试

3.2 推理时延测试

3.3 显存占用测试

3.4 批量吞吐量/时延自动化测试

4. 压力测试

5. 总结

更多推荐文章

相关免费在线工具

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1. 引言

2. 实验环境与准备

2.1 环境配置

2.2 模型加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

SGLang Engine 配置

构建推理函数

3. 性能基准测试

3.1 推理吞吐量测试

3.2 推理时延测试

3.3 显存占用测试

3.4 批量吞吐量/时延自动化测试

4. 压力测试

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具