Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

引言

随着大模型应用日益普及，推理硬件的效率成为关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借高算力与低能耗特性，配合 SGLang 的深度优化，能显著提升大模型推理表现。本文以 Llama 3-8B-Instruct 为例，通过实际测试展示其在吞吐量、延迟和资源利用方面的优势，并探讨可行的优化策略。

实验环境与准备

环境配置

搭建开发环境时，建议选用支持 Python 及昇腾依赖的云端或本地容器。核心配置如下：

计算类型：NPU（推荐 Atlas 800T，搭配 32v CPU + 64GB 内存），适合大模型推理与训练。
系统镜像：Ubuntu 22.04 + Python 3.11 + CANN 8.2 + SGLang，确保兼容昇腾与 SGLang 的开发需求。

启动后，首先检查硬件状态与软件版本是否匹配：

# 查询 NPU 硬件信息
npu-smi info

# 确认 Python 版本
python3 --version

# 验证 SGLang 安装
python3 -c "import sglang; print(f'SGLang Version: {sglang.__version__} is ready and loaded!')"

若上述命令无报错，说明基础环境已就绪。

模型加载

Llama 3-8B 参数量适中，既能保证生成质量，又不会给硬件带来过高压力，是测试专用推理硬件的理想选择。SGLang 的编译器优化能力（如算子融合、内存布局优化）在此类模型上能发挥显著效果。

首次运行会自动下载并缓存模型，后续可直接加载本地文件。以下脚本用于处理模型下载与初步测试：

import os
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

home_dir = os.path.expanduser("~")
model_dir = os.path.join(home_dir, "models/Llama-3-8B")

if not os.path.exists(model_dir):
    print(f"Downloading model to {model_dir}...")
    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    print("Download complete")
else:
    print("Local model detected, loading...")
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForCausalLM.from_pretrained(
        model_dir, 
        torch_dtype=torch.float16, 
        device_map="auto"
    )

inputs = tokenizer(, return_tensors=).to(model.device)
 torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=)
(tokenizer.decode(outputs[], skip_special_tokens=))

批量大小	序列长度	延迟 (秒)	吞吐量 (tokens/秒)	说明
1	128	1.024	125	小批量下性能较低
2	128	0.554	462.5	批量提升后开始优化
4	128	0.288	1775	性能明显提升
8	128	0.147	6950	延迟降低，吞吐量增长
16	128	0.074	27500	资源利用率最大化

批量大小	序列长度	平均延迟 (秒)	平均吞吐量 (tokens/秒)
1	64	0.038	1704.22
16	64	0.615	1665.44
1	128	0.076	1675.37
16	128	1.221	1676.65
1	256	0.157	1631.56
16	256	2.425	1688.87

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

引言

实验环境与准备

环境配置

模型加载

更多推荐文章

相关免费在线工具

SGLang Engine 初始化

性能基准测试

推理吞吐量

推理时延

显存占用

批量性能分析

压力测试

总结

更多推荐文章

相关免费在线工具

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

引言

实验环境与准备

环境配置

模型加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

SGLang Engine 初始化

性能基准测试

推理吞吐量

推理时延

显存占用

批量性能分析

压力测试

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具