Llama 3-8B-Instruct 在昇腾 NPU 上基于 SGLang 的性能实测

Ascend NPU 结合 SGLang 框架对 Llama 3-8B-Instruct 进行了全方位性能评估。测试覆盖吞吐量、延迟、显存占用及批量压力场景。结果显示该组合在高并发和长序列生成下具备显著优势，能有效降低单 token 延迟并提升整体吞吐，适合企业级大模型推理部署。

asphyx_a发布于 2026/3/30更新于 2026/4/251 浏览

引言

大模型落地应用时，推理硬件的效率往往是关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借高算力和对 SGLang 的深度优化，为大规模推理提供了新的选择。本文以 Llama 3-8B-Instruct 为例，通过实际部署与测试，分析其在吞吐量、延迟及资源利用上的表现，并分享一些优化思路。

环境准备

搭建开发环境是第一步。我们采用 Ubuntu 22.04 系统，配置 Python 3.11，并安装 CANN 8.2 和 SGLang 依赖。这种组合能直接兼容昇腾与 SGLang 的开发需求。

启动环境后，建议先确认硬件状态是否正常。使用 npu-smi info 指令查询 NPU 的硬件信息和运行状态，确保没有异常报错后再进行后续操作。同时检查 Python 版本及 SGLang 是否成功加载：

import sglang
print(f'SGLang Version: {sglang.__version__} is ready and loaded!')

模型加载与引擎初始化

Llama 3-8B 参数量适中，既能保证生成质量，又不会给硬件带来过大压力，非常适合在专用推理硬件上进行性能测试。SGLang 的编译器优化能力（如算子融合、内存布局优化）能充分发挥昇腾 NPU 在矩阵运算和多核并行方面的优势。

首次运行时若本地无模型，脚本会自动下载并缓存；后续则直接加载本地权重即可。创建一个 load.py 文件来管理模型加载逻辑：

import os
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

home_dir = os.path.expanduser("~")
model_dir = os.path.join(home_dir, "models/Llama-3-8B")

if not os.path.exists(model_dir):
    print(f"Downloading model to {model_dir}...")
    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    print("Download complete")
else:
    print("Local model detected, loading...")
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForCausalLM.from_pretrained(
        model_dir, 
        torch_dtype=torch.float16, 
        device_map="auto"
    )

# 简单测试推理
inputs = tokenizer("This is a test.", return_tensors="pt").to(model.device)
 torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=)
    (tokenizer.decode(outputs[], skip_special_tokens=))

引言

环境准备

搭建开发环境是第一步。我们采用 Ubuntu 22.04 系统，配置 Python 3.11，并安装 CANN 8.2 和 SGLang 依赖。这种组合能直接兼容昇腾与 SGLang 的开发需求。

import sglang
print(f'SGLang Version: {sglang.__version__} is ready and loaded!')

模型加载与引擎初始化

首次运行时若本地无模型，脚本会自动下载并缓存；后续则直接加载本地权重即可。创建一个 load.py 文件来管理模型加载逻辑：

import os
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

home_dir = os.path.expanduser("~")
model_dir = os.path.join(home_dir, "models/Llama-3-8B")

if not os.path.exists(model_dir):
    print(f"Downloading model to {model_dir}...")
    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B", cache_dir=model_dir)
    print("Download complete")
else:
    print("Local model detected, loading...")
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForCausalLM.from_pretrained(
        model_dir, 
        torch_dtype=torch.float16, 
        device_map="auto"
    )

# 简单测试推理
inputs = tokenizer("This is a test.", return_tensors="pt").to(model.device)
 torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=)
    (tokenizer.decode(outputs[], skip_special_tokens=))

Llama 3-8B-Instruct 在昇腾 NPU 上基于 SGLang 的性能实测

引言

环境准备

模型加载与引擎初始化

Llama 3-8B-Instruct 在昇腾 NPU 上基于 SGLang 的性能实测

引言

环境准备

模型加载与引擎初始化

更多推荐文章

相关免费在线工具

性能基准测试

吞吐量与延迟

显存占用

批量压力测试

总结

更多推荐文章

相关免费在线工具

Llama 3-8B-Instruct 在昇腾 NPU 上基于 SGLang 的性能实测

引言

环境准备

模型加载与引擎初始化

Llama 3-8B-Instruct 在昇腾 NPU 上基于 SGLang 的性能实测

引言

环境准备

模型加载与引擎初始化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能基准测试

吞吐量与延迟

显存占用

批量压力测试

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具