昇腾 NPU 部署 Llama 2 模型：性能测试与实战优化

面对昂贵的 NVIDIA GPU，许多团队在部署大模型时更倾向于寻找高性价比方案。华为昇腾（Ascend）NPU 凭借自主可控的达芬奇架构和日益完善的软件生态，成为了一个值得关注的选择。本文记录在昇腾 NPU 环境下完成从环境配置、模型部署到性能测试与优化的全过程。

环境搭建

镜像与依赖选择

在云平台创建实例时，计算类型务必选择 NPU。规格方面，1*Ascend 910B (32vCPU, 64GB 内存) 是运行 Llama-2-7B 的甜点配置。

镜像选择至关重要，需预装 CANN 和 PyTorch 适配器。例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook 能省去大量手动配置时间。

验证 NPU 可用性

实例启动后，首先确认系统环境与 Python 版本：

cat /etc/os-release
python3 --version

接着检查 PyTorch 及 torch_npu 插件是否就绪：

pip install --upgrade pip
pip install torch torchvision torchaudio torch-npu

执行以下命令验证：

import torch
import torch_npu
print(f'PyTorch 版本：{torch.__version__}')
print(f'torch_npu 版本：{torch_npu.__version__}')
print(torch.npu.is_available())

注意：直接运行 torch.npu.is_available() 会报错，必须先显式导入 torch_npu 才能注册后端。看到 True 说明环境准备就绪。

模型部署

依赖安装与下载

安装运行 Llama 2 所需的库，建议使用国内镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

访问 Meta 官方仓库需要权限且速度受限，建议直接使用社区镜像版本如 NousResearch/Llama-2-7b-hf。

推理脚本核心逻辑

创建 Python 脚本加载模型并推理。关键点在于设备映射和数据迁移。

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

MODEL_NAME = 
DEVICE = 

()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=
).to(DEVICE)
model.()

prompt = 
inputs = tokenizer(prompt, return_tensors=).to(DEVICE)

 torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[], skip_special_tokens=)

()
()

测试类型	平均延迟	吞吐量
英文生成	4.94s	20.24 tokens/s
中文问答	4.87s	20.55 tokens/s
代码生成	7.24s	20.73 tokens/s

昇腾 NPU 部署 Llama 2 模型：性能测试与实战优化