Llama-2-7b 昇腾 NPU 部署与性能测评实战

背景与目标

随着大模型国产化需求的增加，如何在国产算力上高效部署开源模型成为关键。本文以 Llama-2-7B 为例，在昇腾 NPU 环境中完成从依赖安装到模型部署的全流程落地，并通过多维度测试验证其性能表现：单请求吞吐量稳定在 15.6-17.6 tokens/秒，batch=4 时总吞吐量达 63.33 tokens/秒，16GB 显存即可支撑高并发。我们提供可复现的部署方案、性能基准数据及硬件选型建议，助力高效落地国产算力大模型应用。

昇腾 NPU 基于华为自研达芬奇架构，通过 CANN 架构简化开发，支持量化与混合并行技术，深度兼容开源生态。Llama-2-7B 作为 Meta 开源的 70 亿参数模型，文本生成与推理能力优异，轻量化设计使其部署灵活，适合微调定制适配多业务场景。

环境初始化与资源配置

首先，我们需要搭建好昇腾 NPU 的运行环境。确保操作系统、Python、PyTorch 及昇腾 NPU 适配库 torch_npu 的版本兼容，这是任务顺利运行的基础。

检查核心配置

进入终端后，先确认一下当前环境的版本信息：

# 检查系统版本
cat /etc/os-release
# 检查 Python 版本
python3 --version
# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

依赖安装

为了加速国内网络环境下的下载，建议使用镜像源安装深度学习所需的工具库和硬件加速配置工具，如 transformers 和 accelerate。

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

如果遇到连接超时或 404 错误，可以尝试切换阿里云或华为云源，或者升级 pip 后重试。

模型加载与推理测试

接下来编写一个简单的推理脚本 llama.py。这里需要注意，Llama-2 默认没有 pad_token，需要在代码中手动补充，否则批量推理时会报错。

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# 补充 pad_token，避免推理报错
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)

()
model = model.npu()
model.()

()


prompt = 
inputs = tokenizer(prompt, return_tensors=)
inputs = {k: v.npu()  k, v  inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=)
end = time.time()

text = tokenizer.decode(outputs[])
()
()
()

import torch import torch_npu import time import json import pandas as pd from datetime import datetime from transformers import AutoModelForCausalLM, AutoTokenizer # 全局配置 MODEL_NAME = "NousResearch/Llama-2-7b-hf" DEVICE = "npu:0" WARMUP_RUNS = 5 TEST_RUNS = 10 PRECISION = "fp16" # 加载模型函数 def load_model_and_tokenizer(model_name, precision): print(f"===== 开始加载模型 {model_name}（精度：{precision}） =====") start_load = time.time() tokenizer = AutoTokenizer.from_pretrained(model_name) tokenizer.pad_token = tokenizer.eos_token dtype = torch.float16 if precision == "fp16" else torch.int8 try: model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=dtype, low_cpu_mem_usage=True ).to(DEVICE) except Exception as e: print(f"INT8 精度加载失败，自动 fallback 到 FP16：{str(e)[:50]}") dtype = torch.float16 model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=dtype, low_cpu_mem_usage=True ).to(DEVICE) model.eval() end_load = time.time() load_time = end_load - start_load mem_used = torch.npu.memory_allocated() / 1e9 print(f"模型加载完成：耗时 {load_time:.2f} 秒，显存占用 {mem_used:.2f} GB") return model, tokenizer, load_time, mem_used, str(dtype) # 性能测试核心函数 def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size): # 构造批量输入 batch_inputs = [prompt] * batch_size padding_mode = 'do_not_pad' if batch_size == 1 else True inputs = tokenizer( batch_inputs, return_tensors="pt", padding=padding_mode, truncation=True, max_length=512 ).to(DEVICE) # 预热 print(f"预热中...（{WARMUP_RUNS}次，batch_size={batch_size}）") for _ in range(WARMUP_RUNS): with torch.no_grad(): _ = model.generate( **inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id, eos_token_id=tokenizer.eos_token_id ) # 正式测试 latencies = [] print(f"开始正式测试...（{TEST_RUNS}次，生成长度={max_new_tokens}）") for i in range(TEST_RUNS): torch.npu.synchronize() start = time.time() with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id, eos_token_id=tokenizer.eos_token_id ) torch.npu.synchronize() end = time.time() latency = end - start latencies.append(latency) print(f" 第{i+1}次：耗时 {latency:.2f} 秒 | 速度 {max_new_tokens/latency:.2f} tokens/秒") avg_latency = sum(latencies) / len(latencies) std_latency = pd.Series(latencies).std() throughput = max_new_tokens / avg_latency total_throughput = throughput * batch_size mem_peak = torch.npu.max_memory_allocated() / 1e9 return { "平均延迟 (秒)": round(avg_latency, 3), "延迟标准差 (秒)": round(std_latency, 3), "单请求吞吐量 (tokens/秒)": round(throughput, 2), "批量总吞吐量 (tokens/秒)": round(total_throughput, 2), "显存峰值 (GB)": round(mem_peak, 2), "生成长度": max_new_tokens, "batch_size": batch_size }

Llama-2-7b 昇腾 NPU 部署与性能测评实战