Llama-2-7B 在昇腾 NPU 上的性能测评与部署实践

背景与目标

随着大模型国产化部署需求的增加，如何在国产算力上高效运行开源模型成为关键。本文以 Llama-2-7B 为例，在昇腾 NPU 环境中完成从依赖安装到模型部署的全流程落地，并通过多维度测评验证其性能表现。核心目标是提供可复现的部署方案、性能基准数据及硬件选型建议。

昇腾 NPU 基于华为自研达芬奇架构，配合 CANN 架构简化开发，支持量化与混合并行技术，深度兼容开源生态。Llama-2-7B 作为 Meta 开源的 70 亿参数模型，具备优秀的文本生成与推理能力，轻量化设计使其适合多业务场景微调与部署。

环境初始化与资源配置

首先需要在云端或本地搭建昇腾 NPU 开发环境。这里以通用 Notebook 环境为例，确保计算类型为 NPU，并配置足够的 CPU 与内存资源。

激活开发环境：启动 Notebook 实例，选择 NPU 计算类型。
资源规格：建议配置至少 32v CPU、64GB 内存，显存需满足模型加载需求。
终端检查：进入 Terminal 后，确认操作系统、Python、PyTorch 及 torch_npu 的版本兼容性。

# 检查系统版本
cat /etc/os-release
# 检查 Python 版本
python3 --version
# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

依赖安装与环境准备

通过国内镜像源快速安装深度学习所需的工具库，避免网络超时问题。

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

若遇到连接问题，可尝试阿里云或华为云镜像源兜底：

pip install transformers accelerate \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --trusted-host mirrors.aliyun.com

同时设置 Hugging Face 下载源为国内镜像站，加速模型权重获取：

export HF_ENDPOINT=https://hf-mirror.com

基础推理测试

编写简单的推理脚本 llama.py，验证模型加载与基本生成能力。注意处理 Llama 默认无 pad_token 的问题，并正确将模型迁移至 NPU 设备。

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
()

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=
)

()
DEVICE = 
model = model.to(DEVICE)
model.()

()

prompt = 
inputs = tokenizer(prompt, return_tensors=, padding=)
inputs = {k: v.to(DEVICE)  k, v  inputs.items()}

torch.npu.synchronize()
start = time.time()
outputs = model.generate(
    **inputs,
    max_new_tokens=,
    use_cache=,
    cache_implementation=,
    do_sample=,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id
)
torch.npu.synchronize()
end = time.time()

text = tokenizer.decode(outputs[], skip_special_tokens=)
()
()
()

import torch import torch_npu import time import json import pandas as pd from datetime import datetime from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_NAME = "NousResearch/Llama-2-7b-hf" DEVICE = "npu:0" WARMUP_RUNS = 5 TEST_RUNS = 10 PRECISION = "fp16" # 定义测试用例 TEST_CASES = [ {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 50, "batch_size": 1}, {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100, "batch_size": 1}, {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150, "batch_size": 1}, {"场景": "批量推理（batch=2）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 2}, {"场景": "高并发批量（batch=4）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 4}, ] def load_model_and_tokenizer(model_name, precision): print(f"===== 开始加载模型 {model_name} =====") start_load = time.time() tokenizer = AutoTokenizer.from_pretrained(model_name) tokenizer.pad_token = tokenizer.eos_token dtype = torch.float16 if precision == "fp16" else torch.int8 try: model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=dtype, low_cpu_mem_usage=True ).to(DEVICE) except Exception as e: print(f"INT8 精度加载失败，自动 fallback 到 FP16：{str(e)[:50]}") dtype = torch.float16 model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=dtype, low_cpu_mem_usage=True ).to(DEVICE) model.eval() end_load = time.time() mem_used = torch.npu.memory_allocated() / 1e9 print(f"模型加载完成：耗时 {end_load - start_load:.2f} 秒，显存占用 {mem_used:.2f} GB") return model, tokenizer, end_load - start_load, mem_used, str(dtype) def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size): # 构造批量输入 batch_inputs = [prompt] * batch_size inputs = tokenizer( batch_inputs, return_tensors="pt", padding=True if batch_size > 1 else False, truncation=True, max_length=512 ).to(DEVICE) # 预热 print(f"预热中...（{WARMUP_RUNS}次，batch_size={batch_size}）") for _ in range(WARMUP_RUNS): with torch.no_grad(): _ = model.generate( **inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id, use_cache=True, cache_implementation="npu_optimized" ) # 正式测试 latencies = [] print(f"开始正式测试...（{TEST_RUNS}次）") for i in range(TEST_RUNS): torch.npu.synchronize() start = time.time() with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id, use_cache=True, cache_implementation="npu_optimized" ) torch.npu.synchronize() latency = time.time() - start latencies.append(latency) print(f" 第{i+1}次：耗时 {latency:.2f} 秒 | 速度 {max_new_tokens/latency:.2f} tokens/秒") avg_latency = sum(latencies) / len(latencies) std_latency = pd.Series(latencies).std() throughput = max_new_tokens / avg_latency total_throughput = throughput * batch_size mem_peak = torch.npu.max_memory_allocated() / 1e9 return { "平均延迟 (秒)": round(avg_latency, 3), "延迟标准差 (秒)": round(std_latency, 3), "单请求吞吐量 (tokens/秒)": round(throughput, 2), "批量总吞吐量 (tokens/秒)": round(total_throughput, 2), "显存峰值 (GB)": round(mem_peak, 2), "生成长度": max_new_tokens, "batch_size": batch_size } if __name__ == "__main__": model, tokenizer, load_time, load_mem, actual_dtype = load_model_and_tokenizer(MODEL_NAME, PRECISION) results = [] for case in TEST_CASES: print(f"\n===== 开始测试场景：{case['场景']} =====") res = benchmark( prompt=case["输入"], tokenizer=tokenizer, model=model, max_new_tokens=case["生成长度"], batch_size=case["batch_size"] ) res.update({"场景": case["场景"], "输入示例": case["输入"][:50]}) results.append(res) print(f"场景测试完成：{case['场景']} | 批量总吞吐量：{res['批量总吞吐量 (tokens/秒)']:.2f} tokens/秒") df = pd.DataFrame(results) print("\n===== 测试结果概览 =====") print(df[["场景", "batch_size", "单请求吞吐量 (tokens/秒)", "批量总吞吐量 (tokens/秒)"]].to_string())

测评场景	生成长度	实测吞吐量 (tokens/秒)	实测延迟 (秒)
英文短文本生成	50	15.60 ~ 17.40	2.87 ~ 3.26
中文对话	100	16.01 ~ 17.61	5.68 ~ 6.25
代码生成	150	15.69 ~ 17.17	8.74 ~ 9.56
长文本叙事	200	16.42 ~ 17.08	11.71 ~ 12.18
高并发批量 (batch=4)	50	63.33 (总吞吐)	约 3.0

Llama-2-7B 在昇腾 NPU 上的性能测评与部署实践