Llama-2-7B 昇腾 NPU 性能测评与部署方案 | 极客日志

PythonAI算法

Llama-2-7B 昇腾 NPU 性能测评与部署方案

Llama-2-7B 模型在昇腾 NPU 环境下的性能测试与部署实践。通过实测验证，单请求吞吐量稳定在 15.6-17.6 tokens/秒，batch=4 时总吞吐量达 63.33 tokens/秒，显存占用约 16GB。测试覆盖多语言、代码生成及高并发场景，结果显示 NPU 对批量推理支持良好，延迟波动小。提供环境配置、依赖安装、脚本优化及常见问题解决方案，适用于国产化算力大模型落地参考。

1739658202发布于 2026/3/26更新于 2026/7/2028 浏览

Llama-2-7B 昇腾 NPU 性能测评与部署方案

背景与测评目标

本文旨在适配大模型国产化部署需求，以 Llama-2-7b 为对象，在昇腾 NPU 环境中完成从依赖安装到模型部署的全流程落地，并通过六大维度测评验证：单请求吞吐量稳定 15.6-17.6 tokens/秒，batch=4 时总吞吐量达 63.33 tokens/秒，16GB 显存即可支撑高并发，最终提供可复现的部署方案、性能基准数据及硬件选型建议。

昇腾 NPU：以华为自研达芬奇架构为核心，高效张量计算适配大模型全场景；搭载 CANN 架构简化开发，支持量化与混合并行技术平衡算力与能耗。

Llama-2-7B 模型：Meta 开源 70 亿参数大模型，文本生成与推理能力优异；轻量化设计部署灵活，支持微调定制适配多业务场景。

环境初始化与资源配置

1. Notebook 环境配置

计算类型：NPU
硬件规格：Atlas 800T NPU · 32v CPU · 64GB 内存
存储大小：50G

2. 终端环境检查

进入 Terminal 终端，检查深度学习环境核心配置，包括操作系统、Python、PyTorch 及昇腾 NPU 适配库 torch_npu 的版本。

# 检查系统版本
cat /etc/os-release
# 检查 python 版本
python3 --version
# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

模型部署所需依赖安装与环境准备

通过国内镜像快速安装深度学习所需的模型工具库和硬件加速配置工具：transformers、accelerate。

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

Llama-2-7B 模型加载与推理测试部署

1. 编写 llama.py 文件

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=
)
()
model = model.npu()
model.()
()

prompt = 
inputs = tokenizer(prompt, return_tensors=)
inputs = {k: v.npu()  k, v  inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=)
end = time.time()

text = tokenizer.decode(outputs[])
()
()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
import time
import json
import pandas as pd
from datetime import datetime
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 5
TEST_RUNS = 10
PRECISION = "fp16"

TEST_CASES = [
    {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 50, "batch_size": 1},
    {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100, "batch_size": 1},
    {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150, "batch_size": 1},
    {"场景": "批量推理（batch=2）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 2},
    {"场景": "长文本叙事", "输入": "请写一篇关于人工智能未来的科幻短篇：", "生成长度": 200, "batch_size": 1},
    {"场景": "多轮问答", "输入": "Q: 什么是机器学习？\nA: 机器学习是数据驱动的算法...\nQ: 它和传统编程的区别？", "生成长度": 100, "batch_size": 1},
    {"场景": "高并发批量（batch=4）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 4},
]

def load_model_and_tokenizer(model_name, precision):
    print(f"===== 开始加载模型 {model_name}（精度：{precision}） =====")
    start_load = time.time()
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    dtype = torch.float16 if precision == "fp16" else torch.int8
    try:
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=dtype, low_cpu_mem_usage=True
        ).to(DEVICE)
    except Exception as e:
        print(f"INT8 精度加载失败，自动 fallback 到 FP16：{str(e)[:50]}")
        dtype = torch.float16
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=dtype, low_cpu_mem_usage=True
        ).to(DEVICE)
    model.eval()
    end_load = time.time()
    load_time = end_load - start_load
    mem_used = torch.npu.memory_allocated() / 1e9
    print(f"模型加载完成：耗时 {load_time:.2f} 秒，显存占用 {mem_used:.2f} GB")
    return model, tokenizer, load_time, mem_used, str(dtype)

def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size):
    batch_inputs = [prompt] * batch_size
    # 修复 padding 逻辑错误
    padding_mode = True if batch_size > 1 else False
    inputs = tokenizer(
        batch_inputs,
        return_tensors="pt",
        padding=padding_mode,
        truncation=True,
        max_length=512
    ).to(DEVICE)

    print(f"预热中...（{WARMUP_RUNS}次，batch_size={batch_size}）")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )

    latencies = []
    print(f"开始正式测试...（{TEST_RUNS}次，生成长度={max_new_tokens}）")
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次：耗时 {latency:.2f} 秒 | 速度 {max_new_tokens/latency:.2f} tokens/秒")

    avg_latency = sum(latencies) / len(latencies)
    std_latency = pd.Series(latencies).std()
    throughput = max_new_tokens / avg_latency
    total_throughput = throughput * batch_size
    mem_peak = torch.npu.max_memory_allocated() / 1e9

    return {
        "平均延迟 (秒)": round(avg_latency, 3),
        "延迟标准差 (秒)": round(std_latency, 3),
        "单请求吞吐量 (tokens/秒)": round(throughput, 2),
        "批量总吞吐量 (tokens/秒)": round(total_throughput, 2),
        "显存峰值 (GB)": round(mem_peak, 2),
        "生成长度": max_new_tokens,
        "batch_size": batch_size
    }

if __name__ == "__main__":
    model, tokenizer, load_time, load_mem, actual_dtype = load_model_and_tokenizer(MODEL_NAME, PRECISION)
    results = []
    for case in TEST_CASES:
        print(f"\n===== 开始测试场景：{case['场景']} =====")
        case_result = benchmark(
            prompt=case["输入"],
            tokenizer=tokenizer,
            model=model,
            max_new_tokens=case["生成长度"],
            batch_size=case["batch_size"]
        )
        case_result.update({"场景": case["场景"]})
        results.append(case_result)
    
    df = pd.DataFrame(results)
    print(df.to_string())

环境项	实测结果
NPU 设备	昇腾 NPU（npu:0）
框架版本	PyTorch 2.1.0 + torch_npu 2.1.0.post3
模型与精度	Llama-2-7b-hf（FP16）
依赖库版本	transformers 4.39.2

测评场景	生成长度	实测吞吐量（tokens/秒）	实测延迟（秒）
英文短文本生成	50	15.60 ~ 17.40	2.87 ~ 3.26
中文对话	100	16.01 ~ 17.61	5.68 ~ 6.25
代码生成	150	15.69 ~ 17.17	8.74 ~ 9.56
长文本叙事	200	16.42 ~ 17.08	11.71 ~ 12.18

测评维度（batch_size）	实测总吞吐量（tokens/秒）	相对单请求倍数	实测显存峰值
batch=1（基准）	16.08	1.0 倍	13.71 GB
batch=2	32.39	2.0 倍	14.83 GB
batch=4	63.33	3.9 倍	16.04 GB

# 高并发 NPU 环境优化配置
import os
os.environ["NPU_FUSION_ENABLE"] = "1"
os.environ["ASCEND_GLOBAL_MEM_POOL_SIZE"] = "8589934592"
os.environ["NPU_ENABLE_CACHE_OP"] = "1"
os.environ["NPU_FUSION_MAX_BLOCK_SIZE"] = "4096"
os.environ["ASCEND_CACHE_CLEAR_INTERVAL"] = "200"
os.environ["PYTHONUNBUFFERED"] = "1"

# 启用 NPU 算子融合
export NPU_FUSION_ENABLE=1
# 关闭不必要的显存检查
export NPU_ENABLE_HBM_BOUNDS_CHECK=0
# 预分配显存池
export ASCEND_GLOBAL_MEM_POOL_SIZE=2147483648
# 优化 NPU 内存分配策略
export ASCEND_CACHE_CLEAR_INTERVAL=100
# 关闭冗余日志输出
export NPU_PRINT_TENSOR_SIZE=0

# 关键优化点示例
tokenizer.pad_token = tokenizer.eos_token
torch.npu.synchronize()
outputs = model.generate(
    **inputs,
    max_new_tokens=50,
    use_cache=True,
    cache_implementation="npu_optimized",
    do_sample=False,
    num_beams=1,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id
)
torch.npu.synchronize()

pip install transformers accelerate -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

pip install torch==2.1.0 torch_npu==2.1.0.post3 -i https://mirror.sjtu.edu.cn/pypi/web/simple --trusted-host mirror.sjtu.edu.cn

pip uninstall transformers -y
pip cache purge
pip install transformers==4.39.2 accelerate==0.28.0 -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

Llama-2-7B 昇腾 NPU 性能测评与部署方案

Llama-2-7B 昇腾 NPU 性能测评与部署方案

背景与测评目标

环境初始化与资源配置

1. Notebook 环境配置

2. 终端环境检查

模型部署所需依赖安装与环境准备

Llama-2-7B 模型加载与推理测试部署

1. 编写 llama.py 文件

更多推荐文章

相关免费在线工具

2. 切换 Hugging Face 下载源

Llama-2-7B 在昇腾 NPU 上的性能基准测试

前提准备：测评脚本编写

基础能力测评

核心性能测评

单请求多场景性能测评

批量并发性能测评

性能稳定性测评

显存资源消耗测评

高并发线性增长极限测试

Llama-2-7b 昇腾 NPU 性能优化方案

NPU 环境配置

修改原有 llama.py 推理逻辑

修改 Test.py 的 benchmark 函数

模型部署所需依赖安装与环境准备 - 实操问题及解决方案

国内镜像源安装依赖失败

torch_npu 版本不兼容

依赖包版本冲突

总结

更多推荐文章

相关免费在线工具

Llama-2-7B 昇腾 NPU 性能测评与部署方案

Llama-2-7B 昇腾 NPU 性能测评与部署方案

背景与测评目标

环境初始化与资源配置

1. Notebook 环境配置

2. 终端环境检查

模型部署所需依赖安装与环境准备

Llama-2-7B 模型加载与推理测试部署

1. 编写 llama.py 文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 切换 Hugging Face 下载源

Llama-2-7B 在昇腾 NPU 上的性能基准测试

前提准备：测评脚本编写

基础能力测评

核心性能测评

单请求多场景性能测评

批量并发性能测评

性能稳定性测评

显存资源消耗测评

高并发线性增长极限测试

Llama-2-7b 昇腾 NPU 性能优化方案

NPU 环境配置

修改原有 llama.py 推理逻辑

修改 Test.py 的 benchmark 函数

模型部署所需依赖安装与环境准备 - 实操问题及解决方案

国内镜像源安装依赖失败

torch_npu 版本不兼容

依赖包版本冲突

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具