昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践 | 极客日志

PythonAI算法

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

昇腾 NPU 部署 Llama 2 模型涉及环境配置、模型加载、性能测试与优化全流程。通过配置 CANN 镜像与 PyTorch 适配，实现模型在 NPU 上的推理。实测 FP16 精度下吞吐量约为 20 tokens/s，采用 INT8 量化后吞吐量可提升至 45 tokens/s 左右。该方案具备高性价比与自主可控优势，适用于预算有限或对实时性要求不高的离线批处理场景。

MongoKing发布于 2026/3/23更新于 2026/6/1019 浏览

环境搭建

1. 计算资源选择

在云平台创建 Notebook 实例时，关键配置决定了后续步骤的成败：

计算类型：务必选择 NPU。选择 CPU 或 GPU 会导致后续步骤无法运行。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）是运行 Llama-2-7B 的推荐配置。
镜像选择：必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。这能省去大量手动配置环境的时间。

2. 环境验证

实例启动后，确认 NPU 可用。在终端中依次执行以下命令：

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version

# 检查 PyTorch 及 torch_npu
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

若未安装，可先执行 pip install --upgrade pip，然后安装相关包：

pip install torch torchvision torchaudio
pip install torch-npu

看到 PyTorch 版本：2.4.0 和 torch_npu 版本：2.4.0.post4 说明正常可用。

常见坑点：直接运行 torch.npu.is_available() 会报错 AttributeError。原因是 torch_npu 是一个独立的插件，必须显式导入后才能注册 NPU 后端。正确的验证方式是：

python -c "import torch; import torch_npu; print(torch.npu.is_available())"

看到 True 即表示 NPU 环境准备就绪。

模型部署

1. 依赖安装与模型下载

安装运行 Llama 2 所必须的库，建议使用国内镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

模型下载权限问题：直接访问 Meta 官方的 Llama 2 仓库需要申请权限且国内下载速度慢。解决方案是使用社区镜像版本，如 NousResearch/Llama-2-7b-hf，无需权限且下载稳定。

2. 核心部署代码

创建 Python 脚本（如 llama_demo.py），核心代码如下：

import os
os.environ['HF_ENDPOINT']='https://hf-mirror.com'
import torch
 torch_npu 
 transformers  AutoModelForCausalLM, AutoTokenizer
 time

MODEL_NAME = 
DEVICE = 

()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=
)
()
model = model.to(DEVICE)
model.()


prompt = 
inputs = tokenizer(prompt, return_tensors=).to(DEVICE)

 torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[], skip_special_tokens=)

()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import os
os.environ['HF_ENDPOINT']='https://hf-mirror.com'
import torch
import torch_npu
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    # 预热
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    # 正式测试
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次耗时：{latency:.2f}s")
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景":"英文生成","提示":"The future of artificial intelligence is","长度":100},
        {"场景":"中文问答","提示":"请用简单的话解释量子计算：","长度":100},
        {"场景":"代码生成","提示":"Write a Python function to reverse a string:","长度":150},
    ]
    print("\n" + "="*50)
    print("性能测试结果")
    print("="*50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("="*50)

测试类型	平均延迟	吞吐量
英文生成	4.94s	20.24 tokens/s
中文问答	4.87s	20.55 tokens/s
代码生成	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.23s	44.84 tokens/s	约 1.21 倍
中文问答	2.22s	45.05 tokens/s	约 1.19 倍
代码生成	3.33s	45.05 tokens/s	约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

环境搭建

1. 计算资源选择

2. 环境验证

模型部署

1. 依赖安装与模型下载

2. 核心部署代码

更多推荐文章

相关免费在线工具

性能测试

1. 测试脚本

2. 测试结果与分析

性能优化

1. INT8 量化

2. 批处理（Batch Inference）

总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

环境搭建

1. 计算资源选择

2. 环境验证

模型部署

1. 依赖安装与模型下载

2. 核心部署代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能测试

1. 测试脚本

2. 测试结果与分析

性能优化

1. INT8 量化

2. 批处理（Batch Inference）

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具