昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践 | 极客日志

PythonAI算法

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

昇腾 NPU 部署 Llama 2 大模型涉及环境配置、模型加载及性能评估。通过选择合适镜像与依赖库，完成 PyTorch 适配与模型迁移至 NPU 设备。实测显示 FP16 精度下吞吐量约 20 tokens/s，采用 INT8 量化后提升至 45 tokens/s 左右。批处理可进一步优化并发能力。该方案适用于对成本敏感及追求自主可控的离线推理场景，配合 Modelslim 工具可实现显著加速。

laoliangsh发布于 2026/3/24更新于 2026/7/2034 浏览

在这里插入图片描述

引言：从'为什么选择昇腾'开始

面对昂贵的 NVIDIA 高端 GPU，许多开发者和团队在部署大模型时面临成本压力。华为昇腾（Ascend）NPU 凭借自主可控的达芬奇架构、日益完善的软件开源生态以及云上可得的测试资源，成为高性价比的部署方案。

本文记录使用云平台昇腾计算实例，完成从环境配置、模型部署到性能测试与优化的全过程。

环境搭建——好的开始是成功的一半

在云平台创建 Notebook 实例时，几个关键配置决定了后续的成败：

计算类型：务必选择 NPU！手滑选了 CPU 或 GPU，后续所有步骤都将徒劳无功。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）是运行 Llama-2-7B 的甜点配置。

镜像选择：这是关键！必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook 。这能省去大量手动配置环境的时间。

环境验证：'Hello, NPU!'

实例启动后，我们首先需要确认 NPU 可用。在 Jupyter Notebook 的终端中，依次执行以下命令：

# 检查系统与 Python 版本
import os
os.system('cat /etc/os-release')
os.system('python3 --version')

# 检查 PyTorch 及 torch_npu
import torch
print(f'PyTorch 版本：{torch.__version__}')
:
     torch_npu
    ()
 ImportError:
    ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
import torch_npu
print(torch.npu.is_available())

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com' # 国内镜像加速 HuggingFace 下载
import torch
import torch_npu # 切记！
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16, # 使用 FP16 节省显存
    low_cpu_mem_usage=True
)
print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval() # 设置为评估模式

# 第三个'坑'：输入张量迁移
prompt = "The capital of France is"
# 错误写法：inputs = tokenizer(prompt, return_tensors="pt").npu() -> 报错！
# 正确写法：
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

# 推理
with torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=50)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(f"生成内容：{generated_text}")
    print(f"推理耗时：{end_time - start_time:.2f} 秒")

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
import json
from transformers import AutoModelForCausalLM, AutoTokenizer

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    # 预热
    print("预热运行...")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    # 正式测试
    print("开始性能测试...")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize() # 同步，确保计时准确
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次耗时：{latency:.2f}s")
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景":"英文生成","提示":"The future of artificial intelligence is","长度":100},
        {"场景":"中文问答","提示":"请用简单的话解释量子计算：","长度":100},
        {"场景":"代码生成","提示":"Write a Python function to reverse a string:","长度":150},
    ]
    print("\n" + "="*50)
    print("性能测试结果")
    print("="*50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("="*50)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量
英文生成	4.87s	4.88s	4.78s	4.96s	5.22s	4.94s	20.24 tokens/s
中文问答	4.84s	4.86s	5.01s	4.81s	4.81s	4.87s	20.55 tokens/s
代码生成	7.14s	7.19s	7.32s	7.37s	7.16s	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.21s	2.18s	2.25s	2.32s	2.19s	2.23s	44.84 tokens/s	吞吐量提升约 1.21 倍
中文问答	2.19s	2.24s	2.16s	2.28s	2.22s	2.22s	45.05 tokens/s	吞吐量提升约 1.19 倍
代码生成	3.31s	3.28s	3.42s	3.35s	3.29s	3.33s	45.05 tokens/s	吞吐量提升约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言：从'为什么选择昇腾'开始

环境搭建——好的开始是成功的一半

环境验证：'Hello, NPU!'

更多推荐文章

相关免费在线工具

模型部署——从下载到运行的'荆棘之路'

安装依赖与模型下载

核心部署代码与'坑'的化解

性能测试——揭开昇腾 NPU 的真实面纱

严谨的性能测试脚本

测试结果与分析

性能优化——让 Llama 跑得更快

使用昇腾原生大模型框架

INT8 量化

启用批处理（Batch Inference）

总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言：从'为什么选择昇腾'开始

环境搭建——好的开始是成功的一半

环境验证：'Hello, NPU!'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型部署——从下载到运行的'荆棘之路'

安装依赖与模型下载

核心部署代码与'坑'的化解

性能测试——揭开昇腾 NPU 的真实面纱

严谨的性能测试脚本

测试结果与分析

性能优化——让 Llama 跑得更快

使用昇腾原生大模型框架

INT8 量化

启用批处理（Batch Inference）

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具