昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战 | 极客日志

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version

# 检查 PyTorch 及 torch_npu
import torch
print(f'PyTorch 版本：{torch.__version__}')
import torch_npu
print(f'torch_npu 版本：{torch_npu.__version__}')

pip install torch torchvision torchaudio
pip install torch-npu

import torch
import torch_npu
print(torch.npu.is_available())

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
# 在昇腾环境中，直接访问 HuggingFace 经常会超时，所以使用国内镜像

import torch
import torch_npu  # 切记！必须在任何 NPU 操作之前
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,  # 使用 FP16 节省显存
    low_cpu_mem_usage=True
)

print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval()  # 设置为评估模式

# 第三个坑：输入张量迁移
prompt = "The capital of France is"

# 错误写法：inputs = tokenizer(prompt, return_tensors="pt").npu() -> 报错！
# 正确写法：
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

# 推理
with torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=50)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(f"生成内容：{generated_text}")
print(f"推理耗时：{end_time - start_time:.2f} 秒")

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
import json
from transformers import AutoModelForCausalLM, AutoTokenizer

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热
    print("预热运行...")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    
    # 正式测试
    print("开始性能测试...")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()  # 同步，确保计时准确
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次耗时：{latency:.2f}s")
    
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
        {"场景": "中文问答", "提示": "请用简单的话解释量子计算：", "长度": 100},
        {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
    ]
    
    print("\n" + "=" * 50)
    print("性能测试结果")
    print("=" * 50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("=" * 50)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量
英文生成	4.87s	4.88s	4.78s	4.96s	5.22s	4.94s	20.24 tokens/s
中文问答	4.84s	4.86s	5.01s	4.81s	4.81s	4.87s	20.55 tokens/s
代码生成	7.14s	7.19s	7.32s	7.37s	7.16s	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.21s	2.18s	2.25s	2.32s	2.19s	2.23s	44.84 tokens/s	吞吐量提升约 1.21 倍
中文问答	2.19s	2.24s	2.16s	2.28s	2.22s	2.22s	45.05 tokens/s	吞吐量提升约 1.19 倍
代码生成	3.31s	3.28s	3.42s	3.35s	3.29s	3.33s	45.05 tokens/s	吞吐量提升约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：一次完整的性能测试与实战通关指南

引言：为何选择昇腾 NPU

环境搭建——好的开始是成功的一半

1.1 云 Notebook 创建避坑指南

1.2 环境验证：Hello, NPU!

更多推荐文章

相关免费在线工具

模型部署——从下载到运行的荆棘之路

2.1 安装依赖与模型下载

2.2 核心部署代码与坑的化解

性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：Issue 实践

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：一次完整的性能测试与实战通关指南

引言：为何选择昇腾 NPU

环境搭建——好的开始是成功的一半

1.1 云 Notebook 创建避坑指南

1.2 环境验证：Hello, NPU!

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型部署——从下载到运行的荆棘之路

2.1 安装依赖与模型下载

2.2 核心部署代码与坑的化解

性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：Issue 实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具