昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南 | 极客日志

PythonAI算法

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

综述由AI生成基于昇腾 NPU 部署 Llama 2 大模型涉及环境配置、模型加载及性能调优。记录从基础环境搭建到 FP16 推理，再到 INT8 量化加速的全流程实测数据。通过对比不同场景下的延迟与吞吐量，验证了昇腾硬件在成本控制与自主可控方面的可行性，并提供了具体的代码示例与避坑建议。

晚风叙旧发布于 2026/4/10更新于 2026/5/2215 浏览

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

引言

面对高昂的 NVIDIA GPU 成本，许多团队在部署大模型时开始关注国产算力。华为昇腾（Ascend）NPU 凭借自主可控的达芬奇架构和日益完善的软件生态，成为了高性价比的替代方案。本文将记录使用云实例完成从环境配置、模型部署到性能测试与优化的全过程，分享真实的踩坑经验与性能数据。

一、环境搭建

在云平台创建开发实例是第一步，关键配置直接决定后续成败。

1.1 实例配置要点

计算类型：务必选择 NPU。误选 CPU 或 GPU 会导致后续所有步骤无法运行。
规格选择：运行 Llama-2-7B 推荐 NPU basic 规格（如 Ascend 910B, 32vCPU, 64GB 内存）。
镜像选择：必须选择预装了 CANN、PyTorch 适配器的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook，可省去大量手动配置时间。

1.2 环境验证

实例启动后，需确认 NPU 可用。在终端依次执行以下命令检查版本及插件状态：

# 检查系统与 Python 版本
import os
os.system('cat /etc/os-release')
os.system('python3 --version')

# 检查 PyTorch 及 torch_npu
import torch
print(f'PyTorch 版本：{torch.__version__}')
try:
    import torch_npu
    print(f'torch_npu 版本：{torch_npu.__version__}')
except ImportError:
    print("未检测到 torch_npu")

若未安装，可执行：

pip install --upgrade pip
pip install torch torchvision torchaudio
pip install torch-npu

避坑提示：直接运行 torch.npu.is_available() 可能会报错 AttributeError。这是因为 torch_npu 是一个独立插件，必须显式导入后才能注册 NPU 后端。正确的验证方式是：

import torch
import torch_npu
print(torch.npu.is_available())

输出 True 即表示环境就绪。

二、模型部署

环境就绪后，接下来加载 Llama 2 模型。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

import torch
import torch_npu  # 切记！必须在任何 NPU 操作之前导入
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,  # 使用 FP16 节省显存
    low_cpu_mem_usage=True
)

print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval()

# 推理
prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

with torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=50)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(f"生成内容：{generated_text}")
print(f"推理耗时：{end_time - start_time:.2f} 秒")

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    
    # 正式测试
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()  # 同步，确保计时准确
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f"第{i+1}次耗时：{latency:.2f}s")
    
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
        {"场景": "中文问答", "提示": "请用简单的话解释量子计算：", "长度": 100},
        {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
    ]
    
    print("\n" + "="*50)
    print("性能测试结果")
    print("="*50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("="*50)

测试类型	平均延迟	吞吐量
英文生成	4.94s	20.24 tokens/s
中文问答	4.87s	20.55 tokens/s
代码生成	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.23s	44.84 tokens/s	约 1.21 倍
中文问答	2.22s	45.05 tokens/s	约 1.19 倍
代码生成	3.33s	45.05 tokens/s	约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

引言

一、环境搭建

1.1 实例配置要点

1.2 环境验证

二、模型部署

更多推荐文章

相关免费在线工具

2.1 依赖安装与模型下载

2.2 核心部署代码

三、性能测试

3.1 性能测试脚本

3.2 测试结果与分析

四、性能优化

4.1 使用原生框架与量化

4.2 INT8 量化实战

4.3 启用批处理

总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

昇腾 NPU 部署 Llama 2 实战：环境配置、性能测试与优化指南

引言

一、环境搭建

1.1 实例配置要点

1.2 环境验证

二、模型部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1 依赖安装与模型下载

2.2 核心部署代码

三、性能测试

3.1 性能测试脚本

3.2 测试结果与分析

四、性能优化

4.1 使用原生框架与量化

4.2 INT8 量化实战

4.3 启用批处理

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具