昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践 | 极客日志

PythonAI算法

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

昇腾 NPU 部署 Llama 2 模型涉及环境配置、模型加载及性能调优。通过配置 CANN 与 PyTorch 适配，验证 NPU 可用性。实测 FP16 精度下吞吐量约 20 tokens/s，INT8 量化后提升至 45 tokens/s 左右。批处理可进一步提升吞吐。该方案适合对成本敏感及追求自主可控的离线推理场景。

魔法巫师发布于 2026/3/29更新于 2026/6/319 浏览

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言

面对高端 GPU 的高成本，许多开发者和团队在部署大模型时寻求高性价比方案。华为昇腾（Ascend）NPU 凭借自主可控的达芬奇架构、日益完善的软件开源生态以及云上可得的测试资源，成为可行的算力选项。

本文记录使用云端昇腾实例，完成从环境配置、模型部署到性能测试与优化的全过程。

环境搭建

实例创建与镜像选择

在云平台创建实例时，关键配置如下：

计算类型：务必选择 NPU。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）适合运行 Llama-2-7B。
镜像选择：必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。

环境验证

实例启动后，确认 NPU 可用。依次执行以下命令：

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version

# 检查 PyTorch 及 torch_npu
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

若未安装，先执行 pip install --upgrade pip，再安装 torch torchvision torchaudio 和 torch-npu。

常见坑点：直接运行 torch.npu.is_available() 会报错 AttributeError。torch_npu 是独立插件，必须显式导入后才能注册 NPU 后端。正确的验证方式是：

python -c "import torch; import torch_npu; print(torch.npu.is_available())"

看到 True 说明 NPU 环境准备就绪。

模型部署

依赖安装与模型下载

安装运行 Llama 2 所必须的库，建议使用国内镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

模型下载权限问题：直接访问 Meta 官方的 Llama 2 仓库需要申请权限。解决方案是使用社区镜像版本，如 NousResearch/Llama-2-7b-hf，无需权限且下载稳定。

核心部署代码

创建 Python 脚本，核心代码如下：

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

import torch
 torch_npu  
 transformers  AutoModelForCausalLM, AutoTokenizer
 time

MODEL_NAME = 
DEVICE = 

()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,  
    low_cpu_mem_usage=
)
()
model = model.to(DEVICE)
model.()


prompt = 
inputs = tokenizer(prompt, return_tensors=).to(DEVICE)

 torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[], skip_special_tokens=)

()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    
    # 正式测试
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次耗时：{latency:.2f}s")
    
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
        {"场景": "中文问答", "提示": "请用简单的话解释量子计算：", "长度": 100},
        {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
    ]
    
    print("\n" + "=" * 50)
    print("性能测试结果")
    print("=" * 50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("=" * 50)

测试类型	平均延迟	吞吐量
英文生成	4.94s	20.24 tokens/s
中文问答	4.87s	20.55 tokens/s
代码生成	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.23s	44.84 tokens/s	约 1.21 倍
中文问答	2.22s	45.05 tokens/s	约 1.19 倍
代码生成	3.33s	45.05 tokens/s	约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言

环境搭建

实例创建与镜像选择

环境验证

模型部署

依赖安装与模型下载

核心部署代码

更多推荐文章

相关免费在线工具

性能测试

严谨的性能测试脚本

测试结果与分析

性能优化

使用原生框架与工具链

INT8 量化

启用批处理（Batch Inference）

总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言

环境搭建

实例创建与镜像选择

环境验证

模型部署

依赖安装与模型下载

核心部署代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能测试

严谨的性能测试脚本

测试结果与分析

性能优化

使用原生框架与工具链

INT8 量化

启用批处理（Batch Inference）

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具