在昇腾 NPU 上部署 Llama 2 模型：性能测试与优化实战 | 极客日志

PythonAI算法

在昇腾 NPU 上部署 Llama 2 模型：性能测试与优化实战

记录了在昇腾 NPU 环境下部署 Llama 2 大模型的完整流程。内容包括环境搭建、模型加载、性能基准测试及优化策略。通过实测，FP16 精度下吞吐量约为 20 tokens/s，经 INT8 量化后提升至约 45 tokens/s。文章提供了具体的代码示例和配置建议，验证了昇腾 NPU 在成本可控场景下的可行性，并推荐使用 MindSpeed-LLM 和 Modelslim 工具链进行进一步加速。

HadoopMan发布于 2026/4/6更新于 2026/7/2049 浏览

在昇腾 NPU 上跑 Llama 2 模型：一次完整的性能测试与实战指南

引言：从'为什么选择昇腾'开始

面对动辄数万的 NVIDIA 高端 GPU，许多开发者和团队在部署大模型时都感到成本压力。当我在为 Llama 2-7B 寻找一个高性价比的部署方案时，华为昇腾（Ascend）NPU 走进了我的视野。其自主可控的达芬奇架构、日益完善的软件开源生态以及云上可得的测试资源，构成了我选择它的三大理由。

本文记录使用云端昇腾 Notebook 实例，完成从环境配置、模型部署到性能测试与优化的全过程。这是一份真实的问题排查与实施记录，希望能为后续的探索者提供参考。

第一幕：环境搭建——好的开始是成功的一半

1.1 Notebook 实例配置指南

在云平台创建 Notebook 实例时，几个关键配置决定了后续的成败：

计算类型：务必选择 NPU！手滑选了 CPU 或 GPU，后续所有步骤都将徒劳无功。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）是运行 Llama-2-7B 的甜点配置。

镜像选择：这是关键！必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。这能省去大量手动配置环境的时间。

[图片]

1.2 环境验证：'Hello, NPU!'

实例启动后，我们首先需要确认 NPU 可用。在 Jupyter Notebook 的终端中，依次执行以下命令：

[图片]

# 检查系统与 Python 版本
import os
os.environ['HF_ENDPOINT']='https://hf-mirror.com'

!cat /etc/os-release
python3 --version

# 检查 PyTorch 及 torch_npu
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

看到 PyTorch 版本：2.4.0 和 torch_npu 版本：2.4.0.post4 说明正常可用。

[图片]

第一个常见的'坑'：直接运行 torch.npu.is_available() 会报错 AttributeError。 原因与解决方案：torch_npu 是一个独立的插件，必须显式导入后才能注册 NPU 后端。正确的验证方式是：

python -c "import torch; import torch_npu; print(torch.npu.is_available())"

看到 True，恭喜你，NPU 环境准备就绪！

第二幕：模型部署——从下载到运行的流程

环境搞定，接下来就是请'Llama 2'这位大神上场了。

2.1 安装依赖与模型下载

安装运行 Llama 2 所必须的库，建议使用国内镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu # 切记！
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16, # 使用 FP16 节省显存
    low_cpu_mem_usage=True
)
print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval() # 设置为评估模式

# 第三个'坑'：输入张量迁移
prompt = "The capital of France is"
# 错误写法：inputs = tokenizer(prompt, return_tensors="pt").npu() -> 报错！
# 正确写法：
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

# 推理
with torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=50)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
print(f"生成内容：{generated_text}")
print(f"推理耗时：{end_time - start_time:.2f} 秒")

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
import json
from transformers import AutoModelForCausalLM, AutoTokenizer

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    # 预热
    print("预热运行...")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    # 正式测试
    print("开始性能测试...")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize() # 同步，确保计时准确
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次耗时：{latency:.2f}s")
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
        {"场景": "中文问答", "提示": "请用简单的话解释量子计算：", "长度": 100},
        {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
    ]
    print("\n" + "=" * 50)
    print("性能测试结果")
    print("=" * 50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟：{avg_latency:.2f}s")
        print(f"  吞吐量：{throughput:.2f} tokens/s")
    print("=" * 50)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量
英文生成	4.87s	4.88s	4.78s	4.96s	5.22s	4.94s	20.24 tokens/s
中文问答	4.84s	4.86s	5.01s	4.81s	4.81s	4.87s	20.55 tokens/s
代码生成	7.14s	7.19s	7.32s	7.37s	7.16s	7.24s	20.73 tokens/s

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.21s	2.18s	2.25s	2.32s	2.19s	2.23s	44.84 tokens/s	吞吐量提升约 1.21 倍
中文问答	2.19s	2.24s	2.16s	2.28s	2.22s	2.22s	45.05 tokens/s	吞吐量提升约 1.19 倍
代码生成	3.31s	3.28s	3.42s	3.35s	3.29s	3.33s	45.05 tokens/s	吞吐量提升约 1.17 倍

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

在昇腾 NPU 上部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：一次完整的性能测试与实战指南

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 Notebook 实例配置指南

1.2 环境验证：'Hello, NPU!'

第二幕：模型部署——从下载到运行的流程

2.1 安装依赖与模型下载

更多推荐文章

相关免费在线工具

2.2 核心部署代码与问题化解

第三幕：性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

第四幕：性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：Issue 实践

更多推荐文章

相关免费在线工具

在昇腾 NPU 上部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：一次完整的性能测试与实战指南

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 Notebook 实例配置指南

1.2 环境验证：'Hello, NPU!'

第二幕：模型部署——从下载到运行的流程

2.1 安装依赖与模型下载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 核心部署代码与问题化解

第三幕：性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

第四幕：性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：Issue 实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具