昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

综述由AI生成在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战 !图片引言：从'为什么选择昇腾'开始面对动辄数万的 NVIDIA 高端 GPU，许多开发者和团队在部署大模型时都感到'钱包一紧'。当我在为 Llama 2-7B 寻找一个高性价比的部署方案时，**华为昇腾（Ascend）NPU**走进了我的视野。其**自主可控的达芬奇架构**、日益完善的**软件开源生态**（昇腾开源仓库）以及云上…

链路追踪发布于 2026/4/6更新于 2026/5/1992K 浏览

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

面对动辄数万的 NVIDIA 高端 GPU，许多开发者和团队在部署大模型时都感到'钱包一紧'。当我在为 Llama 2-7B 寻找一个高性价比的部署方案时，华为昇腾（Ascend）NPU走进了我的视野。其自主可控的达芬奇架构、日益完善的软件开源生态（昇腾开源仓库）以及云上可得的测试资源，构成了我选择它的三大理由。

本文就将记录我使用云平台的免费昇腾 Notebook 实例，完成从环境配置、模型部署到性能测试与优化的全过程。这是一份真实的'踩坑'与'通关'记录，希望能为后续的探索者点亮一盏灯。

第一幕：环境搭建——好的开始是成功的一半

本以为在云平台创建环境是 simplest thing，没想到第一个'坑'来得如此之快。

1.1 云平台 Notebook 创建'避坑指南'

在云平台创建 Notebook 实例时，几个关键配置决定了后续的成败：

计算类型：务必选择 NPU ！手滑选了 CPU 或 GPU，后续所有步骤都将徒劳无功。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）是运行 Llama-2-7B 的甜点配置。

镜像选择：这是关键！必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像，例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook 。这能省去大量手动配置环境的时间。

1.2 环境验证：'Hello, NPU!'

实例启动后，我们首先需要确认 NPU 可用。在 Jupyter Notebook 的终端中，依次执行以下命令：

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version
# 检查 PyTorch 及 torch_npu
python -c 
python -c 

pip install torch torchvision torchaudio
pip install torch-npu

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

本以为在云平台创建环境是 simplest thing，没想到第一个'坑'来得如此之快。

1.1 云平台 Notebook 创建'避坑指南'

在云平台创建 Notebook 实例时，几个关键配置决定了后续的成败：

计算类型：务必选择 NPU ！手滑选了 CPU 或 GPU，后续所有步骤都将徒劳无功。
规格选择：NPU basic 规格（1*Ascend 910B, 32vCPU, 64GB 内存）是运行 Llama-2-7B 的甜点配置。

1.2 环境验证：'Hello, NPU!'

实例启动后，我们首先需要确认 NPU 可用。在 Jupyter Notebook 的终端中，依次执行以下命令：

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version
# 检查 PyTorch 及 torch_npu
python -c 
python -c 

pip install torch torchvision torchaudio
pip install torch-npu

import os os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com' # 在昇腾环境中，直接访问 HuggingFace 经常会超时，所以使用国内镜像 import torch import torch_npu import time import json from transformers import AutoModelForCausalLM, AutoTokenizer # 配置 MODEL_NAME = "NousResearch/Llama-2-7b-hf" DEVICE = "npu:0" WARMUP_RUNS = 3 TEST_RUNS = 5 def load_model(): print("加载模型与分词器...") tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) model = AutoModelForCausalLM.from_pretrained( MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=True ).to(DEVICE) model.eval() return model, tokenizer def benchmark(prompt, model, tokenizer, max_new_tokens=100): inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE) # 预热 print("预热运行...") for _ in range(WARMUP_RUNS): with torch.no_grad(): _ = model.generate(**inputs, max_new_tokens=max_new_tokens) # 正式测试 print("开始性能测试...") latencies = [] for i in range(TEST_RUNS): torch.npu.synchronize() # 同步，确保计时准确 start = time.time() with torch.no_grad(): _ = model.generate(**inputs, max_new_tokens=max_new_tokens) torch.npu.synchronize() end = time.time() latency = end - start latencies.append(latency) print(f" 第{i+1}次耗时：{latency:.2f}s") avg_latency = sum(latencies) / len(latencies) throughput = max_new_tokens / avg_latency return throughput, avg_latency if __name__ == "__main__": model, tokenizer = load_model() test_cases = [ {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100}, {"场景": "中文问答", "提示": "请用简单的话解释量子计算：", "长度": 100}, {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150}, ] print("\n" + "="*50) print("性能测试结果") print("="*50) for case in test_cases: throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"]) print(f"- {case['场景']}:") print(f" 平均延迟：{avg_latency:.2f}s") print(f" 吞吐量：{throughput:.2f} tokens/s") print("="*50)

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量
英文生成	4.87s	4.88s	4.78s	4.96s	5.22s	4.94s	20.24 tokens/s
中文问答	4.84s	4.86s	5.01s	4.81s	4.81s	4.87s	20.55 tokens/s
代码生成	7.14s	7.19s	7.32s	7.37s	7.16s	7.24s	20.73 tokens/s

测试类型	第 1 次耗时	第 2 次耗时	第 3 次耗时	第 4 次耗时	第 5 次耗时	平均延迟	吞吐量	相比 FP16 提升
英文生成	2.21s	2.18s	2.25s	2.32s	2.19s	2.23s	44.84 tokens/s	吞吐量提升约 1.21 倍
中文问答	2.19s	2.24s	2.16s	2.28s	2.22s	2.22s	45.05 tokens/s	吞吐量提升约 1.19 倍
代码生成	3.31s	3.28s	3.42s	3.35s	3.29s	3.33s	45.05 tokens/s	吞吐量提升约 1.17 倍

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 云平台 Notebook 创建'避坑指南'

1.2 环境验证：'Hello, NPU!'

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 云平台 Notebook 创建'避坑指南'

1.2 环境验证：'Hello, NPU!'

更多推荐文章

相关免费在线工具

第二幕：模型部署——从下载到运行的'荆棘之路'

2.1 安装依赖与模型下载

2.2 核心部署代码与'坑'的化解

第三幕：性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

第四幕：性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：社区 Issue 实践

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 云平台 Notebook 创建'避坑指南'

1.2 环境验证：'Hello, NPU!'

昇腾 NPU 部署 Llama 2 模型：性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型：性能测试与优化实战

引言：从'为什么选择昇腾'开始

第一幕：环境搭建——好的开始是成功的一半

1.1 云平台 Notebook 创建'避坑指南'

1.2 环境验证：'Hello, NPU!'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第二幕：模型部署——从下载到运行的'荆棘之路'

2.1 安装依赖与模型下载

2.2 核心部署代码与'坑'的化解

第三幕：性能测试——揭开昇腾 NPU 的真实面纱

3.1 严谨的性能测试脚本

3.2 测试结果与分析

第四幕：性能优化——让 Llama 跑得更快

4.1 使用昇腾原生大模型框架

4.2 INT8 量化

4.3 启用批处理（Batch Inference）

总结与建议

附：社区 Issue 实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具