昇腾 NPU 部署 Llama-2-7b 模型性能基准测试
随着大语言模型(LLM)技术的飞速发展,底层算力支撑硬件的重要性日益凸显。除了传统的 GPU 方案,华为昇腾(Ascend)NPU 正成为业界关注的焦点。为了全面评估昇腾 NPU 在实际 LLM 应用中的性能表现,我们选用开源模型 Llama-2-7b,在 Atlas 800T A2 平台上进行了深度测评,旨在为开发者和决策者提供详实的核心性能数据与部署策略参考。
环境搭建与准备
扎实的前期准备是确保测评数据准确可靠的基石。本章节记录从激活计算环境到完成依赖库安装的全过程。
1. 激活计算实例
进入项目环境并启动 Notebook 实例是操作的起点。配置时明确了本次测评的硬件规格,这对后续性能数据的解读至关重要:
- 计算类型: NPU
- 硬件规格: NPU basic · 1 * Atlas 800T A2 · 32v CPU · 64GB
- 存储大小: 50G
启动后,通过终端进入命令行界面,这是执行后续所有环境检查和代码运行的主要入口。
2. 核心环境验证与依赖安装
为保证模型稳定运行,首先对操作系统、Python 及昇腾 NPU 适配库等关键环境进行兼容性检查。
# 检查系统版本、Python 版本、PyTorch 及 torch_npu 版本
import os
os.system("cat /etc/os-release")
os.system("python3 --version")
os.system("python -c \"import torch; print(f'PyTorch 版本:{torch.__version__}')\"")
os.system("python -c \"import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')\"")
执行检查后发现,环境中并未预装 PyTorch 及昇腾 NPU 的 PyTorch 适配插件 torch_npu。torch_npu 是连接 PyTorch 框架与昇腾 NPU 底层硬件的关键桥梁,其版本必须与 PyTorch 版本及昇腾 CANN 工具包严格对应。
安装 torch_npu 插件:
pip install torch_npu -i https://pypi.tuna.tsinghua.edu.cn/simple
安装 PyTorch:
pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple
完成安装后再次运行检查命令,确认 PyTorch 与 torch_npu 的版本号已正确输出。
3. 模型工具库安装与冲突解决
接下来安装 Hugging Face 的 transformers 和 accelerate 库,它们是加载和运行 Llama 等主流大模型的基础工具。虽然生产环境推荐关注针对昇腾优化的推理框架(如 vllm-ascend),但基础验证使用 transformers 即可。
在安装过程中,可能会遇到依赖冲突错误。例如,环境中已安装的 mindformers 1.1.0rc1 要求的 tokenizers 版本与新安装的 transformers 库不兼容。由于本次测评不涉及 mindformers,最直接的解决方案是将其卸载。
重新安装 transformers 和 accelerate:
pip uninstall mindformers
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple


