Llama-2-7b 在昇腾 NPU 上的六大核心场景性能基准报告
引言
随着大语言模型技术的飞速发展,底层算力支撑硬件的重要性日益凸显。以华为昇腾为代表的 NPU 正成为业界关注的焦点。为了全面评估昇腾 NPU 在实际 LLM 应用中的性能表现,我们选用开源模型 Llama-2-7b,在 Atlas 800T A2 平台上进行部署、测试与分析。
一、环境搭建与准备
扎实的前期准备是确保测评数据准确可靠的基石。本章节将详细记录从激活昇腾 NPU 计算环境到完成所有依赖库安装的全过程。
1.1 激活 NPU 实例
我们需要进入项目环境并激活一个 Notebook 实例。配置实例时,明确了本次测评的硬件规格:
- 计算类型:NPU
- 硬件规格:NPU basic · 1* Atlas 800T A2 · 32v CPU · 64GB
- 存储大小:50G
启动后,通过终端进入命令行界面执行后续操作。
1.2 核心环境验证与依赖安装
为保证模型稳定运行,首先对操作系统、Python 及昇腾 NPU 适配库等关键环境进行了兼容性检查。
cat /etc/os-release
python3 --version
python -c "import torch; print(f'PyTorch 版本:{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
执行检查后发现,环境中并未预装 PyTorch 及昇腾 NPU 的 PyTorch 适配插件 torch_npu。采用 pip 并指定国内镜像源来加速下载过程。torch_npu 是连接 PyTorch 框架与昇腾 NPU 底层硬件的关键桥梁,它的版本必须与 PyTorch 版本及昇腾 CANN 工具包严格对应。
安装 torch_npu 插件:
pip install torch_npu -i https://pypi.tuna.tsinghua.edu.cn/simple
安装 PyTorch:
pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple
完成安装后,再次运行检查命令,可以看到 PyTorch 与 torch_npu 的版本号被成功输出。
1.3 模型工具库安装与冲突解决
接下来,安装 Hugging Face 的 transformers 和 accelerate 库。在安装过程中,系统抛出依赖冲突错误。错误信息指出,环境中已安装的库 mindformers 1.1.0rc1 要求的 tokenizers 版本与新安装的 transformers 库不兼容。由于本次测评不涉及 mindformers,最直接的解决方案是将其卸载,然后重新安装。
卸载 mindformers:
pip uninstall mindformers
重新安装 transformers 和 accelerate:
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
至此,所有环境准备工作完成。
二、模型部署与验证
环境就绪后,我们关注如何跑通推理流程。本环节主要目的是验证模型加载、NPU 算力调用以及文本生成功能的正确性。
编写了一个基础推理脚本,其核心逻辑包括:
- 模型加载:加载 NousResearch/Llama-2-7b-hf 模型与分词器。


