引言
随着大语言模型(LLM)技术的飞速发展,其底层算力支撑硬件的重要性日益凸显。传统的 GPU 方案之外,以华为昇腾(Ascend)为代表的 NPU(神经网络处理单元)正成为业界关注的焦点。为了全面、深入地评估昇腾 NPU 在实际 LLM 应用中的性能表现,我们进行了一项针对性的深度测评。本次测评选用业界广泛应用的开源模型 Llama-2-7b,在 Atlas 800T A2 训练卡平台上进行部署、测试与分析,旨在为开发者和决策者提供一份详实的核心性能数据、深度的场景性能剖析、以及可靠的硬件选型与部署策略参考。
一、测评环境搭建与准备
扎实的前期准备是确保测评数据准确可靠的基石。本章节将详细记录从激活昇腾 NPU 计算环境到完成所有依赖库安装的全过程,确保测试流程的透明与可复现性。
1.1 激活 NPU Notebook 实例
我们进入项目环境并激活一个 Notebook 实例,这是进行一切操作的起点。
图 1:进入项目环境界面
在配置实例时,我们明确了本次测评的硬件规格,这对后续性能数据的解读至关重要:
●计算类型:NPU ●硬件规格:NPU basic · 1* Atlas 800T A2 · 32v CPU · 64GB ●存储大小:50G (限时免费)
图 2 & 3:选择并确认 NPU 硬件规格为昇腾 910B
配置确认无误后,点击'立即启动',系统开始分配资源。数分钟后,一个搭载 Atlas 800T A2 的专属开发环境便准备就绪。
图 4:Notebook 实例启动中
我们通过点击'终端'进入命令行界面,这是执行后续所有环境检查和代码运行的主要入口。
图 5:成功进入命令行终端
1.2 核心环境验证与依赖安装
为保证模型能够稳定运行,我们首先对操作系统、Python 及昇腾 NPU 适配库等关键环境进行了兼容性检查。
# 检查系统版本、Python 版本、PyTorch 及 torch_npu 版本
cat /etc/os-release
python3 --version
python -c "import torch; print(f'PyTorch 版本:{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
执行检查后发现,环境中并未预装 PyTorch 及昇腾 NPU 的 PyTorch 适配插件 torch_npu。
图 6:初次环境检查,提示 PyTorch 等核心库未安装
解决方案:手动安装核心库
我们采用 pip 并指定国内清华大学镜像源来加速下载过程。torch_npu 是连接 PyTorch 框架与昇腾 NPU 底层硬件的关键桥梁,它的版本必须与 PyTorch 版本及昇腾 CANN 工具包严格对应,以确保兼容性。
安装 torch_npu 插件:
pip install torch_npu -i https://pypi.tuna.tsinghua.edu.cn/simple
图 8:安装昇腾 NPU 的 PyTorch 适配插件 torch_npu
安装 PyTorch:
pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple
图 7:使用 pip 安装 PyTorch
完成安装后,我们再次运行检查命令,此时可以看到 PyTorch 与 torch_npu 的版本号被成功输出,证明核心环境已配置妥当。
图 9:核心库安装成功后,再次检查环境
1.3 模型工具库安装与冲突解决
接下来,我们安装 Hugging Face 的 transformers 和 accelerate 库,它们是加载和运行 Llama 等主流大模型的基础工具。


