昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践

引言
面对昂贵的 NVIDIA 高端 GPU,许多开发者和团队在部署大模型时面临成本压力。华为昇腾(Ascend)NPU 凭借自主可控的达芬奇架构、日益完善的软件开源生态以及云上可得的测试资源,成为高性价比的替代方案。
本文记录使用昇腾 Notebook 实例,完成从环境配置、模型部署到性能测试与优化的全过程,为后续探索者提供参考。
环境搭建

1.1 创建 Notebook 实例
在云平台创建 Notebook 实例时,关键配置如下:
- 计算类型:务必选择
NPU!手滑选了 CPU 或 GPU,后续步骤将无效。 - 规格选择:
NPU basic规格(1*Ascend 910B, 32vCPU, 64GB 内存)是运行 Llama-2-7B 的甜点配置。 - 镜像选择:必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像,例如
euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。这能省去大量手动配置环境的时间。

1.2 环境验证
实例启动后,确认 NPU 可用。在终端中执行以下命令:
# 检查系统与 Python 版本
cat /etc/os-release
python3 --version
# 检查 PyTorch 及 torch_npu
python -c "import torch; print(f'PyTorch 版本:{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
若未安装,先执行 pip install --upgrade pip,然后安装:
pip install torch torchvision torchaudio
pip install torch-npu
看到 PyTorch 版本:2.4.0 和 torch_npu 版本:2.4.0.post4 说明正常可用。



