昇腾 NPU 部署 Llama 大模型实战指南
本文记录了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程。因 NVIDIA 硬件成本较高,选择昇腾 NPU 进行自主可控的达芬奇架构测试。文中详细介绍了云平台创建 Notebook 实例的关键配置、环境验证方法,以及安装 transformers 库、下载部署模型的步骤,并记录了遇到的常见问题及解决方案。
选择昇腾 NPU 的原因
- 自主可控:昇腾使用华为自研的达芬奇架构,供应链安全性更高。
- 生态完善:支持 PyTorch、TensorFlow 等主流框架,拥有 MindSpeed-LLM 等大模型专用框架。
- 成本效益:可通过云平台按小时租赁或申请免费测试资源,降低试错成本。
环境准备与实例配置
1. 实例创建
建议优先使用云上测试环境,零成本跑通流程。
- 计算类型:必选 NPU,避免误选 CPU 或 GPU。
- 规格配置:推荐 1*NPU 910B、32v CPU、64GB 内存,性能足以运行 Llama-2-7B。
- 镜像选择:需选择预装 PyTorch 2.1.0、CANN 8.0 的特定镜像(如
euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook)。 - 存储:50G 免费存储足够容纳约 13GB 的模型文件。
2. 环境配置
镜像通常预装了常用工具,包括 PyTorch 2.1.0、CANN 8.0、Python 3.8 及 torch_npu 2.1.0。
环境验证
进入 Notebook 界面打开 Terminal,执行以下命令检查版本:
# 检查系统版本
cat /etc/os-release
# 检查 Python 版本
python3 --version
# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本:{torch.__version__}')"
# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
验证 NPU 可用性时,必须先导入 torch_npu 插件:
import torch
import torch_npu
print(torch.npu.is_available()) # 输出:True
依赖安装
运行 Llama 大模型需手动安装 transformers 库,建议使用国内镜像加速:
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
模型部署
1. 模型下载
官方仓库 meta-llama/Llama-2-7b-hf 需要权限且国内访问不稳定。推荐使用开源镜像版本 NousResearch/Llama-2-7b-hf。
设置环境变量以加速下载:
HF_ENDPOINT=https://hf-mirror.com


