昇腾 NPU 部署 Llama 大模型实战指南

本文记录了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程。因 NVIDIA 硬件成本较高，选择昇腾 NPU 进行自主可控的达芬奇架构测试。文中详细介绍了云平台创建 Notebook 实例的关键配置、环境验证方法，以及安装 transformers 库、下载部署模型的步骤，并记录了遇到的常见问题及解决方案。

选择昇腾 NPU 的原因

自主可控：昇腾使用华为自研的达芬奇架构，供应链安全性更高。
生态完善：支持 PyTorch、TensorFlow 等主流框架，拥有 MindSpeed-LLM 等大模型专用框架。
成本效益：可通过云平台按小时租赁或申请免费测试资源，降低试错成本。

环境准备与实例配置

1. 实例创建

建议优先使用云上测试环境，零成本跑通流程。

计算类型：必选 NPU，避免误选 CPU 或 GPU。
规格配置：推荐 1*NPU 910B、32v CPU、64GB 内存，性能足以运行 Llama-2-7B。
镜像选择：需选择预装 PyTorch 2.1.0、CANN 8.0 的特定镜像（如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook）。
存储：50G 免费存储足够容纳约 13GB 的模型文件。

2. 环境配置

镜像通常预装了常用工具，包括 PyTorch 2.1.0、CANN 8.0、Python 3.8 及 torch_npu 2.1.0。

环境验证

进入 Notebook 界面打开 Terminal，执行以下命令检查版本：

# 检查系统版本
cat /etc/os-release

# 检查 Python 版本
python3 --version

# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"

# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

验证 NPU 可用性时，必须先导入 torch_npu 插件：

import torch
import torch_npu
print(torch.npu.is_available())  # 输出：True

依赖安装

运行 Llama 大模型需手动安装 transformers 库，建议使用国内镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

模型部署

1. 模型下载

官方仓库 meta-llama/Llama-2-7b-hf 需要权限且国内访问不稳定。推荐使用开源镜像版本 NousResearch/Llama-2-7b-hf。

设置环境变量以加速下载：

import torch import torch_npu import time from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_NAME = "NousResearch/Llama-2-7b-hf" DEVICE = "npu:0" WARMUP_RUNS = 3 TEST_RUNS = 10 def load_model_and_tokenizer(model_name): tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True ).to(DEVICE) model.eval() print(f"显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB") return model, tokenizer def benchmark(prompt, tokenizer, model, max_new_tokens=100): inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE) for _ in range(WARMUP_RUNS): with torch.no_grad(): _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False) latencies = [] for i in range(TEST_RUNS): torch.npu.synchronize() start_time = time.time() with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False) torch.npu.synchronize() end_time = time.time() latencies.append(end_time - start_time) avg_latency = sum(latencies) / len(latencies) throughput = max_new_tokens / avg_latency return {"平均延迟 (秒)": round(avg_latency, 2), "平均吞吐量 (tokens/秒)": round(throughput, 2)} if __name__ == "__main__": model, tokenizer = load_model_and_tokenizer(MODEL_NAME) test_cases = [ {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 100}, {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100}, {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150} ] for case in test_cases: result = benchmark(case["输入"], tokenizer, model, case["生成长度"]) print(f"{case['场景']}：{result['平均吞吐量 (tokens/秒)']} tokens/秒")

名称	网址
昇腾官网	https://www.hiascend.com/
昇腾社区	https://www.hiascend.com/community
昇腾官方文档	https://www.hiascend.com/document
昇腾开源仓库	https://gitcode.com/ascend

昇腾 NPU 部署 Llama 大模型实战指南