昇腾 NPU 部署 Llama 大模型：全流程实战与避坑指南

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

本文分享了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程。提供踩坑经验。

一、为什么选择昇腾？

国外 GPU 价格高昂，Atlas 服务器成本更是让个人开发者望而却步。昇腾 NPU 凭借自主可控的达芬奇架构、完善的开源生态以及 GitCode 提供的免费测试资源，成为了高性价比的选择。

自主可控：华为自研达芬奇架构，供应链安全更有保障。
生态完善：GitCode 仓库中有大量开源项目，支持 PyTorch、TensorFlow，还有专门的 MindSpeed-LLM 框架。
成本优势：通过 GitCode 申请免费的昇腾 Notebook 实例，零成本验证流程，比购买硬件划算得多。

二、环境准备：GitCode 配置要点

创建实例看似简单，实则暗藏陷阱。建议按以下配置操作：

1. 计算类型

务必选择 NPU。误选 CPU 会导致性能极差，甚至无法运行。

2. 规格选择

推荐配置：1*NPU 800T A2、32v CPU、64GB 内存。此配置足以支撑 Llama-2-7B 运行，过高浪费，过低则不够用。

3. 镜像选择

必须使用预装环境的镜像：euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。该镜像已集成 PyTorch 2.1.0、CANN 8.0 等关键工具。

4. 存储设置

默认 50G 免费存储足够（模型约 13GB），无需额外付费扩容。

三、环境验证：第一个坑来得猝不及防

进入 Notebook 后，首先验证 NPU 可用性。打开 Terminal 输入以下命令检查版本：

cat /etc/os-release
python3 --version
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

接着验证 NPU 是否可用。直接运行 torch.npu.is_available() 会报错 AttributeError: module 'torch' has no attribute 'npu'。必须先导入 torch_npu 插件。

正确写法：

import torch
import torch_npu
print(torch.npu.is_available())  # 输出：True

确认输出为 True 且显示有 1 个 NPU 设备后，才算环境就绪。

四、安装依赖

虽然镜像预装了 PyTorch，但运行 Llama 大模型仍需手动安装 transformers 库。建议使用清华源加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

五、部署 Llama：下载与运行

1. 模型下载

import torch import torch_npu import time import json from datetime import datetime from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_NAME = "NousResearch/Llama-2-7b-hf" DEVICE = "npu:0" WARMUP_RUNS = 3 TEST_RUNS = 10 def load_model_and_tokenizer(model_name): print(f"正在加载模型 {model_name}...") tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True ).to(DEVICE) model.eval() print(f"模型已加载到{DEVICE}，显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB") return model, tokenizer def benchmark(prompt, tokenizer, model, max_new_tokens=100): inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE) for _ in range(WARMUP_RUNS): with torch.no_grad(): _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id) latencies = [] for i in range(TEST_RUNS): torch.npu.synchronize() start_time = time.time() with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id) torch.npu.synchronize() end_time = time.time() latency = end_time - start_time latencies.append(latency) print(f"第{i+1}次测试：耗时{latency:.2f}秒，速度{max_new_tokens/latency:.2f}tokens/秒") avg_latency = sum(latencies) / len(latencies) throughput = max_new_tokens / avg_latency return { "prompt": prompt, "max_new_tokens": max_new_tokens, "平均延迟 (秒)": round(avg_latency, 2), "平均吞吐量 (tokens/秒)": round(throughput, 2), "显存占用 (GB)": round(torch.npu.memory_allocated()/1e9, 2) } if __name__ == "__main__": model, tokenizer = load_model_and_tokenizer(MODEL_NAME) test_cases = [ {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 100}, {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100}, {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150} ] results = [] for case in test_cases: print(f"\n===== 测试场景：{case['场景']} =====") result = benchmark(prompt=case["输入"], tokenizer=tokenizer, model=model, max_new_tokens=case["生成长度"]) result["场景"] = case["场景"] results.append(result) timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") filename = f"llama_benchmark_{timestamp}.json" with open(filename, "w", encoding="utf-8") as f: json.dump(results, f, ensure_ascii=False, indent=2) print(f"测试结果已保存到 {filename}") print("\n===== 测试完成 =====") print("性能总结：") for res in results: print(f"{res['场景']}：{res['平均吞吐量 (tokens/秒)']} tokens/秒")

昇腾 NPU 部署 Llama 大模型：全流程实战与避坑指南

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

一、为什么选择昇腾？

二、环境准备：GitCode 配置要点

1. 计算类型

2. 规格选择

3. 镜像选择

4. 存储设置

三、环境验证：第一个坑来得猝不及防

四、安装依赖

五、部署 Llama：下载与运行

1. 模型下载

更多推荐文章

相关免费在线工具

2. 核心代码

六、性能测试

七、常见问题汇总

八、性能优化建议

九、总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 大模型：全流程实战与避坑指南

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

一、为什么选择昇腾？

二、环境准备：GitCode 配置要点

1. 计算类型

2. 规格选择

3. 镜像选择

4. 存储设置

三、环境验证：第一个坑来得猝不及防

四、安装依赖

五、部署 Llama：下载与运行

1. 模型下载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 核心代码

六、性能测试

七、常见问题汇总

八、性能优化建议

九、总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具