昇腾 NPU 部署 Llama 大模型全流程实战与性能测试 | 极客日志

PythonAI算法

昇腾 NPU 部署 Llama 大模型全流程实战与性能测试

综述由AI生成在昇腾 NPU 上部署 Llama-2-7B 大模型的完整流程。内容包括通过 GitCode 创建免费 NPU 实例、配置 PyTorch 及 torch_npu 环境、解决 torch.npu 导入及模型下载权限问题。实测显示英文生成、中文对话及代码生成场景吞吐量约为 16-17 tokens/s。文章还总结了常见错误排查方法，并提出了使用 MindSpeed-LLM 框架、INT8 量化及批处理推理等性能优化建议，为国产芯片大模型落地提供参考。

芝士奶盖发布于 2026/4/5更新于 2026/5/2334 浏览

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

一、选择昇腾 NPU 的原因

自主可控：昇腾使用华为自研的达芬奇架构，供应链安全更有保障。
生态完善：昇腾 GitCode 仓库拥有多个开源项目，支持 PyTorch、TensorFlow 及 MindSpeed-LLM 框架。
资源获取：GitCode 提供免费的昇腾 Notebook 实例，适合低成本测试验证。

二、环境准备

1. 创建 Notebook 实例

进入 GitCode 控制台创建实例，关键配置如下：

计算类型：必选 NPU。
规格：推荐 1*NPU 800T A2、32v CPU、64GB 内存。
镜像：选择 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。
存储：50G 免费存储足够（模型约 13GB）。

2. 环境配置

预装工具包括 PyTorch 2.1.0、CANN 8.0、Python 3.8 及 torch_npu 2.1.0。

三、验证环境

1. 检查版本

cat /etc/os-release
python3 --version
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

2. 验证 NPU 可用性

注意必须先导入 torch_npu 插件：

import torch
import torch_npu
print(torch.npu.is_available())  # 输出 True

四、安装依赖

手动安装 transformers 库，建议使用清华镜像加速：

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

五、部署 Llama 模型

1. 模型下载

官方 Llama-2 需申请权限且国内访问不稳定。推荐使用开源镜像版本 NousResearch/Llama-2-7b-hf。设置环境变量加速下载：

export HF_ENDPOINT=https://hf-mirror.com

2. 核心代码

import torch
import torch_npu
from transformers  AutoModelForCausalLM, AutoTokenizer
 time

MODEL_NAME = 
()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=
)
()
model = model.npu()
model.()
()

prompt = 
inputs = tokenizer(prompt, return_tensors=)

inputs = {k: v.to()  k, v  inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=)
end = time.time()
text = tokenizer.decode(outputs[])

()
()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
import torch_npu
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 10
MODEL_NAME = "NousResearch/Llama-2-7b-hf"

def load_model_and_tokenizer(model_name):
    print(f"正在加载模型 {model_name}...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    print(f"模型已加载到{DEVICE}，显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB")
    return model, tokenizer

def benchmark(prompt, tokenizer, model, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
    
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
        torch.npu.synchronize()
        end_time = time.time()
        latency = end_time - start_time
        latencies.append(latency)
        print(f"第{i+1}次测试：耗时{latency:.2f}秒，速度{max_new_tokens/latency:.2f}tokens/秒")
    
    avg_latency = sum(latencies)/len(latencies)
    throughput = max_new_tokens / avg_latency
    return {
        "prompt": prompt,
        "平均延迟 (秒)": round(avg_latency, 2),
        "平均吞吐量 (tokens/秒)": round(throughput, 2),
        "显存占用 (GB)": round(torch.npu.memory_allocated()/1e9, 2)
    }

if __name__ == "__main__":
    model, tokenizer = load_model_and_tokenizer(MODEL_NAME)
    test_cases = [
        {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 100},
        {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100},
        {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150}
    ]
    results = []
    for case in test_cases:
        result = benchmark(case["输入"], tokenizer, model, case["生成长度"])
        result["场景"] = case["场景"]
        results.append(result)
    print("===== 测试完成 =====")
    for res in results:
        print(f"{res['场景']}：{res['平均吞吐量 (tokens/秒)']} tokens/秒")

昇腾 NPU 部署 Llama 大模型全流程实战与性能测试

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

一、选择昇腾 NPU 的原因

二、环境准备

1. 创建 Notebook 实例

2. 环境配置

三、验证环境

1. 检查版本

2. 验证 NPU 可用性

四、安装依赖

五、部署 Llama 模型

1. 模型下载

2. 核心代码

更多推荐文章

相关免费在线工具

六、性能测试

1. 测试脚本优化

2. 测试结果

七、常见问题排查

八、优化建议

九、总结

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 大模型全流程实战与性能测试

在昇腾 NPU 上跑 Llama 大模型：从踩坑到通关的全程实战记

一、选择昇腾 NPU 的原因

二、环境准备

1. 创建 Notebook 实例

2. 环境配置

三、验证环境

1. 检查版本

2. 验证 NPU 可用性

四、安装依赖

五、部署 Llama 模型

1. 模型下载

2. 核心代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

六、性能测试

1. 测试脚本优化

2. 测试结果

七、常见问题排查

八、优化建议

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具