在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南 | 极客日志

PythonAI算法

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

昇腾 NPU 部署 Llama-2-7B 模型全流程实战。涵盖 GitCode 实例创建、环境验证、依赖安装及模型加载步骤。重点解决 torch_npu 导入错误、设备转移方法、权限下载等问题。实测吞吐量约 16 tokens/s，提供 MindSpeed 优化、INT8 量化及批处理建议。适合预算有限或需自主可控场景的开发者参考。

鲜活发布于 2026/4/6更新于 2026/7/2141 浏览

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

本文分享了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程，提供踩坑经验。

一、为什么选择昇腾 NPU？

部署大模型时，硬件成本往往是第一道门槛。国外 GPU 价格高昂，Atlas 服务器动辄十几万，个人开发者难以承担。昇腾 NPU 凭借自主可控的达芬奇架构、完善的开源生态及免费测试资源，成为高性价比的选择。

自主可控：华为自研达芬奇架构，供应链风险低。
生态完善：GitCode 仓库中有大量开源项目，支持 PyTorch、TensorFlow 及 MindSpeed-LLM 框架。
低成本试错：通过 GitCode 可申请免费的昇腾 Notebook 实例，或按小时租用 ModelArts 资源，无需购买昂贵硬件即可验证方案。

[图片]

二、环境准备：GitCode 实例配置

创建实例看似简单，实则暗藏陷阱。建议按以下配置操作，避免返工：

1. 计算类型与规格

计算类型：必须选 NPU。误选 CPU 会导致性能极差。
规格：推荐 NPU basic（1*NPU 800T A2、32v CPU、64GB 内存），足以运行 Llama-2-7B。
镜像：选择 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook，预装关键工具。
存储：50G 免费空间足够（模型约 13GB）。

[图片]

2. 环境验证

进入 Jupyter Notebook 终端后，先检查基础环境：

# 检查系统版本
cat /etc/os-release

# 检查 Python 版本
python3 --version

# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"

# 检查 torch_npu 版本
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

常见错误：直接运行 torch.npu.is_available() 会报错 AttributeError: module 'torch' has no attribute 'npu'。

原因：torch_npu 是独立插件，必须先导入。

正确写法：

import torch
import torch_npu
print(torch.npu.is_available())  # 输出 True

三、安装依赖与模型下载

1. 安装 transformers

虽然镜像自带 PyTorch，但需手动安装 transformers 库：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始测试...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
).to(DEVICE)
model.eval()

print(f"显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")

prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)  # 正确写法

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end = time.time()

text = tokenizer.decode(outputs[0])
print(f"生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

import torch
import torch_npu
import time
import json
from datetime import datetime
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 10
SAVE_RESULT = True

def load_model_and_tokenizer(model_name):
    print(f"正在加载模型 {model_name}...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    print(f"模型已加载到{DEVICE}，显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB")
    return model, tokenizer

def benchmark(prompt, tokenizer, model, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热
    print(f"预热中...（{WARMUP_RUNS}次）")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
    
    # 正式测试
    print(f"开始测试...（{TEST_RUNS}次）")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
        torch.npu.synchronize()
        end_time = time.time()
        latency = end_time - start_time
        latencies.append(latency)
        print(f"第{i+1}次测试：耗时{latency:.2f}秒，速度{max_new_tokens/latency:.2f}tokens/秒")
    
    avg_latency = sum(latencies)/len(latencies)
    throughput = max_new_tokens / avg_latency
    return {
        "prompt": prompt,
        "max_new_tokens": max_new_tokens,
        "平均延迟 (秒)": round(avg_latency, 2),
        "平均吞吐量 (tokens/秒)": round(throughput, 2),
        "显存占用 (GB)": round(torch.npu.memory_allocated()/1e9, 2)
    }

if __name__ == "__main__":
    model, tokenizer = load_model_and_tokenizer(MODEL_NAME)
    test_cases = [
        {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 100},
        {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100},
        {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150}
    ]
    results = []
    for case in test_cases:
        print(f"\n===== 测试场景：{case['场景']} =====")
        result = benchmark(
            prompt=case["输入"],
            tokenizer=tokenizer,
            model=model,
            max_new_tokens=case["生成长度"]
        )
        result["场景"] = case["场景"]
        results.append(result)
    
    if SAVE_RESULT:
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"llama_benchmark_{timestamp}.json"
        with open(filename, "w", encoding="utf-8") as f:
            json.dump(results, f, ensure_ascii=False, indent=2)
        print(f"\n测试结果已保存到 {filename}")
    
    print("\n===== 测试完成 =====")
    print("性能总结：")
    for res in results:
        print(f"{res['场景']}：{res['平均吞吐量 (tokens/秒)']} tokens/秒")

MindIE 框架：昇腾官方大模型框架，针对 NPU 深度优化。

INT8 量化：降低精度可减少显存占用并提升速度。

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, quantization_config=quantization_config)

批处理推理：增加 batch size 可显著提升吞吐量。

名称	网址
昇腾官网	https://www.hiascend.com/
昇腾社区	https://www.hiascend.com/community
昇腾官方文档	https://www.hiascend.com/document
昇腾开源仓库	https://gitcode.com/ascend

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

一、为什么选择昇腾 NPU？

二、环境准备：GitCode 实例配置

1. 计算类型与规格

2. 环境验证

三、安装依赖与模型下载

1. 安装 transformers

更多推荐文章

相关免费在线工具

2. 模型下载策略

3. 核心加载代码

四、性能测试脚本优化

五、常见问题排查

六、性能优化建议

七、总结与建议

更多推荐文章

相关免费在线工具

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

在昇腾 NPU 上部署 Llama 大模型：全流程实战与踩坑指南

一、为什么选择昇腾 NPU？

二、环境准备：GitCode 实例配置

1. 计算类型与规格

2. 环境验证

三、安装依赖与模型下载

1. 安装 transformers

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 模型下载策略

3. 核心加载代码

四、性能测试脚本优化

五、常见问题排查

六、性能优化建议

七、总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具