昇腾 NPU 部署与推理 Llama 模型实战指南 | 极客日志

PythonAI算法

昇腾 NPU 部署与推理 Llama 模型实战指南

华为昇腾 NPU 部署与推理 Llama 大模型技术方案涵盖 EulerOS 环境配置、PyTorch 与 torch_npu 适配、模型加载优化及显存管理。通过短文本、长文本及代码生成场景的基准测试，验证了 NPU 在推理速度、稳定性及资源占用方面的表现。同时整理了常见环境报错、依赖冲突及性能调优问题的解决方案，为开发者提供国产化硬件运行开源大模型的实践参考。

PhpPioneer发布于 2026/4/7更新于 2026/7/2235 浏览

背景

近年来，AI 大模型发展迅速，Llama 等开源模型成为技术热点。这些模型对硬件要求较高，华为昇腾 NPU 凭借强劲的算力和良好的功耗控制，适合用于大模型推理。

为什么选择 Llama 测试？

开源生态：完全开源，社区优化丰富。
规模多样：提供 7B、13B、70B 等多种版本。
性能表现：基准测试中表现亮眼。
应用场景：覆盖文本生成、对话、代码补全等。

从测试来看，MindSpore 框架及针对 Llama 的算子优化在内存管理和推理效率上表现良好。

一、测评环境搭建

1.1 硬件平台选择

由于物理设备稀缺，建议使用云端 NPU 资源。基于昇腾 910B 芯片的云端实验环境可便捷开展开发。

推荐配置：

计算单元：1 * NPU 910B
CPU：32 核心
内存：64GB
存储：50GB
操作系统：EulerOS 2.9
Python 版本：3.8

1.2 环境配置步骤

步骤 1：初始化环境

确保系统已安装必要的驱动和框架。选择包含 EulerOS、PyTorch 及 CANN 的容器镜像启动实例。

步骤 2：环境验证

启动实例后，在终端执行以下命令验证环境：

# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu 版本
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"
# 验证 NPU 可用性（注意：必须先导入 torch_npu）
python -c "import torch; import torch_npu; print(torch.npu.is_available())"

PyTorch 版本：2.1.0
torch_npu 版本：2.1.0.post3
NPU 可用性：torch.npu.is_available() 返回 True，说明昇腾 NPU 已成功识别。

步骤 3：安装必要依赖

# 安装 Hugging Face 相关库
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
# 如果遇到依赖冲突，卸载冲突库
pip uninstall mindformers

使用国内镜像源可显著提高下载速度。

二、Llama 模型部署实战

2.1 模型选择与加载

本次测评选择 Llama-2-7b 模型。若遇到无法连接 Hugging Face Hub 的问题，可配置镜像源解决。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=True
)
print("加载到 NPU...")
model = model.npu()
model.eval()
print(f"显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")

prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.npu() for k, v in inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end = time.time()
text = tokenizer.decode(outputs[0])

print(f"\n生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

export OMP_NUM_THREADS=4

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 简化的基础推理测试脚本 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 基础推理测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY'] = '1'
    print("✅ 环境设置完成")
    
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True
        )
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型已迁移到 NPU")
        memory_allocated = torch.npu.memory_allocated() / (1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    
    # 4. 基础推理测试
    print("\n" + "="*50)
    print("🧪 基础推理测试")
    print("="*50)
    prompt = "The capital of France is"
    print(f"输入提示：{prompt}")
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    print(f"输入 token 数：{len(inputs['input_ids'][0])}")
    
    start_time = time.time()
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=20, do_sample=True, temperature=0.7, pad_token_id=tokenizer.eos_token_id)
    end_time = time.time()
    
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    generation_time = end_time - start_time
    tokens_generated = len(outputs[0]) - len(inputs['input_ids'][0])
    
    print(f"✅ 生成文本：{generated_text}")
    print(f"⏱️ 推理耗时：{generation_time:.2f}秒")
    print(f"🎯 生成 token 数：{tokens_generated}")
    print(f"🚀 生成速度：{tokens_generated / generation_time:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    
    print("\n" + "="*50)
    print("🎯 测试结果")
    print("="*50)
    print("✅ 模型加载：成功")
    print("✅ NPU 迁移：成功")
    print("✅ 推理测试：成功")
    print("🎉 基础推理测试完成!")

if __name__ == "__main__":
    main()

测试场景	平均生成速度	显存占用	总耗时	总生成 token
短文本生成	26.02 tokens/s	0.27 GB	1.73 秒	45
长文本生成	8.51 tokens/s	0.27 GB	1.29 秒	11
代码生成	4.19 tokens/s	0.27 GB	0.96 秒	4

# 正确的导入顺序
import torch
import torch_npu

# 错误用法
# inputs = tokenizer(prompt, return_tensors="pt").npu()
# 正确用法
inputs = tokenizer(prompt, return_tensors="pt").to('npu:0')

pip uninstall mindformers
pip install transformers accelerate

# 使用半精度浮点数
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)
# 清理显存
torch.npu.empty_cache()

昇腾 NPU 部署与推理 Llama 模型实战指南

背景

为什么选择 Llama 测试？

一、测评环境搭建

1.1 硬件平台选择

1.2 环境配置步骤

步骤 1：初始化环境

步骤 2：环境验证

步骤 3：安装必要依赖

二、Llama 模型部署实战

2.1 模型选择与加载

更多推荐文章

相关免费在线工具

2.2 基础推理测试

三、性能基准测试

3.1 多场景性能测试

场景 1：短文本生成测试

场景 2：长文本生成测试

场景 3：代码生成测试

3.2 性能基准数据汇总

四、实际应用场景深度体验

4.1 智能问答系统

4.2 创意写作助手

五、常见问题与解决方案

5.1 环境配置问题

5.2 模型加载问题

5.3 性能优化问题

六、实践建议

6.1 环境配置最佳实践

6.2 模型部署最佳实践

6.3 性能调优最佳实践

总结

参考资料

更多推荐文章

相关免费在线工具

昇腾 NPU 部署与推理 Llama 模型实战指南

背景

为什么选择 Llama 测试？

一、测评环境搭建

1.1 硬件平台选择

1.2 环境配置步骤

步骤 1：初始化环境

步骤 2：环境验证

步骤 3：安装必要依赖

二、Llama 模型部署实战

2.1 模型选择与加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 基础推理测试

三、性能基准测试

3.1 多场景性能测试

场景 1：短文本生成测试

场景 2：长文本生成测试

场景 3：代码生成测试

3.2 性能基准数据汇总

四、实际应用场景深度体验

4.1 智能问答系统

4.2 创意写作助手

五、常见问题与解决方案

5.1 环境配置问题

5.2 模型加载问题

5.3 性能优化问题

六、实践建议

6.1 环境配置最佳实践

6.2 模型部署最佳实践

6.3 性能调优最佳实践

总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具