跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Python

昇腾 NPU 部署 Llama 2 模型:性能测试与优化实战

综述由AI生成在昇腾 NPU 上跑 Llama 2 模型:性能测试与优化实战 !图片 引言:从'为什么选择昇腾'开始 面对动辄数万的 NVIDIA 高端 GPU,许多开发者和团队在部署大模型时都感到'钱包一紧'。当我在为 Llama 2-7B 寻找一个高性价比的部署方案时,**华为昇腾(Ascend)NPU**走进了我的视野。其**自主可控的达芬奇架构**、日益完善的**软件开源生态**(昇腾开源仓库)以及云上…

链路追踪发布于 2026/4/6更新于 2026/5/1992K 浏览
昇腾 NPU 部署 Llama 2 模型:性能测试与优化实战

在昇腾 NPU 上跑 Llama 2 模型:性能测试与优化实战

图片

引言:从'为什么选择昇腾'开始

面对动辄数万的 NVIDIA 高端 GPU,许多开发者和团队在部署大模型时都感到'钱包一紧'。当我在为 Llama 2-7B 寻找一个高性价比的部署方案时,华为昇腾(Ascend)NPU走进了我的视野。其自主可控的达芬奇架构、日益完善的软件开源生态(昇腾开源仓库)以及云上可得的测试资源,构成了我选择它的三大理由。

本文就将记录我使用云平台的免费昇腾 Notebook 实例,完成从环境配置、模型部署到性能测试与优化的全过程。这是一份真实的'踩坑'与'通关'记录,希望能为后续的探索者点亮一盏灯。

第一幕:环境搭建——好的开始是成功的一半

图片

本以为在云平台创建环境是 simplest thing,没想到第一个'坑'来得如此之快。

1.1 云平台 Notebook 创建'避坑指南'

图片

在云平台创建 Notebook 实例时,几个关键配置决定了后续的成败:

  • 计算类型:务必选择 NPU !手滑选了 CPU 或 GPU,后续所有步骤都将徒劳无功。
  • 规格选择:NPU basic 规格(1*Ascend 910B, 32vCPU, 64GB 内存)是运行 Llama-2-7B 的甜点配置。

镜像选择:这是关键!必须选择预装了 CANN、PyTorch 适配器等核心工具的镜像,例如 euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook 。这能省去大量手动配置环境的时间。

图片

1.2 环境验证:'Hello, NPU!'

实例启动后,我们首先需要确认 NPU 可用。在 Jupyter Notebook 的终端中,依次执行以下命令:

图片

# 检查系统与 Python 版本
cat /etc/os-release
python3 --version
# 检查 PyTorch 及 torch_npu
python -c 
python -c 

pip install torch torchvision torchaudio
pip install torch-npu

"import torch; print(f'PyTorch 版本:{torch.__version__}')"
"import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
# 没有的话安装,先执行 pip install --upgrade pip
# 看到 PyTorch 版本:2.4.0 torch_npu 版本:2.4.0.post4 说明正常可用

图片

图片

第一个常见的'坑':直接运行 torch.npu.is_available() 会报错 AttributeError。 原因与解决方案:torch_npu 是一个独立的插件,必须显式导入后才能注册 NPU 后端。正确的验证方式是:

python -c "import torch; import torch_npu; print(torch.npu.is_available())"

看到 True ,恭喜你,NPU 环境准备就绪!

第二幕:模型部署——从下载到运行的'荆棘之路'

环境搞定,接下来就是请'Llama 2'这位大神上场了。

2.1 安装依赖与模型下载

安装运行 Llama 2 所必须的库,建议使用国内镜像加速:

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

第二个'坑'——模型下载权限与网络。直接访问 Meta 官方的 Llama 2 仓库 (meta-llama/Llama-2-7b-hf) 需要申请权限,且国内下载速度堪忧。 解决方案:使用社区镜像版本,如 NousResearch/Llama-2-7b-hf,无需权限,下载稳定。

2.2 核心部署代码与'坑'的化解

创建一个 Python 脚本(如 llama_demo.py),以下是核心代码及注意事项:

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'  # 在昇腾环境中,直接访问 HuggingFace 经常会超时,所以使用国内镜像
import torch
import torch_npu  # 切记!
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"

print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,  # 使用 FP16 节省显存
    low_cpu_mem_usage=True
)
print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval()  # 设置为评估模式

# 第三个'坑':输入张量迁移
prompt = "The capital of France is"
# 错误写法:inputs = tokenizer(prompt, return_tensors="pt").npu() -> 报错!
# 正确写法:
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

# 推理
with torch.no_grad():
    start_time = time.time()
    outputs = model.generate(**inputs, max_new_tokens=50)
    end_time = time.time()
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(f"生成内容:{generated_text}")
    print(f"推理耗时:{end_time - start_time:.2f} 秒")

图片

关键点总结:

  1. 在昇腾环境中,直接访问 HuggingFace 经常会超时,所以推荐使用国内镜像 https://hf-mirror.com
  2. import torch_npu 必须在任何 NPU 操作之前。
  3. 模型使用 model.to('npu:0') 迁移。
  4. 输入数据(字典)使用 .to('npu:0') 迁移,而非不存在的 .npu() 方法。

第三幕:性能测试——揭开昇腾 NPU 的真实面纱

是骡子是马,拉出来遛遛。我设计了一个更严谨的测试脚本来评估性能。

3.1 严谨的性能测试脚本
import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'  # 在昇腾环境中,直接访问 HuggingFace 经常会超时,所以使用国内镜像
import torch
import torch_npu
import time
import json
from transformers import AutoModelForCausalLM, AutoTokenizer

# 配置
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5

def load_model():
    print("加载模型与分词器...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    return model, tokenizer

def benchmark(prompt, model, tokenizer, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    # 预热
    print("预热运行...")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
    # 正式测试
    print("开始性能测试...")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()  # 同步,确保计时准确
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens)
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f"  第{i+1}次耗时:{latency:.2f}s")
    avg_latency = sum(latencies) / len(latencies)
    throughput = max_new_tokens / avg_latency
    return throughput, avg_latency

if __name__ == "__main__":
    model, tokenizer = load_model()
    test_cases = [
        {"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
        {"场景": "中文问答", "提示": "请用简单的话解释量子计算:", "长度": 100},
        {"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
    ]
    print("\n" + "="*50)
    print("性能测试结果")
    print("="*50)
    for case in test_cases:
        throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
        print(f"- {case['场景']}:")
        print(f"  平均延迟:{avg_latency:.2f}s")
        print(f"  吞吐量:{throughput:.2f} tokens/s")
    print("="*50)

图片

3.2 测试结果与分析

在昇腾 NPU Basic 实例上,测试结果大致如下:

测试类型第 1 次耗时第 2 次耗时第 3 次耗时第 4 次耗时第 5 次耗时平均延迟吞吐量
英文生成4.87s4.88s4.78s4.96s5.22s4.94s20.24 tokens/s
中文问答4.84s4.86s5.01s4.81s4.81s4.87s20.55 tokens/s
代码生成7.14s7.19s7.32s7.37s7.16s7.24s20.73 tokens/s

结果分析:

  • 性能表现:吞吐量稳定在 20-30 tokens/秒 左右。这个速度对于离线批处理、内部工具开发和对实时性要求不高的场景是足够的,但与顶级消费级 GPU 相比仍有差距。
  • 稳定性:在整个测试过程中,昇腾 NPU 表现出了良好的稳定性,没有出现崩溃或性能波动。
  • 结论:昇腾 NPU 为运行 Llama 2 这类大模型提供了一个可行、稳定且具有高性价比(尤其考虑国产化与云上成本) 的算力选项。

第四幕:性能优化——让 Llama 跑得更快

如果对默认性能不满意,这里有几个可以尝试的优化方向:

4.1 使用昇腾原生大模型框架

针对模型量化,昇腾平台提供了专业的优化工具链。在训练或微调环节,建议使用昇腾社区提供的 MindSpeed-LLM 框架(GitCode 链接)。该框架针对昇腾硬件进行了深度优化,可高效完成大模型的训练与微调任务。

完成模型开发后,进行模型压缩与部署时,可直接使用昇腾的 Modelslim 工具进行量化。该工具能有效降低模型精度(如从 FP16/BF16 量化至 INT8),以显著提升推理速度并减少内存占用,同时力求保持模型精度。根据昇腾社区公开的基准测试数据,在典型的大模型推理场景下,经过 Modelslim 量化后的模型,相比原生 PyTorch FP16 推理,在昇腾硬件上通常可获得 1.5 倍至 3 倍 的端到端性能提升,具体加速比因模型结构和任务复杂度而异。

4.2 INT8 量化

在第三幕中,我们建立了 FP16 精度下的性能基线。现在,我们使用昇腾的 Modelslim 工具对同一个 NousResearch/Llama-2-7b-hf 模型进行 W8A8(权重与激活值均 INT8)量化。量化完成后,我们不修改任何测试代码,仅将模型路径指向新生成的量化模型,并重新执行第三幕的测试脚本。

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config,
    device_map="auto"
)

以下是量化后的性能测试结果,与第三幕形成直接对比:

测试类型第 1 次耗时第 2 次耗时第 3 次耗时第 4 次耗时第 5 次耗时平均延迟吞吐量相比 FP16 提升
英文生成2.21s2.18s2.25s2.32s2.19s2.23s44.84 tokens/s吞吐量提升约 1.21 倍
中文问答2.19s2.24s2.16s2.28s2.22s2.22s45.05 tokens/s吞吐量提升约 1.19 倍
代码生成3.31s3.28s3.42s3.35s3.29s3.33s45.05 tokens/s吞吐量提升约 1.17 倍
4.3 启用批处理(Batch Inference)

同时处理多个请求可以大幅提升吞吐量。

prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)

总结与建议

经过这一番从'踩坑'到'通关'的实战,我对昇腾 NPU 的总结如下:

  • 适用场景:非常适合追求技术自主可控、预算有限、进行离线批处理或构建内部 AI 工具的团队和个人开发者。
  • 生态体验:软件栈(CANN, torch_npu)日趋成熟,开源社区(Ascend Gitee)提供了宝贵的资源和支持。
  • 给后来者的建议:
    1. 先从云开始:利用云平台或 ModelArts 的免费/低成本资源验证方案,再决定是否投入硬件。
    2. 仔细阅读文档:关注 昇腾官方文档,特别是版本匹配问题。
    3. 拥抱社区:遇到问题时,在昇腾社区或开源仓库的 Issue 中搜索,很可能已有解决方案。

本次部署测试证明了基于昇腾 NPU 部署和运行 Llama 2 大模型是一条完全可行的技术路径。虽然绝对性能并非顶尖,但其在成本、自主可控和稳定性方面的优势,使其在 AI 算力多元化的今天,成为一个不容忽视的选择。


附:社区 Issue 实践

根据在模型部署过程中遇到的'输入张量迁移'典型问题,我已在昇腾 ModelZoo-PyTorch 仓库提交了详细的 Issue,包含问题分析、解决步骤与代码示例。

[Issue 链接]:https://gitee.com/Ascend/MindSpeed-LLM/issues/924

目录

  1. 在昇腾 NPU 上跑 Llama 2 模型:性能测试与优化实战
  2. 引言:从“为什么选择昇腾”开始
  3. 第一幕:环境搭建——好的开始是成功的一半
  4. 1.1 云平台 Notebook 创建“避坑指南”
  5. 1.2 环境验证:“Hello, NPU!”
  6. 检查系统与 Python 版本
  7. 检查 PyTorch 及 torch_npu
  8. 没有的话安装,先执行 pip install --upgrade pip
  9. 看到 PyTorch 版本:2.4.0 torch_npu 版本:2.4.0.post4 说明正常可用
  10. 第二幕:模型部署——从下载到运行的“荆棘之路”
  11. 2.1 安装依赖与模型下载
  12. 2.2 核心部署代码与“坑”的化解
  13. 配置
  14. 第三个“坑”:输入张量迁移
  15. 错误写法:inputs = tokenizer(prompt, return_tensors="pt").npu() -> 报错!
  16. 正确写法:
  17. 推理
  18. 第三幕:性能测试——揭开昇腾 NPU 的真实面纱
  19. 3.1 严谨的性能测试脚本
  20. 配置
  21. 3.2 测试结果与分析
  22. 第四幕:性能优化——让 Llama 跑得更快
  23. 4.1 使用昇腾原生大模型框架
  24. 4.2 INT8 量化
  25. 4.3 启用批处理(Batch Inference)
  26. 总结与建议
  27. 附:社区 Issue 实践
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Z-Image Turbo 本地部署与使用指南
  • 多模态大模型原理与跨模态应用实战
  • 零基础入门 AI:一份系统化的学习路径指南
  • 渗透测试实战指南:核心流程与常见漏洞防御
  • Python 列表内存存储本质:差异原因与优化建议
  • C++11 新特性详解:可变参数模板、类功能与 STL 变化
  • RISC-V 开源处理器实战:Verilog RTL 设计与 FPGA 验证
  • 使用 Copilot 制定 60 天 AI 学习计划并同步至 Outlook 日程
  • 系统接收多种报文时,如何避免 if-else 地狱?策略与工厂模式实战
  • 5 款网文创作 AI 工具横评:DeepSeek、Kimi、笔灵等
  • ESPHome 本地部署及外网访问指南(Linux)
  • 智能客服系统从零搭建:基于 Python 的 NLP 实战与架构设计
  • Ollama v0.17.0 更新:OpenClaw 自动安装、Web 搜索与 Tokenizer 性能优化
  • 逆向 WebChat 协议:构建 OpenClaw 零侵入通用适配器
  • 搜索旋转排序数组:五种实现方案详解
  • 大模型 LLM 学习路线图与核心技术详解
  • 飞书机器人对接 Claude Code 实现移动端 AI 编程助手
  • Python 高校学生求职就业平台 Vue3 论坛
  • OpenJDK 21 安装指南
  • Python 入门教程:基础语法与应用场景详解

相关免费在线工具

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online

  • HTML转Markdown

    将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online

  • JSON 压缩

    通过删除不必要的空白来缩小和压缩JSON。 在线工具,JSON 压缩在线工具,online