昇腾 NPU 运行 Llama 模型：环境搭建与性能测试 | 极客日志

PythonAI算法

昇腾 NPU 运行 Llama 模型：环境搭建与性能测试

在华为昇腾 NPU 上部署和运行 Llama 大模型的完整流程。内容包括测评环境搭建（基于 EulerOS 和 PyTorch）、模型加载与推理测试、多场景性能基准测试（短文本、长文本、代码生成）以及常见问题解决方案。测试表明昇腾 NPU 支持 Llama 模型推理，显存占用合理，性能稳定，适合企业级应用及国产化替代场景。

开源信徒发布于 2026/4/6更新于 2026/7/546 浏览

背景

最近几年，AI 大模型火得一塌糊涂，特别是像 Llama 这样的开源模型，几乎成了每个技术团队都在讨论的热点。不过，这些"巨无霸"模型虽然能力超强，但对硬件的要求也高得吓人。这时候，华为的昇腾 NPU 就派上用场了。

说实话，昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计，不仅算力强劲，功耗控制得也不错，最关键的是灵活性很好，可以根据不同场景进行裁剪。所以，用它来跑大模型推理，理论上应该是个不错的选择。

为什么偏偏选了 Llama 来测试？

说到 Llama，这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来，社区生态搞得风生水起，各种优化和适配层出不穷。

其实选择 Llama 做测试，主要有这么几个考虑：

开源就是王道：完全开源，想怎么折腾就怎么折腾，不用担心版权问题
规模选择多：Llama 2 有 7B、13B、70B 好几个版本，咱们可以根据需要选合适的
性能确实不错：在各种基准测试里表现都很亮眼，算是目前主流的大语言模型了
应用面广：文本生成、对话、代码补全，样样都能干

那么，昇腾 NPU 对 Llama 的支持到底怎么样呢？从我们的测试来看：

MindSpore 框架：华为自家的深度学习框架，跑 Llama 模型效率挺高的
算子优化：针对 Llama 的关键算子做了深度优化，这个很关键
内存管理：模型加载和推理过程中的内存使用优化得不错

一、测评环境搭建

1.1 硬件平台选择

由于昇腾 NPU 硬件资源相对稀缺，个人开发者难以直接获取物理设备，因此本次测评选择使用云端提供的免费 NPU 资源。该平台基于昇腾 910B 芯片，为开发者提供了便捷的云端实验环境。

推荐配置：

计算单元：1 * NPU 910B
CPU：32 核心
内存：64GB
存储：50GB
操作系统：EulerOS 2.9
Python 版本：3.8

1.2 环境配置步骤

步骤 1：创建 Notebook 实例

登录云平台并激活 Notebook：

访问云平台并登录你的账号
在资源确认对话框中选择：
- 计算类型：NPU（选择 NPU 而不是 CPU）
- 资源配置：NPU basic • 1 * NPU 910B • 32v CPU • 64GB
- 容器镜像：euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook
勾选"设置为默认 Notebook 资源配置"
点击"立即启动"

等待几分钟，Notebook 环境就启动好了。

步骤 2：环境验证

启动实例后，在 Jupyter Notebook 中打开终端，执行以下验证命令：

# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu 版本
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

python -c

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 安装 Hugging Face 相关库
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
# 如果遇到依赖冲突，卸载冲突库
pip uninstall mindformers

export HF_ENDPOINT=https://hf-mirror.com

# 也可以使用 GitCode 社区中的模型
# 例如：gitcode 上的 Llama-2-7b 模型镜像
MODEL_NAME = "gitcode-community/llama-2-7b-chinese"

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time
print("开始测试...")
# 使用开放的 Llama 镜像
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=True)
print("加载到 NPU...")
model = model.npu()
model.eval()
print(f"显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
# 简单测试
prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.npu() for k, v in inputs.items()}
# 对每个张量单独转移到 NPU
start = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end = time.time()
text = tokenizer.decode(outputs[0])
print(f"\n生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

export OMP_NUM_THREADS=4

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 简化的基础推理测试脚本 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 基础推理测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        # 使用较小的模型进行测试
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        # 加载 tokenizer
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        print("✅ tokenizer 加载成功")
        # 加载模型
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        print("✅ 模型加载成功")
        # 迁移到 NPU
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型已迁移到 NPU")
        # 检查显存
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 基础推理测试
    print("\n"+"="*50)
    print("🧪 基础推理测试")
    print("="*50)
    prompt = "The capital of France is"
    print(f"输入提示：{prompt}")
    # 编码输入
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    print(f"输入 token 数：{len(inputs['input_ids'][0])}")
    # 开始推理
    start_time = time.time()
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=20, do_sample=True, temperature=0.7, pad_token_id=tokenizer.eos_token_id )
    end_time = time.time()
    # 解码输出
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    generation_time = end_time - start_time
    tokens_generated = len(outputs[0])-len(inputs['input_ids'][0])
    # 显式打印测试结果
    print(f"✅ 生成文本：{generated_text}")
    print(f"⏱️ 推理耗时：{generation_time:.2f}秒")
    print(f"🎯 生成 token 数：{tokens_generated}")
    print(f"🚀 生成速度：{tokens_generated / generation_time:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 推理测试：成功")
    print(f"📊 生成速度：{tokens_generated / generation_time:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 基础推理测试完成!")

if __name__ =="__main__":
    main()

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 优化的短文本生成测试 基于 simple_test.py 的成功模式 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 短文本生成测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型加载成功")
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 短文本生成测试
    print("\n"+"="*60)
    print("📝 短文本生成测试")
    print("="*60)
    test_prompts = ["The future of artificial intelligence is","In the year 2030, technology will","The most important skill for developers is"]
    results = []
    total_time = 0
    total_tokens = 0
    for i, prompt in enumerate(test_prompts, 1):
        print(f"\n测试 {i}/{len(test_prompts)}: {prompt}")
        # 编码输入
        inputs = tokenizer(prompt, return_tensors="pt").to(device)
        input_tokens = len(inputs['input_ids'][0])
        print(f"输入 token 数：{input_tokens}")
        # 开始生成
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=20, do_sample=True, temperature=0.7)
        end_time = time.time()
        # 计算指标
        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generation_time = end_time - start_time
        tokens_generated = len(outputs[0])- input_tokens
        speed = tokens_generated / generation_time if generation_time > 0 else 0
        # 显式打印结果
        print(f"✅ 生成文本：{generated_text}")
        print(f"⏱️ 生成时间：{generation_time:.2f}秒")
        print(f"🎯 生成 token 数：{tokens_generated}")
        print(f"🚀 生成速度：{speed:.2f} tokens/s")
        # 记录结果
        results.append({'prompt': prompt,'generated_text': generated_text,'time': generation_time,'tokens': tokens_generated,'speed': speed })
        total_time += generation_time
        total_tokens += tokens_generated
    # 打印汇总结果
    avg_speed = total_tokens / total_time if total_time > 0 else 0
    print(f"\n📊 短文本测试汇总:")
    print(f"总测试数：{len(test_prompts)}")
    print(f"总耗时：{total_time:.2f}秒")
    print(f"总生成 token: {total_tokens}")
    print(f"平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 短文本生成：成功")
    print(f"📊 平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 短文本生成测试完成!")

if __name__ =="__main__":
    main()

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 优化的长文本生成测试 基于 simple_test.py 的成功模式 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 长文本生成测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型加载成功")
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 长文本生成测试
    print("\n"+"="*60)
    print("📄 长文本生成测试")
    print("="*60)
    prompt = "Write a detailed analysis of the impact of artificial intelligence on modern society, including its benefits and challenges."
    print(f"输入提示：{prompt}")
    print(f"提示长度：{len(prompt)} 字符")
    # 编码输入
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    input_tokens = len(inputs['input_ids'][0])
    print(f"输入 token 数：{input_tokens}")
    # 开始生成
    print("开始长文本生成...")
    start_time = time.time()
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=100, do_sample=True, temperature=0.8, top_p=0.9)
    end_time = time.time()
    # 计算指标
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    generation_time = end_time - start_time
    tokens_generated = len(outputs[0])- input_tokens
    speed = tokens_generated / generation_time if generation_time > 0 else 0
    # 显式打印结果
    print(f"\n✅ 长文本生成完成!")
    print(f"📝 生成文本长度：{len(generated_text)} 字符")
    print(f"🎯 生成 token 数：{tokens_generated}")
    print(f"⏱️ 总耗时：{generation_time:.2f}秒")
    print(f"🚀 生成速度：{speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 显示生成内容（截取前 200 字符）
    preview_text = generated_text[:200]+"..."if len(generated_text)>200 else generated_text
    print(f"\n📖 生成内容预览:\n{preview_text}")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 长文本生成：成功")
    print(f"📊 生成速度：{speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 长文本生成测试完成!")

if __name__ =="__main__":
    main()

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 优化的代码生成测试 基于 simple_test.py 的成功模式 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 代码生成测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型加载成功")
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 代码生成测试
    print("\n"+"="*60)
    print("💻 代码生成测试")
    print("="*60)
    code_prompts = ["Write a Python function to calculate the factorial of a number:","Create a JavaScript function to sort an array of numbers:","Write a SQL query to find the top 10 customers by total order value:"]
    results = []
    total_time = 0
    total_tokens = 0
    for i, prompt in enumerate(code_prompts, 1):
        print(f"\n测试 {i}/{len(code_prompts)}: {prompt}")
        # 编码输入
        inputs = tokenizer(prompt, return_tensors="pt").to(device)
        input_tokens = len(inputs['input_ids'][0])
        print(f"输入 token 数：{input_tokens}")
        # 开始生成
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True, temperature=0.3# 较低温度确保代码质量)
        end_time = time.time()
        # 计算指标
        generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generation_time = end_time - start_time
        tokens_generated = len(outputs[0])- input_tokens
        speed = tokens_generated / generation_time if generation_time > 0 else 0
        # 显式打印结果
        print(f"✅ 生成代码：{generated_code}")
        print(f"⏱️ 生成时间：{generation_time:.2f}秒")
        print(f"🎯 生成 token 数：{tokens_generated}")
        print(f"🚀 生成速度：{speed:.2f} tokens/s")
        # 记录结果
        results.append({'prompt': prompt,'code': generated_code,'time': generation_time,'tokens': tokens_generated,'speed': speed })
        total_time += generation_time
        total_tokens += tokens_generated
    # 打印汇总结果
    avg_speed = total_tokens / total_time if total_time > 0 else 0
    print(f"\n📊 代码生成测试汇总:")
    print(f"总测试数：{len(code_prompts)}")
    print(f"总耗时：{total_time:.2f}秒")
    print(f"总生成 token: {total_tokens}")
    print(f"平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 代码生成：成功")
    print(f"📊 平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 代码生成测试完成!")

if __name__ =="__main__":
    main()

测试场景	平均生成速度	显存占用	总耗时	总生成 token
短文本生成	26.02 tokens/s	0.27 GB	1.73 秒	45
长文本生成	8.51 tokens/s	0.27 GB	1.29 秒	11
代码生成	4.19 tokens/s	0.27 GB	0.96 秒	4

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 优化的智能问答系统测试 基于 simple_test.py 的成功模式 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 智能问答系统测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型加载成功")
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 智能问答测试
    print("\n"+"="*60)
    print("🤖 智能问答系统测试")
    print("="*60)
    questions = ["What are the main advantages of using NPU over GPU for AI workloads?","How does the Llama model architecture differ from GPT models?","What are the key considerations when deploying large language models in production?"]
    results = []
    total_time = 0
    total_tokens = 0
    for i, question in enumerate(questions, 1):
        print(f"\n问题 {i}: {question}")
        # 构建提示
        prompt = f"Question: {question}\nAnswer:"
        print(f"提示：{prompt}")
        # 编码输入
        inputs = tokenizer(prompt, return_tensors="pt").to(device)
        input_tokens = len(inputs['input_ids'][0])
        print(f"输入 token 数：{input_tokens}")
        # 开始生成
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=100, do_sample=True, temperature=0.7, top_p=0.9)
        end_time = time.time()
        # 解码输出
        answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generation_time = end_time - start_time
        tokens_generated = len(outputs[0])- input_tokens
        speed = tokens_generated / generation_time if generation_time > 0 else 0
        # 显式打印结果
        print(f"✅ 回答：{answer}")
        print(f"⏱️ 回答时间：{generation_time:.2f}秒")
        print(f"🎯 生成 token 数：{tokens_generated}")
        print(f"🚀 生成速度：{speed:.2f} tokens/s")
        print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
        print("-"*80)
        # 记录结果
        results.append({'question': question,'answer': answer,'time': generation_time,'tokens': tokens_generated,'speed': speed })
        total_time += generation_time
        total_tokens += tokens_generated
    # 打印汇总结果
    avg_speed = total_tokens / total_time if total_time > 0 else 0
    print(f"\n📊 智能问答测试汇总:")
    print(f"总问题数：{len(questions)}")
    print(f"总耗时：{total_time:.2f}秒")
    print(f"总生成 token: {total_tokens}")
    print(f"平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 智能问答：成功")
    print(f"📊 平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 智能问答系统测试完成!")

if __name__ =="__main__":
    main()

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
""" 优化的创意写作测试 基于 simple_test.py 的成功模式 """
import torch
import torch_npu
import time
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def main():
    """主函数"""
    print("🚀 开始昇腾 NPU 创意写作测试...")
    # 1. 设置环境
    print("🔧 设置环境...")
    os.environ['HF_ENDPOINT']='https://hf-mirror.com'
    os.environ['HF_HUB_DISABLE_TELEMETRY']='1'
    print("✅ 环境设置完成")
    # 2. 检查 NPU
    print("\n🔍 检查 NPU...")
    if not torch.npu.is_available():
        print("❌ NPU 不可用，请检查 NPU 配置")
        return
    print("✅ NPU 可用")
    # 3. 加载模型
    print("\n🤖 加载模型...")
    try:
        model_name = "microsoft/DialoGPT-small"
        print(f"尝试加载模型：{model_name}")
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True)
        device = "npu:0"
        model = model.to(device)
        model.eval()
        print("✅ 模型加载成功")
        memory_allocated = torch.npu.memory_allocated()/(1024**3)
        print(f"📊 显存占用：{memory_allocated:.2f} GB")
    except Exception as e:
        print(f"❌ 模型加载失败：{e}")
        return
    # 4. 创意写作测试
    print("\n"+"="*60)
    print("✍️ 创意写作测试")
    print("="*60)
    writing_prompts = ["Write a short story about a robot learning to paint:","Create a poem about the beauty of artificial intelligence:","Write a dialogue between two AI systems discussing consciousness:"]
    results = []
    total_time = 0
    total_tokens = 0
    for i, prompt in enumerate(writing_prompts, 1):
        print(f"\n创作任务 {i}: {prompt}")
        # 编码输入
        inputs = tokenizer(prompt, return_tensors="pt").to(device)
        input_tokens = len(inputs['input_ids'][0])
        print(f"输入 token 数：{input_tokens}")
        # 开始创作
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=100, do_sample=True, temperature=0.9,# 较高温度增加创意性
            top_p=0.95)
        end_time = time.time()
        # 解码输出
        creative_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generation_time = end_time - start_time
        tokens_generated = len(outputs[0])- input_tokens
        speed = tokens_generated / generation_time if generation_time > 0 else 0
        # 显式打印结果
        print(f"✅ 创作内容：{creative_text}")
        print(f"⏱️ 创作时间：{generation_time:.2f}秒")
        print(f"🎯 生成 token 数：{tokens_generated}")
        print(f"🚀 生成速度：{speed:.2f} tokens/s")
        print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
        print("="*80)
        # 记录结果
        results.append({'prompt': prompt,'creative_text': creative_text,'time': generation_time,'tokens': tokens_generated,'speed': speed })
        total_time += generation_time
        total_tokens += tokens_generated
    # 打印汇总结果
    avg_speed = total_tokens / total_time if total_time > 0 else 0
    print(f"\n📊 创意写作测试汇总:")
    print(f"总创作任务：{len(writing_prompts)}")
    print(f"总耗时：{total_time:.2f}秒")
    print(f"总生成 token: {total_tokens}")
    print(f"平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    # 5. 测试结果
    print("\n"+"="*50)
    print("🎯 测试结果")
    print("="*50)
    print(f"✅ 模型加载：成功")
    print(f"✅ NPU 迁移：成功")
    print(f"✅ 创意写作：成功")
    print(f"📊 平均速度：{avg_speed:.2f} tokens/s")
    print(f"📊 显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")
    print("🎉 创意写作测试完成!")

if __name__ =="__main__":
    main()

AttributeError: module 'torch' has no attribute 'npu'

# 正确的导入顺序
import torch
import torch_npu
# 必须在 torch 之后导入

# 错误用法
inputs = tokenizer(prompt, return_tensors="pt").npu()
# 正确用法
inputs = tokenizer(prompt, return_tensors="pt").to('npu:0')

OSError: [Errno 13] Permission denied

ERROR: pip's dependency resolver does not currently have a built-in solution for dependency conflicts

# 卸载冲突库
pip uninstall mindformers
# 重新安装所需库
pip install transformers accelerate

RuntimeError: CUDA out of memory

# 使用半精度浮点数
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16,# 使用 FP16
    low_cpu_mem_usage=True)
# 清理显存
torch.npu.empty_cache()

# 优化生成参数
outputs = model.generate(**inputs, max_new_tokens=50, do_sample=False,# 关闭采样可提高速度
num_beams=1,# 减少 beam search 开销
early_stopping=True)

昇腾 NPU 运行 Llama 模型：环境搭建与性能测试

为什么偏偏选了 Llama 来测试？

一、测评环境搭建

1.1 硬件平台选择

1.2 环境配置步骤

步骤 1：创建 Notebook 实例

步骤 2：环境验证

更多推荐文章

相关免费在线工具

步骤 3：安装必要依赖

二、Llama 模型部署实战

2.1 模型选择与加载

2.2 基础推理测试

三、性能基准测试

3.1 多场景性能测试

场景 1：短文本生成测试

场景 2：长文本生成测试

场景 3：代码生成测试

3.2 性能基准数据汇总

四、实际应用场景深度体验

4.1 智能问答系统

4.2 创意写作助手

五、常见问题与解决方案

5.1 环境配置问题

5.2 模型加载问题

5.3 性能优化问题

六、实践建议

6.1 环境配置最佳实践

6.2 模型部署最佳实践

6.3 性能调优最佳实践

总结

参考资料

更多推荐文章

相关免费在线工具

昇腾 NPU 运行 Llama 模型：环境搭建与性能测试

为什么偏偏选了 Llama 来测试？

一、测评环境搭建

1.1 硬件平台选择

1.2 环境配置步骤

步骤 1：创建 Notebook 实例

步骤 2：环境验证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 3：安装必要依赖

二、Llama 模型部署实战

2.1 模型选择与加载

2.2 基础推理测试

三、性能基准测试

3.1 多场景性能测试

场景 1：短文本生成测试

场景 2：长文本生成测试

场景 3：代码生成测试

3.2 性能基准数据汇总

四、实际应用场景深度体验

4.1 智能问答系统

4.2 创意写作助手

五、常见问题与解决方案

5.1 环境配置问题

5.2 模型加载问题

5.3 性能优化问题

六、实践建议

6.1 环境配置最佳实践

6.2 模型部署最佳实践

6.3 性能调优最佳实践

总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具