昇腾 NPU 部署 Llama 大模型实战指南与常见问题解决

昇腾 NPU 部署 Llama 大模型实战指南与常见问题解决 | 极客日志

# 检查系统版本
cat /etc/os-release
NAME="openEuler"
VERSION="22.03 (LTS-SP3)"
ID="openEuler"
VERSION_ID="22.03"
PRETTY_NAME="openEuler 22.03 (LTS-SP3)"
ANSI_COLOR="0;31"

# 检查 python 版本
python3 --version
Python 3.8.19

# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
PyTorch 版本：2.1.0

# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"
torch_npu 版本：2.1.0.post3

# 如果没安装 torch，可以执行安装，咱们是系统自带的
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

# 正确的写法
python -c "import torch; import torch_npu; print(torch.npu.is_available())"
# 输出：True

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

# 终端上先执行地址指向
export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
# 使用开放的 Llama 镜像
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)
print("加载到 NPU...")
model = model.npu()
model.eval()
print(f"显存占用：{torch.npu.memory_allocated()/1e9:.2f} GB")

# 简单测试
prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.npu() for k, v in inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end = time.time()
text = tokenizer.decode(outputs[0])

print(f"\n生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

# 错误写法（会报 AttributeError）
# inputs = tokenizer(prompt, return_tensors="pt").npu()

# 正确写法
inputs = tokenizer(prompt, return_tensors="pt").to('npu:0')

# 下载大模型
python llama.py

Traceback (most recent call last):
  File "test_llama.py", line 47, in <module>
    result = benchmark(case["输入"], max_new_tokens=100 if case["场景"] != "代码生成" else 150)
  File "test_llama.py", line 7, in benchmark
    inputs = tokenizer(prompt, return_tensors="pt").to("npu:0")
NameError: name 'tokenizer' is not defined

import torch
import torch_npu
# 千万别漏了这个！
import time
import json
from datetime import datetime
from transformers import AutoModelForCausalLM, AutoTokenizer

# 全局配置（改这里就行，不用动下面的代码）
MODEL_NAME = "NousResearch/Llama-2-7b-hf"  # 模型名称
DEVICE = "npu:0"  # 固定用昇腾 NPU
WARMUP_RUNS = 3  # 预热次数（让 NPU 先'热热身'）
TEST_RUNS = 10  # 正式测试次数（取平均值更靠谱）
SAVE_RESULT = True  # 是否保存结果到 JSON 文件

def load_model_and_tokenizer(model_name):
    """加载模型和 tokenizer 的专用函数，避免重复代码"""
    print(f"正在加载模型 {model_name}...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    # 用 FP16 精度加载，省显存还快
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    # 切换到推理模式
    print(f"模型已加载到{DEVICE}，显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB")
    return model, tokenizer

def benchmark(prompt, tokenizer, model, max_new_tokens=100):
    """性能测试核心函数，带预热和同步"""
    # 处理输入
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # 预热：第一次运行会编译算子，不算入结果
    print(f"预热中...（{WARMUP_RUNS}次）")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            # 推理时关闭梯度计算，省显存
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
    
    # 正式测试
    print(f"开始测试...（{TEST_RUNS}次）")
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()  # 等 NPU 准备好再计时，避免'作弊'
        start_time = time.time()
        with torch.no_grad():
            outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
        torch.npu.synchronize()  # 等 NPU 算完再停表，确保时间准确
        end_time = time.time()
        latency = end_time - start_time
        latencies.append(latency)
        print(f"第{i+1}次测试：耗时{latency:.2f}秒，速度{max_new_tokens/latency:.2f}tokens/秒")
    
    # 计算统计结果
    avg_latency = sum(latencies)/len(latencies)
    throughput = max_new_tokens / avg_latency
    return {
        "prompt": prompt,
        "max_new_tokens": max_new_tokens,
        "平均延迟 (秒)": round(avg_latency, 2),
        "平均吞吐量 (tokens/秒)": round(throughput, 2),
        "显存占用 (GB)": round(torch.npu.memory_allocated()/1e9, 2)
    }

if __name__ == "__main__":
    # 1. 加载模型和 tokenizer（这步最耗时，耐心等）
    model, tokenizer = load_model_and_tokenizer(MODEL_NAME)
    
    # 2. 定义测试用例（覆盖不同场景）
    test_cases = [
        {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 100},
        {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100},
        {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150}
    ]
    
    # 3. 逐个测试并收集结果
    results = []
    for case in test_cases:
        print(f"\n===== 测试场景：{case['场景']} =====")
        result = benchmark(
            prompt=case["输入"],
            tokenizer=tokenizer,  # 显式传参，再也不怕 NameError
            model=model,  # 显式传参，变量作用域清清楚楚
            max_new_tokens=case["生成长度"]
        )
        result["场景"] = case["场景"]  # 补充场景信息
        results.append(result)
        print(f"场景结果：{result}")
    
    # 4. 保存结果（方便后续分析）
    if SAVE_RESULT:
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"llama_benchmark_{timestamp}.json"
        with open(filename, "w", encoding="utf-8") as f:
            json.dump(results, f, ensure_ascii=False, indent=2)
        print(f"\n测试结果已保存到 {filename}")
    
    print("\n===== 测试完成 =====")
    print("性能总结：")
    for res in results:
        print(f"{res['场景']}：{res['平均吞吐量 (tokens/秒)']} tokens/秒")

===== 测试完成 =====
性能总结：
英文短文本生成：16.75 tokens/秒
中文对话：16.58 tokens/秒
代码生成：16.59 tokens/秒

from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=quantization_config
)

# batch=4 的例子
prompts = ["prompt1", "prompt2", "prompt3", "prompt4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to('npu:0')
outputs = model.generate(**inputs, max_new_tokens=100)

名称	网址
昇腾官网	https://www.hiascend.com/
昇腾社区	https://www.hiascend.com/community
昇腾官方文档	https://www.hiascend.com/document
昇腾开源仓库	https://gitcode.com/ascend

昇腾 NPU 部署 Llama 大模型实战指南与常见问题解决

昇腾 NPU 部署 Llama 大模型实战指南

选择昇腾 NPU 的原因

一、为什么选择昇腾？

二、环境准备：GitCode 实例配置

1. 为什么选云上测试？

2. 创建 Notebook 实例

更多推荐文章

相关免费在线工具

3. 环境配置

三、验证环境

1. 打开 Terminal

2. 验证 NPU

四、安装依赖

五、部署 Llama

1. 模型下载

2. 创建测试脚本

3. 核心代码

4. 模型下载过程

六、性能测试

6.1 性能测试

6.2 为啥这套代码靠谱？

6.3 运行效果参考

七、常见问题与解决方案

坑 1：torch.npu 找不到

坑 2：tokenizer.npu() 不存在

坑 3：Llama 下载需要权限

坑 4：网络超时

八、性能优化建议

1. 用 mindie 框架

2. 试试 INT8 量化

3. 批处理推理

九、总结与建议

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama 大模型实战指南与常见问题解决

昇腾 NPU 部署 Llama 大模型实战指南

选择昇腾 NPU 的原因

一、为什么选择昇腾？

二、环境准备：GitCode 实例配置

1. 为什么选云上测试？

2. 创建 Notebook 实例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 环境配置

三、验证环境

1. 打开 Terminal

2. 验证 NPU

四、安装依赖

五、部署 Llama

1. 模型下载

2. 创建测试脚本

3. 核心代码

4. 模型下载过程

六、性能测试

6.1 性能测试

6.2 为啥这套代码靠谱？

6.3 运行效果参考

七、常见问题与解决方案

坑 1：torch.npu 找不到

坑 2：tokenizer.npu() 不存在

坑 3：Llama 下载需要权限

坑 4：网络超时

八、性能优化建议

1. 用 mindie 框架

2. 试试 INT8 量化

3. 批处理推理

九、总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具