昇腾 NPU 部署 Llama-2-7B 的踩坑与经验

昇腾 NPU 部署 Llama-2-7B 的踩坑与经验 | 极客日志

cat /etc/os-release            # openEuler 22.03
python3 --version              # Python 3.8.19
python -c "import torch; print(torch.__version__)"           # 2.1.0
python -c "import torch_npu; print(torch_npu.__version__)"   # 2.1.0.post3

import torch
import torch_npu
print(torch.npu.is_available())  # True

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
).npu()
model.eval()

prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt").to('npu:0')
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0]))

import torch
import torch_npu
import time
import json
from datetime import datetime
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 10

def load_model_and_tokenizer(model_name):
    print(f"加载模型 {model_name}...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True
    ).to(DEVICE)
    model.eval()
    print(f"模型已加载，显存占用：{torch.npu.memory_allocated()/1e9:.2f}GB")
    return model, tokenizer

def benchmark(prompt, tokenizer, model, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
    latencies = []
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            _ = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.eos_token_id)
        torch.npu.synchronize()
        latencies.append(time.time() - start)
        print(f"第{i+1}次: {latencies[-1]:.2f}s")
    avg_latency = sum(latencies)/len(latencies)
    return avg_latency, max_new_tokens / avg_latency

model, tokenizer = load_model_and_tokenizer(MODEL_NAME)
avg_latency, throughput = benchmark("The capital of France is", tokenizer, model, 100)
print(f"平均延迟: {avg_latency:.2f}s, 吞吐量: {throughput:.2f} tokens/s")

名称	网址
昇腾官网	https://www.hiascend.com/
昇腾社区	https://www.hiascend.com/community
昇腾官方文档	https://www.hiascend.com/document
昇腾开源仓库	https://gitcode.com/ascend

昇腾 NPU 部署 Llama-2-7B 的踩坑与经验

为什么选昇腾？

环境准备：白嫖 GitCode 实例

更多推荐文章

相关免费在线工具

验证环境

安装依赖

部署 Llama-2-7B

性能测试

常见问题

优化方向

总结

更多推荐文章

相关免费在线工具

昇腾 NPU 部署 Llama-2-7B 的踩坑与经验

为什么选昇腾？

环境准备：白嫖 GitCode 实例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

验证环境

安装依赖

部署 Llama-2-7B

性能测试

常见问题

优化方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具