Llama-2-7b 昇腾 NPU 测评：性能数据、场景适配与硬件选型

Llama-2-7b 昇腾 NPU 测评：性能数据、场景适配与硬件选型 | 极客日志

# 检查系统版本
cat /etc/os-release
# 检查 python 版本
python3 --version
# 检查 PyTorch 版本
python -c "import torch; print(f'PyTorch 版本：{torch.__version__}')"
# 检查 torch_npu
python -c "import torch_npu; print(f'torch_npu 版本：{torch_npu.__version__}')"

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
# 使用开放的 Llama 镜像
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=True
)
print("加载到 NPU...")
model = model.npu()
model.eval()
print(f"显存占用：{torch.npu.memory_allocated() / 1e9:.2f} GB")

# 简单测试
prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.npu() for k, v in inputs.items()}

start = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end = time.time()
text = tokenizer.decode(outputs[0])

print(f"\n生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

export HF_ENDPOINT=https://hf-mirror.com

import torch
import torch_npu
import time
import json
import pandas as pd
from datetime import datetime
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

# ===================== 全局配置区（用户仅需修改这里） =====================
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 5
TEST_RUNS = 10
SAVE_RESULT = True
TEST_CASES = [
    {"场景": "英文短文本生成", "输入": "The capital of France is", "生成长度": 50, "batch_size": 1},
    {"场景": "中文对话", "输入": "请解释什么是人工智能：", "生成长度": 100, "batch_size": 1},
    {"场景": "代码生成", "输入": "Write a Python function to calculate fibonacci:", "生成长度": 150, "batch_size": 1},
    {"场景": "批量推理（batch=2）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 2},
    {"场景": "长文本叙事", "输入": "请写一篇关于人工智能未来的科幻短篇：", "生成长度": 200, "batch_size": 1},
    {"场景": "多轮问答", "输入": "Q: 什么是机器学习？\nA: 机器学习是数据驱动的算法...\nQ: 它和传统编程的区别？", "生成长度": 100, "batch_size": 1},
    {"场景": "高并发批量（batch=4）", "输入": "The capital of France is", "生成长度": 50, "batch_size": 4},
]
PRECISION = "fp16"
# ======================================================================

def get_environment_info():
    return {
        "torch 版本": torch.__version__,
        "torch_npu 版本": torch_npu.__version__ if hasattr(torch_npu, "__version__") else "未知",
        "transformers 版本": transformers.__version__,
        "Python 版本": f"{pd.__version__.split('.')[0]}.{pd.__version__.split('.')[1]}.x",
        "NPU 设备": DEVICE,
        "模型名称": MODEL_NAME,
        "模型精度": PRECISION
    }

def load_model_and_tokenizer(model_name, precision):
    print(f"===== 开始加载模型 {model_name}（精度：{precision}） =====")
    start_load = time.time()
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    dtype = torch.float16 if precision == "fp16" else torch.int8
    try:
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=dtype, low_cpu_mem_usage=True
        ).to(DEVICE)
    except Exception as e:
        print(f"INT8 精度加载失败，自动 fallback 到 FP16：{str(e)[:50]}")
        dtype = torch.float16
        model = AutoModelForCausalLM.from_pretrained(
            model_name, torch_dtype=dtype, low_cpu_mem_usage=True
        ).to(DEVICE)
    model.eval()
    end_load = time.time()
    load_time = end_load - start_load
    mem_used = torch.npu.memory_allocated() / 1e9
    print(f"模型加载完成：耗时 {load_time:.2f} 秒，显存占用 {mem_used:.2f} GB")
    return model, tokenizer, load_time, mem_used, str(dtype)

def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size):
    batch_inputs = [prompt] * batch_size
    inputs = tokenizer(
        batch_inputs, return_tensors="pt",
        padding=True if batch_size > 1 else "do_not_pad",
        truncation=True, max_length=512
    ).to(DEVICE)

    print(f"预热中...（{WARMUP_RUNS}次，batch_size={batch_size}）")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(
                **inputs, max_new_tokens=max_new_tokens,
                do_sample=False, pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )

    latencies = []
    print(f"开始正式测试...（{TEST_RUNS}次，生成长度={max_new_tokens}）")
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            outputs = model.generate(
                **inputs, max_new_tokens=max_new_tokens,
                do_sample=False, pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次：耗时 {latency:.2f} 秒 | 速度 {max_new_tokens/latency:.2f} tokens/秒")

    avg_latency = sum(latencies) / len(latencies)
    std_latency = pd.Series(latencies).std()
    throughput = max_new_tokens / avg_latency
    total_throughput = throughput * batch_size
    mem_peak = torch.npu.max_memory_allocated() / 1e9
    return {
        "平均延迟 (秒)": round(avg_latency, 3),
        "延迟标准差 (秒)": round(std_latency, 3),
        "单请求吞吐量 (tokens/秒)": round(throughput, 2),
        "批量总吞吐量 (tokens/秒)": round(total_throughput, 2),
        "显存峰值 (GB)": round(mem_peak, 2),
        "生成长度": max_new_tokens,
        "batch_size": batch_size
    }

def generate_detailed_summary(results, env_info, load_metrics):
    load_time, load_mem, actual_dtype = load_metrics
    df = pd.DataFrame(results)
    short_text_throughput = df[df["场景"] == "英文短文本生成"]["单请求吞吐量 (tokens/秒)"].iloc[0]
    long_text_throughput = df[df["场景"] == "长文本叙事"]["单请求吞吐量 (tokens/秒)"].iloc[0]
    batch2_throughput = df[df["场景"] == "批量推理（batch=2）"]["批量总吞吐量 (tokens/秒)"].iloc[0]
    batch4_throughput = df[df["场景"] == "高并发批量（batch=4）"]["批量总吞吐量 (tokens/秒)"].iloc[0]

    summary = f"""# Llama 大模型在昇腾 NPU 上的性能测试报告
## 测试时间：{datetime.now().strftime("%Y-%m-%d %H:%M:%S")}
---
## 一、测试环境信息
| 环境项 | 详情 |
|----------------|--------------------------|
| NPU 设备 | {env_info['NPU 设备']} |
| 模型名称 | {env_info['模型名称']} |
| 模型精度 | {actual_dtype}（配置：{PRECISION}） |
| PyTorch 版本 | {env_info['torch 版本']} |
| torch_npu 版本 | {env_info['torch_npu 版本']} |
| transformers 版本 | {env_info['transformers 版本']} |
| Python 版本 | {env_info['Python 版本']} |
---
## 二、模型加载性能
- **加载耗时**：{load_time:.2f} 秒
- **加载显存占用**：{load_mem:.2f} GB
- **显存峰值范围**：{df["显存峰值 (GB)"].min():.2f} ~ {df["显存峰值 (GB)"].max():.2f} GB
---
## 三、各场景性能明细
| 测试场景 | batch_size | 生成长度 | 单请求吞吐量 (tokens/秒) | 批量总吞吐量 (tokens/秒) | 平均延迟 (秒) | 延迟标准差 (秒) | 显存峰值 (GB) |
|------------------------|------------|----------|-------------------------|-------------------------|--------------|----------------|--------------|
{df[["场景", "batch_size", "生成长度", "单请求吞吐量 (tokens/秒)", "批量总吞吐量 (tokens/秒)", "平均延迟 (秒)", "延迟标准差 (秒)", "显存峰值 (GB)"]].to_string(index=False, col_space=12)}
---
## 四、性能分析与结论
### 1. 文本长度对性能的影响
- 短文本（50 token）吞吐量：{short_text_throughput:.2f} tokens/秒
- 长文本（200 token）吞吐量：{long_text_throughput:.2f} tokens/秒
- **结论**：长文本吞吐量较短期下降 {((short_text_throughput - long_text_throughput)/short_text_throughput*):f}%，NPU 对长序列推理支持稳定，无明显性能骤降。
### 2. 批量并发性能表现
- batch=2 总吞吐量： tokens/秒（约为单请求的  倍）
- batch=4 总吞吐量： tokens/秒（约为单请求的  倍）
- **结论**：吞吐量随 batch_size 接近线性增长，说明 NPU 算力未饱和，适合高并发场景部署。
### 3. 不同任务场景适配性
- 中文对话/英文文本：吞吐量差异小于 5%，多语言支持性能均衡；
- 代码生成（150 token）：吞吐量  tokens/秒，与普通文本生成性能持平；
- 多轮问答：延迟标准差  秒，上下文依赖场景性能稳定。
---
## 五、优化建议与部署指南
### 1. 性能优化方向
- **优先批量推理**：建议将 batch_size 设置为 2-4，在显存允许范围内最大化吞吐量；
- **精度选择**：FP16 精度显存占用GB，若需降显存可尝试 INT8 量化（需确保模型支持）；
- **算子优化**：升级 torch_npu 至最新版本，可优化长序列推理算子效率。
### 2. 显存管理建议
- 7B 模型 FP16 推理峰值显存约GB，建议 NPU 显存≥16GB；
- 批量推理（batch=4）显存峰值GB，需确保硬件显存充足。
### 3. 场景适配建议
- 实时对话场景：用 batch=1，延迟秒，满足实时性需求；
- 批量生成场景（如文本创作）：用 batch=4，总吞吐量 tokens/秒，提升效率。
---
## 六、测试结果文件
- 原始数据已保存至：llama_npu_benchmark__.json
- 可基于原始数据进一步做可视化分析（如吞吐量对比图、显存变化曲线）。
"""
    return summary

if __name__ == "__main__":
    env_info = get_environment_info()
    print("===== 测试环境信息 =====")
    for k, v in env_info.items():
        print(f"{k}: {v}")

    model, tokenizer, load_time, load_mem, actual_dtype = load_model_and_tokenizer(MODEL_NAME, PRECISION)
    load_metrics = (load_time, load_mem, actual_dtype)

    results = []
    for case in TEST_CASES:
        print(f"\n===== 开始测试场景：{case['场景']} =====")
        case_result = benchmark(
            prompt=case["输入"], tokenizer=tokenizer, model=model,
            max_new_tokens=case["生成长度"], batch_size=case["batch_size"]
        )
        case_result.update({
            "场景": case["场景"],
            "输入示例": case["输入"][:50] + "..." if len(case["输入"]) > 50 else case["输入"],
            "测试时间": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        })
        results.append(case_result)
        print(f"场景测试完成：{case['场景']} | 批量总吞吐量：{case_result['批量总吞吐量 (tokens/秒)']:.2f} tokens/秒")

    print("\n" + "="*50)
    print("===== 测试完成，生成详细总结 =====")
    print("="*50)
    detailed_summary = generate_detailed_summary(results, env_info, load_metrics)
    print(detailed_summary)

    if SAVE_RESULT:
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        json_filename = f"llama_npu_benchmark_{PRECISION}_{timestamp}.json"
        with open(json_filename, "w", encoding="utf-8") as f:
            json.dump({
                "环境信息": env_info,
                "加载性能": {"加载耗时 (秒)": load_time, "加载显存 (GB)": load_mem, "实际精度": actual_dtype},
                "测试结果": results
            }, f, ensure_ascii=False, indent=2)

        summary_filename = f"llama_npu_benchmark_summary_{PRECISION}_{timestamp}.md"
        with open(summary_filename, "w", encoding="utf-8") as f:
            f.write(detailed_summary)
        print(f"\n===== 结果文件已保存 =====")
        print(f"1. 原始数据文件：{json_filename}")
        print(f"2. 详细总结报告：{summary_filename}")
        print("\n===== 昇腾 NPU Llama 性能测试全部完成 =====")

python test.py

环境项	实测结果（固定无变化）
NPU 设备	昇腾 NPU（npu:0）
框架版本	PyTorch 2.1.0 + torch_npu 2.1.0.post3
模型与精度	Llama-2-7b-hf（FP16）
依赖库版本	transformers 4.39.2

加载指标	实测结果	补充说明
加载耗时	30.75 ~ 35.62 秒	首次加载因缓存慢，后续变快，波动正常
加载后显存占用	13.61 GB（完全固定）	模型权重初始化显存需求无差异
加载过程稳定性	100% 成功，无失败 / 卡顿	依赖昇腾工具链适配正常

测评场景	生成长度	实测吞吐量（tokens / 秒）	实测延迟（秒）	场景专属结论
英文短文本生成	50	15.60 ~ 17.40	2.87 ~ 3.26	短文本推理效率最高，延迟最低
中文对话	100	16.01 ~ 17.61	5.68 ~ 6.25	中/英文性能差异＜5%，多语言适配好
代码生成	150	15.69 ~ 17.17	8.74 ~ 9.56	代码生成与普通文本性能持平，无额外开销
长文本叙事	200	16.42 ~ 17.08	11.71 ~ 12.18	长文本吞吐量无骤降（较 50token 仅±4.5%）
多轮问答	100	16.01 ~ 16.85	5.93 ~ 6.25	上下文依赖场景延迟波动小，稳定性好

测评维度（batch_size）	生成长度	实测总吞吐量（tokens / 秒）	相对单请求倍数	实测显存峰值	并发专属结论
batch=1（基准）	50	16.08	1.0 倍	13.71 GB	单请求基准性能
batch=2	50	32.39	2.0 倍	14.83 GB	吞吐量线性增长，无性能损耗
batch=4	50	63.33	3.9 倍	16.04 GB	接近线性增长（理论 4）

稳定性指标	实测结果	行业参考标准	稳定性结论
延迟标准差	各场景≤0.22 秒	优秀标准：≤0.5 秒	延迟抖动小，用户体验稳定
吞吐量波动范围	各场景≤10%	优秀标准：≤15%	吞吐量无大幅波动，服务能力可控
测试成功率	100%（无中断 / 报错）	合格标准：≥99%	推理过程稳定，无异常退出

显存测评阶段	实测显存占用（FP16 精度）	显存变化原因	资源结论
模型加载阶段	13.61 GB（固定）	仅加载模型权重，无冗余	初始化显存需求明确，无浪费
单请求推理阶段	13.71 ~ 14.83 GB	随生成长度略有上升（+0.1~1.2GB）	单请求显存增量可控
批量推理阶段（batch=4）	16.04 GB（最高）	随 batch_size 增大，特征图缓存增加	16GB 显存可支撑 batch=4 的高并发

import torch
import torch_npu
import time
import json
import pandas as pd
from datetime import datetime
from transformers import AutoModelForCausalLM, AutoTokenizer

# ===================== 高并发测试专属配置 =====================
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5
BS_RANGE = [1, 4, 8, 16, 32, 40, 50, 60, 64, 70]
MAX_NEW_TOKENS = 50
PROMPT = "The capital of France is"
PRECISION = torch.float16
SAVE_RESULT = True
# ============================================================

def set_npu_optim_config():
    import os
    os.environ["NPU_FUSION_ENABLE"] = "1"
    os.environ["ASCEND_GLOBAL_MEM_POOL_SIZE"] = "8589934592"
    os.environ["NPU_ENABLE_CACHE_OP"] = "1"
    os.environ["NPU_FUSION_MAX_BLOCK_SIZE"] = "4096"
    os.environ["ASCEND_CACHE_CLEAR_INTERVAL"] = "200"
    os.environ["PYTHONUNBUFFERED"] = "1"
    print("✅ 高并发 NPU 优化配置已生效")

def check_mem_available(batch_size):
    torch.npu.synchronize()
    mem_total = torch.npu.get_device_properties(0).total_memory / 1e9
    mem_used = torch.npu.memory_allocated() / 1e9
    mem_free = mem_total - mem_used
    mem_estimated = 13.6 + (batch_size * 0.5)
    if mem_estimated > (mem_free * 0.95):
        raise RuntimeError(
            f"❌ batch_size={batch_size} 预估显存{mem_estimated:.2f}GB，剩余显存{mem_free:.2f}GB（总{mem_total:.2f}GB），拒绝执行"
        )
    print(f"✅ batch_size={batch_size} 显存检查通过：预估{mem_estimated:.2f}GB / 剩余{mem_free:.2f}GB")

def load_model():
    print(f"\n===== 加载模型 {MODEL_NAME} =====")
    start_load = time.time()
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    tokenizer.pad_token = tokenizer.eos_token
    tokenizer.padding_side = "left"
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME, torch_dtype=PRECISION, low_cpu_mem_usage=True, device_map={"": DEVICE}
    ).eval()
    for param in model.parameters():
        param.requires_grad = False
    load_time = time.time() - start_load
    mem_used = torch.npu.memory_allocated() / 1e9
    print(f"✅ 模型加载完成：耗时{load_time:.2f}秒，显存占用{mem_used:.2f}GB")
    return model, tokenizer

def benchmark_bs(model, tokenizer, batch_size):
    check_mem_available(batch_size)
    batch_inputs = [PROMPT] * batch_size
    inputs = tokenizer(
        batch_inputs, return_tensors="pt", padding=True, truncation=True, max_length=512
    ).to(DEVICE)

    print(f"🔄 batch_size={batch_size} 预热中（{WARMUP_RUNS}次）...")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(
                **inputs, max_new_tokens=MAX_NEW_TOKENS, do_sample=False,
                pad_token_id=tokenizer.eos_token_id, use_cache=True,
                cache_implementation="npu_optimized"
            )

    latencies = []
    mem_peaks = []
    print(f"📊 batch_size={batch_size} 正式测试（{TEST_RUNS}次）...")
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            _ = model.generate(
                **inputs, max_new_tokens=MAX_NEW_TOKENS, do_sample=False,
                pad_token_id=tokenizer.eos_token_id, use_cache=True,
                cache_implementation="npu_optimized"
            )
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        mem_peak = torch.npu.max_memory_allocated() / 1e9
        mem_peaks.append(mem_peak)
        throughput_single = MAX_NEW_TOKENS / latency
        throughput_total = throughput_single * batch_size
        print(f" 第{i+1}次：耗时{latency:.2f}秒 | 单请求{throughput_single:.2f}tokens/s | 总{throughput_total:.2f}tokens/s | 显存峰值{mem_peak:.2f}GB")

    avg_latency = sum(latencies) / len(latencies)
    avg_throughput_single = MAX_NEW_TOKENS / avg_latency
    avg_throughput_total = avg_throughput_single * batch_size
    avg_mem_peak = sum(mem_peaks) / len(mem_peaks)
    std_latency = pd.Series(latencies).std()
    return {
        "batch_size": batch_size,
        "平均延迟 (秒)": round(avg_latency, 3),
        "延迟标准差 (秒)": round(std_latency, 3),
        "单请求吞吐量 (tokens/秒)": round(avg_throughput_single, 2),
        "总吞吐量 (tokens/秒)": round(avg_throughput_total, 2),
        "平均显存峰值 (GB)": round(avg_mem_peak, 2),
        "相对 bs1 倍数": round(avg_throughput_total / benchmark_bs.bs1_throughput, 2) if benchmark_bs.bs1_throughput else 0
    }

def generate_report(results):
    df = pd.DataFrame(results)
    df["理论总吞吐量"] = df["batch_size"] * df[df["batch_size"]==1]["单请求吞吐量 (tokens/秒)"].iloc[0]
    df["增长衰减率 (%)"] = round((df["理论总吞吐量"] - df["总吞吐量 (tokens/秒)"]) / df["理论总吞吐量"] * 100, 2)

    report = f"""# Llama-2-7B 昇腾高并发性能测试报告
测试时间：{datetime.now().strftime("%Y-%m-%d %H:%M:%S")}
测试配置：生成长度={MAX_NEW_TOKENS}tokens | 预热{WARMUP_RUNS}次 | 测试{TEST_RUNS}次 | 精度={PRECISION}
## 一、测试环境
| 项 | 详情 |
|------------|--------------------------|
| NPU 设备 | 昇腾（64GB 显存） |
| PyTorch | {torch.__version__} |
| torch_npu | {torch_npu.__version__} |
| 模型 | {MODEL_NAME}（FP16） |
## 二、核心测试结果
| batch_size | 单请求吞吐量 (tokens/秒) | 总吞吐量 (tokens/秒) | 相对 bs1 倍数 | 平均延迟 (秒) | 平均显存峰值 (GB) | 增长衰减率 (%) |
|------------|-------------------------|---------------------|-------------|--------------|------------------|---------------|
{df[["batch_size", "单请求吞吐量 (tokens/秒)", "总吞吐量 (tokens/秒)", "相对 bs1 倍数", "平均延迟 (秒)", "平均显存峰值 (GB)", "增长衰减率 (%)"]].to_string(index=False)}
## 三、关键结论
1. 线性增长上限：batch_size=50 时，增长衰减率仅{df[df["batch_size"]==50]["增长衰减率 (%)"].iloc[0]}%，仍接近理想线性；
2. 高效并发点：batch_size=60 时，总吞吐量{df[df["batch_size"]==60]["总吞吐量 (tokens/秒)"].iloc[0]}tokens/s，衰减率{df[df["batch_size"]==60]["增长衰减率 (%)"].iloc[0]}%，为 64GB 卡最优选择；
3. 极限并发：batch_size=70 时，总吞吐量{df[df["batch_size"]==70]["总吞吐量 (tokens/秒)"].iloc[0]}tokens/s，衰减率{df[df["batch_size"]==70]["增长衰减率 (%)"].iloc[0]}%，显存峰值{df[df["batch_size"]==][].iloc[]}GB（未超 64GB）；
4. 性能衰减阈值：batch_size＞60 后，衰减率从＜5% 升至＞10%，建议生产环境上限设为 60。
## 四、部署建议
- 实时场景（低延迟）：batch_size=16~32，延迟＜3.5 秒，总吞吐量＞480tokens/s；
- 离线批量场景（高吞吐）：batch_size=60，总吞吐量≈900tokens/s，显存占用≈43GB；
- 极限场景：batch_size=70（需监控显存，衰减率≈12%）。
"""
    return report, df

if __name__ == "__main__":
    set_npu_optim_config()
    model, tokenizer = load_model()
    results = []
    benchmark_bs.bs1_throughput = 0
    for bs in BS_RANGE:
        print(f"\n{'='*60}")
        print(f"测试 batch_size={bs}")
        print(f"{'='*60}")
        try:
            res = benchmark_bs(model, tokenizer, bs)
            results.append(res)
            if bs == 1:
                benchmark_bs.bs1_throughput = res["总吞吐量 (tokens/秒)"]
        except Exception as e:
            print(f"❌ batch_size={bs} 测试失败：{str(e)}")
            continue

    if results:
        report, df = generate_report(results)
        print(f"\n{'='*60}")
        print("测试完成！核心结论：")
        print(f"{'='*60}")
        print(report)

    if SAVE_RESULT:
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        with open(f"llama_bs_benchmark_{timestamp}.json", "w", encoding="utf-8") as f:
            json.dump(results, f, ensure_ascii=False, indent=2)
        df.to_csv(f"llama_bs_benchmark_{timestamp}.csv", index=False, encoding="utf-8-sig")
        with open(f"llama_bs_benchmark_report_{timestamp}.md", "w", encoding="utf-8") as f:
            f.write(report)
        print(f"\n✅ 结果已保存：")
        print(f" - JSON 原始数据：llama_bs_benchmark_{timestamp}.json")
        print(f" - CSV 表格：llama_bs_benchmark_{timestamp}.csv")
        print(f" - 测试报告：llama_bs_benchmark_report_{timestamp}.md")
    else:
        print("❌ 无有效测试结果")

    torch.npu.empty_cache()
    print("\n✅ 测试结束，显存已清理")

# 1. 启用 NPU 算子融合（核心提速）
export NPU_FUSION_ENABLE=1
# 2. 关闭不必要的显存检查，释放算力
export NPU_ENABLE_HBM_BOUNDS_CHECK=0
# 3. 预分配显存池，减少碎片（适配 7B 模型）
export ASCEND_GLOBAL_MEM_POOL_SIZE=2147483648 # 2GB
# 4. 优化 NPU 内存分配策略
export ASCEND_CACHE_CLEAR_INTERVAL=100
# 5. 关闭冗余日志输出，减少开销
export NPU_PRINT_TENSOR_SIZE=0

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

print("开始测试...")
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
print(f"下载模型：{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, low_cpu_mem_usage=True
)
print("加载到 NPU...")
model = model.npu()
model.eval()
print(f"显存占用：{torch.npu.memory_allocated() / 1e9:.2f} GB")

prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt", padding=True)
inputs = {k: v.npu() for k, v in inputs.items()}

torch.npu.synchronize()
start = time.time()
outputs = model.generate(
    **inputs, max_new_tokens=50, use_cache=True,
    cache_implementation="npu_optimized", do_sample=False, num_beams=1,
    pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id,
    max_length=inputs.input_ids.shape[1] + 50, return_dict_in_generate=False
)
torch.npu.synchronize()
end = time.time()

text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"\n生成文本：{text}")
print(f"耗时：{(end-start)*1000:.2f}ms")
print(f"吞吐量：{50/(end-start):.2f} tokens/s")

def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size):
    tokenizer.pad_token = tokenizer.eos_token
    batch_inputs = [prompt] * batch_size
    inputs = tokenizer(
        batch_inputs, return_tensors="pt",
        padding=True if batch_size > 1 else "do_not_pad",
        truncation=True, max_length=512
    ).to(DEVICE)

    print(f"预热中...（{WARMUP_RUNS}次，batch_size={batch_size}）")
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            _ = model.generate(
                **inputs, max_new_tokens=max_new_tokens, do_sample=False,
                pad_token_id=tokenizer.eos_token_id, eos_token_id=tokenizer.eos_token_id,
                use_cache=True, cache_implementation="npu_optimized"
            )

    latencies = []
    print(f"开始正式测试...（{TEST_RUNS}次，生成长度={max_new_tokens}）")
    for i in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            outputs = model.generate(
                **inputs, max_new_tokens=max_new_tokens, do_sample=False,
                pad_token_id=tokenizer.eos_token_id, eos_token_id=tokenizer.eos_token_id,
                use_cache=True, cache_implementation="npu_optimized",
                max_length=inputs.input_ids.shape[1] + max_new_tokens,
                return_dict_in_generate=False
            )
        torch.npu.synchronize()
        end = time.time()
        latency = end - start
        latencies.append(latency)
        print(f" 第{i+1}次：耗时 {latency:.2f} 秒 | 速度 {max_new_tokens/latency:.2f} tokens/秒")

    avg_latency = sum(latencies) / len(latencies)
    std_latency = pd.Series(latencies).std()
    throughput = max_new_tokens / avg_latency
    total_throughput = throughput * batch_size
    mem_peak = torch.npu.max_memory_allocated() / 1e9
    return {
        "平均延迟 (秒)": round(avg_latency, 3),
        "延迟标准差 (秒)": round(std_latency, 3),
        "单请求吞吐量 (tokens/秒)": round(throughput, 2),
        "批量总吞吐量 (tokens/秒)": round(total_throughput, 2),
        "显存峰值 (GB)": round(mem_peak, 2),
        "生成长度": max_new_tokens,
        "batch_size": batch_size
    }

# 使用阿里云镜像源安装 transformers、accelerate
pip install transformers accelerate \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --trusted-host mirrors.aliyun.com

pip install transformers accelerate \
  -i https://repo.huaweicloud.com/repository/pypi/simple \
  --trusted-host repo.huaweicloud.com

python -m pip install --upgrade pip
pip install transformers accelerate

pip install torch==2.1.0 torch_npu==2.1.0.post3 \
  -i https://mirror.sjtu.edu.cn/pypi/web/simple --trusted-host mirror.sjtu.edu.cn

python -c "import torch_npu; print(torch_npu.npu.is_available())"

pip install transformers==4.39.2 accelerate==0.28.0 \
  -i https://pypi.tuna.tsinghua.edu.cn/simple \
  --trusted-host pypi.tuna.tsinghua.edu.cn

pip uninstall transformers -y
pip cache purge
pip install transformers==4.39.2 accelerate==0.28.0 \
  -i https://pypi.tuna.tsinghua.edu.cn/simple \
  --trusted-host pypi.tuna.tsinghua.edu.cn

Llama-2-7b 昇腾 NPU 测评：性能数据、场景适配与硬件选型

Llama-2-7b 昇腾 NPU 测评总结：核心性能数据、场景适配建议与硬件选型参考

背景与测评目标

环境初始化与资源配置

更多推荐文章

相关免费在线工具

模型部署所需依赖安装与环境准备

Llama-2-7B 模型加载与推理测试部署

Llama-2-7B 在昇腾 NPU 上的性能基准测试

前提准备：测评脚本编写

基础能力测评

基础环境一致性测评

模型加载性能测评

核心性能测评

单请求多场景性能测评

批量并发性能测评

性能稳定性测评

显存资源消耗测评

测试核心结论

Llama 模型在昇腾 NPU 上的性能测试报告

高并发线性增长极限测试

Llama-2-7b 昇腾 NPU 性能优化方案

模型部署所需依赖安装与环境准备 - 实操问题及解决方案

国内镜像源安装依赖失败

torch_npu 版本不兼容

依赖包版本冲突

总结

更多推荐文章

相关免费在线工具

Llama-2-7b 昇腾 NPU 测评：性能数据、场景适配与硬件选型

Llama-2-7b 昇腾 NPU 测评总结：核心性能数据、场景适配建议与硬件选型参考

背景与测评目标

环境初始化与资源配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型部署所需依赖安装与环境准备

Llama-2-7B 模型加载与推理测试部署

Llama-2-7B 在昇腾 NPU 上的性能基准测试

前提准备：测评脚本编写

基础能力测评

基础环境一致性测评

模型加载性能测评

核心性能测评

单请求多场景性能测评

批量并发性能测评

性能稳定性测评

显存资源消耗测评

测试核心结论

Llama 模型在昇腾 NPU 上的性能测试报告

高并发线性增长极限测试

Llama-2-7b 昇腾 NPU 性能优化方案

模型部署所需依赖安装与环境准备 - 实操问题及解决方案

国内镜像源安装依赖失败

torch_npu 版本不兼容

依赖包版本冲突

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具