昇腾 NPU 部署 Llama 2 模型的性能测试与优化实践
昇腾 NPU 部署 Llama 2 模型涉及环境配置、模型加载及性能调优。通过配置 CANN 与 PyTorch 适配,验证 NPU 可用性。实测 FP16 精度下吞吐量约 20 tokens/s,INT8 量化后提升至 45 tokens/s 左右。批处理可进一步提升吞吐。该方案适合对成本敏感及追求自主可控的离线推理场景。

昇腾 NPU 部署 Llama 2 模型涉及环境配置、模型加载及性能调优。通过配置 CANN 与 PyTorch 适配,验证 NPU 可用性。实测 FP16 精度下吞吐量约 20 tokens/s,INT8 量化后提升至 45 tokens/s 左右。批处理可进一步提升吞吐。该方案适合对成本敏感及追求自主可控的离线推理场景。

面对高端 GPU 的高成本,许多开发者和团队在部署大模型时寻求高性价比方案。华为昇腾(Ascend)NPU 凭借自主可控的达芬奇架构、日益完善的软件开源生态以及云上可得的测试资源,成为可行的算力选项。
本文记录使用云端昇腾实例,完成从环境配置、模型部署到性能测试与优化的全过程。
在云平台创建实例时,关键配置如下:
NPU。NPU basic 规格(1*Ascend 910B, 32vCPU, 64GB 内存)适合运行 Llama-2-7B。euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook。实例启动后,确认 NPU 可用。依次执行以下命令:
# 检查系统与 Python 版本
cat /etc/os-release
python3 --version
# 检查 PyTorch 及 torch_npu
python -c "import torch; print(f'PyTorch 版本:{torch.__version__}')"
python -c "import torch_npu; print(f'torch_npu 版本:{torch_npu.__version__}')"
若未安装,先执行 pip install --upgrade pip,再安装 torch torchvision torchaudio 和 torch-npu。
常见坑点:直接运行 torch.npu.is_available() 会报错 AttributeError。torch_npu 是独立插件,必须显式导入后才能注册 NPU 后端。正确的验证方式是:
python -c "import torch; import torch_npu; print(torch.npu.is_available())"
看到 True 说明 NPU 环境准备就绪。
安装运行 Llama 2 所必须的库,建议使用国内镜像加速:
pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
模型下载权限问题:直接访问 Meta 官方的 Llama 2 仓库需要申请权限。解决方案是使用社区镜像版本,如 NousResearch/Llama-2-7b-hf,无需权限且下载稳定。
创建 Python 脚本,核心代码如下:
import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu # 切记!必须在任何 NPU 操作之前
from transformers import AutoModelForCausalLM, AutoTokenizer
import time
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
print("开始加载模型...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
torch_dtype=torch.float16, # 使用 FP16 节省显存
low_cpu_mem_usage=True
)
print("将模型移至 NPU...")
model = model.to(DEVICE)
model.eval()
# 推理
prompt = "The capital of France is"
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
with torch.no_grad():
start_time = time.time()
outputs = model.generate(**inputs, max_new_tokens=50)
end_time = time.time()
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"生成内容:{generated_text}")
print(f"推理耗时:{end_time - start_time:.2f} 秒")
关键点总结:
https://hf-mirror.com。import torch_npu 必须在任何 NPU 操作之前。model.to('npu:0') 迁移。.to('npu:0') 迁移,而非不存在的 .npu() 方法。import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch
import torch_npu
import time
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_NAME = "NousResearch/Llama-2-7b-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 3
TEST_RUNS = 5
def load_model():
print("加载模型与分词器...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
torch_dtype=torch.float16,
low_cpu_mem_usage=True
).to(DEVICE)
model.eval()
return model, tokenizer
def benchmark(prompt, model, tokenizer, max_new_tokens=100):
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
# 预热
for _ in range(WARMUP_RUNS):
with torch.no_grad():
_ = model.generate(**inputs, max_new_tokens=max_new_tokens)
# 正式测试
latencies = []
for i in range(TEST_RUNS):
torch.npu.synchronize()
start = time.time()
with torch.no_grad():
_ = model.generate(**inputs, max_new_tokens=max_new_tokens)
torch.npu.synchronize()
end = time.time()
latency = end - start
latencies.append(latency)
print(f" 第{i+1}次耗时:{latency:.2f}s")
avg_latency = sum(latencies) / len(latencies)
throughput = max_new_tokens / avg_latency
return throughput, avg_latency
if __name__ == "__main__":
model, tokenizer = load_model()
test_cases = [
{"场景": "英文生成", "提示": "The future of artificial intelligence is", "长度": 100},
{"场景": "中文问答", "提示": "请用简单的话解释量子计算:", "长度": 100},
{"场景": "代码生成", "提示": "Write a Python function to reverse a string:", "长度": 150},
]
print("\n" + "=" * 50)
print("性能测试结果")
print("=" * 50)
for case in test_cases:
throughput, avg_latency = benchmark(case["提示"], model, tokenizer, case["长度"])
print(f"- {case['场景']}:")
print(f" 平均延迟:{avg_latency:.2f}s")
print(f" 吞吐量:{throughput:.2f} tokens/s")
print("=" * 50)
在 Ascend 910B 实例上,FP16 精度测试结果如下:
| 测试类型 | 平均延迟 | 吞吐量 |
|---|---|---|
| 英文生成 | 4.94s | 20.24 tokens/s |
| 中文问答 | 4.87s | 20.55 tokens/s |
| 代码生成 | 7.24s | 20.73 tokens/s |
结果分析:
针对模型量化,昇腾平台提供了专业的优化工具链。建议完成模型开发后,进行模型压缩与部署时使用昇腾的 Modelslim 工具进行量化。该工具能有效降低模型精度(如从 FP16/BF16 量化至 INT8),以显著提升推理速度并减少内存占用。
使用昇腾的 Modelslim 工具对模型进行 W8A8(权重与激活值均 INT8)量化。量化完成后,仅修改模型路径指向新生成的量化模型,并重新执行测试脚本。
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=quantization_config,
device_map="auto"
)
量化后的性能对比:
| 测试类型 | 平均延迟 | 吞吐量 | 相比 FP16 提升 |
|---|---|---|---|
| 英文生成 | 2.23s | 44.84 tokens/s | 约 1.21 倍 |
| 中文问答 | 2.22s | 45.05 tokens/s | 约 1.19 倍 |
| 代码生成 | 3.33s | 45.05 tokens/s | 约 1.17 倍 |
同时处理多个请求可以大幅提升吞吐量。
prompts = ["Prompt 1", "Prompt 2", "Prompt 3", "Prompt 4"]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(DEVICE)
outputs = model.generate(**inputs, max_new_tokens=100)
经过实战部署,对昇腾 NPU 总结如下:
本次部署测试证明了基于昇腾 NPU 部署和运行 Llama 2 大模型是一条完全可行的技术路径。虽然绝对性能并非顶尖,但其在成本、自主可控和稳定性方面的优势,使其在 AI 算力多元化的今天,成为一个不容忽视的选择。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online