在昇腾 NPU 上部署与测评 CodeLlama-7b-Python | 极客日志

PythonAI算法

在昇腾 NPU 上部署与测评 CodeLlama-7b-Python

在昇腾 NPU 环境下部署 CodeLlama-7b-Python 模型的完整流程。内容涵盖环境准备（PyTorch + torch_npu 安装）、模型下载（使用 HF 镜像加速）、推理验证及多场景性能基准测试。通过 FP16 精度推理，单请求生成速度约 17.5 tokens/s，批量推理（batch=4）吞吐可达 69.71 tokens/s，显存峰值约 13.66 GB。测试结果表明昇腾 NPU 能有效支持代码大模型的本地化部署与高并发推理。

字节跳动发布于 2026/3/30更新于 2026/7/1552 浏览

目标：本文记录了在昇腾 NPU 环境中从零开始部署 CodeLlama-7b-Python 模型的全过程，包括环境配置、模型加载、推理验证及基础性能评估，旨在为开发者提供一份可复现的参考流程。

一、环境准备：启动合适的计算实例

首先，选择支持昇腾 NPU 的计算实例。这类实例通常预装了 CANN（Compute Architecture for Neural Networks）工具链和 PyTorch + torch_npu 插件，省去了手动编译驱动的麻烦。

1.1 选择配置并启动 Notebook

选择支持 昇腾 NPU 的计算实例，并启动。确保运行时为 Python 3.9、PyTorch 2.x 的镜像。启动后，通过 npu-smi info 命令验证 NPU 设备是否被正确识别。

1.2 一键安装 PyTorch + torch_npu（昇腾专用）

创建脚本 install_torch_npu.sh：

#!/bin/bash
echo "🚀 开始安装 PyTorch + torch_npu（昇腾 NPU 专用）..."
# 设置国内镜像源（加速后续模型下载）
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_DOWNLOAD_TIMEOUT=600
export HF_HUB_SSL_TIMEOUT=60
# 升级 pip
python3 -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装 PyTorch（CPU 版，NPU 由 torch_npu 提供支持）
if ! python3 -c "import torch" &> /dev/null; then
    echo "📦 正在安装 PyTorch 2.1.0..."
    python3 -m pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 \
        -i https://pypi.tuna.tsinghua.edu.cn/simple
fi
# 安装 torch_npu（必须从华为官方源）
if ! python3 -c "import torch_npu" &> /dev/null; then
    echo "📦 正在安装 torch_npu 2.1.0.post3..."
    python3 -m pip install torch_npu==2.1.0.post3 \
        -f https://download.linux.hicloud.com/npu/torch_npu/index.html \
        --trusted-host download.linux.hicloud.com
fi
# 验证 NPU
echo ""
echo "🔍 验证 NPU 设备是否识别..."
python3 -c

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

chmod +x install_torch_npu.sh
bash install_torch_npu.sh

pip install transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

export HF_ENDPOINT=https://hf-mirror.com # 指定模型/数据集下载的根地址
export HF_HUB_DOWNLOAD_TIMEOUT=1200 # 延长单文件下载超时至 20 分钟，避免大文件中断
export HF_HUB_SSL_TIMEOUT=600 # SSL 握手超时设为 10 分钟，提升弱网稳定性

from huggingface_hub import snapshot_download

model_id = "codellama/CodeLlama-7b-Python-hf"
local_dir = "./CodeLlama-7b-Python"

snapshot_download(
    repo_id=model_id,
    local_dir=local_dir,
    local_dir_use_symlinks=False,
    resume_download=True,
    token=False # 公开模型，无需 Token
)
print("✅ 模型下载完成！")

pip install huggingface-hub -i https://pypi.tuna.tsinghua.edu.cn/simple
python download_codellama.py

CodeLlama-7b-Python/
├── config.json
├── model-00001-of-00002.safetensors
├── model-00002-of-00002.safetensors
├── model.safetensors.index.json
├── tokenizer.model
└── ...

import torch
import torch_npu
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载 tokenizer 和模型（自动从本地缓存或镜像下载）
tokenizer = AutoTokenizer.from_pretrained("codellama/CodeLlama-7b-Python-hf")
model = AutoModelForCausalLM.from_pretrained(
    "codellama/CodeLlama-7b-Python-hf",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
).npu().eval()

# 迁移到 NPU 并设为推理模式
# 构造提示并生成
prompt = "# 写一个计算平方的函数\n"
inputs = tokenizer(prompt, return_tensors="pt").to("npu:0")
outputs = model.generate(**inputs, max_new_tokens=50, pad_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

export HF_ENDPOINT=https://hf-mirror.com
python test_codellama.py

MODEL_NAME = "codellama/CodeLlama-7b-Python-hf"
DEVICE = "npu:0"
WARMUP_RUNS = 5
TEST_RUNS = 10
PRECISION = "fp16" # 或 "fp32"
MAX_INPUT_LENGTH = 512
TEST_CASES = [
    {"场景": "函数实现", "输入": "# 写一个快速排序函数\n", "生成长度": 80, "batch_size": 1},
    {"场景": "单元测试", "输入": "# 为上述函数编写 pytest 测试用例\n", "生成长度": 100, "batch_size": 1},
    {"场景": "API 调用", "输入": "# 使用 requests 获取 GitHub 用户信息\n", "生成长度": 90, "batch_size": 1},
    {"场景": "装饰器", "输入": "# 写一个装饰器记录函数执行时间\n", "生成长度": 70, "batch_size": 2},
    {"场景": "列表推导", "输入": "# 用列表推导式过滤偶数\n", "生成长度": 50, "batch_size": 4},
    {"场景": "异常处理", "输入": "# 编写带 try-except 的文件读取函数\n", "生成长度": 85, "batch_size": 1},
]

def load_model_and_tokenizer(model_name, precision):
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    if tokenizer.pad_token_id is None:
        tokenizer.pad_token_id = tokenizer.eos_token_id
    dtype = torch.float16 if precision == "fp16" else torch.float32
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=dtype,
        low_cpu_mem_usage=True,
        trust_remote_code=True
    ).to(DEVICE).eval()
    mem_used = torch.npu.memory_allocated(DEVICE) / 1e9
    return model, tokenizer, mem_used

def benchmark(prompt, tokenizer, model, max_new_tokens, batch_size):
    inputs = tokenizer(
        [prompt] * batch_size,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=MAX_INPUT_LENGTH,
        return_attention_mask=True
    ).to(DEVICE)
    # 预热
    for _ in range(WARMUP_RUNS):
        with torch.no_grad():
            model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.pad_token_id, num_beams=1)
    # 正式测试
    latencies = []
    torch.npu.reset_max_memory_allocated(DEVICE)
    for _ in range(TEST_RUNS):
        torch.npu.synchronize()
        start = time.time()
        with torch.no_grad():
            model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, pad_token_id=tokenizer.pad_token_id, num_beams=1)
        torch.npu.synchronize()
        latencies.append(time.time() - start)
    avg_latency = sum(latencies) / len(latencies)
    throughput_per_req = max_new_tokens / avg_latency
    total_throughput = throughput_per_req * batch_size
    mem_peak = torch.npu.max_memory_allocated(DEVICE) / 1e9
    return {
        "平均延迟 (秒)": round(avg_latency, 3),
        "显存峰值 (GB)": round(mem_peak, 2),
        "batch_size": batch_size,
        "生成长度": max_new_tokens
    }

if __name__ == "__main__":
    import os
    os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
    # 加载模型
    model, tokenizer, _ = load_model_and_tokenizer(MODEL_NAME, PRECISION)
    # 执行测试
    results = []
    for case in TEST_CASES:
        res = benchmark(
            prompt=case["输入"],
            tokenizer=tokenizer,
            model=model,
            max_new_tokens=case["生成长度"],
            batch_size=case["batch_size"]
        )
        res.update({"场景": case["场景"]})
        results.append(res)
    # 保存结果（JSON + Markdown）
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    with open(f"codellama_npu_benchmark_fp16_{timestamp}.json", "w") as f:
        json.dump(results, f, indent=2, ensure_ascii=False)

python test_codellama_benchmark.py

# CodeLlama-7b-Python 在昇腾 NPU 上的性能测试报告
## 测试时间：2025-12-10 10:29:35
---
## 一、测试环境信息
| 环境项 | 详情 |
|------------------|-------------------------------|
| NPU 设备 | npu:0 |
| 模型名称 | codellama/CodeLlama-7b-Python-hf |
| 模型精度 | torch.float16（配置：fp16） |
| PyTorch 版本 | 2.1.0 |
| torch_npu 版本 | 2.1.0.post3 |
| transformers 版本 | 4.46.3|
| Python 版本 | 3.9 |
---
## 二、模型加载性能
- 加载耗时：52.68 秒
- 加载显存占用：13.48 GB
- 推理显存峰值范围：13.57 ~ 13.66 GB
---
## 三、各场景性能明细
场景 | batch_size | 生成长度 | 单请求吞吐量 (tokens/秒) | 批量总吞吐量 (tokens/秒) | 平均延迟 (秒) | 延迟标准差 (秒) | 显存峰值 (GB)
函数实现 | 1 | 80 | 17.54 | 17.54 | 4.560 | 0.142 | 13.57
单元测试 | 1 | 100 | 17.34 | 17.34 | 5.766 | 0.058 | 13.58
API 调用 | 1 | 90 | 17.80 | 17.80 | 5.056 | 0.109 | 13.57
装饰器 | 2 | 70 | 17.29 | 34.58 | 4.048 | 0.085 | 13.65
列表推导 | 4 | 50 | 17.43 | 69.71 | 2.869 | 0.055 | 13.66
异常处理 | 1 | 85 | 17.22 | 17.22 | 4.938 | 0.056 | 13.57
---
## 四、性能分析与结论
### 1. 代码任务类型影响
- 函数实现（80 token）：17.54 tokens/秒
- 单元测试（100 token）：17.34 tokens/秒
✅ 结论：不同代码生成任务吞吐波动 < 2%，NPU 支持稳定。
### 2. 批量并发效率
- batch=2 总吞吐：34.58 tokens/秒（≈2.0×单请求）
- batch=4 总吞吐：69.71 tokens/秒（≈3.8×单请求）
✅ 结论：接近线性加速，适合高并发代码生成服务。
### 3. 显存与部署建议
- 峰值显存：13.66 GB（batch=4 时）
✅ 建议：生产环境使用 ≥16GB 显存的昇腾 NPU。
---
## 五、优化建议
1. **优先启用 batch 推理**：batch=2~4 可显著提升吞吐。
2. **关闭采样（do_sample=False）**：保证代码确定性，提升速度。
3. **避免超长上下文**：输入 + 输出总长度建议 ≤1024 tokens。
4. **服务启动预热**：前 5 次推理用于算子编译，不计入性能统计。
---
## 六、测试结果文件
原始数据已保存至：
- `codellama_npu_benchmark_fp16_20251210_102935.json`
- `codellama_npu_benchmark_summary_fp16_20251210_102935.md`

在昇腾 NPU 上部署与测评 CodeLlama-7b-Python

一、环境准备：启动合适的计算实例

1.1 选择配置并启动 Notebook

1.2 一键安装 PyTorch + torch_npu（昇腾专用）

更多推荐文章

相关免费在线工具

使用方法

二、模型下载（使用 HF 镜像）

2.1 设置镜像环境变量

2.2 创建下载脚本

2.3 执行下载

2.4 目录结构验证

三、模型测试：从快速验证到多场景推理评估

3.1 快速功能验证：5 行代码跑通首例生成

运行命令

3.2 完整性能测评

核心配置

模型加载（自动修复 pad_token）

性能基准测试函数

主流程（加载 + 多场景测试 + 保存）

四、测试结果汇总

五、附录

5.1 输出文件

5.2 常见警告说明

总结

更多推荐文章

相关免费在线工具

在昇腾 NPU 上部署与测评 CodeLlama-7b-Python

一、环境准备：启动合适的计算实例

1.1 选择配置并启动 Notebook

1.2 一键安装 PyTorch + torch_npu（昇腾专用）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

使用方法

二、模型下载（使用 HF 镜像）

2.1 设置镜像环境变量

2.2 创建下载脚本

2.3 执行下载

2.4 目录结构验证

三、模型测试：从快速验证到多场景推理评估

3.1 快速功能验证：5 行代码跑通首例生成

运行命令

3.2 完整性能测评

核心配置

模型加载（自动修复 pad_token）

性能基准测试函数

主流程（加载 + 多场景测试 + 保存）

四、测试结果汇总

五、附录

5.1 输出文件

5.2 常见警告说明

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具