昇腾 (Ascend) NPU 实战指南：在 GitCode Notebook 中玩转 CodeLlama

Ne0inhk

22 Mar 2026 — 11 min read

1.前言

随着大模型技术在软件开发领域的深入应用，越来越多的开发者开始尝试在本地或云端环境部署代码生成模型。华为昇腾（Ascend）计算产业随着 CANN 软件栈的不断成熟，已成为运行各类开源 LLM 的重要算力底座。

本文将以 CodeLlama 这一广受欢迎的代码生成模型为核心，结合 GitCode Notebook 提供的在线开发环境，讲解如何在本地或服务器的昇腾 NPU 环境中完成从依赖配置、模型加载到代码生成的完整流程。文章将通过结构化的流程讲解与可操作的示例代码，引导你在昇腾生态中顺利完成 CodeLlama 的部署与运行。

接下来我们就开始进行动手实践吧。

GitCode官网：https://gitcode.com/。

2.GitCode Notebook 环境准备

GitCode 是面向中国开发者的一站式代码协作与模型应用平台，集成了开源仓库托管、在线运行环境、模型中心等能力。其中的 GitCode Notebook 提供了无需本地配置的云端交互式开发环境，支持直接在浏览器中编写、运行和调试代码，非常适合进行大模型试验与算子验证。

进入Gitcode官网后在个人头像这边可以找到Notebook：

进入后需要先进行激活和资源确认：

我们根据自己的需要选择对应的资源：

激活成功后进入主界面：

在主界面我们可以看见控制台，那么接下来我们就会使用控制台来做我们的实验了。

进入控制台后发现这不就是我们熟悉的命令行吗，那么接下来的话我们就正式开始吧。

进入后会发现这其实就是我们非常熟悉控制台界面：

进入 Notebook 后，第一件事不是急着写代码，而是检查底层的 NPU 状态和软件栈版本。打开 Terminal，输入以下命令：

# 查看 NPU 状态，确认芯片健康及显存占用 npu-smi info

从输出结果中我们能够明确的看到版本号，以及功耗和温度等信息以及NPU等一切都是处于正常的状态，那么接下来的话我们就可以正式的去进行实验了。

首先我们先来进行一些必备的环境检查：

查看系统版本信息：

cat /etc/os-release

检查python环境：

python3 --version python -c "import torch; print('PyTorch 版本:', torch.__version__)" python -c "import torch_npu; print('torch_npu 版本:', torch_npu.__version__)"

当基础环境准备就绪后，我们就可以开始进行下一步了，在实际开发中，我们可以参考CANN官网，在官网中我们也可以找到快速入门的资料，查看我们需要安装的一些必备的依赖：

安装一些python库：

pip3 install attrs cython 'numpy>=1.19.2,<=1.24.0' decorator sympy cffi pyyaml pathlib2 psutil protobuf==3.20.0 scipy requests absl-py --user

环境配置是重中之重，当这些都做完后，我们再进行下一步。

3.CodeLlama 模型信息

在本次实战中，我选择使用 CodeLlama，因为它是专门针对代码生成和理解优化的大语言模型，能够很好地体现大模型在实际推理任务中的表现。

接下来我们先了解一下这个模型的一些核心的信息：

模型版本与规模：CodeLlama 提供 7B、13B、34B 等多个版本，我选择了 7B 或 13B进行测试，参数量适中，方便在昇腾 NPU 上运行。

模型能力：专注于代码生成、补全和理解，支持多种编程语言，如 Python、C++、Java 等。

训练特点：在大规模文本与代码数据上预训练，并经过指令微调，使模型能够根据提示生成高质量代码。

选择理由：这个模型既能满足生成任务的复杂性，又不会因为显存过大而难以部署，非常适合用来做 NPU 性能实测。

在Hugging Face的官网里面我们可以找到相关的资料和信息：

4.模型加载

接下来环境配置和模型信息我们都有所了解了，那么现在我们就进入到模型加载的环节了。

在模型选择方面的话，我选择CodeLlama 7B-Instruct，它参数适中，既能体现推理性能，又不会因为显存不足导致无法运行。

加载 Tokenizer：

为了将输入文本转换为模型可处理的 token，我先加载 tokenizer：

from transformers import AutoTokenizer model_name = "code-llama-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_name)

然后，我将模型加载到昇腾 NPU，并设置 FP16 精度以降低显存占用：

from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", # 自动选择 NPU 设备 torch_dtype=torch.float16 # 使用 FP16 提升性能 )

注：device_map="auto" 会自动把模型分配到可用的 NPU 上，同时 FP16 精度可以在保证计算精度的前提下降低显存使用。

我们接下来可以来验证一下模型是否加载成功：

import torch_npu from transformers import AutoTokenizer, AutoModelForCausalLM # 模型名称 model_name = "code-llama-7b-instruct" # 加载 tokenizer tokenizer = AutoTokenizer.from_pretrained(model_name) # 加载模型到 NPU model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype=torch.float16 ) # 验证模型是否在 NPU 上 device = next(model.parameters()).device print(f"模型已加载，当前设备: {device}") # 测试一次简单推理 prompt = "def fibonacci(n):" inputs = tokenizer(prompt, return_tensors="pt").to(device) outputs = model.generate(**inputs, max_new_tokens=10) # 输出生成结果 generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print("生成结果:", generated_text)

运行结果：

从运行结果我们可以得知当前模型已经加载成功了。

5.基础推理演示

在完成模型加载和 SGLang 部署后，我就带大家开始进行 CodeLlama 的基础推理实验，从简单代码生成到多输入批量推理，展示 NPU 的实战效果。

先尝试最基础的单条 prompt 生成：

from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "code-llama-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype="torch.float16" ) # 简单 prompt prompt = "def fibonacci(n):" # Tokenize 并移动到 NPU inputs = tokenizer(prompt, return_tensors="pt").to(next(model.parameters()).device) # 执行推理 outputs = model.generate(**inputs, max_new_tokens=50) generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print("生成结果:\n", generated_text)

运行结果：

批量推理：

在实际场景中，我们经常需要同时处理多条请求，我尝试批量推理：

prompts = [ "def factorial(n):", "def quicksort(arr):", "def gcd(a, b):" ] # 批量 token 化 inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(next(model.parameters()).device) # 批量生成 outputs = model.generate(**inputs, max_new_tokens=50) # 输出每条结果 for i, output in enumerate(outputs): text = tokenizer.decode(output, skip_special_tokens=True) print(f"\nPrompt {i+1} 生成结果:\n{text}")

运行结果：

控制生成风格和长度：

还可以通过调整生成参数优化结果，例如：

outputs = model.generate( **inputs, max_new_tokens=100, # 最大生成长度 temperature=0.7, # 控制生成随机性 top_p=0.9, # nucleus sampling do_sample=True ) for i, output in enumerate(outputs): text = tokenizer.decode(output, skip_special_tokens=True) print(f"\nPrompt {i+1} 生成结果 (控制风格):\n{text}")

运行结果：

多轮推理：

在实际开发中，模型经常用于多轮交互，例如根据不断变化的需求生成或优化代码。接下来我们写一个代码案例展示如何实现多轮对话式推理：

# 初始对话：生成一个 Python 函数计算平方根 conversation = ["# 请写一个 Python 函数计算平方根"] for i in range(2): # 将对话内容 token 化并移动到 NPU inputs = tokenizer(conversation, return_tensors="pt", padding=True).to(next(model.parameters()).device) # 执行生成 outputs = model.generate(**inputs, max_new_tokens=50) # 解码生成结果 reply = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"\n第 {i+1} 轮生成:\n{reply}") # 将模型输出追加到对话中，用于下一轮生成 conversation.append(reply)

运行结果：

6.性能测试

在完成模型加载和部署后，我们对 CodeLlama 的推理性能进行了评估。测试中使用了一个包含多个 Python 函数的 prompt 列表，通过批量输入测量模型生成结果的延迟和吞吐量。每次生成的最大 token 数设置为 50，模拟常见的代码生成场景。

示例代码：

import time from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "code-llama-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype="torch.float16" ) prompts = [ "def fibonacci(n):", "def factorial(n):", "def quicksort(arr):", "def gcd(a, b):", "def is_prime(n):" ] # 批量 token 化并移动到 NPU inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(next(model.parameters()).device) num_trials = 5 total_time = 0.0 for i in range(num_trials): start_time = time.time() outputs = model.generate(**inputs, max_new_tokens=50) end_time = time.time() elapsed = end_time - start_time total_time += elapsed print(f"Trial {i+1}: {elapsed:.3f} s") avg_time = total_time / num_trials num_tokens = sum(len(tokenizer.decode(output, skip_special_tokens=True)) for output in outputs) throughput = num_tokens / avg_time print(f"\n平均延迟: {avg_time:.3f} s") print(f"吞吐量: {throughput:.1f} 字符/s")

在执行过程中，每次生成的延迟都被记录下来，并计算了多次试验的平均延迟。通过解码生成结果，可以统计生成字符数量，从而得到吞吐量。

执行结果：

从实际测试结果来看，CodeLlama 在昇腾 NPU 上的单次生成延迟稳定在几十毫秒级别，平均延迟仅 0.110 秒；同时还能达到 4727.2 字符 / 秒的较高吞吐量，足以支撑多 prompt 并行处理的场景需求。

7.总结

在本篇文章中，我们主要使用了 GitCode Notebook 作为开发环境。对于希望快速体验和操作昇腾 NPU 的开发者来说，Notebook 提供了即开即用的环境，无需依赖本地硬件或复杂配置。在 GitCode Notebook 的昇腾环境中部署 CodeLlama 并不复杂，同时也有一些需要注意的环节。整体来看，昇腾已经能够比较稳定地承载主流代码生成模型的推理任务，而 GitCode Notebook 则显著降低了上手门槛，让开发者能够更多地专注于模型本身，而非环境搭建。

昇腾 (Ascend) NPU 实战指南：在 GitCode Notebook 中玩转 CodeLlama

Ne0inhk

1.前言

2.GitCode Notebook 环境准备

3.CodeLlama 模型信息

4.模型加载

5.基础推理演示

6.性能测试

7.总结

Read more

AI绘画辅助新思路：M2FP提取人体轮廓用于姿态迁移

Continue插件实现本地部署一个“cursor”或“github copilot”

白嫖专业版！Github Copilot Pro竟然可以免费使用

2026 AI 元年｜智能体来了：Agent Native 正在取代 Copilot，定义下一代 AI 公司