基于昇腾 NPU 部署 Mistral-7B-Instruct-v0.2 模型的技术实践 | 极客日志

PythonAI算法

基于昇腾 NPU 部署 Mistral-7B-Instruct-v0.2 模型的技术实践

记录了在华为昇腾 NPU 平台上部署 Mistral-7B-Instruct-v0.2 大语言模型的完整技术实践，包括原生部署和使用 vLLM Ascend 优化两种方案。通过云端 NPU 资源，完成了从环境搭建、模型下载到推理性能对比的全流程测试。实测数据显示，vLLM Ascend 方案相比原生方案吞吐量提升约 2.5-3.3 倍，并发性能优势明显，适合生产服务场景。

赛博行者发布于 2026/3/30更新于 2026/7/1060 浏览

基于昇腾 NPU 部署 Mistral-7B-Instruct-v0.2 模型的技术实践

技术背景

1.1 昇腾 NPU

昇腾是华为自研的 AI 计算芯片，采用达芬奇架构，提供从训练（910B）到推理（310/710）的全场景覆盖。

核心特点：

全栈自研：硬件（达芬奇架构）→ 计算库（CANN）→ 框架（MindSpore）
自主可控：核心 IP 100% 自研，通过国家信创认证
性能可靠：已在金融、能源、政务等关键场景规模化落地

1.2 环境配置

在昇腾 NPU 上运行大模型，需确保基础环境满足以下要求：

操作系统：EulerOS 2.9
Python：3.8
PyTorch：2.1.0
CANN：8.0（昇腾计算架构）
torch_npu：2.1.0.post3

1.3 vLLM Ascend

vLLM Ascend 是 vLLM 社区官方提供的昇腾 NPU 硬件插件，可实现：

完全兼容 vLLM API：无需修改代码即可迁移
显著性能提升：相比原生方案可提升 2-5 倍吞吐量
丰富模型支持：Transformer、MoE、多模态模型

环境准备

2.1 验证 NPU 可用性

启动终端后执行以下命令验证环境：

python -c "import torch; import torch_npu; print(f'PyTorch: {torch.__version__}'); print(f'torch_npu: {torch_npu.__version__}'); print(f'NPU available: {torch.npu.is_available()}')"

预期输出：

PyTorch: 2.1.0 torch_npu: 2.1.0.post3 NPU available: True

2.2 配置 Hugging Face 镜像

export HF_ENDPOINT=https://hf-mirror.com

作用：将 Hugging Face 请求重定向到国内镜像站，加速模型下载。

部署方案一：原生部署（transformers + torch_npu）

3.1 安装依赖

在昇腾 NPU 上运行 Mistral-7B-Instruct-v0.2，需要搭建三层推理环境：

模型层：Hugging Face 托管，通过 transformers 加载
框架层：PyTorch + torch-npu（NPU 适配插件）+ accelerate（多设备调度）
硬件层：昇腾 NPU

pip install transformers accelerate --upgrade

3.2 下载模型

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

huggingface-cli download mistralai/Mistral-7B-Instruct-v0.2 \
  --local-dir ./models/Mistral-7B-Instruct-v0.2 \
  --local-dir-use-symlinks False

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型
model_path = "./models/Mistral-7B-Instruct-v0.2"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="npu:0"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.eval()

# 推理测试
prompt = "介绍一下人工智能的发展历程"
inputs = tokenizer(prompt, return_tensors="pt").to("npu:0")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=120,
        do_sample=True,
        temperature=0.7
    )
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

测试类型	平均延迟 (120 tokens)	吞吐量 (tokens/s)
中文问答	6763 ms	17.74
英文问答	6582 ms	18.23
代码生成	6578 ms	18.24
逻辑推理	6436 ms	18.64
长上下文	6549 ms	18.32
平均	~6.58 秒	~18.2

# 1. 克隆 Gitee 镜像
git clone https://gitee.com/mirrors/vllm-ascend.git
cd vllm-ascend
# 2. 切换到 v0.7.x 版本
git checkout v0.7.3
# 3. 安装构建依赖
pip install setuptools_scm wheel -i https://pypi.tuna.tsinghua.edu.cn/simple
# 4. 禁用自定义算子编译，安装
export COMPILE_CUSTOM_KERNELS=0
pip install --no-build-isolation -e .
# 5. 验证安装
python -c "import vllm; print(f'vLLM version: {vllm.__version__}')"

# 安装指定版本
pip install vllm-ascend==0.11.0

# 方式一：命令行启动服务
vllm serve mistralai/Mistral-7B-Instruct-v0.2 \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --dtype float16 \
  --port 8000

# 方式二：Python 代码调用
from vllm import LLM, SamplingParams

llm = LLM(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    tensor_parallel_size=1,
    max_model_len=4096,
    dtype="float16"
)
sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=120
)
outputs = llm.generate(["介绍一下人工智能的发展历程"], sampling_params)
for output in outputs:
    print(output.outputs[0].text)

方案	延迟 (120 tokens)	吞吐量 (tokens/s)	显存占用
原生方案	6580 ms	18.2	~15GB
vLLM Ascend	2000-2700 ms	45-60	~16GB
性能提升	2.4-3.3 倍	2.5-3.3 倍	+6%

QPS	平均延迟 (ms)	P99 延迟 (ms)	吞吐量 (tokens/s)
1	104	154	205
4	116	169	600
16	129	188	911
∞	3394	3541	1055

场景	推荐方案	理由
快速验证	原生方案	无需额外安装，代码简单
生产服务	vLLM Ascend	高吞吐、低延迟、支持并发
单用户交互	原生方案	资源占用略低
多用户服务	vLLM Ascend	性能优势明显

pip install tokenizers>=0.14.0

# 使用量化
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="npu:0",
    load_in_8bit=True # INT8 量化
)

# 使用镜像并设置超时
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download ... --resume-download

指标	原生方案	vLLM Ascend	提升幅度
单请求吞吐	18.2 tok/s	45-60 tok/s	2.5-3.3×
并发吞吐（QPS=16）	~200 tok/s	911 tok/s	4.5×
显存占用	15 GB	16 GB	+6%
部署复杂度	低	中	-

基于昇腾 NPU 部署 Mistral-7B-Instruct-v0.2 模型的技术实践

技术背景

1.1 昇腾 NPU

1.2 环境配置

1.3 vLLM Ascend

环境准备

2.1 验证 NPU 可用性

2.2 配置 Hugging Face 镜像

部署方案一：原生部署（transformers + torch_npu）

3.1 安装依赖

3.2 下载模型

更多推荐文章

相关免费在线工具

3.3 推理代码

3.4 原生方案性能测试

部署方案二：vLLM Ascend 优化

4.1 安装 vLLM Ascend

4.2 启动 vLLM 推理服务

4.3 vLLM Ascend 性能测试

单请求性能对比

并发性能测试（模拟在线服务）

完整部署流程

5.1 环境准备

5.2 选择部署方案

5.3 常见问题解决

总结

6.1 性能对比总结

6.2 实践建议

6.3 相关资源

更多推荐文章

相关免费在线工具

基于昇腾 NPU 部署 Mistral-7B-Instruct-v0.2 模型的技术实践

技术背景

1.1 昇腾 NPU

1.2 环境配置

1.3 vLLM Ascend

环境准备

2.1 验证 NPU 可用性

2.2 配置 Hugging Face 镜像

部署方案一：原生部署（transformers + torch_npu）

3.1 安装依赖

3.2 下载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 推理代码

3.4 原生方案性能测试

部署方案二：vLLM Ascend 优化

4.1 安装 vLLM Ascend

4.2 启动 vLLM 推理服务

4.3 vLLM Ascend 性能测试

单请求性能对比

并发性能测试（模拟在线服务）

完整部署流程

5.1 环境准备

5.2 选择部署方案

5.3 常见问题解决

总结

6.1 性能对比总结

6.2 实践建议

6.3 相关资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具