技术背景
1.1 昇腾 NPU
昇腾是华为自研的 AI 计算芯片,采用达芬奇架构,提供从训练(910B)到推理(310/710)的全场景覆盖。
核心特点:
- 全栈自研:硬件(达芬奇架构)→ 计算库(CANN)→ 框架(MindSpore)
- 自主可控:核心 IP 100% 自研,通过国家信创认证
- 性能可靠:已在金融、能源、政务等关键场景规模化落地
1.2 环境配置
在昇腾 NPU 上运行大模型,需确保基础环境满足以下要求:
- 操作系统:EulerOS 2.9
- Python:3.8
- PyTorch:2.1.0
- CANN:8.0(昇腾计算架构)
- torch_npu:2.1.0.post3
1.3 vLLM Ascend
vLLM Ascend 是 vLLM 社区官方提供的昇腾 NPU 硬件插件,可实现:
- 完全兼容 vLLM API:无需修改代码即可迁移
- 显著性能提升:相比原生方案可提升 2-5 倍吞吐量
- 丰富模型支持:Transformer、MoE、多模态模型
环境准备
2.1 验证 NPU 可用性
启动终端后执行以下命令验证环境:
python -c "import torch; import torch_npu; print(f'PyTorch: {torch.__version__}'); print(f'torch_npu: {torch_npu.__version__}'); print(f'NPU available: {torch.npu.is_available()}')"
预期输出:
PyTorch: 2.1.0 torch_npu: 2.1.0.post3 NPU available: True
2.2 配置 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com
作用:将 Hugging Face 请求重定向到国内镜像站,加速模型下载。
部署方案一:原生部署(transformers + torch_npu)
3.1 安装依赖
在昇腾 NPU 上运行 Mistral-7B-Instruct-v0.2,需要搭建三层推理环境:
- 模型层:Hugging Face 托管,通过 transformers 加载
- 框架层:PyTorch + torch-npu(NPU 适配插件)+ accelerate(多设备调度)
- 硬件层:昇腾 NPU
pip install transformers accelerate --upgrade


