昇腾设备部署llama.cpp

硬件环境:

Atlas 800I A2

CPU:KunPeng920 * 192

NPU:Atlas 910B4-1 * 8

内存:1000G

软件环境

操作系统:OpenEuler22.03 LTS

内核:5.10.0-186.0.0.2.1.oe2203sp3.galaxy.aarch64

驱动:24.1.rc2

docker:26.1.3

为了不影响物理环境,安装是在docker容器环境中进行,

由于目前llama.cpp只支持openeuler22.03和ubuntu 22.04,可以下载一个对应操作系统的镜像

此处以vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64镜像为例

拉取镜像:

docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/openeuler/vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64

支持Atlas 300I Duo Atlas 300T A2(Ascend 910B4)

起容器:

docker run -it -d --net=host --shm-size=500g \ --privileged \ --name vllm-ascend \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/
Could not load content