昇腾设备部署llama.cpp
硬件环境:
Atlas 800I A2
CPU:KunPeng920 * 192
NPU:Atlas 910B4-1 * 8
内存:1000G
软件环境
操作系统:OpenEuler22.03 LTS
内核:5.10.0-186.0.0.2.1.oe2203sp3.galaxy.aarch64
驱动:24.1.rc2
docker:26.1.3
为了不影响物理环境,安装是在docker容器环境中进行,
由于目前llama.cpp只支持openeuler22.03和ubuntu 22.04,可以下载一个对应操作系统的镜像
此处以vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64镜像为例
拉取镜像:
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/openeuler/vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64
支持Atlas 300I Duo Atlas 300T A2(Ascend 910B4)
起容器:
docker run -it -d --net=host --shm-size=500g \ --privileged \ --name vllm-ascend \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/