MS-S1 MAX,AI MAX 395在Ubuntu24利用Vulkan版llama.cpp运行gpt-oss 120b
1、安装amd gpu驱动和Rocm
wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb sudo apt update sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)" sudo apt install amdgpu-dkms sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,video $LOGNAME sudo apt install rocm 2、通过GTT解锁96G显存
1、进入bios->setup->advanced->NBIO common options->GFX configuration->UMA Frame buffer size改显存
2、修改grub
vim /etc/default/grub #设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0" update-grub 重启生效
参考b站大佬
3、安装vulkan
sudo apt install vulkan-tools 4、下载llama.cpp release,硬要自己编译也可以
wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz #进入目录 #去https://hf-mirror.com/ggml-org/collections中找自己想要部署的模型,里边有运行命令 ./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja #文件下载到~/.cache/llama.cpp/目录中 5、安装amdgpu_top
sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb sudo amdgpu_top 6、最终效果
如果你的token速度只有二十几,那就是纯cpu算的没跑了

amdgpu_top验证

注意,如果你要用其他电脑访问,需要增加参数–host 0.0.0.0,具体参考文档