MS-S1 MAX 与 AI MAX 395 在 Ubuntu 24 下使用 Vulkan llama.cpp 运行 gpt-oss 120b

在 Ubuntu 24 系统下，基于 MS-S1 MAX 与 AI MAX 395 硬件，通过安装 AMD GPU 驱动、ROCm 及 Vulkan 环境，并配置内核参数以解锁大显存，最终利用 Vulkan 版 llama.cpp 成功运行 gpt-oss 120b 模型的完整流程。包含驱动安装、BIOS 设置、GRUB 参数调整、模型下载及服务器启动命令，并通过 amdgpu_top 验证 GPU 使用情况。

孤勇者发布于 2026/4/5更新于 2026/5/2741 浏览

MS-S1 MAX 与 AI MAX 395 在 Ubuntu 24 下使用 Vulkan llama.cpp 运行 gpt-oss 120b

1、安装 AMD GPU 驱动和 ROCm

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME
sudo apt install rocm

参考文档

2、通过 GTT 解锁 96G 显存

进入 BIOS -> Setup -> Advanced -> NBIO common options -> GFX configuration -> UMA Frame buffer size 修改显存。
修改 GRUB 配置：

vim /etc/default/grub
# 设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0"
update-grub

重启生效。

3、安装 Vulkan

sudo apt install vulkan-tools

4、下载 llama.cpp Release

下载页

wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz
# 进入目录
# 在 Hugging Face 上查找想要部署的模型，例如 ggml-org/gpt-oss-120b-GGUF
./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja
# 文件下载到 ~/.cache/llama.cpp/ 目录中

5、安装 amdgpu_top

sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb
sudo amdgpu_top

MS-S1 MAX 与 AI MAX 395 在 Ubuntu 24 下使用 Vulkan llama.cpp 运行 gpt-oss 120b

1、安装 AMD GPU 驱动和 ROCm

2、通过 GTT 解锁 96G 显存

3、安装 Vulkan

4、下载 llama.cpp Release

5、安装 amdgpu_top

更多推荐文章

相关免费在线工具

6、最终效果

更多推荐文章

相关免费在线工具

MS-S1 MAX 与 AI MAX 395 在 Ubuntu 24 下使用 Vulkan llama.cpp 运行 gpt-oss 120b

1、安装 AMD GPU 驱动和 ROCm

2、通过 GTT 解锁 96G 显存

3、安装 Vulkan

4、下载 llama.cpp Release

5、安装 amdgpu_top

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6、最终效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具