MS-S1 MAX 搭配 AI MAX 395 在 Ubuntu 24 下运行 gpt-oss 120B

MS-S1 MAX 与 AI MAX 395 本地部署大模型实战

在消费级硬件上跑通 120B 参数量的模型，关键在于显存管理和驱动优化。本文基于 MS-S1 MAX 和 AI MAX 395 硬件组合，记录在 Ubuntu 24 系统下利用 Vulkan 版 llama.cpp 运行 gpt-oss 120B 的完整流程。

1. 安装 AMD GPU 驱动与 ROCm

首先确保显卡驱动正确加载。AMD 官方提供了便捷的安装包，直接下载并安装即可。

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME
sudo apt install rocm

驱动安装完成后，建议查阅官方文档确认环境状态。

2. 解锁 96G 显存（关键步骤）

默认 BIOS 设置可能限制了显存大小，需要手动调整以支持大模型加载。

BIOS 设置：进入 BIOS Setup -> Advanced -> NBIO common options -> GFX configuration，将 UMA Frame buffer size 调整为最大可用值。
GRUB 配置：修改启动参数以释放更多内存资源。

vim /etc/default/grub
# 编辑 GRUB_CMDLINE_LINUX_DEFAULT 行，追加以下参数
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0"
update-grub

重启生效。此部分配置参考了社区相关方案，若遇到特定报错需根据实际硬件微调。

3. 安装 Vulkan 工具

llama.cpp 的 Vulkan 后端依赖相关工具包。

sudo apt install vulkan-tools

4. 部署 llama.cpp 与推理

可以直接使用预编译的二进制文件，也可以自行编译。这里推荐直接使用 Vulkan 版本的 release 包。

下载地址

MS-S1 MAX 搭配 AI MAX 395 在 Ubuntu 24 下运行 gpt-oss 120B

MS-S1 MAX 与 AI MAX 395 本地部署大模型实战

1. 安装 AMD GPU 驱动与 ROCm

2. 解锁 96G 显存（关键步骤）

3. 安装 Vulkan 工具

4. 部署 llama.cpp 与推理

更多推荐文章

相关免费在线工具

5. 性能监控

6. 效果验证与远程访问

更多推荐文章

相关免费在线工具

MS-S1 MAX 搭配 AI MAX 395 在 Ubuntu 24 下运行 gpt-oss 120B

MS-S1 MAX 与 AI MAX 395 本地部署大模型实战

1. 安装 AMD GPU 驱动与 ROCm

2. 解锁 96G 显存（关键步骤）

3. 安装 Vulkan 工具

4. 部署 llama.cpp 与推理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 性能监控

6. 效果验证与远程访问

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具