MS-S1 MAX 与 AI MAX 395 本地部署大模型实战
在消费级硬件上跑通 120B 参数量的模型,关键在于显存管理和驱动优化。本文基于 MS-S1 MAX 和 AI MAX 395 硬件组合,记录在 Ubuntu 24 系统下利用 Vulkan 版 llama.cpp 运行 gpt-oss 120B 的完整流程。
1. 安装 AMD GPU 驱动与 ROCm
首先确保显卡驱动正确加载。AMD 官方提供了便捷的安装包,直接下载并安装即可。
wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME
sudo apt install rocm
驱动安装完成后,建议查阅 官方文档 确认环境状态。
2. 解锁 96G 显存(关键步骤)
默认 BIOS 设置可能限制了显存大小,需要手动调整以支持大模型加载。
- BIOS 设置:进入 BIOS Setup -> Advanced -> NBIO common options -> GFX configuration,将 UMA Frame buffer size 调整为最大可用值。
- GRUB 配置:修改启动参数以释放更多内存资源。
vim /etc/default/grub
# 编辑 GRUB_CMDLINE_LINUX_DEFAULT 行,追加以下参数
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0"
update-grub
重启生效。此部分配置参考了社区相关方案,若遇到特定报错需根据实际硬件微调。
3. 安装 Vulkan 工具
llama.cpp 的 Vulkan 后端依赖相关工具包。
sudo apt install vulkan-tools
4. 部署 llama.cpp 与推理
可以直接使用预编译的二进制文件,也可以自行编译。这里推荐直接使用 Vulkan 版本的 release 包。




