1. 安装 AMD GPU 驱动和 ROCm
wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME
sudo apt install rocm
AMD ROCm 官方文档
2. 通过 GTT 解锁 96G 显存
- 进入 BIOS -> Setup -> Advanced -> NBIO common options -> GFX configuration -> UMA Frame buffer size 修改显存大小。
- 修改 GRUB 配置:
vim /etc/default/grub
update-grub
重启生效。
3. 安装 Vulkan
sudo apt install vulkan-tools
4. 下载并运行 llama.cpp
llama.cpp Release 页面
wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz
tar -xzf llama-b7503-bin-ubuntu-vulkan-x64.tar.gz
cd llama-b7503-bin-ubuntu-vulkan-x64
从 Hugging Face Mirror 获取模型(例如:ggml-org/gpt-oss-120b-GGUF),并将文件下载到 ~/.cache/llama.cpp/ 目录。
启动服务:
./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja
5. 安装 amdgpu_top
sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb
sudo amdgpu_top
6. 效果验证
如果 Token 生成速度仅为二十几,说明未启用 GPU 加速。
可通过 amdgpu_top 验证 GPU 使用情况。
注意:若需从其他电脑访问,请增加参数 --host 0.0.0.0。具体参考 llama.cpp 服务器文档。