Shell / BashAI算法
MS-S1 MAX 与 AI MAX 395 在 Ubuntu 24 使用 Vulkan llama.cpp 运行 GPT-OSS 120B
AMD GPU 驱动安装及 ROCm 环境配置,BIOS 与 GRUB 参数调整解锁显存,Vulkan 支持下的 llama.cpp 部署。演示 GPT-OSS 120B 模型推理流程,包含 amdgpu_top 监控验证及服务器远程访问配置。

AMD GPU 驱动安装及 ROCm 环境配置,BIOS 与 GRUB 参数调整解锁显存,Vulkan 支持下的 llama.cpp 部署。演示 GPT-OSS 120B 模型推理流程,包含 amdgpu_top 监控验证及服务器远程访问配置。

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb
sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME
sudo apt install rocm
参考官方文档:ROCm Linux 安装
vim /etc/default/grub
# 设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0"
update-grub
重启生效。
sudo apt install vulkan-tools
下载地址:llama.cpp Releases
wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz
# 进入目录
# 去 HuggingFace Mirror 中找自己想要部署的模型,里边有运行命令
./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja
# 文件下载到 ~/.cache/llama.cpp/ 目录中
sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb
sudo amdgpu_top
如果你的 token 速度只有二十几,那就是纯 CPU 算的没跑了。

amdgpu_top 验证

注意,如果你要用其他电脑访问,需要增加参数 --host 0.0.0.0,具体参考文档:llama.cpp Server README

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online