零刻AI Max395(Ubuntu 24.04)AMD 显卡监控工具(amdgpu_top)部署手册
同事购置一台零刻AI Max395,已装Ubuntu 24.04,拿来玩耍,打算部署GLM-4.7,需要设置显存突破96GB限制(因Max 395 BIOS中可分配的最大显存为96G,为能够运行101G的模型权重,需通过Linux GTT来设置显存突破96G的限制)。rocm-smi回显信息有限,安装amdgpu_top监控工具。
rocm-smi回显如下:

设置显存突破96GB限制
vim /etc/default/grub #编辑grub文件,修改参数 ######## GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=31457280 ttm.page_pool_size=31457280 amdttm.pages_limit=31457280 amdttm.page_pool_size=31457280 apparmor=0 zswap.enabled=1 zswap.compressor=zstd zswap.zpool=zsmalloc zswap.max_pool_percent=5" ######## :wq update-grub #编辑完成后运行,运行完毕重启 amdgpu_top #回显如下 ____________________________________________________ (base) root@lisinan-GTR:~# amdgpu_top amdgpu_top:未找到命令 (base) root@lisinan-GTR:~# ^Camdgpu_top监控工具部署:
amdgpu_top是专门用于监控 AMD 显卡(适配 amdgpu 驱动)状态的工具,Ubuntu 24.04 默认 apt 软件源中没有该工具,无法直接通过apt install安装,需要通过源码编译或 AMD 官方工具包安装,其中源码编译是最稳定、适配性最强的方式。
安装编译amdgpu_top所需的基础工具和依赖库,以 root 身份执行以下命令
apt update && apt upgrade -y # 更新系统软件源 apt install -y git cmake g++ libdrm-dev libncurses-dev libncursesw5-dev pkg-config # 安装核心编译依赖和依赖库源码编译安装
git clone https://github.com/Umio-Yasuno/amdgpu_top.git #克隆amdgpu_top官方源码仓库进入源码目录,创建构建目录并配置编译环境
cd amdgpu_top # 进入源码目录 mkdir build && cd build # 创建构建目录(规范编译流程,避免污染源码文件)amdgpu_top采用 Rust 开发,需通过cargo工具构建,而非cmake;

上图是过程中,Rust 已存在导致的 rustup 安装报错
终端提示你系统/usr/bin目录下已经预装了 Rust,而rustup是 Rust 的官方版本管理工具,默认希望成为系统的「唯一 Rust 环境」,因此触发了路径检查警告,最终报错cannot install while Rust is installed。
解决方案:跳过路径检查,直接安装 rustup。无需卸载系统预装的 Rust,通过添加参数跳过路径检查,直接完成安装,后续可通过rustup管理 Rust 版本,避免冲突。
执行带跳过参数的安装命令
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y #添加 -y 参数,忽略所有可跳过的检查(包括路径检查) ls -l #验证 amdgpu_top 项目文件完整性,查看当前目录下的项目文件(核心文件包括Cargo.toml、src/目录,缺一不可)
配置 Rust 环境变量(安装完成后必须执行)
安装完成后,需要加载环境变量,让系统识别rustup和cargo(Rust 的包管理工具):
source "$HOME/.cargo/env" # 加载环境变量(临时生效,当前终端窗口有效) echo "source $HOME/.cargo/env" >> ~/.bashrc #(可选)配置永久生效(后续新开终端也能直接使用) source ~/.bashrc验证安装是否成功
rustup --version # 查看rustup版本 rustc --version # 查看rust版本 cargo --version # 查看cargo版本
Release 模式编译,如果后续需要长期使用amdgpu_top监控硬件,推荐用 Release 模式编译
cargo build --release #优化编译,去除调试信息,运行效率提升30%以上,编译耗时,耐心等待即可,提示"Finished `release` profile [optimized] target(s) in 1m 27s"即表示编译成功
安装到全局路径(可直接输入amdgpu_top运行)
将可执行文件安装到~/.cargo/bin目录(该目录已配置到环境变量,系统可全局识别),后续在任何目录下输入amdgpu_top即可运行,无需指定路径。
# cargo install --path .(--path . 表示当前项目目录) # 该命令会将编译后的Release版本文件复制到~/.cargo/bin,实现全局调用 cargo install --path . #安装成功后,全局运行amdgpu_top(任何目录下都可执行) amdgpu_topamdgpu_top回显如下:
