Shell / BashAI

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

在 Ubuntu 24.04 服务器上制作 GPU 测试系统盘的方法。内容包括系统盘制作、Root 远程登录配置、网络设置、基础工具安装、NVIDIA 驱动及 CUDA 环境部署，以及 gpu-burn、Fieldiag、DCGM、NCCL 等测试工具的编译与使用。旨在为高性能 AI 服务器提供完整的硬件与软件验证方案。

数字游民发布于 2026/3/30更新于 2026/7/2559 浏览

制作系统盘

使用启动盘工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。

基本配置与下载

配置允许 root 用户远程登录

Ubuntu 系统默认禁止 root 用户通过 SSH 远程登录。如需开启，请按以下步骤操作：

设置 root 密码

# 调用 root 权限修改 root 密码
sudo passwd root
# 若有提示密码需要满足 8 个字符不用理会，root 可以强制修改
# 切换用户尝试密码
sudo su - root

修改 ssh 配置文件

# 编辑 ssh 配置文件
vim /etc/ssh/sshd_config
# 取消注释并修改以下内容
Port 22
...
PermitRootLogin yes
# 重启 ssh 服务
systemctl restart ssh

测试网络连通性

配置网络 IP

查看网卡名称和 IP，若没有 IP 请如下配置：

# 查看网卡名称
ip addr
# 启用网卡并分配 IP
ip link set <网卡名称> up
dhcpcd <网卡名称>

配置 DNS 解析

本文章是通过本机 1.1 转发的 DNS，所以没有配置 DNS 解析地址，若有需要请参考以下配置：

# 查看当前 DNS 配置
resolvectl status
# 尝试解析网址
nslookup baidu.com
# 配置 DNS 文件
# 取消注释并添加解析地址
DNS=8.8.8.8 114.114.114 202.96.134.133

安装基本工具

# 更新并下载工具包
apt update
# 更新中若有报错，只要不影响下载就不用理会
apt install -y net-tools ipmitool unzip
apt install -y build-essential
# build-essential 中包含部署的主要工具，所以其他部署工具不需要另外下载。
# (含有：gcc, g++, make, libc6-dev, dpkg-dev 等基础编译工具)

系统环境安装

安装 NVIDIA 驱动

官方驱动下载地址：https://www.nvidia.cn/drivers/lookup/ 执行安装即可。


 +x NVIDIA-Linux-x86_64-580.65.06.run
./NVIDIA-Linux-x86_64-580.65.06.run

# 下载后赋予执行权限，执行即可
chmod +x cuda_13.0.0_580.65.06_linux.run
./cuda_13.0.0_580.65.06_linux.run
# 中途输入 accept，回车和选择 install 继续安装，回车
# 安装完成后配置 CUDA 设置全局配置 (直接输入)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=${CUDA_HOME}/bin:${PATH}
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
# 更新全局变量并查看 CUDA 版本
apt install -y nvidia-cuda-toolkit
cd ~
source ~/.bashrc
nvcc --version

# 解压压缩文件
unzip gpu-burn-master.zip
# 进入文件目录并编译
cd gpu-burn-master
make
# 编译完成后文件目录内会出现 gpu-burn 的可执行文件

# 直接网络下载即可
apt install -y nvidia-fabricmanager-580
# 下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
# 如果有模组环境下活动 (Active) 属性哪里会显示活动已激活状态，没有模组的话会显示失败。
systemctl status nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service
# 如果安装时有提示缺少安装依赖的话，可以 nvidia 官网下载相关包安装既可。
dpkg -i <文件名称>.deb
# 安装完成后再次查看状态，状态正常就说明没有问题了

# 执行文件即可，-t 表示多多线程，-c 表示测试算力，最后压测时间单位为 s/秒。
./gpu-burn -tc 3600

# 下载导入后 dpkg 安装即可
dpkg -i nvidia-imex_580.65.06-1_amd64.deb

# 解压既可，不同版本看后缀格式解压
unzip 629-26287-0001-FLD-42704.zip
tar -zxvf 629-26287-0102-FLD-43576.tar.gz
# 进入目录赋予全部文件执行权限即可，FLD 属于脚本文件免安装文件，不需要安装编译。
chmod +x ./*

# 直接 dpkg 安装即可
dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb
dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb
# 直接测试使用即可，如果安装成功会显示没有测试实体
dcgmi diag -r 4

子命令	参数 / 用法	作用说明
`dcgmi health`	`-i <GPU 编号>`：指定 GPU `-s`：检查并输出健康状态（PASS/FAIL） `-v`：详细健康报告（含故障码）	检测 GPU 硬件健康状态（显存、供电、散热、PCIe 链路等），输出故障原因。
`dcgmi diag`	`-i <GPU 编号>`：指定 GPU `-r`：运行完整诊断（含压力测试） `-f <文件>`：输出诊断报告到文件	执行 GPU 深度诊断（比 health 更全面），包含显存读写测试、算力验证等。
`dcgmi errors`	`-i <GPU 编号>`：指定 GPU `-c`：清空错误日志 `-l`：列出所有错误日志（含时间 / 类型）	查看 / 清理 GPU 错误日志（硬件错误、驱动错误、CUDA 错误等）。

# 解压进入目录
tar -zxvf openmpi-4.1.8.tar.gz
cd openmpi-4.1.8/
# 执行文件自带安装文件即可（若无执行权限，赋予权限既可）
./configure

# dpkg 安装 deb 格式文件
dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb
dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb
# unzip 解压 zip 格式文件并编译
unzip nccl-tests-master.zip
cd nccl-tests-master/
&& make

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

系统环境安装

安装 NVIDIA 驱动

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

系统环境安装

安装 NVIDIA 驱动

更多推荐文章

相关免费在线工具

安装迈络思驱动

安装 CUDA

安装 gpu-burn 压测工具

安装 nvidia-fabricmanager 服务

安装 Fieldiag（FLD）

安装 nccl

更多推荐文章

相关免费在线工具

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

系统环境安装

安装 NVIDIA 驱动

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

系统环境安装

安装 NVIDIA 驱动

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装迈络思驱动

安装 CUDA

安装 gpu-burn 压测工具

安装 nvidia-fabricmanager 服务

安装 Fieldiag（FLD）

安装 nccl

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具