Ubuntu 24.04 GPU 服务器测试系统盘制作

介绍

本文详细说明如何为 NVIDIA DGX B200 系列服务器制作测试系统盘。DGX B200 是 NVIDIA 推出的高性能 AI 服务器产品线，专为深度学习训练和推理任务优化。

测试盘中包含以下工具：ipmitool、gpu-burn、Fieldiag、DCGMi、NCCL 等。

制作系统盘

通过工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。

此文章通过 Ventoy 启动盘写入的镜像文件，如有需要请自行查阅相关资料。

Ventoy 是一个开源的多系统启动盘制作工具，它支持将多个 ISO/WIM/IMG/VHD(x)/EFI 文件直接拷贝到 U 盘中即可启动，无需反复格式化 U 盘。

官网镜像地址： Ubuntu Releases

基本配置与下载

配置允许 root 用户远程登录

Ubuntu 系统出于安全考虑默认禁止 root 用户通过 SSH 进行远程登录。若确实需要开启 root 用户的远程登录权限，可以按照以下步骤操作：

设置 root 密码

# 调用 root 权限修改 root 密码
sudo passwd root
# 调用 root 权限输入当前用户密码
# 若有提示密码需要满足 8 个字符不用理会，root 可以强制修改
# 切换用户尝试密码
sudo su - root

修改 ssh 配置文件

# 编辑 ssh 配置文件
vim /etc/ssh/sshd_config
# 取消注释并修改以下内容
Port 22
...
PermitRootLogin yes
# 重启 ssh 服务
systemctl restart ssh

测试网络连通性

配置网络 IP

查看网卡名称和 IP，若没有 IP 请如下配置：

# 查看网卡名称
ip addr
# 启用网卡并分配 IP
ip link set <网卡名称> up
dhcpcd <网卡名称>

配置 DNS 解析

本文章是通过本机 1.1 转发的 DNS，所以没有配置 DNS 解析地址，若有需要请参考一下配置：

# 查看当前 DNS 配置
resolvectl status
# 尝试解析网址
nslookup baidu.com
# 配置 DNS 文件
# 取消注释并添加解析地址
DNS=8.8.8.8 114.114.114.114 202.96.134.133

安装基本工具

# 更新并下载工具包
apt update

apt install -y net-tools ipmitool unzip
apt install -y build-essential

子命令	参数 / 用法	作用说明
`dcgmi health`	`-i <GPU 编号>`：指定 GPU `-s`：检查并输出健康状态（PASS/FAIL） `-v`：详细健康报告（含故障码）	检测 GPU 硬件健康状态（显存、供电、散热、PCIe 链路等），输出故障原因。
`dcgmi diag`	`-i <GPU 编号>`：指定 GPU `-r`：运行完整诊断（含压力测试） `-f <文件>`：输出诊断报告到文件	执行 GPU 深度诊断（比 health 更全面），包含显存读写测试、算力验证等。
`dcgmi errors`	`-i <GPU 编号>`：指定 GPU `-c`：清空错误日志 `-l`：列出所有错误日志（含时间 / 类型）	查看 / 清理 GPU 错误日志（硬件错误、驱动错误、CUDA 错误等）。

Ubuntu 24.04 GPU 服务器测试系统盘制作

Ubuntu 24.04 GPU 服务器测试系统盘制作

介绍

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

更多推荐文章

相关免费在线工具

系统环境安装

安装 NVIDIA 驱动

安装迈络思驱动

安装 CUDA

安装 gpu-burn 压测工具

安装 nvidia-fabricmanager 服务

安装 Fieldiag（FLD）

安装 nccl

更多推荐文章

相关免费在线工具

Ubuntu 24.04 GPU 服务器测试系统盘制作

Ubuntu 24.04 GPU 服务器测试系统盘制作

介绍

制作系统盘

基本配置与下载

配置允许 root 用户远程登录

设置 root 密码

修改 ssh 配置文件

测试网络连通性

配置网络 IP

配置 DNS 解析

安装基本工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

系统环境安装

安装 NVIDIA 驱动

安装迈络思驱动

安装 CUDA

安装 gpu-burn 压测工具

安装 nvidia-fabricmanager 服务

安装 Fieldiag（FLD）

安装 nccl

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具