制作系统盘
使用启动盘工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。
在 Ubuntu 24.04 服务器上制作 GPU 测试系统盘的方法。内容包括系统盘制作、Root 远程登录配置、网络设置、基础工具安装、NVIDIA 驱动及 CUDA 环境部署,以及 gpu-burn、Fieldiag、DCGM、NCCL 等测试工具的编译与使用。旨在为高性能 AI 服务器提供完整的硬件与软件验证方案。

使用启动盘工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。
Ubuntu 系统默认禁止 root 用户通过 SSH 远程登录。如需开启,请按以下步骤操作:
# 调用 root 权限修改 root 密码
sudo passwd root
# 若有提示密码需要满足 8 个字符不用理会,root 可以强制修改
# 切换用户尝试密码
sudo su - root
# 编辑 ssh 配置文件
vim /etc/ssh/sshd_config
# 取消注释并修改以下内容
Port 22
...
PermitRootLogin yes
# 重启 ssh 服务
systemctl restart ssh
查看网卡名称和 IP,若没有 IP 请如下配置:
# 查看网卡名称
ip addr
# 启用网卡并分配 IP
ip link set <网卡名称> up
dhcpcd <网卡名称>
本文章是通过本机 1.1 转发的 DNS,所以没有配置 DNS 解析地址,若有需要请参考以下配置:
# 查看当前 DNS 配置
resolvectl status
# 尝试解析网址
nslookup baidu.com
# 配置 DNS 文件
# 取消注释并添加解析地址
DNS=8.8.8.8 114.114.114 202.96.134.133
# 更新并下载工具包
apt update
# 更新中若有报错,只要不影响下载就不用理会
apt install -y net-tools ipmitool unzip
apt install -y build-essential
# build-essential 中包含部署的主要工具,所以其他部署工具不需要另外下载。
# (含有:gcc, g++, make, libc6-dev, dpkg-dev 等基础编译工具)
官方驱动下载地址:https://www.nvidia.cn/drivers/lookup/ 执行安装即可。
# 下载后导入系统并赋予权限执行即可
chmod +x NVIDIA-Linux-x86_64-580.65.06.run
./NVIDIA-Linux-x86_64-580.65.06.run
# 安装中提示选择默认第一个即可!
官方下载地址:https://developer.nvidia.com/cuda-toolkit-archive 执行安装即可。
# 下载后赋予执行权限,执行即可
chmod +x cuda_13.0.0_580.65.06_linux.run
./cuda_13.0.0_580.65.06_linux.run
# 中途输入 accept,回车和选择 install 继续安装,回车
# 安装完成后配置 CUDA 设置全局配置 (直接输入)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=${CUDA_HOME}/bin:${PATH}
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
# 更新全局变量并查看 CUDA 版本
apt install -y nvidia-cuda-toolkit
cd ~
source ~/.bashrc
nvcc --version
解压编译安装即可。
# 解压压缩文件
unzip gpu-burn-master.zip
# 进入文件目录并编译
cd gpu-burn-master
make
# 编译完成后文件目录内会出现 gpu-burn 的可执行文件
# 直接网络下载即可
apt install -y nvidia-fabricmanager-580
# 下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
# 如果有模组环境下活动 (Active) 属性哪里会显示活动已激活状态,没有模组的话会显示失败。
systemctl status nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service
# 如果安装时有提示缺少安装依赖的话,可以 nvidia 官网下载相关包安装既可。
dpkg -i <文件名称>.deb
# 安装完成后再次查看状态,状态正常就说明没有问题了
安装完后就可以测试 gpu-burn 压测了,有问题时尝试重新安装 nvidia-fabricmanager.service 服务。
# 执行文件即可,-t 表示多多线程,-c 表示测试算力,最后压测时间单位为 s/秒。
./gpu-burn -tc 3600
安装 nvidia-imex 服务 官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/ nvidia-imex 服务是用于 NVLink Multi-Node CUDA 作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话 Fieldiag 测试可能会出错。
# 下载导入后 dpkg 安装即可
dpkg -i nvidia-imex_580.65.06-1_amd64.deb
安装 FLD
# 解压既可,不同版本看后缀格式解压
unzip 629-26287-0001-FLD-42704.zip
tar -zxvf 629-26287-0102-FLD-43576.tar.gz
# 进入目录赋予全部文件执行权限即可,FLD 属于脚本文件免安装文件,不需要安装编译。
chmod +x ./*
安装 DCGM
# 直接 dpkg 安装即可
dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb
dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb
# 直接测试使用即可,如果安装成功会显示没有测试实体
dcgmi diag -r 4
| 子命令 | 参数 / 用法 | 作用说明 |
|---|---|---|
dcgmi health | -i <GPU 编号>:指定 GPU-s:检查并输出健康状态(PASS/FAIL)-v:详细健康报告(含故障码) | 检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。 |
dcgmi diag | -i <GPU 编号>:指定 GPU-r:运行完整诊断(含压力测试)-f <文件>:输出诊断报告到文件 | 执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。 |
dcgmi errors | -i <GPU 编号>:指定 GPU-c:清空错误日志-l:列出所有错误日志(含时间 / 类型) | 查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。 |
安装 openmpi 官方下载地址:https://www.open-mpi.org/software/ompi/v3.1/ openmpi-4.1.8 的包可能与 nccl 相关联,直接下载解压执行安装文件即可。
# 解压进入目录
tar -zxvf openmpi-4.1.8.tar.gz
cd openmpi-4.1.8/
# 执行文件自带安装文件即可(若无执行权限,赋予权限既可)
./configure
安装 nccl
# dpkg 安装 deb 格式文件
dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb
dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb
# unzip 解压 zip 格式文件并编译
unzip nccl-tests-master.zip
cd nccl-tests-master/
&& make

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML 转 Markdown在线工具,online