制作系统盘
使用启动盘工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。
基本配置与下载
配置允许 root 用户远程登录
Ubuntu 系统默认禁止 root 用户通过 SSH 远程登录。如需开启,请按以下步骤操作:
设置 root 密码
# 调用 root 权限修改 root 密码
sudo passwd root
# 若有提示密码需要满足 8 个字符不用理会,root 可以强制修改
# 切换用户尝试密码
sudo su - root
修改 ssh 配置文件
# 编辑 ssh 配置文件
vim /etc/ssh/sshd_config
# 取消注释并修改以下内容
Port 22
...
PermitRootLogin yes
# 重启 ssh 服务
systemctl restart ssh
测试网络连通性
配置网络 IP
查看网卡名称和 IP,若没有 IP 请如下配置:
# 查看网卡名称
ip addr
# 启用网卡并分配 IP
ip link set <网卡名称> up
dhcpcd <网卡名称>
配置 DNS 解析
本文章是通过本机 1.1 转发的 DNS,所以没有配置 DNS 解析地址,若有需要请参考以下配置:
# 查看当前 DNS 配置
resolvectl status
# 尝试解析网址
nslookup baidu.com
# 配置 DNS 文件
# 取消注释并添加解析地址
DNS=8.8.8.8 114.114.114 202.96.134.133
安装基本工具
# 更新并下载工具包
apt update
# 更新中若有报错,只要不影响下载就不用理会
apt install -y net-tools ipmitool unzip
apt install -y build-essential
# build-essential 中包含部署的主要工具,所以其他部署工具不需要另外下载。
# (含有:gcc, g++, make, libc6-dev, dpkg-dev 等基础编译工具)
系统环境安装
安装 NVIDIA 驱动
官方驱动下载地址:https://www.nvidia.cn/drivers/lookup/ 执行安装即可。
# 下载后导入系统并赋予权限执行即可
chmod +x NVIDIA-Linux-x86_64-580.65.06.run
./NVIDIA-Linux-x86_64-580.65.06.run
# 安装中提示选择默认第一个即可!
安装迈络思驱动
官方下载地址:https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ 解压执行安装即可。
安装 CUDA
官方下载地址:https://developer.nvidia.com/cuda-toolkit-archive 执行安装即可。
# 下载后赋予执行权限,执行即可
chmod +x cuda_13.0.0_580.65.06_linux.run
./cuda_13.0.0_580.65.06_linux.run
# 中途输入 accept,回车和选择 install 继续安装,回车
# 安装完成后配置 CUDA 设置全局配置 (直接输入)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=${CUDA_HOME}/bin:${PATH}
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
# 更新全局变量并查看 CUDA 版本
apt install -y nvidia-cuda-toolkit
cd ~
source ~/.bashrc
nvcc --version
安装 gpu-burn 压测工具
解压编译安装即可。
# 解压压缩文件
unzip gpu-burn-master.zip
# 进入文件目录并编译
cd gpu-burn-master
make
# 编译完成后文件目录内会出现 gpu-burn 的可执行文件
安装 nvidia-fabricmanager 服务
# 直接网络下载即可
apt install -y nvidia-fabricmanager-580
# 下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
# 如果有模组环境下活动 (Active) 属性哪里会显示活动已激活状态,没有模组的话会显示失败。
systemctl status nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service
# 如果安装时有提示缺少安装依赖的话,可以 nvidia 官网下载相关包安装既可。
dpkg -i <文件名称>.deb
# 安装完成后再次查看状态,状态正常就说明没有问题了
安装完后就可以测试 gpu-burn 压测了,有问题时尝试重新安装 nvidia-fabricmanager.service 服务。
# 执行文件即可,-t 表示多多线程,-c 表示测试算力,最后压测时间单位为 s/秒。
./gpu-burn -tc 3600
安装 Fieldiag(FLD)
安装 nvidia-imex 服务 官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/ nvidia-imex 服务是用于 NVLink Multi-Node CUDA 作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话 Fieldiag 测试可能会出错。
# 下载导入后 dpkg 安装即可
dpkg -i nvidia-imex_580.65.06-1_amd64.deb
安装 FLD
# 解压既可,不同版本看后缀格式解压
unzip 629-26287-0001-FLD-42704.zip
tar -zxvf 629-26287-0102-FLD-43576.tar.gz
# 进入目录赋予全部文件执行权限即可,FLD 属于脚本文件免安装文件,不需要安装编译。
chmod +x ./*
安装 DCGM
# 直接 dpkg 安装即可
dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb
dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb
# 直接测试使用即可,如果安装成功会显示没有测试实体
dcgmi diag -r 4
| 子命令 | 参数 / 用法 | 作用说明 |
|---|---|---|
dcgmi health | -i <GPU 编号>:指定 GPU-s:检查并输出健康状态(PASS/FAIL)-v:详细健康报告(含故障码) | 检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。 |
dcgmi diag | -i <GPU 编号>:指定 GPU-r:运行完整诊断(含压力测试)-f <文件>:输出诊断报告到文件 | 执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。 |
dcgmi errors | -i <GPU 编号>:指定 GPU-c:清空错误日志-l:列出所有错误日志(含时间 / 类型) | 查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。 |
安装 nccl
安装 openmpi 官方下载地址:https://www.open-mpi.org/software/ompi/v3.1/ openmpi-4.1.8 的包可能与 nccl 相关联,直接下载解压执行安装文件即可。
# 解压进入目录
tar -zxvf openmpi-4.1.8.tar.gz
cd openmpi-4.1.8/
# 执行文件自带安装文件即可(若无执行权限,赋予权限既可)
./configure
安装 nccl
# dpkg 安装 deb 格式文件
dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb
dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb
# unzip 解压 zip 格式文件并编译
unzip nccl-tests-master.zip
cd nccl-tests-master/
&& make


