跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Shell / BashAI

Ubuntu 24.04 GPU 服务器测试系统盘制作指南

在 Ubuntu 24.04 服务器上制作 GPU 测试系统盘的方法。内容包括系统盘制作、Root 远程登录配置、网络设置、基础工具安装、NVIDIA 驱动及 CUDA 环境部署,以及 gpu-burn、Fieldiag、DCGM、NCCL 等测试工具的编译与使用。旨在为高性能 AI 服务器提供完整的硬件与软件验证方案。

数字游民发布于 2026/3/30更新于 2026/5/2228 浏览
Ubuntu 24.04 GPU 服务器测试系统盘制作指南

制作系统盘

使用启动盘工具写入 Ubuntu 24.04.2 版本的 ISO 镜像。

基本配置与下载

配置允许 root 用户远程登录

Ubuntu 系统默认禁止 root 用户通过 SSH 远程登录。如需开启,请按以下步骤操作:

设置 root 密码
# 调用 root 权限修改 root 密码
sudo passwd root
# 若有提示密码需要满足 8 个字符不用理会,root 可以强制修改
# 切换用户尝试密码
sudo su - root
修改 ssh 配置文件
# 编辑 ssh 配置文件
vim /etc/ssh/sshd_config
# 取消注释并修改以下内容
Port 22
...
PermitRootLogin yes
# 重启 ssh 服务
systemctl restart ssh

测试网络连通性

配置网络 IP

查看网卡名称和 IP,若没有 IP 请如下配置:

# 查看网卡名称
ip addr
# 启用网卡并分配 IP
ip link set <网卡名称> up
dhcpcd <网卡名称>
配置 DNS 解析

本文章是通过本机 1.1 转发的 DNS,所以没有配置 DNS 解析地址,若有需要请参考以下配置:

# 查看当前 DNS 配置
resolvectl status
# 尝试解析网址
nslookup baidu.com
# 配置 DNS 文件
# 取消注释并添加解析地址
DNS=8.8.8.8 114.114.114 202.96.134.133

安装基本工具

# 更新并下载工具包
apt update
# 更新中若有报错,只要不影响下载就不用理会
apt install -y net-tools ipmitool unzip
apt install -y build-essential
# build-essential 中包含部署的主要工具,所以其他部署工具不需要另外下载。
# (含有:gcc, g++, make, libc6-dev, dpkg-dev 等基础编译工具)

系统环境安装

安装 NVIDIA 驱动

官方驱动下载地址:https://www.nvidia.cn/drivers/lookup/ 执行安装即可。

# 下载后导入系统并赋予权限执行即可
chmod +x NVIDIA-Linux-x86_64-580.65.06.run
./NVIDIA-Linux-x86_64-580.65.06.run
# 安装中提示选择默认第一个即可!

安装迈络思驱动

官方下载地址:https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ 解压执行安装即可。

安装 CUDA

官方下载地址:https://developer.nvidia.com/cuda-toolkit-archive 执行安装即可。

# 下载后赋予执行权限,执行即可
chmod +x cuda_13.0.0_580.65.06_linux.run
./cuda_13.0.0_580.65.06_linux.run
# 中途输入 accept,回车和选择 install 继续安装,回车
# 安装完成后配置 CUDA 设置全局配置 (直接输入)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=${CUDA_HOME}/bin:${PATH}
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
# 更新全局变量并查看 CUDA 版本
apt install -y nvidia-cuda-toolkit
cd ~
source ~/.bashrc
nvcc --version

安装 gpu-burn 压测工具

解压编译安装即可。

# 解压压缩文件
unzip gpu-burn-master.zip
# 进入文件目录并编译
cd gpu-burn-master
make
# 编译完成后文件目录内会出现 gpu-burn 的可执行文件

安装 nvidia-fabricmanager 服务

# 直接网络下载即可
apt install -y nvidia-fabricmanager-580
# 下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
# 如果有模组环境下活动 (Active) 属性哪里会显示活动已激活状态,没有模组的话会显示失败。
systemctl status nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service
# 如果安装时有提示缺少安装依赖的话,可以 nvidia 官网下载相关包安装既可。
dpkg -i <文件名称>.deb
# 安装完成后再次查看状态,状态正常就说明没有问题了

安装完后就可以测试 gpu-burn 压测了,有问题时尝试重新安装 nvidia-fabricmanager.service 服务。

# 执行文件即可,-t 表示多多线程,-c 表示测试算力,最后压测时间单位为 s/秒。
./gpu-burn -tc 3600

安装 Fieldiag(FLD)

安装 nvidia-imex 服务 官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/ nvidia-imex 服务是用于 NVLink Multi-Node CUDA 作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话 Fieldiag 测试可能会出错。

# 下载导入后 dpkg 安装即可
dpkg -i nvidia-imex_580.65.06-1_amd64.deb

安装 FLD

# 解压既可,不同版本看后缀格式解压
unzip 629-26287-0001-FLD-42704.zip
tar -zxvf 629-26287-0102-FLD-43576.tar.gz
# 进入目录赋予全部文件执行权限即可,FLD 属于脚本文件免安装文件,不需要安装编译。
chmod +x ./*

安装 DCGM

# 直接 dpkg 安装即可
dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb
dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb
# 直接测试使用即可,如果安装成功会显示没有测试实体
dcgmi diag -r 4
子命令参数 / 用法作用说明
dcgmi health-i <GPU 编号>:指定 GPU
-s:检查并输出健康状态(PASS/FAIL)
-v:详细健康报告(含故障码)
检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。
dcgmi diag-i <GPU 编号>:指定 GPU
-r:运行完整诊断(含压力测试)
-f <文件>:输出诊断报告到文件
执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。
dcgmi errors-i <GPU 编号>:指定 GPU
-c:清空错误日志
-l:列出所有错误日志(含时间 / 类型)
查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。

安装 nccl

安装 openmpi 官方下载地址:https://www.open-mpi.org/software/ompi/v3.1/ openmpi-4.1.8 的包可能与 nccl 相关联,直接下载解压执行安装文件即可。

# 解压进入目录
tar -zxvf openmpi-4.1.8.tar.gz
cd openmpi-4.1.8/
# 执行文件自带安装文件即可(若无执行权限,赋予权限既可)
./configure

安装 nccl

# dpkg 安装 deb 格式文件
dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb
dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb
# unzip 解压 zip 格式文件并编译
unzip nccl-tests-master.zip
cd nccl-tests-master/
&& make

目录

  1. 制作系统盘
  2. 基本配置与下载
  3. 配置允许 root 用户远程登录
  4. 设置 root 密码
  5. 调用 root 权限修改 root 密码
  6. 若有提示密码需要满足 8 个字符不用理会,root 可以强制修改
  7. 切换用户尝试密码
  8. 修改 ssh 配置文件
  9. 编辑 ssh 配置文件
  10. 取消注释并修改以下内容
  11. 重启 ssh 服务
  12. 测试网络连通性
  13. 配置网络 IP
  14. 查看网卡名称
  15. 启用网卡并分配 IP
  16. 配置 DNS 解析
  17. 查看当前 DNS 配置
  18. 尝试解析网址
  19. 配置 DNS 文件
  20. 取消注释并添加解析地址
  21. 安装基本工具
  22. 更新并下载工具包
  23. 更新中若有报错,只要不影响下载就不用理会
  24. build-essential 中包含部署的主要工具,所以其他部署工具不需要另外下载。
  25. (含有:gcc, g++, make, libc6-dev, dpkg-dev 等基础编译工具)
  26. 系统环境安装
  27. 安装 NVIDIA 驱动
  28. 下载后导入系统并赋予权限执行即可
  29. 安装中提示选择默认第一个即可!
  30. 安装迈络思驱动
  31. 安装 CUDA
  32. 下载后赋予执行权限,执行即可
  33. 中途输入 accept,回车和选择 install 继续安装,回车
  34. 安装完成后配置 CUDA 设置全局配置 (直接输入)
  35. 更新全局变量并查看 CUDA 版本
  36. 安装 gpu-burn 压测工具
  37. 解压压缩文件
  38. 进入文件目录并编译
  39. 编译完成后文件目录内会出现 gpu-burn 的可执行文件
  40. 安装 nvidia-fabricmanager 服务
  41. 直接网络下载即可
  42. 下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
  43. 如果有模组环境下活动 (Active) 属性哪里会显示活动已激活状态,没有模组的话会显示失败。
  44. 如果安装时有提示缺少安装依赖的话,可以 nvidia 官网下载相关包安装既可。
  45. 安装完成后再次查看状态,状态正常就说明没有问题了
  46. 执行文件即可,-t 表示多多线程,-c 表示测试算力,最后压测时间单位为 s/秒。
  47. 安装 Fieldiag(FLD)
  48. 下载导入后 dpkg 安装即可
  49. 解压既可,不同版本看后缀格式解压
  50. 进入目录赋予全部文件执行权限即可,FLD 属于脚本文件免安装文件,不需要安装编译。
  51. 直接 dpkg 安装即可
  52. 直接测试使用即可,如果安装成功会显示没有测试实体
  53. 安装 nccl
  54. 解压进入目录
  55. 执行文件自带安装文件即可(若无执行权限,赋予权限既可)
  56. dpkg 安装 deb 格式文件
  57. unzip 解压 zip 格式文件并编译
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • uv 常用命令大全:极速 Python 包管理工具
  • C++ 异常处理机制:异常捕获、自定义与实战应用
  • C++ 异常处理机制:异常捕获、自定义异常与实战应用
  • Python 自适应大邻域搜索(ALNS)算法教程
  • R 语言在 AIGC 时代的数据科学应用与实践
  • 滑动窗口算法:查找字符串中的字母异位词
  • JNI 开发:C++ Debug 正常 Release 返回 NaN 的根因分析
  • Java 并发编程基石:深入理解 synchronized 与 volatile 关键字
  • 微服务负载均衡演进:从 Ribbon 到 Service Mesh
  • Spring Boot 日志全方位指南:最佳实践与配置详解
  • 7 款主流 AI 编程工具评测与选型指南
  • C++ 哈希表封装实战:模拟实现 unordered_map 与 unordered_set
  • Java 方法调用绑定:前期绑定与后期绑定详解
  • Python 基础语法完全指南:变量、类型、运算符与字符串处理
  • JWT(JSON Web Token)结构化知识体系
  • LeetCode 234 回文链表:三种解法对比与实现
  • Windows 上 Docker Desktop 安装、汉化及 WSL 更新失败解决方案
  • 快手开源 KwaiAgents 系统:小参数模型实现超越 GPT-3.5 效果
  • Microi 吾码低代码平台核心特性解析:跨数据库与分布式部署
  • 2026 年 3 月 16 日 AI 深度早报:GTC 2026 与行业热点

相关免费在线工具

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online