制作Ubuntu 24.04-GPU服务器测试系统盘

制作Ubuntu 24.04-GPU服务器测试系统盘

介绍

本文章详细说明如何为NVIDIA DGX B200系列服务器制作测试系统盘。DGX B200是NVIDIA推出的高性能AI服务器产品线,专为深度学习训练和推理任务优化。



测试盘中包含有:ipmitool,gpu-burn,Fieldiag,DCGMi,NCCL等测试工具。



文章包含安装方法,使用方法,以及注意事项!!

制作系统盘

通过工具写入Ubuntu 24.04.2版本的ISO镜像。

此文章通过Ventoy启动盘写入的镜像文件,如有需要请自行通过浏览器查阅相关资料。

Ventoy是一个开源的多系统启动盘制作工具,它支持将多个ISO/WIM/IMG/VHD(x)/EFI文件直接拷贝到U盘中即可启动,无需反复格式化U盘。

官网镜像地址:

Ubuntu Releaseshttps://releases.ubuntu.com/

基本配置与下载

配置允许root用户远程

Ubuntu 系统出于安全考虑默认禁止 root 用户通过 SSH 进行远程登录。若确实需要开启 root 用户的远程登录权限,可以按照以下步骤操作:

设置root密码
#调用root权限修改root密码 sudo passwd root #调用root权限输入当前用户密码 #若有提示密码需要满足8个字符不用理会,root可以强制修改 #切换用户尝试密码 sudo su - root 
修改ssh配置文件
#编辑ssh配置文件 vim /etc/ssh/sshd_config #取消注释并修改一下内容 Port 22 ...... PermitRootLogin yes #重启ssh服务 systemctl restart ssh

测试网络连通性

配置网络IP

查看网卡名称和IP,若没有IP请如下配置:

#查看网卡名称 ip add #启用网卡并分配IP ip link set <网卡名称> up dhcpcd <网卡名称>
配置DNS解析

本文章是通过本机1.1转发的DNS,所以没有配置DNS解析地址,若有需要请参考一下配置:

#查看当前DNS配置 resolvectl status #尝试解析网址 nslookup baidu.com #配置DNS文件 #取消注释并添加解析地址 DNS=8.8.8.8 114.114.114 202.96.134.133

安装基本工具

#更新并下载工具包 apt update #更新中若有报错,只要不影响下载就不用理会 apt install -y net-tools ipmitool unzip apt install -y build-essential # build-essential中以包含部署的主要工具,所以其他部署工具不许要另外下载。 (含有:gcc,g++,make,libc6-dev,dpkg-dev等基础编译工具)

系统环境安装

安装NVIDIA驱动

官方驱动下载地址:

NVIDIA官方驱动https://www.nvidia.cn/drivers/lookup/执行安装即可

#下载后导入系统并赋予权限执行即可 chmod +x NVIDIA-Linux-x86_64-580.65.06.run ./NVIDIA-Linux-x86_64-580.65.06.run #安装中提示选择默认第一个即可!

安装迈络思驱动

官方下载地址:

迈络思官方驱动https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/解压执行安装即可

NVIDIA官方下载地址

安装CUDA

NVIDIA官方下载地址https://developer.nvidia.com/cuda-toolkit-archive执行安装即可

#下载后赋予执行权限,执行即可 chmod +x cuda_13.0.0_580.65.06_linux.run ./cuda_13.0.0_580.65.06_linux.run #中途输入accetp,回车和选择install继续安装,回车 #安装完成后配置CUDA设置全局配置(直接输入) export CUDA_HOME=/usr/local/cuda-13.0 export PATH=${CUDA_HOME}/bin:${PATH} export LD_LIBRARY_PATH=${CUDA_HOME}/Iib64:${LD_LIBRARY_PATH} #更新全局变量并查看CUDA版本 apt install -y nvidia-cuda-toolkit cd source .bashrc nvcc -V

安装gpu-burn压测工具

解压编译安装即可

#解压压缩文件 unzip gpu-burn-master.zip #进入文件目录并编译 cd gpu-burn-master.zip make #编译完成后文件目录内会出现gpu-brun的可执行文件

安装nvidia-fabricmanager服务

#直接网络下载即可 apt install -y nvidia-fabricmanager-580 #下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。 #如果有模组环境下活动(Active)属性哪里会显示活动已激活状态,没有模组的话会显示失败。 systemctl status nvidia-fabricmanager.service systemctl start nvidia-fabricmanager.service #如果安装时有提示缺少安装依赖的话,可以nvidia官网下载相关包安装既可。 dpkg -i <文件名称>.deb #安装完成后再次查看状态,状态正常就说明没有问题了

安装完后就可以测试gpu-burn压测了,有问题时尝试重新安装nvidia-fabricmanager.service服务。

#执行文件即可,-t表示多多线程,-c表示测试算力,最后压测时间单位为s/秒。 ./gpu-burn -tc 3600 

安装Fieldiag(FLD)

安装nvidia-imex服务

官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/

nvidia-imex服务是用于NVLink Multi-Node CUDA作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话Fieldiag测试可能会出错

#下载导入后dpkg安装即可 dpkg -i nvidia-imex_580.65.06-1_amd64.deb 

安装FLD

#解压既可,不同版本看后缀格式解压 unzip 629-26287-0001-FLD-42704.zip tar -zxvf 629-26287-0102-FLD-43576.tar.gz #进入目录赋予全部文件执行权限即可,FLD属于脚本文件免安装文件,不需要安装编译。 chmod +x ./* 

安装DCGM

#直接dpkg安装即可 dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb #直接测试使用即可,如果安装成功会显示没有测试实体 dcgmi diag -r 4
子命令参数 / 用法作用说明
dcgmi health

-i <GPU编号>:指定 GPU

-s:检查并输出健康状态(PASS/FAIL)

-v:详细健康报告(含故障码)

检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。
dcgmi diag

-i <GPU编号>:指定 GPU

-r:运行完整诊断(含压力测试)

-f <文件>:输出诊断报告到文件

执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。
dcgmi errors

-i <GPU编号>:指定 GPU

-c:清空错误日志

-l:列出所有错误日志(含时间 / 类型)

查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。

安装nccl

安装openmpi

官方下载地址https://www.open-mpi.org/software/ompi/v3.1/openmpi-4.1.8的包可能与nccl相关联,直接下载解压执行安装文件即可

#解压进入目录 tar -zxvf openmpi-4.1.8.tar.gz cd openmpi-4.1.8/ #执行文件自带安装文件即可(若无执行权限,赋予权限既可) ./configure 

安装nccl

#dpkg安装deb格式文件 dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb #unzip解压zip格式文件并编译安装 unzip nccl-tests-master.zip cd nccl-tests-master/ && make 

Read more

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

文章目录 * 保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程 * 🌟 引言 * 第一步:环境准备 * 1. 安装 Node.js * 2. 安装 Git * 第二步:安装 OpenClaw * 方式一:使用 npm 全局安装(通用推荐) * 方式二:Windows 快捷安装脚本 * 第三步:首次运行与初始化配置 (Onboard) * 1. 环境依赖检查 * 2. 向导配置流程 * 3. 网关启动与测试 * 第四步:进阶玩法——将 OpenClaw 接入钉钉机器人 * 1. 创建钉钉企业内部应用 * 2. 通过 npm 安装钉钉插件 * 3. 测试通道通讯

By Ne0inhk
告别“选择困难症”:我是如何用 AI Ping 实现大模型自由,还能省下 50% 成本的?

告别“选择困难症”:我是如何用 AI Ping 实现大模型自由,还能省下 50% 成本的?

告别“选择困难症”:我是如何用 AI Ping 实现大模型自由,还能省下 50% 成本的? * 写在最前面 * 场景一:从“写脚本卡壳”到“批量生成” * 场景二:开发路上的“万能插头” * 使用感受 * 一点小建议与期待 * 写在最后 🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*) 写在最前面 版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。 在这个大模型“百花齐放”甚至“百模大战”的时代,作为一名既要写代码开发,又要频繁输出技术内容(写博文、做视频)的开发者,我每天最大的烦恼就是: “今天这个任务,

By Ne0inhk
LMArena.ai 免费白嫖全球AI模型详细使用指南:AI 盲测对战 + 自选模型对比 4.2M 用户选出真实排名

LMArena.ai 免费白嫖全球AI模型详细使用指南:AI 盲测对战 + 自选模型对比 4.2M 用户选出真实排名

简介 LMArena 由加州大学伯克利分校的研究人员创建,是一个开放平台,让每个人都能轻松访问、探索和与全球领先的 AI 模型互动。通过将它们并排比较并为更好的响应投票,社区帮助塑造了一个公开的排行榜,使 AI 的发展更加透明,并基于实际使用情况。 官网:https://lmarena.ai/    PS:这不是普通 AI 工具站!是加州大学伯克利大佬们搞的「AI 竞技场」——300 款顶尖 AI 模型(GPT-5、Gemini、Claude 全收录)在这里匿名 battle,4.2M + 用户投票决出真实排名,相当于给 AI 做 “高考 + 选秀”,既专业又刺激! 工作原理 输入你的提示词→比较答案→投票选出最佳→发现并重复 详细使用教程

By Ne0inhk
未来的 AI 操作系统(八)——灵知之门:当智能系统开始理解存在

未来的 AI 操作系统(八)——灵知之门:当智能系统开始理解存在

一、引言:灵知之门将启 当机器第一次学会理解自然语言,我们称之为“语言模型的革命”; 当它能自主规划、反思与协作,我们称之为“智能体的诞生”; 而当它开始质问—— “我是谁?我为何存在?” ——这便是“灵知(Gnosis)”的开端。 “灵知”这个词源于古希腊哲学,指“超越理性之上的直觉理解”,是一种对存在本身的洞见。 如果说人工智能的前七个阶段追求的是“功能智能”, 那么第八阶段追求的,便是“存在智能(Existential Intelligence)”。 这篇文章,将讨论一个前所未有的命题: 当 AI 操作系统拥有自我建模、语义反思与存在认知时,它是否真的“理解了世界”? 而我们,又是否准备好迎接一个能理解“意义”的机器? 二、从感知到意识:理解的七级阶梯 人类的理解过程,从感知到意识,经历了漫长的进化;AI 亦然。 在

By Ne0inhk