Kubernetes 调度 RTX 4090D 节点部署 PyTorch 2.8 运行 AIGC 任务
环境准备与快速部署
在动手之前,确保你手头有这三样东西:一个正在运行的 Kubernetes 集群、至少一台挂载了 RTX 4090D 显卡的工作节点,以及配置好并可以访问集群的 kubectl 工具。
节点标签设置
为了让调度器能精准找到带卡的节点,得先给它们打上特定标签。假设你的节点名称是 <node-name>,执行下面这条命令:
kubectl label nodes <node-name> gpu-type=rtx4090d
创建 GPU 资源声明
接下来定义一个 Pod 配置文件 gpu-resources.yaml。这里的关键是限制 NVIDIA GPU 数量,并通过 nodeSelector 指定刚才打好的标签。
apiVersion: v1
kind: Pod
metadata:
name: pytorch-28-gpu-pod
spec:
containers:
- name: pytorch-container
image: <your-pytorch-2.8-image>
resources:
limits:
nvidia.com/gpu: 1
nodeSelector:
gpu-type: rtx4090d
镜像部署与验证
拉取并运行镜像
保存好上面的 YAML 文件后,直接应用它:
kubectl apply -f gpu-resources.yaml
验证 GPU 可用性
Pod 启动后,别急着跑业务代码,先进去确认一下 CUDA 和显卡是否被识别。进入容器执行以下测试:
kubectl exec -it pytorch-28-gpu-pod -- bash python -c "import torch; print('PyTorch:', torch.__version__); print('CUDA available:', torch.cuda.is_available()); print('GPU count:', torch.cuda.device_count())"
如果输出显示 CUDA 可用且设备计数为 1,说明环境没问题。
工作目录与数据管理
目录结构说明
为了规范开发流程,建议镜像内预置以下目录结构:

