GitHub Actions 集成 PyTorch-CUDA-v2.6 镜像实现 CI/CD 自动化

在现代 AI 工程实践中，一个令人头疼的问题始终存在：为什么代码在本地跑得好好的，一到 CI 环境就报错？更别提那些依赖 CUDA 的深度学习项目——'PyTorch 安装失败'、'cuDNN 不兼容'、'GPU 无法识别'……这类问题不仅拖慢迭代节奏，还让新成员望而却步。

尤其当团队开始尝试将模型训练、推理测试纳入自动化流程时，传统手工配置环境的方式彻底暴露短板。你是否也经历过这样的场景：为了验证一次小改动，手动登录服务器、激活虚拟环境、检查驱动版本、重启 Docker 容器？这一套操作下来，半小时没了。

真正的解决方案不是靠'经验'，而是靠标准化和自动化。如果我们能像部署 Web 应用一样，把整个 GPU 计算环境打包成一个可复用的镜像，并通过代码提交自动触发端到端验证，会怎样？

这正是本文要展示的实践路径：利用 GitHub Actions + 自托管 GPU Runner + 预构建 PyTorch-CUDA 容器镜像，打造一条真正可用的深度学习 CI/CD 流水线。

我们选择 pytorch-cuda:v2.6 这个镜像并非偶然。它是为数不多真正做到了'开箱即用'的深度学习基础环境之一。它不仅仅是一个安装了 PyTorch 的 Docker 镜像，而是一整套经过严格对齐的软硬件栈：

基于 Ubuntu 20.04 LTS 构建，系统稳定；
内置 PyTorch 2.6（官方编译版），支持最新的 FSDP 和 torch.compile 特性；
搭载 CUDA 11.8 或 12.1（根据发布渠道不同），与 NVIDIA A100/H100 显卡完全兼容；
预装 cuDNN、NCCL、TensorRT 等关键加速库；
支持多卡并行训练，无需额外配置；
同时开放 Jupyter Notebook 和 SSH 访问入口，兼顾交互式调试与自动化执行。

这意味着什么？意味着你在本地写的每一行 .to('cuda')，都可以在 CI 环境中得到真实验证，而不是靠 mock.cuda.is_available() 来假装运行成功。

更重要的是，这套方案把'能否运行'这个不确定性因素，从人力经验转移到了代码层面。只要你的 workflow 能通过，那就说明：环境没问题、依赖没问题、GPU 可用性也没问题。

如何让 GitHub Actions '看见' GPU？

很多人误以为 GitHub Actions 不支持 GPU，于是直接放弃。其实准确地说，是 GitHub 托管的 runner（github-hosted runners）不提供 GPU 资源。但这并不等于这条路走不通。

破局的关键在于：自托管 runner（self-hosted runner）。

你可以把自己的 GPU 服务器注册为 GitHub Actions 的执行节点。一旦配置完成，它就会像普通 CI agent 一样接收任务，唯一的区别是——它背后连着一块甚至多块实实在在的 NVIDIA 显卡。

举个例子，假设你有一台装有 A10G 的云主机，操作系统是 Ubuntu 22.04，已经安装好 NVIDIA 驱动和 Docker。接下来只需要几步：

cd /opt/actions-runner
curl -o actions-runner-linux-x64.tar.gz -L https://github.com/actions/runner/releases/latest/download/actions-runner-linux-x64.tar.gz
tar xzf actions-runner-linux-x64.tar.gz
# 注册 runner，需要从 GitHub 仓库 Settings > Actions > Runners 获取 token
./config.sh \
  --url https://github.com/your-org/your-repo \
  --token YOUR_TEMPORARY_TOKEN \
  --name gpu-runner-a10g-01 \
  --labels gpu,cuda,pytorch26

注意这里的 --labels 参数。我们打上了 gpu, cuda, pytorch26 三个标签，目的就是为了在 workflow 中精准匹配这台机器。

接着安装为系统服务：

sudo ./svc.sh install
sudo ./svc.sh start

完成后，回到 GitHub 仓库页面，你会看到一个新的 runner 在线等待任务。

GitHub Actions 集成 PyTorch-CUDA-v2.6 镜像实现 CI/CD 自动化