摘要: 本文旨在帮助开发者和研究人员在 Ubuntu 24.04 LTS (Noble Numbat) 系统上,从零开始成功安装 NVIDIA 显卡驱动、CUDA Toolkit 12.5 以及配置 NVIDIA Container Toolkit,从而使 Docker 容器能够利用 GPU 的强大算力。适用于深度学习、机器学习、高性能计算等领域的用户。
前言
随着 Ubuntu 24.04 LTS 的发布,许多需要进行 GPU 加速计算的开发者都希望能够在这个最新的长期支持版本上搭建自己的开发环境。NVIDIA 显卡驱动是基础,CUDA 是连接硬件和上层计算框架(如 PyTorch, TensorFlow)的桥梁,而 NVIDIA Container Toolkit 则是实现容器化 GPU 应用的关键。
第一步:环境准备与清理
在开始安装之前,强烈建议先将系统中可能存在的旧版本 NVIDIA 驱动彻底卸载,以避免潜在的冲突。
打开终端(快捷键 Ctrl+Alt+T),执行以下命令:
# 更新软件包列表
sudo apt update
# 卸载所有与 nvidia 相关的软件包
sudo apt-get --purge remove '*nvidia*'
sudo apt-get autoremove
sudo apt-get autoclean
执行完毕后,最好重启一下系统,确保所有旧的驱动模块都已被卸载。
sudo reboot
重启后,你可以通过 lspci 命令确认你的 NVIDIA 显卡型号,确保硬件被系统正确识别。
# 查看 PCI 设备列表,并筛选出 NVIDIA 相关的设备
lspci | grep -i nvidia
你会看到类似下面的输出,显示你的显卡型号(例如 NVIDIA Corporation GA102 [GeForce RTX 3090])。
第二步:添加 NVIDIA CUDA 官方软件源
为了确保我们安装的是最新且最匹配的驱动和 CUDA 版本,最佳实践是使用 NVIDIA 官方提供的软件源。
更新软件包列表完成上述步骤后,再次更新你的 apt 软件包列表,以加载新的 CUDA 软件源。
sudo apt-get update
添加 CUDA 软件源
# 下载 CUDA for Ubuntu 24.04 的仓库配置文件
wget https://developer.download.nvidia.com/compute/cuda/12.5.1/local_installers/cuda-repo-ubuntu2404-12-5-local_12.5.1-555.42.06-1_amd64.deb
# 使用 dpkg 安装该仓库配置文件
sudo dpkg -i cuda-repo-ubuntu2404-12-5-local_12.5.1-555.42.06-1_amd64.deb
# 从本地仓库中提取 GPG 密钥并添加到系统的信任列表
sudo cp /var/cuda-repo-ubuntu2404-12-5-local/cuda-*-keyring.gpg /usr/share/keyrings/


