Ubuntu 24.04 安装 NVIDIA Container Toolkit 配置 Docker GPU 加速
在使用 Docker 运行需要 GPU 加速的 AI 应用时,经常会遇到这样的报错:
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]
这通常是因为缺少 NVIDIA Container Toolkit。它是让容器访问宿主机 GPU 的关键桥梁。下面以 Ubuntu 24.04 (Noble Numbat) 为例,梳理完整的安装与验证流程。
环境准备
首先确认宿主机驱动状态是否正常。执行以下命令查看显卡信息:
nvidia-smi
成功时会显示类似输出,注意右上角的 CUDA 版本是否与预期一致。如果这里看不到显卡信息,说明需要先安装或更新 NVIDIA 官方驱动。
安装 NVIDIA Container Toolkit
添加官方仓库
我们需要先安装依赖并添加 NVIDIA 的 GPG 密钥及软件源。
sudo apt-get update
sudo apt-get install -y curl
接着导入密钥和配置源地址:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -sL https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
执行安装
刷新缓存后安装工具包:
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
配置 Docker 运行时
安装完成后,需要修改 Docker 配置以启用 NVIDIA 插件。
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
这一步会自动生成 daemon.json 配置文件并将 nvidia 设为默认运行时。重启服务后生效。
验证安装结果
通过运行一个测试容器来确认 GPU 是否被正确识别:
docker run --rm --gpus all nvidia/cuda:12.6.0-base-ubuntu24.04 nvidia-smi
如果看到与宿主机一致的 GPU 信息输出,说明配置成功。
实战应用
现在可以运行你的 GPU 容器应用了。例如启动一个支持 GPU 的 FastAPI 服务:
docker run --gpus all -p8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest
后续只需在代码中正常调用 PyTorch 或 TensorFlow 等框架即可自动使用 GPU 资源。

