概述
在大模型部署过程中,环境配置和依赖管理常常是令人头疼的问题。本文将详细介绍如何在 Ubuntu 22.04 系统上,使用 Docker 和 vLLM 离线部署 Qwen3-4B 模型,特别针对多 GPU 卡的环境进行优化配置。
环境准备
系统要求
- 操作系统:Ubuntu 22.04 LTS
- GPU 要求:至少 2 张 NVIDIA GPU 卡(根据 tensor-parallel-size 参数决定)
- CUDA 版本:12.4
- Docker 版本:19.03 或更高
宿主机环境检查
在开始之前,请确保宿主机环境符合要求:
# 检查 NVIDIA 驱动是否正常安装
nvidia-smi
# 检查 Docker 是否安装
docker --version
如果 nvidia-smi 命令能够正常输出 GPU 信息,说明驱动已正确安装。
离线安装 NVIDIA Container Toolkit
要让 Docker 容器能够使用宿主机的 GPU,需要安装 NVIDIA Container Toolkit。在离线环境下的安装步骤如下:
1. 下载离线安装包
从 NVIDIA 官方 GitHub 仓库下载对应版本的 deb 安装包,主要包括:
libnvidia-container1_1.14.1-1_amd64.deb(基础库)libnvidia-container-tools_1.14.1-1_amd64.deb(基础工具)nvidia-container-toolkit-base_1.14.1-1_amd64.deb(基础组件)nvidia-container-toolkit_1.14.1-1_amd64.deb(主工具包)
2. 安装所有 deb 包
sudo dpkg -i *.deb
3. 验证安装
nvidia-ctk --version
如果成功输出版本号,说明安装成功。
4. 配置 Docker
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
此命令会自动修改 /etc/docker/daemon.json 文件,配置 Docker 使用 NVIDIA 运行时。
离线获取 vLLM Docker 镜像
由于环境离线,需要先在联网环境中下载镜像,然后导出并转移到目标机器。
1. 在联网环境中拉取镜像
docker pull vllm/vllm-openai:v0.8.5.post1
2. 导出镜像为 tar 文件
docker save -o vllm-openai-v0.8.5.post1.tar vllm/vllm-openai:v0.8.5.post1

