Ubuntu 22.04 离线部署 Qwen3-4B 模型：vLLM 与 Docker 多卡配置指南 | 极客日志

Shell / BashAI

Ubuntu 22.04 离线部署 Qwen3-4B 模型：vLLM 与 Docker 多卡配置指南

综述由AI生成在 Ubuntu 22.04 系统上使用 Docker 和 vLLM 离线部署 Qwen3-4B 模型的方法。内容涵盖环境准备、NVIDIA Container Toolkit 安装、镜像导入、多卡部署命令详解及参数解析，并提供了服务验证与常见问题排查指南，适用于多 GPU 环境的模型推理服务搭建。

ByteFlow发布于 2026/3/23更新于 2026/5/236.6K 浏览

概述

在大模型部署过程中，环境配置和依赖管理常常是令人头疼的问题。本文将详细介绍如何在 Ubuntu 22.04 系统上，使用 Docker 和 vLLM 离线部署 Qwen3-4B 模型，特别针对多 GPU 卡的环境进行优化配置。

环境准备

系统要求

操作系统：Ubuntu 22.04 LTS
GPU 要求：至少 2 张 NVIDIA GPU 卡（根据 tensor-parallel-size 参数决定）
CUDA 版本：12.4
Docker 版本：19.03 或更高

宿主机环境检查

在开始之前，请确保宿主机环境符合要求：

# 检查 NVIDIA 驱动是否正常安装
nvidia-smi
# 检查 Docker 是否安装
docker --version

如果 nvidia-smi 命令能够正常输出 GPU 信息，说明驱动已正确安装。

离线安装 NVIDIA Container Toolkit

要让 Docker 容器能够使用宿主机的 GPU，需要安装 NVIDIA Container Toolkit。在离线环境下的安装步骤如下：

1. 下载离线安装包

从 NVIDIA 官方 GitHub 仓库下载对应版本的 deb 安装包，主要包括：

libnvidia-container1_1.14.1-1_amd64.deb（基础库）
libnvidia-container-tools_1.14.1-1_amd64.deb（基础工具）
nvidia-container-toolkit-base_1.14.1-1_amd64.deb（基础组件）
nvidia-container-toolkit_1.14.1-1_amd64.deb（主工具包）

2. 安装所有 deb 包

sudo dpkg -i *.deb

3. 验证安装

nvidia-ctk --version

如果成功输出版本号，说明安装成功。

4. 配置 Docker

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

此命令会自动修改 /etc/docker/daemon.json 文件，配置 Docker 使用 NVIDIA 运行时。

离线获取 vLLM Docker 镜像

由于环境离线，需要先在联网环境中下载镜像，然后导出并转移到目标机器。

1. 在联网环境中拉取镜像

docker pull vllm/vllm-openai:v0.8.5.post1

2. 导出镜像为 tar 文件

docker save -o vllm-openai-v0.8.5.post1.tar vllm/vllm-openai:v0.8.5.post1

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

docker load -i vllm-openai-v0.8.5.post1.tar

vllm_docker/
└── models/
    └── Qwen3-4B-Thinking-2507/
        ├── config.json
        ├── model.safetensors
        └── ...（其他模型文件）

docker run -itd \
  -e NCCL_DEBUG=INFO \
  -e NCCL_IB_DISABLE=1 \
  -e NCCL_SHM_DISABLE=0 \
  -e OMP_NUM_THREADS=1 \
  -e CUDA_VISIBLE_DEVICES=1,2 \
  -e CUDA_DEVICE_ORDER=PCI_BUS_ID \
  --gpus all \
  -p 9996:8000 \
  --shm-size 32g \
  -v ./models:/models \
  vllm/vllm-openai:v0.8.5.post1 \
  --model /models/Qwen3-4B-Thinking-2507 \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 120000 \
  --served-model-name qwen3-4b-thinking-2507

环境变量	值	作用
`NCCL_DEBUG`	`INFO`	启用 NCCL 调试信息输出
`NCCL_IB_DISABLE`	`1`	禁用 InfiniBand，避免在没有 IB 的环境中报错
`CUDA_VISIBLE_DEVICES`	`1,2`	指定使用第 1 和第 2 号 GPU 卡
`OMP_NUM_THREADS`	`1`	控制 OpenMP 线程数，避免资源冲突

docker logs <container_id>

# 检查模型列表
curl http://localhost:9996/v1/models
# 测试聊天接口
curl http://localhost:9996/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "qwen3-4b-thinking-2507", "messages": [ {"role": "user", "content": "请介绍一下你自己" } ], "max_tokens": 100, "temperature": 0.7 }'

Ubuntu 22.04 离线部署 Qwen3-4B 模型：vLLM 与 Docker 多卡配置指南

概述

环境准备

系统要求

宿主机环境检查

离线安装 NVIDIA Container Toolkit

1. 下载离线安装包

2. 安装所有 deb 包

3. 验证安装

4. 配置 Docker

离线获取 vLLM Docker 镜像

1. 在联网环境中拉取镜像

2. 导出镜像为 tar 文件

更多推荐文章

相关免费在线工具

3. 在目标机器上导入镜像

模型准备

多卡部署命令详解

参数解析

Docker 运行参数

环境变量配置

vLLM 服务参数

张量并行配置注意事项

服务验证与测试

1. 检查容器日志

2. 测试 API 接口

常见问题排查

1. GPU 无法识别

2. 显存不足

3. 模型加载失败

性能优化建议

更多推荐文章

相关免费在线工具

Ubuntu 22.04 离线部署 Qwen3-4B 模型：vLLM 与 Docker 多卡配置指南

概述

环境准备

系统要求

宿主机环境检查

离线安装 NVIDIA Container Toolkit

1. 下载离线安装包

2. 安装所有 deb 包

3. 验证安装

4. 配置 Docker

离线获取 vLLM Docker 镜像

1. 在联网环境中拉取镜像

2. 导出镜像为 tar 文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 在目标机器上导入镜像

模型准备

多卡部署命令详解

参数解析

Docker 运行参数

环境变量配置

vLLM 服务参数

张量并行配置注意事项

服务验证与测试

1. 检查容器日志

2. 测试 API 接口

常见问题排查

1. GPU 无法识别

2. 显存不足

3. 模型加载失败

性能优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具