vLLM 是目前社区里最快、最省显存的大模型推理框架之一。本文提供三种安装路径——零配置的 pip 一行命令、开箱即用的 Docker 镜像、极端场景的 CPU/源码构建。
1. 准备工作(所有方案通用)
| 组件 | 最低要求 | 检查命令 |
|---|---|---|
| 操作系统 | Ubuntu 20.04/22.04/24.04 x86_64 | lsb_release -a |
| NVIDIA 驱动 | ≥ 515 | nvidia-smi |
| CUDA | ≥ 12.1(方案 1/2) | nvcc --version |
| Python | 3.9–3.12 | python3 --version |
⚠️ CPU 方案无需 CUDA。
2. 方案一:pip 一行命令(最简)
适合:有 GPU、想 5 分钟跑起来。
2.1 安装驱动 & CUDA(如已装可跳过)
sudo apt update && sudo apt install -y nvidia-driver-550 cuda-toolkit-12-4 && sudo reboot
2.2 建立隔离环境
官方推荐用 uv(比 conda 更快):
curl -Ls https://astral.sh/uv/install.sh | bash
uv venv vllm-env --python 3.12 --seed
source vllm-env/bin/activate
(老用户可以继续 conda create -n vllm python=3.12。)
2.3 安装 vLLM
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple # 国内镜像
2.4 验证
vllm --help # 出现子命令列表即成功
3. 方案二:Docker 一行命令(零 Python 依赖)
适合:不想污染宿主机 Python、CI/CD、K8s 场景。
3.1 安装 nvidia-docker
sudo apt install -y docker.io
distribution=$(. /etc/os-release; echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/nvidia-docker/gpgkey | gpg --dearmor -o /usr/share/keyrings/nvidia-docker-keyring.gpg
curl -s -L https://nvidia.github.io/nvidia-docker//nvidia-docker.list | sed | /etc/apt/sources.list.d/nvidia-docker.list
apt update && apt install -y nvidia-docker2
systemctl restart docker

