Windows 系统下 vLLM 安装与配置实战

vLLM 作为一个高吞吐量和内存效率的推理引擎，主要支持 Linux 环境。但在 Windows 上，通过社区维护的特定分支（如 SystemPanic/vllm-windows），我们也能实现部署。目前主要有两种路径：使用预编译的 wheel 包或从源码构建。

一、通过现有发布的 wheel 包安装（推荐）

这种方式最简单，适合大多数只想跑通流程的用户。我们需要关注的是版本兼容性。

1. 确认版本兼容性

vLLM 对 Python、PyTorch 和 CUDA 的版本非常敏感。务必核对发布页面中的要求，确保本地环境与 wheel 包匹配。

2. 下载并安装

前往 GitHub 发布页获取最新的 wheel 文件。注意，虽然有时更高版本的 torch 和 CUDA 也能安装成功，但 pip 可能会拉取大量依赖，导致 triton_windows、xformers 等库与环境冲突，后期可能需要手动修复。

假设你下载了 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl，在命令行中执行：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

记得替换为实际的文件路径和文件名。

安装过程截图

二、从源码构建安装（不推荐）

如果你需要定制功能，或者 wheel 包无法满足需求，可以尝试源码构建。这步比较折腾，请确保你有足够的耐心。

前置要求

Visual Studio：安装 VS 2019 或更高版本，用于编译环境。
CUDA：安装 CUDA 并配置好环境变量（如 CUDA_ROOT、CUDA_HOME），确保系统能识别路径。

构建步骤

1. 安装依赖并构建

首先安装指定版本的 PyTorch，需与你的 CUDA 版本严格匹配。例如 CUDA 12.6 对应如下命令：

# 安装指定版本的 PyTorch
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

# 若已安装兼容的 PyTorch，可复用现有环境
python use_existing_torch.py

# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt

# 构建并安装 vLLM
pip install . --no-build-isolation

2. 设置环境变量

编译前必须配置好关键变量，否则可能找不到编译器或设备。

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

MAX_JOBS 控制并行编译的 CPU 线程数，根据机器性能调整即可。

Windows 系统下 vLLM 安装与配置实战