Windows 系统下 vLLM 安装与配置实战
vLLM 作为一个高吞吐量和内存效率的推理引擎,主要支持 Linux 环境。但在 Windows 上,通过社区维护的特定分支(如 SystemPanic/vllm-windows),我们也能实现部署。目前主要有两种路径:使用预编译的 wheel 包或从源码构建。
一、通过现有发布的 wheel 包安装(推荐)
这种方式最简单,适合大多数只想跑通流程的用户。我们需要关注的是版本兼容性。
1. 确认版本兼容性
vLLM 对 Python、PyTorch 和 CUDA 的版本非常敏感。务必核对发布页面中的要求,确保本地环境与 wheel 包匹配。
2. 下载并安装
前往 GitHub 发布页获取最新的 wheel 文件。注意,虽然有时更高版本的 torch 和 CUDA 也能安装成功,但 pip 可能会拉取大量依赖,导致 triton_windows、xformers 等库与环境冲突,后期可能需要手动修复。
假设你下载了 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl,在命令行中执行:
pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
记得替换为实际的文件路径和文件名。

二、从源码构建安装(不推荐)
如果你需要定制功能,或者 wheel 包无法满足需求,可以尝试源码构建。这步比较折腾,请确保你有足够的耐心。
前置要求
- Visual Studio:安装 VS 2019 或更高版本,用于编译环境。
- CUDA:安装 CUDA 并配置好环境变量(如
CUDA_ROOT、CUDA_HOME),确保系统能识别路径。
构建步骤
1. 安装依赖并构建
首先安装指定版本的 PyTorch,需与你的 CUDA 版本严格匹配。例如 CUDA 12.6 对应如下命令:
# 安装指定版本的 PyTorch
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126
# 若已安装兼容的 PyTorch,可复用现有环境
python use_existing_torch.py
# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt
# 构建并安装 vLLM
pip install . --no-build-isolation
2. 设置环境变量
编译前必须配置好关键变量,否则可能找不到编译器或设备。
set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10
MAX_JOBS 控制并行编译的 CPU 线程数,根据机器性能调整即可。



