Windows 环境部署 vLLM 完整教程

vLLM 作为高性能的 LLM 推理引擎，原生主要支持 Linux 环境。得益于 SystemPanic 团队的移植工作，我们也可以在 Windows 上运行它。目前主要有两种安装路径：使用预编译的 wheel 包（推荐）或从源码构建。

一、通过 Wheel 包安装（推荐）

这是最快捷的方式，适合大多数只想跑通流程的用户。项目发布了基于 Python 3.12 和 CUDA 12.4 的 wheel 包。

1. 确认版本兼容性

在动手之前，务必核对你的环境版本是否与发布页面上的要求一致。虽然有时高版本的 PyTorch 和 CUDA 也能兼容，但安装过程中可能会拉取大量依赖，导致 triton_windows、xformers 等库与现有环境冲突，后期修复起来很麻烦。

2. 下载并安装

前往 GitHub 发布页面下载最新的 wheel 文件，例如 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl。

打开命令行工具，切换到下载目录执行：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

注意：请将文件名替换为你实际下载的 wheel 包名称。

二、从源码构建安装

如果你需要特定功能或最新版，可以选择源码构建。但这步比较折腾，对开发环境要求较高。

前置准备

Visual Studio：安装 VS 2019 或更高版本，用于 C++ 编译。
CUDA：确保已安装 CUDA 并配置好环境变量（如 CUDA_ROOT、CUDA_HOME），系统需能识别路径。

构建步骤

1. 安装依赖

首先指定 PyTorch 版本（以 CUDA 12.6 为例），确保与你的显卡驱动匹配：

pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

如果环境中已有兼容的 PyTorch，可以运行脚本复用：

python use_existing_torch.py

接着安装构建所需的依赖：

pip install -r requirements/build.txt
pip install -r requirements/windows.txt

2. 设置环境变量

构建前必须配置关键变量，否则编译器可能找不到头文件或库。

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

MAX_JOBS 控制并行编译线程数，根据 CPU 核心数调整即可。

如果需要启用 cuDNN 或 cuSPARSELt 加速，还需额外设置路径：

:: 启用 cuDNN
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib\x64
set CUDNN_INCLUDE_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include

:: 启用 cuSPARSELt
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib

Windows 环境部署 vLLM 完整教程