Windows 环境部署 vLLM 完整教程
vLLM 作为高性能的 LLM 推理引擎,原生主要支持 Linux 环境。得益于 SystemPanic 团队的移植工作,我们也可以在 Windows 上运行它。目前主要有两种安装路径:使用预编译的 wheel 包(推荐)或从源码构建。
一、通过 Wheel 包安装(推荐)
这是最快捷的方式,适合大多数只想跑通流程的用户。项目发布了基于 Python 3.12 和 CUDA 12.4 的 wheel 包。
1. 确认版本兼容性
在动手之前,务必核对你的环境版本是否与发布页面上的要求一致。虽然有时高版本的 PyTorch 和 CUDA 也能兼容,但安装过程中可能会拉取大量依赖,导致 triton_windows、xformers 等库与现有环境冲突,后期修复起来很麻烦。
2. 下载并安装
前往 GitHub 发布页面下载最新的 wheel 文件,例如 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl。
打开命令行工具,切换到下载目录执行:
pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
注意:请将文件名替换为你实际下载的 wheel 包名称。
二、从源码构建安装
如果你需要特定功能或最新版,可以选择源码构建。但这步比较折腾,对开发环境要求较高。
前置准备
- Visual Studio:安装 VS 2019 或更高版本,用于 C++ 编译。
- CUDA:确保已安装 CUDA 并配置好环境变量(如
CUDA_ROOT、CUDA_HOME),系统需能识别路径。
构建步骤
1. 安装依赖
首先指定 PyTorch 版本(以 CUDA 12.6 为例),确保与你的显卡驱动匹配:
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126
如果环境中已有兼容的 PyTorch,可以运行脚本复用:
python use_existing_torch.py
接着安装构建所需的依赖:
pip install -r requirements/build.txt
pip install -r requirements/windows.txt
2. 设置环境变量
构建前必须配置关键变量,否则编译器可能找不到头文件或库。
set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10
MAX_JOBS 控制并行编译线程数,根据 CPU 核心数调整即可。
如果需要启用 cuDNN 或 cuSPARSELt 加速,还需额外设置路径:
:: 启用 cuDNN
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib\x64
set CUDNN_INCLUDE_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
:: 启用 cuSPARSELt
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib


