在 Windows 上安装 Python-vLLM
vLLM 是一个用于 LLM 的高吞吐量和内存效率推理和服务引擎。在 Windows 上安装 vLLM 有两种方式,分别是通过已发布的 wheel 包安装和从源码构建安装。
一、通过现有发布的 wheel 包安装(推荐)
参考发布版本:SystemPanic/vllm-windows
示例包名:vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
步骤
- 确认版本兼容性 确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致(版本信息会在发布版本中注明)。
- 下载 wheel 包 从最新发布页面下载作者提供的版本。注意:torch 和 CUDA 版本高于发布版也能安装成功,但安装过程中会大量拉取依赖,可能导致部分依赖(如 triton_windows、xformers 等)与环境中其他库冲突,后期可能需要手动修复。
安装 wheel 包
打开命令行,使用 pip 安装下载的 wheel 文件:
pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
(注意替换为实际下载的 wheel 文件路径和文件名)
二、从源码构建安装(不推荐)
前置要求
- 安装 Visual Studio 2019 或更高版本(需用于编译环境)。
- 安装 CUDA 并配置环境变量(如
CUDA_ROOT、CUDA_HOME或CUDA_PATH,确保系统能识别 CUDA 路径)。
步骤
安装依赖并构建
# 安装指定版本的 PyTorch(以 CUDA 12.6 为例,需与你的 CUDA 版本匹配)
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126
# 若已安装兼容的 PyTorch,可运行以下脚本复用现有环境
python use_existing_torch.py
# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt
# 构建并安装 vLLM
pip install . --no-build-isolation
设置环境变量
必要的环境变量配置:
set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10
(可选)如需启用 cuDNN、cuSPARSELt 等功能,需额外设置对应路径:
# 启用 cuDNN(替换为实际安装路径)
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION
# 启用 cuSPARSELt(替换为实际安装路径)
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib
配置 Visual Studio 编译环境
运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境(替换为你的 VS 安装路径):


