vLLM Windows 安装笔记
vLLM 是一个高吞吐量的 LLM 推理和服务引擎,SystemPanic/vllm-windows 仓库提供了 Windows 支持。安装方式主要有两种:预编译 wheel 直接装,或者从源码编译。前者省事,后者折腾。
用预编译 wheel 安装(省事之选)
发布页面:v0.11.0 · SystemPanic/vllm-windows
比如这个文件 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl,下下来直接 pip install 就完。不过有几处小坑得提前说。
先看版本兼容性:你的 Python、PyTorch、CUDA 版本要和 wheel 包的标注一致。实测下来,torch 和 CUDA 版本稍微高一点也不会挂,但 pip 安装时它会拖下来一大堆依赖,容易把环境里已有的库冲突掉——triton_windows、xformers 这几个尤其容易中招。如果后面跑起来发现报奇怪的错,多半是这里没处理好。
下载 wheel 之后,用 pip 安装:
pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
记得把路径和文件名换成你实际下载的。
从源码编译(折腾之路)
如果你有定制需求,或者想用最新的代码,那就只能自己动手编译了。
准备工具
- Visual Studio 2019 或更高版本(编译环境必须要)
- CUDA,并且环境变量
CUDA_ROOT、CUDA_HOME或CUDA_PATH配好,让系统能找到 CUDA 的安装位置
编译步骤
先装 PyTorch,版本得和你本机的 CUDA 对上。以 CUDA 12.6 为例:
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126
如果你环境里已经有兼容的 PyTorch,可以跳过这步,运行 use_existing_torch.py 复用现有环境。
接着安装构建依赖:
pip install -r requirements/build.txt
pip install -r requirements/windows.txt
然后构建并安装 vLLM:
pip install . --no-build-isolation
编译前最好设置这几个环境变量,避免一些奇怪的问题:
set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10
MAX_JOBS 是并行编译的线程数,按自己 CPU 核心数调,别设太大把机器卡死。
如果需要 cuDNN 或 cuSPARSELt,把它们路径也配上:
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib


