Windows 上安装 vLLM 的两种方式

vLLM Windows 安装笔记

vLLM 是一个高吞吐量的 LLM 推理和服务引擎，SystemPanic/vllm-windows 仓库提供了 Windows 支持。安装方式主要有两种：预编译 wheel 直接装，或者从源码编译。前者省事，后者折腾。

用预编译 wheel 安装（省事之选）

比如这个文件 vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl，下下来直接 pip install 就完。不过有几处小坑得提前说。

先看版本兼容性：你的 Python、PyTorch、CUDA 版本要和 wheel 包的标注一致。实测下来，torch 和 CUDA 版本稍微高一点也不会挂，但 pip 安装时它会拖下来一大堆依赖，容易把环境里已有的库冲突掉——triton_windows、xformers 这几个尤其容易中招。如果后面跑起来发现报奇怪的错，多半是这里没处理好。

下载 wheel 之后，用 pip 安装：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

记得把路径和文件名换成你实际下载的。

从源码编译（折腾之路）

如果你有定制需求，或者想用最新的代码，那就只能自己动手编译了。

准备工具

Visual Studio 2019 或更高版本（编译环境必须要）
CUDA，并且环境变量 CUDA_ROOT、CUDA_HOME 或 CUDA_PATH 配好，让系统能找到 CUDA 的安装位置

编译步骤

先装 PyTorch，版本得和你本机的 CUDA 对上。以 CUDA 12.6 为例：

pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

如果你环境里已经有兼容的 PyTorch，可以跳过这步，运行 use_existing_torch.py 复用现有环境。

接着安装构建依赖：

pip install -r requirements/build.txt
pip install -r requirements/windows.txt

然后构建并安装 vLLM：

pip install . --no-build-isolation

编译前最好设置这几个环境变量，避免一些奇怪的问题：

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

MAX_JOBS 是并行编译的线程数，按自己 CPU 核心数调，别设太大把机器卡死。

如果需要 cuDNN 或 cuSPARSELt，把它们路径也配上：

set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION

set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib

Windows 上安装 vLLM 的两种方式

vLLM Windows 安装笔记

用预编译 wheel 安装（省事之选）

从源码编译（折腾之路）

准备工具

编译步骤

更多推荐文章

相关免费在线工具

注意事项

更多推荐文章

相关免费在线工具

Windows 上安装 vLLM 的两种方式

vLLM Windows 安装笔记

用预编译 wheel 安装（省事之选）

从源码编译（折腾之路）

准备工具

编译步骤

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具