在 Windows 上安装 Python-vLLM

vLLM 是一个用于 LLM 的高吞吐量和内存效率推理和服务引擎。在 Windows 上安装 vLLM 有两种方式，分别是通过已发布的 wheel 包安装和从源码构建安装。

一、通过现有发布的 wheel 包安装（推荐）

示例包名：vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

步骤

确认版本兼容性 确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致（版本信息会在发布版本中注明）。
下载 wheel 包 从最新发布页面下载作者提供的版本。注意：torch 和 CUDA 版本高于发布版也能安装成功，但安装过程中会大量拉取依赖，可能导致部分依赖（如 triton_windows、xformers 等）与环境中其他库冲突，后期可能需要手动修复。

安装 wheel 包 打开命令行，使用 pip 安装下载的 wheel 文件：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

（注意替换为实际下载的 wheel 文件路径和文件名）

二、从源码构建安装（不推荐）

前置要求

安装 Visual Studio 2019 或更高版本（需用于编译环境）。
安装 CUDA 并配置环境变量（如 CUDA_ROOT、CUDA_HOME 或 CUDA_PATH，确保系统能识别 CUDA 路径）。

步骤

安装依赖并构建

# 安装指定版本的 PyTorch（以 CUDA 12.6 为例，需与你的 CUDA 版本匹配）
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

# 若已安装兼容的 PyTorch，可运行以下脚本复用现有环境
python use_existing_torch.py

# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt

# 构建并安装 vLLM
pip install . --no-build-isolation

设置环境变量

必要的环境变量配置：

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

（可选）如需启用 cuDNN、cuSPARSELt 等功能，需额外设置对应路径：

# 启用 cuDNN（替换为实际安装路径）
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION

# 启用 cuSPARSELt（替换为实际安装路径）
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib

配置 Visual Studio 编译环境

运行 Visual Studio 的以初始化 x64 编译环境（替换为你的 VS 安装路径）：

在 Windows 上安装 Python-vLLM

在 Windows 上安装 Python-vLLM

一、通过现有发布的 wheel 包安装（推荐）

步骤

二、从源码构建安装（不推荐）

前置要求

步骤

安装依赖并构建

设置环境变量

配置 Visual Studio 编译环境

更多推荐文章

相关免费在线工具

打开命令行并克隆仓库

注意事项

更多推荐文章

相关免费在线工具

在 Windows 上安装 Python-vLLM

在 Windows 上安装 Python-vLLM

一、通过现有发布的 wheel 包安装（推荐）

步骤

二、从源码构建安装（不推荐）

前置要求

步骤

安装依赖并构建

设置环境变量

配置 Visual Studio 编译环境

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

打开命令行并克隆仓库

注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具