在 Windows 上安装 Python-vLLM
在 Windows 系统上安装 vLLM 引擎的两种方法。推荐使用已发布的 wheel 包,需确认 Python、PyTorch 及 CUDA 版本兼容性并下载对应文件进行 pip 安装。若从源码构建,需安装 Visual Studio 2019+ 及 CUDA 环境,配置相关变量后执行编译脚本。构建时 Flash Attention v3 默认禁用,可设置环境变量强制启用。安装过程中需注意依赖冲突问题,必要时手动修复。

在 Windows 系统上安装 vLLM 引擎的两种方法。推荐使用已发布的 wheel 包,需确认 Python、PyTorch 及 CUDA 版本兼容性并下载对应文件进行 pip 安装。若从源码构建,需安装 Visual Studio 2019+ 及 CUDA 环境,配置相关变量后执行编译脚本。构建时 Flash Attention v3 默认禁用,可设置环境变量强制启用。安装过程中需注意依赖冲突问题,必要时手动修复。

vLLM 是一个用于大语言模型(LLM)的高吞吐量、内存效率推理和服务引擎。其 Windows 构建版本可在 GitHub 仓库 SystemPanic/vllm-windows 获取。
在 Windows 上安装 vLLM 有两种方式,分别是通过已发布的 wheel 包安装和从源码构建安装。
参考发布页面:发布 v0.11.0 · SystemPanic/vllm-windows
示例文件:vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致(版本信息会在发布版本中注明)。
从最新发布页面下载作者提供的版本。经测试,torch 和 CUDA 版本高于发布版也能安装成功,但安装过程中会大量拉取其他依赖,可能会导致部分依赖被安装成与环境中其他库相冲突的版本(如 triton_windows、xformers 等),后期可能需要手动修复冲突。
打开命令行,使用 pip 安装下载的 wheel 文件:
pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
注意替换为实际下载的 wheel 文件路径和文件名。
CUDA_ROOT、CUDA_HOME 或 CUDA_PATH,确保系统能识别 CUDA 路径)。# 安装指定版本的 PyTorch(以 CUDA 12.6 为例,需与你的 CUDA 版本匹配)
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126
# 若已安装兼容的 PyTorch,可运行以下脚本复用现有环境
python use_existing_torch.py
# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt
# 构建并安装 vLLM
pip install . --no-build-isolation
必要的环境变量配置:
set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10
并行编译的 CPU 线程数可根据实际情况调整。
如需启用 cuDNN、cuSPARSELt 等功能,需额外设置对应路径:
# 启用 cuDNN(替换为实际安装路径)
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION
# 启用 cuSPARSELt(替换为实际安装路径)
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib
运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境(替换为你的 VS 安装路径):
VISUAL_STUDIO_INSTALL_PATH\VC\Auxiliary\Build\vcvarsall.bat x64
# 克隆 vllm-windows 仓库(指定分支)
git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git
cd vllm-windows
set VLLM_FORCE_FA3_WINDOWS_BUILD=1。PATH_TO_CUDNN_INSTALL_DIR)替换为实际安装路径。
微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online