跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Windows 环境下 vLLM 安装与构建指南

综述由AI生成Windows 环境下 vLLM 部署支持两种主流方案:使用预编译 wheel 包或从源码构建。前者适合快速上手,需关注版本兼容性与依赖冲突;后者灵活性高但需配置 Visual Studio 及 CUDA 环境。本文详细梳理了安装步骤、环境变量设置及常见问题处理,助你在本地完成推理服务搭建。

Qiny01发布于 2026/3/27更新于 2026/6/1237 浏览
Windows 环境下 vLLM 安装与构建指南

Windows 环境下 vLLM 安装与构建指南

在 Windows 系统上部署 vLLM 引擎,目前主要有两种路径:使用预编译的 wheel 包直接安装,或者从源码进行构建。前者适合快速验证,后者则能提供更灵活的控制权。

一、通过 Wheel 包安装(推荐)

这种方式最便捷,但需要确保本地环境与发布包的版本要求匹配。

1. 确认版本兼容性

下载前请核对 Python、PyTorch 和 CUDA 的版本。发布页面通常会注明支持的版本范围。虽然有时高版本也能安装成功,但可能会拉取大量依赖,导致 triton_windows、xformers 等库与现有环境冲突,后期修复成本较高。

2. 下载并安装

前往 GitHub 发布页获取最新的 wheel 文件。以 v0.11.0 为例:

文章配图

在终端中执行 pip 安装命令,记得替换为实际的文件路径:

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

安装完成后,建议检查基础导入是否正常。

文章配图

二、从源码构建安装

如果你需要特定功能或想深入理解底层,可以选择源码构建。这通常比较耗时,且对开发环境有明确要求。

前置准备

  • Visual Studio:需安装 2019 或更高版本,用于 C++ 编译。
  • CUDA:安装对应版本的 CUDA Toolkit,并确保环境变量(如 CUDA_ROOT、CUDA_HOME)配置正确,让系统能识别路径。

构建步骤

1. 克隆仓库与初始化

首先克隆支持 Windows 的分支:

git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git
cd vllm-windows
2. 安装依赖

根据你本地的 CUDA 版本安装对应的 PyTorch。例如 CUDA 12.6:

pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

如果环境中已有兼容的 PyTorch,可以运行脚本来复用:

python use_existing_torch.py

接着安装构建所需的依赖:

pip install -r requirements/build.txt
pip install -r requirements/windows.txt
3. 设置编译环境

构建前需要配置关键的环境变量。特别是并行编译线程数,可根据 CPU 核心数调整:

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

如果需要启用 cuDNN 或 cuSPARSELt 加速,还需指定具体路径:

# 示例:启用 cuDNN
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib\x64
set CUDNN_INCLUDE_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include

然后初始化 Visual Studio 的 x64 编译环境(路径需根据你的实际安装位置修改):

"C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvarsall.bat" x64
4. 开始构建

最后执行安装命令,注意加上 --no-build-isolation 参数以避免隔离环境导致的依赖问题:

pip install . --no-build-isolation

注意事项

  • Flash Attention v3:默认情况下在 Windows 上会被禁用,因为编译时间过长。若必须启用,可设置环境变量 VLLM_FORCE_FA3_WINDOWS_BUILD=1。
  • 路径占位符:所有示例中的路径(如 PATH_TO_CUDNN_INSTALL_DIR)都必须替换为你机器上的真实路径。
  • 错误排查:遇到编译失败时,优先检查依赖版本是否匹配,并参考官方仓库的 Issue 列表寻找解决方案。

文章配图

目录

  1. Windows 环境下 vLLM 安装与构建指南
  2. 一、通过 Wheel 包安装(推荐)
  3. 1. 确认版本兼容性
  4. 2. 下载并安装
  5. 二、从源码构建安装
  6. 前置准备
  7. 构建步骤
  8. 1. 克隆仓库与初始化
  9. 2. 安装依赖
  10. 3. 设置编译环境
  11. 示例:启用 cuDNN
  12. 4. 开始构建
  13. 注意事项
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 预训练语言模型与 BERT 实战应用
  • Python 数据分析入门:集中趋势与离散程度解析
  • 智能体工作流导出导入实战:以 12345 政务热线分拨为例
  • 前端防抖节流主流库实战与避坑指南
  • AI Agent 架构:基础组成模块深度解析
  • eBay 商品数据采集实战:Python 接入 IPIDEA API
  • 前端兼容策略:优雅降级与渐进增强的核心差异
  • Python 自动化办公与数据分析入门指南
  • 文心大模型 4.5 开源实测:快速部署与多模态识别能力测评
  • CVPR2025 DEIM 目标检测模型训练教程:Windows 环境配置与数据集部署
  • Llama-2-7b 在昇腾 NPU 上的部署与性能基准实测
  • CosyVoice3 零样本语音克隆与情感控制技术解析
  • 基于 OpenClaw 与飞书构建 AI 新闻推送机器人
  • AMD 核显笔记本 Windows 11 运行 Stable Diffusion 实战
  • 近端策略优化算法 (PPO) 详解与代码实现
  • 注意力机制与 Transformer 模型实战
  • 自然语言处理在金融领域的实战应用
  • GLM-5 模型代码生成能力深度评测与实战
  • 昇腾 A2 平台 Pi0 机器人 VLA 大模型测评
  • OpenClaw 跨平台安装指南:Windows、macOS 与 Linux 环境配置

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online