跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

在 Windows 上安装 Python-vLLM

在 Windows 系统上安装 vLLM 引擎的两种方法。推荐使用已发布的 wheel 包,需确认 Python、PyTorch 及 CUDA 版本兼容性并下载对应文件进行 pip 安装。若从源码构建,需安装 Visual Studio 2019+ 及 CUDA 环境,配置相关变量后执行编译脚本。构建时 Flash Attention v3 默认禁用,可设置环境变量强制启用。安装过程中需注意依赖冲突问题,必要时手动修复。

雪落无声发布于 2026/3/30更新于 2026/5/2328 浏览
在 Windows 上安装 Python-vLLM

在 Windows 上安装 vLLM

vLLM 是一个用于大语言模型(LLM)的高吞吐量、内存效率推理和服务引擎。其 Windows 构建版本可在 GitHub 仓库 SystemPanic/vllm-windows 获取。

在 Windows 上安装 vLLM 有两种方式,分别是通过已发布的 wheel 包安装和从源码构建安装。

一、通过现有发布的 wheel 包安装(推荐)

参考发布页面:发布 v0.11.0 · SystemPanic/vllm-windows

示例文件:vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

1. 确认版本兼容性

确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致(版本信息会在发布版本中注明)。

2. 下载 wheel 包

从最新发布页面下载作者提供的版本。经测试,torch 和 CUDA 版本高于发布版也能安装成功,但安装过程中会大量拉取其他依赖,可能会导致部分依赖被安装成与环境中其他库相冲突的版本(如 triton_windows、xformers 等),后期可能需要手动修复冲突。

3. 安装 wheel 包

打开命令行,使用 pip 安装下载的 wheel 文件:

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

注意替换为实际下载的 wheel 文件路径和文件名。

二、从源码构建安装(不推荐)

前置要求

  • 安装 Visual Studio 2019 或更高版本(需用于编译环境)。
  • 安装 CUDA 并配置环境变量(如 CUDA_ROOT、CUDA_HOME 或 CUDA_PATH,确保系统能识别 CUDA 路径)。

步骤

1. 安装依赖并构建
# 安装指定版本的 PyTorch(以 CUDA 12.6 为例,需与你的 CUDA 版本匹配)
pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126

# 若已安装兼容的 PyTorch,可运行以下脚本复用现有环境
python use_existing_torch.py

# 安装构建依赖
pip install -r requirements/build.txt
pip install -r requirements/windows.txt

# 构建并安装 vLLM
pip install . --no-build-isolation
2. 设置环境变量

必要的环境变量配置:

set DISTUTILS_USE_SDK=1
set VLLM_TARGET_DEVICE=cuda
set MAX_JOBS=10

并行编译的 CPU 线程数可根据实际情况调整。

如需启用 cuDNN、cuSPARSELt 等功能,需额外设置对应路径:

# 启用 cuDNN(替换为实际安装路径)
set USE_CUDNN=1
set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64
set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION

# 启用 cuSPARSELt(替换为实际安装路径)
set USE_CUSPARSELT=1
set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include
set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib
3. 配置 Visual Studio 编译环境

运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境(替换为你的 VS 安装路径):

VISUAL_STUDIO_INSTALL_PATH\VC\Auxiliary\Build\vcvarsall.bat x64
4. 打开命令行并克隆仓库
# 克隆 vllm-windows 仓库(指定分支)
git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git
cd vllm-windows

注意事项

  • 从源码构建时,Flash Attention v3 默认在 Windows 上禁用(因编译时间过长),如需强制启用,可设置环境变量 set VLLM_FORCE_FA3_WINDOWS_BUILD=1。
  • 确保所有路径中的占位符(如 PATH_TO_CUDNN_INSTALL_DIR)替换为实际安装路径。
  • 若遇到编译或安装错误,建议检查依赖版本兼容性,并参考官方仓库的 issue 或文档进一步排查。

目录

  1. 在 Windows 上安装 vLLM
  2. 一、通过现有发布的 wheel 包安装(推荐)
  3. 1. 确认版本兼容性
  4. 2. 下载 wheel 包
  5. 3. 安装 wheel 包
  6. 二、从源码构建安装(不推荐)
  7. 前置要求
  8. 步骤
  9. 1. 安装依赖并构建
  10. 安装指定版本的 PyTorch(以 CUDA 12.6 为例,需与你的 CUDA 版本匹配)
  11. 若已安装兼容的 PyTorch,可运行以下脚本复用现有环境
  12. 安装构建依赖
  13. 构建并安装 vLLM
  14. 2. 设置环境变量
  15. 启用 cuDNN(替换为实际安装路径)
  16. 启用 cuSPARSELt(替换为实际安装路径)
  17. 3. 配置 Visual Studio 编译环境
  18. 4. 打开命令行并克隆仓库
  19. 克隆 vllm-windows 仓库(指定分支)
  20. 注意事项
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 注意力机制与 Transformer 模型实战
  • Open-AutoGLM 开源模型下载与本地运行配置
  • 基于 Java 与高德地图 API 的县域烟花销售点自动化盘点方案
  • DeepSeek V4 下周发布,阿里开源 CoPaw 对标 OpenClaw,谷歌 Nano Banana 2 上线
  • AI 网络技术编程测试:从理论到实践
  • 大模型驱动的数字员工与企业应用场景解析
  • 大模型学习方法:从构建小应用入手而非沉迷理论
  • Linux C/C++ 调试器 gdb/cgdb 实战指南
  • OpenClaw 在 Manjaro 上的个人 AI 助手部署指南
  • MATLAB Copilot_AI 工具箱:对接多款 AI 大模型辅助编程
  • NPlayer 开源视频播放器使用指南
  • OpenClaw 接入飞书机器人与 Ollama 本地大模型部署指南
  • 基于 SpringBoot 的宠物寄养与领养服务平台设计与实现
  • DigitalOcean 注册、验证及云主机创建教程
  • VSCode Copilot 配置文件提示“未知工具”警告排查与修复
  • AI 大模型入门教程:从零基础到精通
  • AI 自动化测试:接口测试全流程自动化的实现方法
  • 项目分享|LiveKit Agents Playground:快速搭建WebRTC服务端Agent原型的利器
  • AI 编程新范式:Spec Coding 方法与工具
  • OpenClaw 对接 QQ 机器人教程(本地与腾讯云部署)

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online