【笔记】在 Windows 上安装 Python-vLLM

Ne0inhk

16 Mar 2026 — 4 min read

SystemPanic/vllm-windows：用于 LLM（Windows 构建和内核）的高吞吐量和内存效率推理和服务引擎

在 Windows 上安装 vLLM 有两种方式，分别是通过已发布的 wheel 包安装和从源码构建安装，具体步骤如下：

一、通过现有发布的 wheel 包安装（推荐）

发布 v0.11.0 ·SystemPanic/vllm-windows

vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

确认版本兼容性
确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致（版本信息会在发布版本中注明）。
下载 wheel 包
从最新发布页面下载作者提供的版本（经测试：torch 和 CUDA 版本高于发布版，也能安装成功，但安装过程中会大量拉取安装其他依赖，可能会导致部分依赖被安装成与环境中其他库相冲突的版本，如 triton_windows、xformers 等，后期可能需要手动修复冲突）。

安装 wheel 包
打开命令行，使用 pip 安装下载的 wheel 文件：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

（注意替换为实际下载的 wheel 文件路径和文件名）

二、从源码构建安装（不推荐）

前置要求

安装 Visual Studio 2019 或更高版本（需用于编译环境）。
安装 CUDA 并配置环境变量（如 CUDA_ROOT、CUDA_HOME 或 CUDA_PATH，确保系统能识别 CUDA 路径）。

步骤

安装依赖并构建

# 安装指定版本的 PyTorch（以 CUDA 12.6 为例，需与你的 CUDA 版本匹配） pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126 # 若已安装兼容的 PyTorch，可运行以下脚本复用现有环境 python use_existing_torch.py # 安装构建依赖 pip install -r requirements/build.txt pip install -r requirements/windows.txt # 构建并安装 vLLM pip install . --no-build-isolation

设置环境变量
必要的环境变量配置：

set DISTUTILS_USE_SDK=1 set VLLM_TARGET_DEVICE=cuda set MAX_JOBS=10 # 并行编译的 CPU 线程数，可根据实际情况调整

（可选）如需启用 cuDNN、cuSPARSELt 等功能，需额外设置对应路径：

# 启用 cuDNN（替换为实际安装路径） set USE_CUDNN=1 set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64 set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION # 启用 cuSPARSELt（替换为实际安装路径） set USE_CUSPARSELT=1 set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib

配置 Visual Studio 编译环境
运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境（替换为你的 VS 安装路径）：

VISUAL_STUDIO_INSTALL_PATH\VC\Auxiliary\Build\vcvarsall.bat x64

打开命令行并克隆仓库

# 克隆 vllm-windows 仓库（指定分支） git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git cd vllm-windows

注意事项

从源码构建时，Flash Attention v3 默认在 Windows 上禁用（因编译时间过长），如需强制启用，可设置环境变量 set VLLM_FORCE_FA3_WINDOWS_BUILD=1。
确保所有路径中的占位符（如 PATH_TO_CUDNN_INSTALL_DIR）替换为实际安装路径。
若遇到编译或安装错误，建议检查依赖版本兼容性，并参考官方仓库的 issue 或文档进一步排查。

web前端JS—基本语法

一、引入方式 1、内部脚本：将代码定义在HTML页面里面 * 将JS定义在<script></script>之间 * 可以在html里面的任意位置放置任意数量的<script></script> * 一般放置在<body>元素的底部，改善显示速度 <script> console.log('页面加载时执行'); function localFunction() { return '内部函数'; } </script> 2、外部脚本：额外定义一个.js文件，引入到HTML里面 * 只能包含js文件，不包含&

Spring Web MVC 入门秘籍：从概念到实践的快速通道（上）

个人主页：♡喜欢做梦欢迎 👍点赞 ➕关注 ❤️收藏 💬评论目录一、什么是Spring Web MVC？ 1.定义 2.关于MVC 2.1什么是MVC？二、学习Sring MVC 1.项目准备 2.@RestController注解的介绍 3.@RequestMapping注解 1.@RequestMapping只用在类上（相当于“只给文件夹起名，不给文件起名”） 2.@RequestMapping只用在方法上（相当于“只给文件起名，不给文件夹起名”） 3.@RequestMapping用在类和方法上（相当于给文件夹和文件都取名）三、Postman 1.什么是Postman？ 2.关于API 3.传参介绍 1.普通传参：

【前端实战】Axios 错误处理的设计与进阶封装，实现网络层面的数据与状态解耦

目录【前端实战】Axios 错误处理的设计与进阶封装，实现网络层面的数据与状态解耦一、为什么网络错误处理一定要下沉到 Axios 层二、Axios 拦截器 interceptors 1、拦截器的基础应用 2、错误分级和策略映射的设计 3、错误对象标准化三、结语作者：watermelo37 ZEEKLOG优质创作者、华为云云享专家、阿里云专家博主、腾讯云“创作之星”特邀作者、火山KOL、支付宝合作作者，全平台博客昵称watermelo37。一个假装是giser的coder，做不只专注于业务逻辑的前端工程师，Java、Docker、Python、LLM均有涉猎。 --------------------------------------------------------------------- 温柔地对待温柔的人，包容的三观就是最大的温柔。 --------------------------------------------------------------------- 【前

OpenClaw Skills扩展：nanobot通过webhook对接钉钉/飞书，实现跨平台消息同步

OpenClaw Skills扩展：nanobot通过webhook对接钉钉/飞书，实现跨平台消息同步 1. nanobot简介 nanobot是一款受OpenClaw启发的超轻量级个人人工智能助手，仅需约4000行代码即可提供核心代理功能。相比传统方案，代码量减少了99%，但功能依然强大。这个轻量级助手内置了vllm部署的Qwen3-4B-Instruct-2507模型，使用chainlit进行推理交互。最吸引人的是，你可以轻松配置它作为QQ聊天机器人使用，或者通过webhook对接企业通讯工具如钉钉和飞书。 2. 基础环境验证 2.1 检查模型服务状态在开始扩展功能前，我们需要确认基础服务运行正常。通过以下命令检查模型部署状态： cat /root/workspace/llm.log 如果看到服务启动成功的日志信息，说明模型已准备就绪。常见的成功标志包括"Model loaded successfully"或"Service started on port xxxx"等提示。 2.2 测试基础问答功能