【笔记】在 Windows 上安装 Python-vLLM

【笔记】在 Windows 上安装 Python-vLLM
SystemPanic/vllm-windows:用于 LLM(Windows 构建和内核)的高吞吐量和内存效率推理和服务引擎

在 Windows 上安装 vLLM 有两种方式,分别是通过已发布的 wheel 包安装和从源码构建安装,具体步骤如下:



一、通过现有发布的 wheel 包安装(推荐)

发布 v0.11.0 ·SystemPanic/vllm-windows
vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl
  1. 确认版本兼容性
    确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致(版本信息会在发布版本中注明)。
  2. 下载 wheel 包
    从 最新发布页面 下载作者提供的版本(经测试:torch 和 CUDA 版本高于发布版,也能安装成功,但安装过程中会大量拉取安装其他依赖,可能会导致部分依赖被安装成与环境中其他库相冲突的版本,如 triton_windows、xformers 等,后期可能需要手动修复冲突)。

安装 wheel 包
打开命令行,使用 pip 安装下载的 wheel 文件:

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl 

(注意替换为实际下载的 wheel 文件路径和文件名)



二、从源码构建安装(不推荐)

前置要求
  • 安装 Visual Studio 2019 或更高版本(需用于编译环境)。
  • 安装 CUDA 并配置环境变量(如 CUDA_ROOTCUDA_HOME 或 CUDA_PATH,确保系统能识别 CUDA 路径)。
步骤

安装依赖并构建

# 安装指定版本的 PyTorch(以 CUDA 12.6 为例,需与你的 CUDA 版本匹配) pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126 # 若已安装兼容的 PyTorch,可运行以下脚本复用现有环境 python use_existing_torch.py # 安装构建依赖 pip install -r requirements/build.txt pip install -r requirements/windows.txt # 构建并安装 vLLM pip install . --no-build-isolation 

设置环境变量
必要的环境变量配置:

set DISTUTILS_USE_SDK=1 set VLLM_TARGET_DEVICE=cuda set MAX_JOBS=10 # 并行编译的 CPU 线程数,可根据实际情况调整 

(可选)如需启用 cuDNN、cuSPARSELt 等功能,需额外设置对应路径:

# 启用 cuDNN(替换为实际安装路径) set USE_CUDNN=1 set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64 set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION # 启用 cuSPARSELt(替换为实际安装路径) set USE_CUSPARSELT=1 set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib 

配置 Visual Studio 编译环境
运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境(替换为你的 VS 安装路径):

VISUAL_STUDIO_INSTALL_PATH\VC\Auxiliary\Build\vcvarsall.bat x64 

打开命令行并克隆仓库

# 克隆 vllm-windows 仓库(指定分支) git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git cd vllm-windows 

注意事项

  • 从源码构建时,Flash Attention v3 默认在 Windows 上禁用(因编译时间过长),如需强制启用,可设置环境变量 set VLLM_FORCE_FA3_WINDOWS_BUILD=1
  • 确保所有路径中的占位符(如 PATH_TO_CUDNN_INSTALL_DIR)替换为实际安装路径。
  • 若遇到编译或安装错误,建议检查依赖版本兼容性,并参考官方仓库的 issue 或文档进一步排查。

Read more

web前端JS—基本语法

一、引入方式 1、内部脚本:将代码定义在HTML页面里面 * 将JS定义在<script></script>之间 * 可以在html里面的任意位置放置任意数量的<script></script> * 一般放置在<body>元素的底部,改善显示速度 <script> console.log('页面加载时执行'); function localFunction() { return '内部函数'; } </script> 2、外部脚本:额外定义一个.js文件,引入到HTML里面 * 只能包含js文件,不包含&

By Ne0inhk
Spring Web MVC 入门秘籍:从概念到实践的快速通道(上)

Spring Web MVC 入门秘籍:从概念到实践的快速通道(上)

个人主页:♡喜欢做梦 欢迎  👍点赞  ➕关注  ❤️收藏  💬评论 目录 一、什么是Spring Web MVC? 1.定义 2.关于MVC 2.1什么是MVC? 二、学习Sring MVC 1.项目准备 2.@RestController注解的介绍 3.@RequestMapping注解 1.@RequestMapping只用在类上(相当于“只给文件夹起名,不给文件起名”) 2.@RequestMapping只用在方法上(相当于“只给文件起名,不给文件夹起名”) 3.@RequestMapping用在类和方法上(相当于给文件夹和文件都取名) 三、Postman 1.什么是Postman? 2.关于API 3.传参介绍 1.普通传参:

By Ne0inhk
【前端实战】Axios 错误处理的设计与进阶封装,实现网络层面的数据与状态解耦

【前端实战】Axios 错误处理的设计与进阶封装,实现网络层面的数据与状态解耦

目录 【前端实战】Axios 错误处理的设计与进阶封装,实现网络层面的数据与状态解耦 一、为什么网络错误处理一定要下沉到 Axios 层 二、Axios 拦截器 interceptors 1、拦截器的基础应用 2、错误分级和策略映射的设计 3、错误对象标准化 三、结语         作者:watermelo37         ZEEKLOG优质创作者、华为云云享专家、阿里云专家博主、腾讯云“创作之星”特邀作者、火山KOL、支付宝合作作者,全平台博客昵称watermelo37。         一个假装是giser的coder,做不只专注于业务逻辑的前端工程师,Java、Docker、Python、LLM均有涉猎。 --------------------------------------------------------------------- 温柔地对待温柔的人,包容的三观就是最大的温柔。 --------------------------------------------------------------------- 【前

By Ne0inhk

OpenClaw Skills扩展:nanobot通过webhook对接钉钉/飞书,实现跨平台消息同步

OpenClaw Skills扩展:nanobot通过webhook对接钉钉/飞书,实现跨平台消息同步 1. nanobot简介 nanobot是一款受OpenClaw启发的超轻量级个人人工智能助手,仅需约4000行代码即可提供核心代理功能。相比传统方案,代码量减少了99%,但功能依然强大。 这个轻量级助手内置了vllm部署的Qwen3-4B-Instruct-2507模型,使用chainlit进行推理交互。最吸引人的是,你可以轻松配置它作为QQ聊天机器人使用,或者通过webhook对接企业通讯工具如钉钉和飞书。 2. 基础环境验证 2.1 检查模型服务状态 在开始扩展功能前,我们需要确认基础服务运行正常。通过以下命令检查模型部署状态: cat /root/workspace/llm.log 如果看到服务启动成功的日志信息,说明模型已准备就绪。常见的成功标志包括"Model loaded successfully"或"Service started on port xxxx"等提示。 2.2 测试基础问答功能

By Ne0inhk