在实际项目中,若想将大模型作为标准 API 服务对外提供能力,而非仅在本机运行简单 Demo,vLLM 是绕不开的高性能推理框架选择。相比 Ollama 这类偏向'开箱即用'的本地体验工具,vLLM 更聚焦于服务端部署的核心需求,主打高吞吐推理、显存高效利用,且原生支持 OpenAI API 兼容,能无缝对接各类业务系统。
一、vLLM 本地部署环境要求
vLLM 对运行环境有明确的适配要求,尤其在操作系统和硬件层面,需提前做好环境校验,避免部署过程中出现兼容问题。
1. 操作系统
- 核心支持:Linux(Ubuntu、Debian、CentOS 等主流发行版)
- 重要提示:vLLM 不支持 Windows 原生运行
若你是 Windows 用户,可通过以下两种方式适配:
- 安装 WSL(Windows Subsystem for Linux),模拟 Linux 环境
- 使用 Linux 版本的 Docker 容器运行 vLLM
2. Python 版本
支持 3.10 – 3.13 全系列,推荐使用 3.12,该版本兼具稳定性和对新特性的支持,与 vLLM 各依赖库兼容性最佳。
3. GPU 支持情况
vLLM 对不同硬件的支持度差异较大,本文示例基于 NVIDIA GPU(官方最优支持),各硬件适配详情如下表:
| 设备 | 支持情况 | 备注 |
|---|---|---|
| NVIDIA CUDA | ✅ 官方原生支持 | 提供预编译 CUDA 12.8 二进制 |
| AMD ROCm | ✅ 兼容支持 | 建议使用 Docker 部署,需 ROCm 6.3+ |
| Intel XPU | ⚠️ 实验性支持 | 需手动从源码构建 vLLM |
| CPU | ❌ 不推荐 | 推理速度极慢,无实际使用价值 |
二、直接安装部署(NVIDIA GPU 专属)
本章节所有操作均基于 Linux + NVIDIA GPU 环境,全程采用 uv 进行 Python 环境管理(相比传统 venv + pip,uv 安装速度更快、环境隔离更干净),一步到位完成部署。
2.1 前置依赖检查
vLLM 基于 CUDA 实现 GPU 加速,需提前确保系统已安装 NVIDIA 显卡驱动和 CUDA 环境,二者版本需匹配。
在终端执行验证命令,检查环境是否可用:
nvidia-smi
若能正常输出显卡型号、CUDA 版本、显存使用等信息,说明前置环境已就绪;若提示命令未找到或无显卡信息,需先安装对应版本的 NVIDIA 驱动和 CUDA 工具包。
2.2 创建 Python 虚拟环境
推荐使用 uv 管理 Python 虚拟环境,其安装和使用流程简洁高效,官方安装文档:https://docs.astral.sh/uv/getting-started/installation/
步骤 1:安装 uv
在 Linux 终端执行官方一键安装脚本:
curl -LsSf https://astral.sh/uv/install.sh | sh
安装完成后,重新打开终端,执行 uv -V 验证,输出版本号即安装成功。
步骤 2:创建并激活 Python 3.12 环境
# 创建 Python 3.12 虚拟环境,--seed 初始化依赖配置
uv venv --python 3.12 --seed
.venv/bin/activate


