vLLM+Open-WebUI 部署通义千问 2.5-7B 完整教程 | 极客日志

PythonAI算法

vLLM+Open-WebUI 部署通义千问 2.5-7B 完整教程

基于 vLLM 和 Open-WebUI 部署通义千问 2.5-7B-Instruct 模型的完整流程。涵盖环境准备（Docker、GPU）、模型获取、服务启动及 Web 界面配置。包含性能优化建议、Function Calling 支持及常见问题排查，实现本地高性能大模型推理与交互。

内存管理发布于 2026/4/6更新于 2026/5/2130 浏览

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

1. 引言

1.1 学习目标

本文将详细介绍如何使用 vLLM 和 Open-WebUI 联合部署阿里云发布的开源大模型——通义千问 2.5-7B-Instruct。通过本教程，你将掌握：

如何在本地或服务器环境中部署 Qwen2.5-7B 模型
利用 vLLM 实现高性能推理（支持 Tensor Parallelism、PagedAttention）
使用 Open-WebUI 提供类 ChatGPT 的可视化交互界面
完整的环境配置、服务启动与访问流程
常见问题排查与性能优化建议

最终实现：通过浏览器访问 http://localhost:7860，即可与通义千问进行流畅对话。

1.2 前置知识

为顺利执行本教程，请确保具备以下基础：

熟悉 Linux 命令行操作（Ubuntu/CentOS）
已安装 Docker 或 Conda 环境
显卡为 NVIDIA GPU（推荐 RTX 3060 及以上，显存 ≥12GB）
Python 3.10+ 基础使用能力
对 LLM 推理框架有基本了解（如 Hugging Face Transformers）

1.3 教程价值

相比直接使用 transformers 加载模型，本方案具有以下优势：

特性	说明
高吞吐	vLLM 支持 PagedAttention，提升并发处理能力
快响应	Token 生成速度可达 100+ tokens/s（FP16）
易用性	Open-WebUI 提供图形化界面，无需编程即可交互
可扩展	支持多用户、API 接口调用、Agent 集成

2. 环境准备

2.1 硬件要求

组件	最低要求	推荐配置
GPU	NVIDIA RTX 3060 (12GB)	A100 / RTX 4090
显存	≥14 GB（FP16）	≥24 GB
内存	32 GB	64 GB
存储	50 GB SSD	100 GB NVMe

注意：若使用量化版本（如 GGUF Q4_K_M），可在 8GB 显存设备运行，但本教程以 FP16 全精度为主。

2.2 软件依赖

请依次安装以下软件：

# 1. 更新系统包
sudo apt update && sudo apt upgrade -y
# 2. 安装 NVIDIA 驱动和 CUDA



curl -fsSL https://get.docker.com | sh
 systemctl  docker --now
distribution=$(. /etc/os-release; $ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey |  apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker//nvidia-docker.list |   /etc/apt/sources.list.d/nvidia-docker.list
 apt update
 apt install -y nvidia-docker2
 systemctl restart docker

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi

# 登录 HF CLI（首次使用）
huggingface-cli login
# 创建模型目录
mkdir -p /opt/models/qwen2.5-7b-instruct
# 使用 git-lfs 拉取模型（约 28GB）
git lfs install
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct /opt/models/qwen2.5-7b-instruct

docker run -d --gpus all --shm-size 1g \
  -p 8000:8000 \
  -v /opt/models/qwen2.5-7b-instruct:/model \
  --name vllm-server \
  vllm/vllm-openai:latest \
  --model /model \
  --tensor-parallel-size 1 \
  --dtype half \
  --max-model-len 131072 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.95

参数	含义
`--tensor-parallel-size`	多卡并行数（单卡设为 1）
`--dtype half`	使用 FP16 精度，节省显存
`--max-model-len 131072`	支持最大上下文长度 128k
`--enable-prefix-caching`	缓存 prompt KV，提升重复提问效率
`--gpu-memory-utilization`	显存利用率控制

docker logs -f vllm-server

docker run -d -p 7860:8080 \
  -e OPEN_WEBUI_URL="http://host.docker.internal:8000" \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

请用 Python 编写一个快速排序函数，并添加详细注释。

求解方程：x^2 + 5x + 6 = 0

--enforce-eager

--max-num-seqs 256 \
--max-num-batched-tokens 4096

# 示例：使用 AutoGPTQ 转换
pip install auto-gptq
python -c "
from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM
model = AutoGPTQForCausalLM.from_pretrained('Qwen/Qwen2.5-7B-Instruct', device_map='auto')
model.quantize('path/to/qwen2.5-7b-instruct-gptq')
"

{
  "messages": [
    {
      "role": "user",
      "content": "查询北京今天的天气"
    }
  ],
  "functions": [
    {
      "name": "get_weather",
      "description": "获取指定城市的天气信息",
      "parameters": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "城市名"}
        },
        "required": ["city"]
      }
    }
  ],
  "function_call": "auto"
}

Write a poem about autumn in French.

-e WEBUI_AUTH=True \
-p 0.0.0.0:7860:8080

vLLM+Open-WebUI 部署通义千问 2.5-7B 完整教程

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

1. 引言

1.1 学习目标

1.2 前置知识

1.3 教程价值

2. 环境准备

2.1 硬件要求

2.2 软件依赖

更多推荐文章

相关免费在线工具

3. 模型部署流程

3.1 获取通义千问 2.5-7B-Instruct 模型

3.2 启动 vLLM 服务

参数说明：

3.3 部署 Open-WebUI

4. 使用说明与界面演示

4.1 初始化账户

4.2 连接 vLLM API

4.3 功能测试

4.4 可视化效果

5. 进阶技巧与最佳实践

5.1 性能优化建议

（1）启用 Flash Attention（如有兼容内核）

（2）调整批处理大小

（3）使用量化降低显存占用

5.2 支持工具调用（Function Calling）

5.3 多语言任务测试

6. 常见问题解答（FAQ）

6.1 启动失败：CUDA Out of Memory

6.2 Open-WebUI 无法连接 vLLM

6.3 中文输出乱码或断句异常

6.4 如何开放远程访问？

7. 总结

7.1 核心收获

7.2 下一步学习路径

更多推荐文章

相关免费在线工具

vLLM+Open-WebUI 部署通义千问 2.5-7B 完整教程

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

1. 引言

1.1 学习目标

1.2 前置知识

1.3 教程价值

2. 环境准备

2.1 硬件要求

2.2 软件依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 模型部署流程

3.1 获取通义千问 2.5-7B-Instruct 模型

3.2 启动 vLLM 服务

参数说明：

3.3 部署 Open-WebUI

4. 使用说明与界面演示

4.1 初始化账户

4.2 连接 vLLM API

4.3 功能测试

4.4 可视化效果

5. 进阶技巧与最佳实践

5.1 性能优化建议

（1）启用 Flash Attention（如有兼容内核）

（2）调整批处理大小

（3）使用量化降低显存占用

5.2 支持工具调用（Function Calling）

5.3 多语言任务测试

6. 常见问题解答（FAQ）

6.1 启动失败：CUDA Out of Memory

6.2 Open-WebUI 无法连接 vLLM

6.3 中文输出乱码或断句异常

6.4 如何开放远程访问？

7. 总结

7.1 核心收获

7.2 下一步学习路径

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具