基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型 | 极客日志

PythonAI算法

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型引言：为什么选择 Qwen3-Embedding-4B？在当前大模型驱动的知识库、语义搜索和向量化检索系统中，**高质量文本嵌入模型**（Text Embedding Model）已成为核心基础设施。阿里通义实验室于 2025 年 8 月开源的 **Qwen3-Embedding-4B** 模型，凭借其'中等体…

SqlMaster发布于 2026/4/6更新于 2026/7/610K 浏览

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

1. 引言：为什么选择 Qwen3-Embedding-4B？

在当前大模型驱动的知识库、语义搜索和向量化检索系统中，高质量文本嵌入模型（Text Embedding Model）已成为核心基础设施。阿里通义实验室于 2025 年 8 月开源的 Qwen3-Embedding-4B 模型，凭借其'中等体量、长上下文、多语言支持、高精度表现'四大优势，迅速成为开发者构建本地化知识系统的首选。

该模型基于 36 层 Dense Transformer 架构，采用双塔编码结构，默认输出 2560 维向量，最大支持 32k token 输入长度，覆盖 119 种自然语言与编程语言，在 MTEB 英文、中文、代码三项基准测试中分别达到 74.60、68.09、73.50 分，显著优于同参数规模的开源竞品。

更重要的是，它支持 Matryoshka Representation Learning (MRL) 技术，允许用户在推理时灵活截取任意维度（如 128/256/768），实现精度与效率的平衡，并已通过 Apache 2.0 协议开源，可商用。

本文将介绍如何使用预置镜像，结合 vLLM + Open-WebUI 架构，实现一键部署、快速验证、高效调用，帮助你零门槛上手 Qwen3-Embedding-4B。

2. 镜像环境概览：vLLM + Open-WebUI 架构解析

2.1 整体架构设计

本镜像集成了两大核心组件：

vLLM：由 UC Berkeley 开发的高性能大模型推理引擎，支持 PagedAttention、连续批处理（Continuous Batching）、张量并行等优化技术，显著提升吞吐量。
Open-WebUI：轻量级前端界面，提供类 ChatGPT 的交互体验，支持知识库管理、对话历史、API 调试等功能。

二者协同工作，形成如下技术链路：

[用户请求] ↓ [Open-WebUI Web 界面] ↓ [调用 vLLM /embeddings 接口] ↓ [vLLM 加载 Qwen3-Embedding-4B 模型进行向量编码] ↓ [返回 embedding 向量 → 存入向量数据库或用于相似度匹配]

2.2 部署优势一览

特性	说明
一键启动	预装 vLLM、Open-WebUI、CUDA 驱动、PyTorch 环境，无需手动配置依赖
低显存运行	支持 GGUF-Q4 量化版本，仅需约 3GB 显存即可在 RTX 3060 上流畅运行
高吞吐能力	FP16 模式下单卡可达 800 文档/秒编码速度
即开即用	自动加载模型、启动服务、开放端口，等待几分钟后即可访问网页界面

3. 快速上手：从启动到知识库验证全流程

3.1 启动服务与访问方式

部署完成后，请耐心等待 3~5 分钟，系统会自动完成以下初始化流程：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

{
  "model": "Qwen3-Embedding-4B",
  "input": [
    "Instruct: retrieval\nQuery: 如何选择合适的向量维度？"
  ],
  "encoding_format": "float",
  "prompt_template": "{instruct}: {query}"
}

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "embedding": [0.023, -0.112, ..., 0.045],
      "index": 0
    }
  ],
  "model": "Qwen3-Embedding-4B",
  "usage": {
    "prompt_tokens": 32,
    "total_tokens": 32
  }
}

目标维度	存储节省	适用场景
128	~95% ↓	移动端、实时推荐
256	~90% ↓	通用语义匹配
768	~70% ↓	高精度检索
2560	原始大小	金融/医疗等高价值领域

任务类型	输入前缀	输出特点
检索（Retrieval）	`Instruct: retrieval\nQuery:`	强调关键词与主题一致性
分类（Classification）	`Instruct: classification\nText:`	更关注类别边界特征
聚类（Clustering）	`Instruct: clustering\nDocument:`	增强语义平滑性与群体聚集性

平台	支持情况	优势
vLLM	✅ 官方支持	高吞吐、低延迟
llama.cpp	✅ 支持 GGUF 格式	CPU 运行、极低资源消耗
Ollama	✅ 可打包为 Modelfile	本地化一键部署
Transformers	✅ HuggingFace 原生支持	易于定制开发

模型名称	参数量	维度	MTEB 得分	是否支持 MRL	授权协议
Qwen3-Embedding-4B	4B	2560	74.60	✅ 是	Apache 2.0
BGE-M3	3B	1024	73.90	✅ 是	Apache 2.0
EVA-CLIP-Embedding	4B	4096	72.10	❌ 否	自定义
nomic-embed-text-v1.5	1.3B	768	71.80	✅ 是	MIT
OpenAI text-embedding-3-small	未知	1536	69.60	✅ 是	Proprietary

场景需求	推荐方案
单卡 RTX 3060 部署	使用 GGUF-Q4 量化版，显存<3GB
多语言语义搜索	启用 full-dim (2560) + instruction 前缀
移动端轻量化嵌入	截取前 256 维，存储减少 90%
高并发知识库服务	部署 vLLM + Tensor Parallelism
离线环境运行	导出为 GGUF 格式，使用 llama.cpp 加载

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

1. 引言：为什么选择 Qwen3-Embedding-4B？

2. 镜像环境概览：vLLM + Open-WebUI 架构解析

2.1 整体架构设计

2.2 部署优势一览

3. 快速上手：从启动到知识库验证全流程

3.1 启动服务与访问方式

更多推荐文章

相关免费在线工具

3.2 设置 Qwen3-Embedding-4B 作为默认嵌入模型

3.3 构建知识库并验证语义检索效果

步骤一：上传文档

步骤二：发起语义查询

实际效果展示：

3.4 查看接口请求与调试日志

4. 核心特性深度解析：Qwen3-Embedding-4B 的六大亮点

4.1 高效长文本处理：32k 上下文完整编码

4.2 多语言通用能力：覆盖 119 种语言

4.3 Matryoshka Representation Learning（MRL）：自由裁剪维度

MRL 原理简述：

实践意义：

4.4 指令感知能力：同一模型适配多种任务

4.5 多种部署形态兼容：支持主流推理框架

4.6 商业友好授权：Apache 2.0 协议可商用

5. 性能对比与选型建议

5.1 同类模型横向对比（MTEB 英文均分）

5.2 选型决策指南

6. 总结

更多推荐文章

相关免费在线工具

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

基于 vLLM+Open-WebUI 快速部署 Qwen3-Embedding 模型

1. 引言：为什么选择 Qwen3-Embedding-4B？

2. 镜像环境概览：vLLM + Open-WebUI 架构解析

2.1 整体架构设计

2.2 部署优势一览

3. 快速上手：从启动到知识库验证全流程

3.1 启动服务与访问方式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 设置 Qwen3-Embedding-4B 作为默认嵌入模型

3.3 构建知识库并验证语义检索效果

步骤一：上传文档

步骤二：发起语义查询

实际效果展示：

3.4 查看接口请求与调试日志

4. 核心特性深度解析：Qwen3-Embedding-4B 的六大亮点

4.1 高效长文本处理：32k 上下文完整编码

4.2 多语言通用能力：覆盖 119 种语言

4.3 Matryoshka Representation Learning（MRL）：自由裁剪维度

MRL 原理简述：

实践意义：

4.4 指令感知能力：同一模型适配多种任务

4.5 多种部署形态兼容：支持主流推理框架

4.6 商业友好授权：Apache 2.0 协议可商用

5. 性能对比与选型建议

5.1 同类模型横向对比（MTEB 英文均分）

5.2 选型决策指南

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具