Qwen3-Embedding-4B 本地化部署：基于 llama.cpp 与 Open WebUI | 极客日志

PythonAI算法

Qwen3-Embedding-4B 本地化部署：基于 llama.cpp 与 Open WebUI

Qwen3-Embedding-4B 本地化部署实战。利用 llama.cpp 实现 GGUF 量化推理，结合 vLLM 与 Open WebUI 搭建可视化知识库。支持 32k 上下文，单卡显存低于 3GB，提供 REST API 接口，适用于 RAG 系统及多语言检索场景。

片刻发布于 2026/4/7更新于 2026/7/2132 浏览

引言

背景：通义千问 Embedding 模型

Qwen3-Embedding-4B 是阿里云通义千问系列中专为语义向量化设计的中等规模双塔模型。该模型以 4B 参数量、2560 维输出向量、支持 32k 长文本上下文为核心亮点，定位为兼顾性能与效率的企业级语义理解基础设施组件。

其在 MTEB（Multilingual Task Evaluation Benchmark）三大子集上表现优异：英文 74.60、中文 68.09、代码 73.50，均优于同尺寸开源 embedding 模型。更重要的是，它支持 119 种自然语言及主流编程语言，在跨语言检索、bitext 挖掘等任务中达到官方评估 S 级水平。

得益于 Apache 2.0 开源协议，Qwen3-Embedding-4B 可直接用于商业场景，无需额外授权，极大降低了企业构建多语言知识库、智能客服、文档去重系统的门槛。

部署目标

本文聚焦于如何通过 llama.cpp 实现 Qwen3-Embedding-4B 的本地化高效部署，并结合 vLLM + Open WebUI 构建完整的可视化知识库体验系统。目标是让开发者在消费级显卡（如 RTX 3060）上即可运行完整服务，实现：

支持 32k 长文本编码
单卡显存占用低于 3GB（使用 GGUF-Q4 量化）
提供 REST API 接口和 Web 交互界面
可快速集成至 RAG（检索增强生成）系统

技术选型与架构设计

核心技术栈说明

组件	功能
`Qwen3-Embedding-4B`	主体向量化模型，负责将文本映射到 2560 维语义空间
`llama.cpp`	C/C++推理框架，支持 GGUF 格式模型加载与 CPU/GPU 混合推理
`vLLM`	高性能推理服务引擎，支持异步批处理与 PagedAttention
`Open WebUI`	前端可视化界面，提供类 ChatGPT 的操作体验
`Docker`	容器化部署，确保环境一致性

系统整体架构

用户通过 Open WebUI 上传文档或输入查询，Open WebUI 调用 vLLM 提供的 /embeddings 接口，vLLM 加载 GGUF 格式的 Qwen3-Embedding-4B 模型进行推理，最后返回向量结果用于后续语义搜索或聚类分析。

llama.cpp 集成部署实践

准备工作：获取模型文件

Qwen3-Embedding-4B 已发布至 Hugging Face Hub，需下载以下任一 GGUF 量化版本（推荐 Q4_K_M）：

# 示例：使用 huggingface-cli 下载
huggingface-cli download Qwen/Qwen3-Embedding-4B \
  --include "gguf/*" \
  --local-dir ./models/qwen3-embedding-4b

常见量化等级对比如下，可根据硬件资源灵活选择：

类型	显存需求	推理速度	精度损失
F16	~8 GB	中	无

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUBLAS=1 -j

./server \
  -m ./models/qwen3-embedding-4b/qwen3-embedding-4b-q4_k_m.gguf \
  --port 8080 \
  --embedding \
  --n-gpu-layers 35 \
  --batch-size 512 \
  --threads 8

参数	说明
`-m`	指定 GGUF 模型路径
`--embedding`	启用 embedding 模式
`--n-gpu-layers`	尽可能多卸载层到 GPU（36 层建议设为 35）
`--batch-size`	批处理大小，影响吞吐量
`--threads`	CPU 线程数

import requests
url = "http://localhost:8080/embeddings"
data = { "content": "这是一段需要向量化的中文文本，长度可达 32768 个 token。" }
response = requests.post(url, json=data)
vector = response.json()["embedding"]
print(f"向量维度：{len(vector)}") # 输出：2560

python3 convert_gguf_to_hf.py \
  --input ./models/qwen3-embedding-4b/qwen3-embedding-4b-q4_k_m.gguf \
  --output ./hf_models/Qwen3-Embedding-4B-GGUF

pip install vllm openai
# 启动一个轻量 OpenAI 兼容服务
uvicorn app:app --host 0.0.0.0 --port 8000

from fastapi import FastAPI
import httpx
import asyncio

app = FastAPI()
LLAMA_CPP_URL = "http://localhost:8080/embeddings"

@app.post("/v1/embeddings")
async def get_embedding(request: dict):
    async with httpx.AsyncClient() as client:
        payload = {"content": request["input"]}
        response = await client.post(LLAMA_CPP_URL, json=payload)
        result = response.json()
        return {
            "data": [
                {
                    "object": "embedding",
                    "embedding": result["embedding"],
                    "index": 0
                }
            ],
            "model": "qwen3-embedding-4b",
            "usage": {
                "prompt_tokens": len(result.get("tokens", [])),
                "total_tokens": len(result.get("tokens", []))
            }
        }

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://your-server-ip:8000 \
  -v open-webui-data:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

优化项	建议值	说明
GPU 层数	35~36	充分利用 GPU 加速 Transformer 层
批大小	64~512	大批量提升吞吐，但增加延迟
量化格式	Q4_K_M	平衡精度与显存
线程数	CPU 核心数的 70%	避免过度竞争

输入长度	吞吐量（docs/s）	显存占用
512 token	~800	2.9 GB
2k token	~320	3.1 GB
8k token	~90	3.3 GB

import numpy as np
from sklearn.random_projection import GaussianRandomProjection

# 训练投影矩阵（一次训练，长期使用）
rp = GaussianRandomProjection(n_components=128)
reduced_vec = rp.fit_transform([full_vector])[0]

"为语义检索编码：" + 文本
"用于文本分类：" + 文本
"进行聚类分析：" + 文本

Qwen3-Embedding-4B 本地化部署：基于 llama.cpp 与 Open WebUI

引言

背景：通义千问 Embedding 模型

部署目标

技术选型与架构设计

核心技术栈说明

系统整体架构

llama.cpp 集成部署实践

准备工作：获取模型文件

更多推荐文章

相关免费在线工具

编译并配置 llama.cpp

vLLM + Open WebUI 构建知识库系统

使用 vLLM 托管 Embedding 服务

转换 GGUF 到 HF 格式（可选）

替代方案：vLLM 代理 llama.cpp 服务

部署 Open WebUI 实现可视化操作

步骤 1：启动 Open WebUI 容器

步骤 2：登录并配置 Embedding 模型

步骤 3：创建知识库并验证效果

效果验证示例

性能优化与工程建议

显存与推理速度调优

支持动态维度投影（MRL）

指令感知向量生成技巧

总结

方案价值总结

最佳实践建议

更多推荐文章

相关免费在线工具

Qwen3-Embedding-4B 本地化部署：基于 llama.cpp 与 Open WebUI

引言

背景：通义千问 Embedding 模型

部署目标

技术选型与架构设计

核心技术栈说明

系统整体架构

llama.cpp 集成部署实践

准备工作：获取模型文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

编译并配置 llama.cpp

vLLM + Open WebUI 构建知识库系统

使用 vLLM 托管 Embedding 服务

转换 GGUF 到 HF 格式（可选）

替代方案：vLLM 代理 llama.cpp 服务

部署 Open WebUI 实现可视化操作

步骤 1：启动 Open WebUI 容器

步骤 2：登录并配置 Embedding 模型

步骤 3：创建知识库并验证效果

效果验证示例

性能优化与工程建议

显存与推理速度调优

支持动态维度投影（MRL）

指令感知向量生成技巧

总结

方案价值总结

最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具