Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程 | 极客日志

PythonAI算法

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

Qwen3-Embedding-4B 模型基于 llama.cpp 实现本地化高效部署，结合 vLLM 与 Open WebUI 构建可视化知识库系统。方案支持 32k 长文本编码，单卡显存占用低于 3GB，提供 REST API 接口和 Web 交互界面，可快速集成至 RAG 系统。通过 GGUF 量化格式平衡精度与资源消耗，适配消费级显卡运行，满足多语言检索与语义理解需求。

栈溢出发布于 2026/4/10更新于 2026/7/2138 浏览

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

1. 引言

1.1 通义千问 3-Embedding-4B：面向未来的文本向量化模型

Qwen3-Embedding-4B 是阿里云通义千问（Qwen）系列中专为「语义向量化」设计的中等规模双塔模型，于 2025 年 8 月正式开源。该模型以 4B 参数量、2560 维输出向量、支持 32k 长文本上下文为核心亮点，定位为兼顾性能与效率的企业级语义理解基础设施组件。

其在 MTEB（Multilingual Task Evaluation Benchmark）三大子集上表现优异：英文 74.60、中文 68.09、代码 73.50，均优于同尺寸开源 embedding 模型。更重要的是，它支持 119 种自然语言及主流编程语言，在跨语言检索、bitext 挖掘等任务中达到官方评估 S 级水平。

得益于 Apache 2.0 开源协议，Qwen3-Embedding-4B 可直接用于商业场景，无需额外授权，极大降低了企业构建多语言知识库、智能客服、文档去重系统的门槛。

1.2 部署目标：轻量化 + 高性能 + 易用性

本文聚焦于如何通过 llama.cpp 实现 Qwen3-Embedding-4B 的本地化高效部署，并结合 vLLM + Open WebUI 构建完整的可视化知识库体验系统。目标是让开发者在消费级显卡（如 RTX 3060）上即可运行完整服务，实现：

支持 32k 长文本编码
单卡显存占用低于 3GB（使用 GGUF-Q4 量化）
提供 REST API 接口和 Web 交互界面
可快速集成至 RAG（检索增强生成）系统

2. 技术选型与架构设计

2.1 核心技术栈说明

组件	功能
`Qwen3-Embedding-4B`	主体向量化模型，负责将文本映射到 2560 维语义空间
`llama.cpp`	C/C++推理框架，支持 GGUF 格式模型加载与 CPU/GPU 混合推理
`vLLM`	高性能推理服务引擎，支持异步批处理与 PagedAttention
`Open WebUI`	前端可视化界面，提供类 ChatGPT 的操作体验
`Docker`	容器化部署，确保环境一致性

2.2 系统整体架构

+------------------+ +---------------------+
| Open WebUI       | <-> | vLLM (API Server) |
+------------------+ +----------+----------+
                                 |
                                 v
                         
                          Qwen3EmbeddingB 
                          (via llama.cpp)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 示例：使用 huggingface-cli 下载
huggingface-cli download Qwen/Qwen3-Embedding-4B \
  --include "gguf/*" \
  --local-dir ./models/qwen3-embedding-4b

类型	显存需求	推理速度	精度损失
F16	~8 GB	中	无
Q8_0	~6 GB	较慢	极低
Q5_K_M	~4.2 GB	快	低
Q4_K_M	~3.0 GB	很快	可接受
Q3_K_S	~2.5 GB	最快	明显

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUBLAS=1 -j

./server \
  -m ./models/qwen3-embedding-4b/qwen3-embedding-4b-q4_k_m.gguf \
  --port 8080 \
  --embedding \
  --n-gpu-layers 35 \
  --batch-size 512 \
  --threads 8

参数	说明
`-m`	指定 GGUF 模型路径
`--embedding`	启用 embedding 模式
`--n-gpu-layers`	尽可能多卸载层到 GPU（36 层建议设为 35）
`--batch-size`	批处理大小，影响吞吐量
`--threads`	CPU 线程数

import requests
url = "http://localhost:8080/embeddings"
data = { "content": "这是一段需要向量化的中文文本，长度可达 32768 个 token。" }
response = requests.post(url, json=data)
vector = response.json()["embedding"]
print(f"向量维度：{len(vector)}") # 输出：2560

python3 convert_gguf_to_hf.py \
  --input ./models/qwen3-embedding-4b/qwen3-embedding-4b-q4_k_m.gguf \
  --output ./hf_models/Qwen3-Embedding-4B-GGUF

pip install vllm openai
# 启动一个轻量 OpenAI 兼容服务
uvicorn app:app --host 0.0.0.0 --port 8000

from fastapi import FastAPI
import httpx
import asyncio

app = FastAPI()
LLAMA_CPP_URL = "http://localhost:8080/embeddings"

@app.post("/v1/embeddings")
async def get_embedding(request: dict):
    async with httpx.AsyncClient() as client:
        payload = {"content": request["input"]}
        response = await client.post(LLAMA_CPP_URL, json=payload)
        result = response.json()
        return {
            "data": [
                { "object": "embedding", "embedding": result["embedding"], "index": 0 }
            ],
            "model": "qwen3-embedding-4b",
            "usage": {"prompt_tokens": len(result.get("tokens", [])), "total_tokens": len(result.get("tokens", []))}
        }

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://your-server-ip:8000 \
  -v open-webui-data:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

优化项	建议值	说明
GPU 层数	35~36	充分利用 GPU 加速 Transformer 层
批大小	64~512	大批量提升吞吐，但增加延迟
量化格式	Q4_K_M	平衡精度与显存
线程数	CPU 核心数的 70%	避免过度竞争

输入长度	吞吐量（docs/s）	显存占用
512 token	~800	2.9 GB
2k token	~320	3.1 GB
8k token	~90	3.3 GB

import numpy as np
from sklearn.random_projection import GaussianRandomProjection

# 训练投影矩阵（一次训练，长期使用）
rp = GaussianRandomProjection(n_components=128)
reduced_vec = rp.fit_transform([full_vector])[0]

"为语义检索编码：" + 文本
"用于文本分类：" + 文本
"进行聚类分析：" + 文本

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

1. 引言

1.1 通义千问 3-Embedding-4B：面向未来的文本向量化模型

1.2 部署目标：轻量化 + 高性能 + 易用性

2. 技术选型与架构设计

2.1 核心技术栈说明

2.2 系统整体架构

更多推荐文章

相关免费在线工具

3. llama.cpp 集成部署实践

3.1 准备工作：获取模型文件

3.2 编译并配置 llama.cpp

步骤 1：克隆仓库并编译

步骤 2：启动 embedding 服务

步骤 3：测试 API 调用

4. vLLM + Open WebUI 构建知识库系统

4.1 使用 vLLM 托管 Embedding 服务

转换 GGUF 到 HF 格式（可选）

替代方案：vLLM 代理 llama.cpp 服务

4.2 部署 Open WebUI 实现可视化操作

步骤 1：启动 Open WebUI 容器

步骤 2：登录并配置 Embedding 模型

步骤 3：创建知识库并验证效果

效果验证示例

5. 性能优化与工程建议

5.1 显存与推理速度调优

5.2 支持动态维度投影（MRL）

5.3 指令感知向量生成技巧

6. 总结

6.1 方案价值总结

6.2 最佳实践建议

更多推荐文章

相关免费在线工具

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程

1. 引言

1.1 通义千问 3-Embedding-4B：面向未来的文本向量化模型

1.2 部署目标：轻量化 + 高性能 + 易用性

2. 技术选型与架构设计

2.1 核心技术栈说明

2.2 系统整体架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. llama.cpp 集成部署实践

3.1 准备工作：获取模型文件

3.2 编译并配置 llama.cpp

步骤 1：克隆仓库并编译

步骤 2：启动 embedding 服务

步骤 3：测试 API 调用

4. vLLM + Open WebUI 构建知识库系统

4.1 使用 vLLM 托管 Embedding 服务

转换 GGUF 到 HF 格式（可选）

替代方案：vLLM 代理 llama.cpp 服务

4.2 部署 Open WebUI 实现可视化操作

步骤 1：启动 Open WebUI 容器

步骤 2：登录并配置 Embedding 模型

步骤 3：创建知识库并验证效果

效果验证示例

5. 性能优化与工程建议

5.1 显存与推理速度调优

5.2 支持动态维度投影（MRL）

5.3 指令感知向量生成技巧

6. 总结

6.1 方案价值总结

6.2 最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具