Qwen3-Embedding-4B 与 llama.cpp 部署实战 | 极客日志

PythonAI算法

Qwen3-Embedding-4B 与 llama.cpp 部署实战

介绍 Qwen3-Embedding-4B 模型的本地化部署方案。该模型支持 32k 上下文和 2560 维向量输出。主要包含两种路径：一是基于 llama.cpp 结合 GGUF 量化模型实现轻量化本地服务；二是利用 vLLM 配合 Open WebUI 构建可视化知识库系统，支持 RAG 检索。教程涵盖环境准备、模型编译、API 接口调试及效果验证，适用于消费级显卡运行及企业级知识引擎搭建。

乱七八糟发布于 2026/4/6更新于 2026/7/2553 浏览

Qwen3-Embedding-4B 与 llama.cpp 部署实战

1. 引言

随着大模型在语义理解、信息检索和知识管理等场景的广泛应用，高质量的文本向量化能力成为构建智能系统的核心基础。通义千问团队于 2025 年 8 月开源了 Qwen3-Embedding-4B ——一款专为高效文本嵌入设计的中等规模双塔模型。该模型以 4B 参数量实现了对 32k 长文本的支持，输出 2560 维高精度向量，并在 MTEB 多项基准测试中超越同尺寸模型。

本文将围绕 Qwen3-Embedding-4B 的本地化部署实践展开，重点介绍如何结合 llama.cpp 和 vLLM + Open WebUI 构建一个可交互、高性能的知识库服务系统。无论你是想在消费级显卡（如 RTX 3060）上运行语义搜索，还是希望搭建支持多语言、长文档的企业级知识引擎，本教程都能提供完整可落地的技术路径。

2. Qwen3-Embedding-4B 模型特性解析

2.1 核心架构与技术亮点

Qwen3-Embedding-4B 是阿里云 Qwen3 系列中专注于「文本向量化」任务的专用模型，采用标准的 Dense Transformer 结构，共 36 层，基于双塔编码器架构进行训练。其核心目标是生成高质量、通用性强的句向量表示，适用于检索、聚类、分类等多种下游任务。

主要技术特征如下：

高维度表达能力：默认输出 2560 维向量，具备强大的语义捕捉能力；同时支持通过 MRL（Multi-Resolution Layer）机制在线投影至任意维度（32~2560），灵活平衡精度与存储开销。
超长上下文支持：最大支持 32,768 token 的输入长度，能够完整编码整篇论文、法律合同或大型代码文件，避免传统模型因截断导致的信息丢失。
多语言通用性：覆盖 119 种自然语言及主流编程语言，官方评测显示其在跨语种检索与双语文本挖掘任务中达到 S 级性能。
指令感知能力：无需微调即可通过添加前缀任务描述（如'为检索生成向量'、'用于分类的表示'）动态调整输出向量空间，适配不同应用场景。
商用友好协议：采用 Apache 2.0 开源许可，允许自由使用、修改和商业部署。

2.2 性能表现与选型优势

指标	表现
参数量	4B
显存占用（FP16）	~8 GB
GGUF 量化后体积（Q4_K_M）	~3 GB
向量维度	2560（可投影）
上下文长度	32k tokens
MTEB (Eng.v2)	74.60
CMTEB (中文)	68.09
MTEB (Code)	73.50

一句话总结： '4 B 参数，3 GB 显存，2560 维向量，32 k 长文，MTEB 英/中/代码三项 74+/68+/73+，可商用。'

得益于高效的结构设计和先进的训练策略，Qwen3-Embedding-4B 在 RTX 3060 这类消费级 GPU 上即可实现每秒处理 800+ 文档 的推理速度（使用 GGUF-Q4 量化版本），非常适合中小企业和个人开发者构建本地知识库系统。

3. 基于 llama.cpp 的轻量化本地部署

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUBLAS=1 -j

wget <model_url>/Qwen/Qwen3-Embedding-4B-GGUF-Q4_K_M.gguf

./main \
  -m ./models/Qwen3-Embedding-4B-GGUF-Q4_K_M.gguf \
  --port 8080 \
  --embedding \
  --n-gpu-layers 35 \
  --batch-size 512 \
  --threads 8

POST http://localhost:8080/embedding
Content-Type: application/json
{
  "content": "这是一段需要编码的中文文本"
}

{
  "embedding": [0.123, -0.456, ..., 0.789],
  "length": 2560,
  "model": "Qwen3-Embedding-4B"
}

docker run -d \
  -p 3000:8080 \
  -p 8888:8888 \
  -e OPENAI_API_KEY=dummy \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

from vllm import LLM, SamplingParams
import torch

class Qwen3EmbeddingModel:
    def __init__(self, model_path="Qwen/Qwen3-Embedding-4B"):
        self.llm = LLM(
            model=model_path,
            tensor_parallel_size=1,
            dtype="half",
            gpu_memory_utilization=0.9,
            enforce_eager=True,
            max_model_len=32768
        )

    def encode(self, texts):
        sampling_params = SamplingParams(temperature=0, max_tokens=1)
        outputs = self.llm.generate(texts, sampling_params, use_tqdm=False)
        embeddings = []
        for output in outputs:
            # 获取最后一层 [EDS] token 的隐藏状态
            last_hidden_state = output.outputs[0].logprobs[-1]
            embeddings.append(last_hidden_state.tolist())
        return embeddings

from fastapi import FastAPI
import uvicorn

app = FastAPI()
model = Qwen3EmbeddingModel()

@app.post("/v1/embeddings")
def get_embeddings(request: dict):
    texts = request["input"]
    vectors = model.encode(texts)
    return {
        "data": [
            {"embedding": vec, "index": i} for i, vec in enumerate(vectors)
        ],
        "model": "Qwen3-Embedding-4B",
        "object": "list"
    }

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

{
  "input": [
    "全球变暖是由于温室气体排放增加引起的。",
    "Climate change poses risks to biodiversity."
  ]
}

Qwen3-Embedding-4B 与 llama.cpp 部署实战

Qwen3-Embedding-4B 与 llama.cpp 部署实战

1. 引言

2. Qwen3-Embedding-4B 模型特性解析

2.1 核心架构与技术亮点

主要技术特征如下：

2.2 性能表现与选型优势

3. 基于 llama.cpp 的轻量化本地部署

更多推荐文章

相关免费在线工具

3.1 准备工作

所需工具：

步骤一：克隆并编译 llama.cpp

步骤二：下载 Qwen3-Embedding-4B 的 GGUF 模型

步骤三：启动嵌入服务

4. 使用 vLLM + Open WebUI 构建可视化知识库系统

4.1 技术栈概述

4.2 部署步骤

步骤一：拉取并运行 Open WebUI 容器

步骤二：部署支持 Qwen3-Embedding-4B 的 vLLM 服务

步骤三：配置 Open WebUI 使用自定义 Embedding 接口

5. 效果验证与接口调试

5.1 设置 Embedding 模型

5.2 上传文档并验证检索效果

5.3 查看接口请求日志

6. 总结

更多推荐文章

相关免费在线工具

Qwen3-Embedding-4B 与 llama.cpp 部署实战

Qwen3-Embedding-4B 与 llama.cpp 部署实战

1. 引言

2. Qwen3-Embedding-4B 模型特性解析

2.1 核心架构与技术亮点

主要技术特征如下：

2.2 性能表现与选型优势

3. 基于 llama.cpp 的轻量化本地部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 准备工作

所需工具：

步骤一：克隆并编译 llama.cpp

步骤二：下载 Qwen3-Embedding-4B 的 GGUF 模型

步骤三：启动嵌入服务

4. 使用 vLLM + Open WebUI 构建可视化知识库系统

4.1 技术栈概述

4.2 部署步骤

步骤一：拉取并运行 Open WebUI 容器

步骤二：部署支持 Qwen3-Embedding-4B 的 vLLM 服务

步骤三：配置 Open WebUI 使用自定义 Embedding 接口

5. 效果验证与接口调试

5.1 设置 Embedding 模型

5.2 上传文档并验证检索效果

5.3 查看接口请求日志

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具