Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤 | 极客日志

PythonAI算法

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

介绍 Qwen3-Embedding-4B 模型的本地化部署流程。涵盖环境准备、模型转换（PyTorch 转 GGUF）、llama.cpp 服务启动及 Open WebUI 知识库集成。通过量化优化显存占用，结合 vLLM 提供 API 接口，实现长文本向量化与语义搜索功能。适用于跨语言检索、文档去重等场景，支持 Apache 2.0 商用许可。

鲜活发布于 2026/4/6更新于 2026/7/2161 浏览

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

1. 技术背景与学习目标

通义千问 3-Embedding-4B 是阿里云 Qwen3 系列中专为文本向量化任务设计的高性能模型，参数规模达 40 亿，支持高达 32,768 个 token 的长文本编码，并输出 2560 维高质量语义向量。该模型采用 Apache 2.0 协议，允许商用，适用于跨语言检索、知识库构建、文档去重、聚类分析等场景。

本文是一篇从零开始的实战部署指南，重点介绍如何将 Qwen/Qwen3-Embedding-4B 模型通过 llama.cpp 进行本地化部署，并结合 vLLM 和 Open WebUI 构建完整的可视化知识库系统。读者将掌握以下技能：

下载并转换 Qwen3-Embedding-4B 为 GGUF 格式
使用 llama.cpp 运行嵌入模型
部署 vLLM 服务以提供 API 接口
配置 Open WebUI 实现交互式知识库体验
验证 embedding 效果及性能指标

本教程适合具备基础 Linux 命令和 Python 环境管理能力的开发者，前置知识包括 Docker 使用、HTTP API 调用和向量数据库基本概念。

2. 环境准备与依赖安装

2.1 硬件与软件要求

项目	推荐配置
GPU 显存	≥ 8 GB（FP16 原生）或 ≥ 6 GB（GGUF-Q4 量化）
CPU 核心数	≥ 8 核
内存	≥ 16 GB
存储空间	≥ 10 GB（含模型缓存）
操作系统	Ubuntu 20.04+ / WSL2 / macOS（Apple Silicon）

提示：RTX 3060/4060 及以上显卡可流畅运行 Q4_K_M 量化版本，推理速度可达 800 docs/s 以上。

2.2 安装必要工具链

# 更新系统
sudo apt update && sudo apt upgrade -y
# 安装 Git、CMake、Build-Essential
sudo apt install git cmake build-essential python3-pip -y
# 克隆 llama.cpp 仓库
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make clean && LLAMA_CUBLAS=1 make -j

注意：若使用 NVIDIA GPU，请确保已安装 CUDA 驱动（≥11.8），并通过 nvidia-smi 验证可用性。

2.3 获取 Qwen3-Embedding-4B 模型文件

目前官方未直接发布 GGUF 格式，需自行转换 HuggingFace 模型。推荐使用 HuggingFace Hub 下载原始模型：

# 安装 Hugging Face CLI
pip install huggingface-hub

huggingface-cli login

huggingface-cli download Qwen/Qwen3-Embedding-4B --local-dir ./models/qwen3-embedding-4b

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 创建模型输出目录
mkdir -p gguf_models
# 执行转换（示例为 Q4_K_M 量化）
python3 convert.py \
    ../models/qwen3-embedding-4b \
    --outtype f16 \
    --outfile gguf_models/qwen3-embedding-4b-f16.gguf
# 量化到 Q4_K_M（节省显存）
../quantize gguf_models/qwen3-embedding-4b-f16.gguf gguf_models/qwen3-embedding-4b-q4_k_m.gguf Q4_K_M

# 测试加载模型
./main -m gguf_models/qwen3-embedding-4b-q4_k_m.gguf -t 8 --verbose-prompt --input-prefix "query: " --text "什么是人工智能？"

# 编译 server 组件（需开启 LLAMA_SERVER=1）
LLAMA_SERVER=1 LLAMA_CUBLAS=1 make server -j
# 启动服务
./server -m gguf_models/qwen3-embedding-4b-q4_k_m.gguf -c 4096 --port 8080 --threads 8 --gpu-layers 35

curl http://localhost:8080/embeddings \
  -H "Content-Type: application/json" \
  -d '{ "content": "query: 如何在 Python 中读取 JSON 文件？" }'

{
  "embedding": [-0.12, 0.45, ..., 0.03],
  "length": 2560,
  "model": "qwen3-embedding-4b",
  "prefix": "query: "
}

pip install vllm==0.4.2

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-Embedding-4B \
  --task embedding \
  --tensor-parallel-size 1 \
  --dtype half \
  --max-model-len 32768 \
  --port 8000

docker run -d \
  -p 3000:8080 \
  -e OPENAI_API_BASE=http://your-vllm-host:8000/v1 \
  -e OLLAMA_BASE_URL=http://your-ollama-host:11434 \
  -v open-webui-data:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

POST /embeddings HTTP/1.1
Host: your-vllm-host:8000
Content-Type: application/json
{
  "input": "query: 量子计算的基本原理",
  "model": "Qwen3-Embedding-4B"
}

优化项	推荐做法
量化级别	使用 Q4_K_M 平衡精度与显存占用
GPU 卸载	尽可能设置 `--gpu-layers 35`
批处理	多文档同时编码提升吞吐量
缓存机制	对高频查询结果做 Redis 缓存

任务类型	推荐前缀
检索	`query:` / `passage:`
分类	`classify: topic of`
聚类	`cluster: document about`
跨语言匹配	`translate query: en to zh`

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

1. 技术背景与学习目标

2. 环境准备与依赖安装

2.1 硬件与软件要求

2.2 安装必要工具链

2.3 获取 Qwen3-Embedding-4B 模型文件

更多推荐文章

相关免费在线工具

3. 模型转换：PyTorch → GGUF

3.1 准备转换脚本

3.2 验证模型完整性

4. 使用 llama.cpp 运行嵌入服务

4.1 启动本地嵌入服务器

4.2 调用 embedding API

5. 集成 vLLM + Open WebUI 打造知识库系统

5.1 部署 vLLM Embedding 服务

5.2 配置 Open WebUI 连接 embedding 服务

安装 Open WebUI（Docker 方式）

设置 embedding 模型

6. 知识库功能验证与接口调试

6.1 构建本地知识库

6.2 执行语义搜索

6.3 查看 API 请求日志

7. 性能优化与最佳实践

7.1 显存与速度优化建议

7.2 长文本处理技巧

7.3 指令前缀使用规范

8. 总结

更多推荐文章

相关免费在线工具

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

Qwen3-Embedding-4B 部署教程：llama.cpp 集成详细步骤

1. 技术背景与学习目标

2. 环境准备与依赖安装

2.1 硬件与软件要求

2.2 安装必要工具链

2.3 获取 Qwen3-Embedding-4B 模型文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 模型转换：PyTorch → GGUF

3.1 准备转换脚本

3.2 验证模型完整性

4. 使用 llama.cpp 运行嵌入服务

4.1 启动本地嵌入服务器

4.2 调用 embedding API

5. 集成 vLLM + Open WebUI 打造知识库系统

5.1 部署 vLLM Embedding 服务

5.2 配置 Open WebUI 连接 embedding 服务

安装 Open WebUI（Docker 方式）

设置 embedding 模型

6. 知识库功能验证与接口调试

6.1 构建本地知识库

6.2 执行语义搜索

6.3 查看 API 请求日志

7. 性能优化与最佳实践

7.1 显存与速度优化建议

7.2 长文本处理技巧

7.3 指令前缀使用规范

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具