Qwen3-VL-Embedding 与 Reranker 模型：统一多模态表征与排序

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 是通义千问团队开源的多模态检索模型系列。它们基于 Qwen3-VL 构建，支持文本、图像、文档和视频的统一表征与排序。模型采用双塔架构生成嵌入向量，交叉编码器进行重排序，支持超过 30 种语言及多种参数规模。在 MMEB-v2 基准测试中表现领先，并集成了 Matryoshka 表示学习和量化感知训练以优化部署效率。文章详细介绍了模型架构、数据构建、训练策略、评测结果及 Python 使用示例。

黑客帝国发布于 2026/4/6更新于 2026/7/2462 浏览

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：统一多模态表征与排序

摘要

2025 年 6 月，Qwen 团队开源了面向文本的 Qwen3-Embedding 和 Qwen3-ReRanker 模型系列，在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能。

2026 年 1 月，该团队推出了 Qwen 家族的最新成员：Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列。这些模型基于开源的 Qwen3-VL 模型构建，专为多模态信息检索和跨模态理解场景设计，能够将文本、图像、文档图像和视频等多种模态映射到统一的表示空间中。

Qwen3-VL-Embedding 模型采用多阶段训练范式，从大规模对比预训练逐步发展到重排序模型蒸馏，以生成语义丰富的高维向量。该模型支持 Matryoshka 表示学习（MRL），可灵活选择嵌入维度，并能处理最多 32K tokens 的输入。作为补充，Qwen3-VL-Reranker 采用交叉编码器架构和交叉注意力机制，对查询 - 文档对进行细粒度的相关性评估。

两个模型系列继承了 Qwen3-VL 的多语言能力，支持超过 30 种语言，并提供 2B 和 8B 两种参数规模，以满足不同的部署需求。评估结果表明，Qwen3-VL-Embedding-8B 在 MMEB-V2 上获得了 77.8 分的总成绩，在所有模型中排名第一（截至 2026 年 1 月 8 日）。

文章配图

图 1： 统一多模态表示空间示意图。Qwen3-VL-Embedding 模型系列将多源数据（文本、图像、视觉文档和视频）映射到共同的高维语义空间。通过跨模态对齐语义概念（例如，文本"urban architecture"与其对应的图像），该模型实现了对复杂视觉和文本信息的整体理解。

参考资料：

- 技术报告：https://github.com/QwenLM/Qwen3-VL-Embedding/blob/main/assets/qwen3vlembedding_technical_report.pdf
- qwen3-vl-embedding：https://huggingface.co/collections/Qwen/qwen3-vl-embedding
- qwen3-vl-reranker：https://huggingface.co/collections/Qwen/qwen3-vl-reranker
- Qwen3-VL-Embedding：https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding
- Qwen3-VL-Reranker：https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker
- Github 仓库：https://github.com/QwenLM/Qwen3-VL-Embedding
- 博客：https://qwen.ai/blog?id=qwen3-vl-embedding

一、引言

1.1 背景与动机

随着互联网多模态内容的指数级增长，现代数字生态系统日益充斥着多样化的数据模态，包括自然图像、文本文档、信息图表、截图和视频。这种多样性要求检索系统具备跨模态语义理解和匹配能力，超越传统的纯文本搜索范式。多模态搜索已成为从电子商务产品发现到科学文献探索和社交媒体导航等应用的关键能力。

在当代多模态检索架构中，嵌入（embedding）和重排序（reranking）模型构成了两个最关键的模块。过去十年，多模态表示学习领域取得了显著进展。其中，CLIP（对比语言 - 图像预训练）通过展示大规模图像 - 文本对的对比学习可以产生强大的对齐表示，产生了深远影响。其成功巩固了学习共享嵌入空间的重要性，在该空间中，语义相似的内容无论其模态如何都被定位在相近的表示空间中。

随着基础模型的发展加速，多模态预训练视觉 - 语言模型（VLMs）如 Qwen-VL 和 GPT-4o 在多模态理解方面取得了前所未有的成功。基于这些突破，多模态检索社区越来越多地探索基于 VLMs 训练统一的多模态嵌入模型。该领域的显著努力包括 E5-V、GME、BGE-VL 和 VLM2Vec 等。

基于 VLMs 训练统一多模态表示具有几个引人注目的优势：

VLMs 通过在大规模图像 - 文本数据集上的预训练，具有固有的跨模态对齐能力
利用复杂的注意力机制来捕获视觉和文本元素之间的细粒度交互
为处理复杂的多模态文档（如信息图表和演示幻灯片）提供了自然路径
可以继承基础模型中编码的广泛多语言和多领域知识，在各种检索场景中实现更强大的泛化能力

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：统一多模态表征与排序

摘要

文章配图

参考资料：

- 技术报告：https://github.com/QwenLM/Qwen3-VL-Embedding/blob/main/assets/qwen3vlembedding_technical_report.pdf
- qwen3-vl-embedding：https://huggingface.co/collections/Qwen/qwen3-vl-embedding
- qwen3-vl-reranker：https://huggingface.co/collections/Qwen/qwen3-vl-reranker
- Qwen3-VL-Embedding：https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding
- Qwen3-VL-Reranker：https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker
- Github 仓库：https://github.com/QwenLM/Qwen3-VL-Embedding
- 博客：https://qwen.ai/blog?id=qwen3-vl-embedding

一、引言

1.1 背景与动机

基于 VLMs 训练统一多模态表示具有几个引人注目的优势：

VLMs 通过在大规模图像 - 文本数据集上的预训练，具有固有的跨模态对齐能力
利用复杂的注意力机制来捕获视觉和文本元素之间的细粒度交互
为处理复杂的多模态文档（如信息图表和演示幻灯片）提供了自然路径
可以继承基础模型中编码的广泛多语言和多领域知识，在各种检索场景中实现更强大的泛化能力

模型	参数量	模型层数	序列长度	嵌入维度	量化支持	MRL 支持	指令感知
Qwen3-VL-Embedding-2B	2B	28	32K	2048	✓	✓	✓
Qwen3-VL-Embedding-8B	8B	36	32K	4096	✓	✓	✓
Qwen3-VL-Reranker-2B	2B	28	32K	-	-	-	✓
Qwen3-VL-Reranker-8B	8B	36	32K	-	-	-	✓

对比维度	Qwen3-VL-Embedding	Qwen3-VL-Reranker
核心功能	语义表示、嵌入生成	相关性评分、重排序
输入格式	单模态或混合模态（文本、图像、视频、截图）	(Query, Document) 对，Query 和 Document 均可为单模态或混合模态输入
工作机制	独立编码，高效检索（双塔架构）	深度跨模态交互（单塔架构）
输出目标	向量空间中的语义聚类	输出相关性分数

模型阶段	图像总分	视频总分	视觉文档总分	总分
s0	65.8	57.5	74.8	66.6
s1	74.8	60.3	77.1	72.1
s2	71.3	59.5	80.9	71.5
s3	75.0	61.9	79.2	73.2

Qwen3-VL-Embedding 与 Reranker 模型：统一多模态表征与排序

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：统一多模态表征与排序

摘要

一、引言

1.1 背景与动机

Qwen3-VL-Embedding 与 Reranker 模型：统一多模态表征与排序

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：统一多模态表征与排序

摘要

一、引言

1.1 背景与动机

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2 核心特性

多模态通用性

统一表示学习（Embedding）

高精度重排序（Reranker）

卓越的实用性

二、模型概览

2.1 模型规格

2.2 模型架构

2.2.1 Embedding 方法

2.2.2 Reranking 方法

2.3 功能特性对比

三、数据构建

3.1 数据集格式

3.2 数据合成

种子池构建

图像任务注释

视频任务注释

3.3 正样本精炼和困难负样本挖掘

召回阶段

相关性过滤

四、训练策略

4.1 多阶段训练流程

阶段 1：对比预训练

阶段 2：多任务对比学习和监督微调

阶段 3：蒸馏和模型融合

4.2 实现细节

五、训练目标

5.1 Embedding 模型的损失函数

检索数据损失

分类数据损失

语义文本相似度（STS）数据

蒸馏数据

5.1.1 高效推理的附加技术

5.2 Reranking 模型的损失函数

六、评测结果

6.1 多模态基准测试

6.2 视觉文档基准测试

6.3 文本基准测试

6.4 Reranking 模型评估

七、性能分析

7.1 MRL 和嵌入量化的有效性

7.2 空间和时间粒度的影响

7.3 各训练阶段的性能

八、使用指南

8.1 Embedding 模型使用示例

8.2 Reranking 模型使用示例

九、结论与展望

9.1 主要贡献

9.2 未来方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具