Qwen3-VL 模型架构与训练流程

Qwen3-VL 模型提供稠密型和混合专家型两种变体，原生支持 256K token 交错序列，适用于长文档、图像序列和视频推理。架构创新包括增强的交错 MRoPE 位置编码、SigLIP-2 视觉编码器、显式文本时间戳及 DeepStack 视觉 - 语言融合机制。训练涵盖预训练四阶段及后训练策略，数据包含高质量图文、OCR 及长文档。评测显示其在视觉问答、多模态推理、文档理解及视频理解等任务中表现优异，尤其在长上下文和细粒度感知方面有显著提升。

时间旅人发布于 2026/3/16更新于 2026/4/2618 浏览

速读：Qwen3-VL

模型家族包含密集型（2B/4B/8B/32B）与混合专家（Mixture-of-Experts, MoE）两种架构（30B-A3B/235B-A22B），以适应不同延迟 - 质量权衡需求。

1、快速介绍

Qwen3-VL-4B/8B 发布，Qwen3-VL 系列小参数模型，共提供 4B 与 8B 两种参数规模，每种规模均发布 Instruct 与 Thinking 两个版本。

主要特点为模型原生上下文 256K，可扩展至 1M，支持小时级视频逐秒索引；新增 Interleaved-MRoPE、DeepStack 与 Text–Timestamp Alignment 三项结构改进，分别用于长视频时序建模、多尺度 ViT 特征融合和事件定位。OCR 语种从 19 种增至 32 种，低光、模糊、倾斜场景下的鲁棒性提升，可解析古籍与专业术语。视觉 Agent 可直接操作 PC 与移动 GUI，完成元素识别、工具调用与任务闭环；视觉编码增强功能可根据图像或视频生成 Draw.io、HTML、CSS、JS 代码；空间感知支持 2D Grounding 与 3D Grounding，可判断物体位置、视角与遮挡关系。

2、模型应用

这些 Cookbook 围绕真实场景设计，覆盖高精度文档解析、多语言自然场景 OCR、长视频理解、3D 物体定位、空间关系推理，以及面向移动端和计算机操作的智能体控制等核心能力，全面展现 Qwen3-VL 在复杂视觉语言任务中的强大表现。

一、研究背景

研究问题：这篇文章要解决的问题是如何构建一个能力更强的视觉语言模型（VL 模型），以在多模态基准测试中取得卓越的表现。具体来说，该模型需要支持高达 256K token 的交错上下文，无缝集成文本、图像和视频。
研究难点：该问题的研究难点包括：如何在保持文本理解能力的同时，增强长上下文理解能力；如何有效地进行跨模态推理；如何在多模态学习目标之间平衡文本和模态数据的贡献。
相关工作：该问题的研究相关工作包括早期的视觉语言模型（如 CLIP 和 ALIGN）以及最近的多模态模型（如 Llama 系列和 Gemini 系列）。这些模型在视觉感知、长上下文理解和多模态推理方面取得了一定的进展，但在处理长视频和复杂任务时仍存在不足。

二、Qwen3-VL 模型架构

相关模型列表： Qwen3-VL 以三种密集型变体（Qwen3-VL-2B/4B/8B/32B）和两种 MoE（Mixture of Experts）变体（Qwen3-VL-30B-A3B、Qwen3-VL-235B-A22B）实现，均基于 Qwen3 Backbone 构建。旗舰模型 Qwen3-VL-235B-A22B 拥有总计 2350 亿参数，每 token 激活 220 亿参数。该模型在广泛的多模态任务中表现优于大多数视觉语言模型（Visual Language Model, VLM），并在多数语言基准测试中超越其纯文本对应模型。

1、增强的交错 MRoPE 位置编码

1、前置知识回顾：（1）复数 e^{i\theta} 的模长为 1，是一个只旋转、不变长短的算子： z = e^{i\theta} = \cos\theta + i\sin\theta 模长（长度）公式： |z| = \sqrt{\cos^2\theta + \sin^2\theta} 因为三角恒等式： \cos^2\theta + \sin^2\theta = 1 所以： |e^{i\theta}| = \sqrt{1} = 1

（2）ROPE 的本质：RoPE 做的事只有一件事，对每个 token／像素，给一个旋转角度：\theta_m = m \cdot \theta_i

m = 位置（第几个像素／第几帧）
\theta_i = 基底频率（决定转得快还是慢）然后用这个角度做旋转： (q, m) \rightarrow q \cdot e^{im\theta_i}

（3）这里的旋转是在复数平面上的旋转。每两个维度作为一组，当做一个平面向量，然后按位置角度旋转。比如在 (x, y) 点，绕原点转 \theta 角，二维平面上的旋转公式：在 (x, y) 点，绕原点转 \theta 角，新坐标 (x', y') 是： \left{\begin{array}{l} x' = x \cdot \cos\theta - y \cdot \sin\theta \ y' = x \cdot \sin\theta + y \cdot \cos\theta \end{array}\right.

（4）RoPE 中第 i 维的角度：\theta_i = \frac{1}{10000^{\frac{2i}{d}}}，其中 i 表示维度序号，d 表示总维度。

（5）RoPE 旋转位置编码的高低频含义：

低频：\theta_i 很小 → 转得很慢，擅长远距离位置区分（长序列、大图、长视频等）
高频（维度越低的时候）：\theta_i 很大 → 转得极快，转得快，位置稍微一变，角度就剧变，擅长近距离精细区分（小区域、局部细节）

2、传统的 MRoPE 和当前交错 MRoPE 的对比：

传统的 MRoPE（在 qwen2.5 VL 中）：
- 将嵌入维度划分为时间（t）、水平（h）和垂直（w）子空间，导致频谱不平衡。

速读：Qwen3-VL

模型家族包含密集型（2B/4B/8B/32B）与混合专家（Mixture-of-Experts, MoE）两种架构（30B-A3B/235B-A22B），以适应不同延迟 - 质量权衡需求。

1、快速介绍

Qwen3-VL-4B/8B 发布，Qwen3-VL 系列小参数模型，共提供 4B 与 8B 两种参数规模，每种规模均发布 Instruct 与 Thinking 两个版本。

2、模型应用

一、研究背景

研究问题：这篇文章要解决的问题是如何构建一个能力更强的视觉语言模型（VL 模型），以在多模态基准测试中取得卓越的表现。具体来说，该模型需要支持高达 256K token 的交错上下文，无缝集成文本、图像和视频。
研究难点：该问题的研究难点包括：如何在保持文本理解能力的同时，增强长上下文理解能力；如何有效地进行跨模态推理；如何在多模态学习目标之间平衡文本和模态数据的贡献。
相关工作：该问题的研究相关工作包括早期的视觉语言模型（如 CLIP 和 ALIGN）以及最近的多模态模型（如 Llama 系列和 Gemini 系列）。这些模型在视觉感知、长上下文理解和多模态推理方面取得了一定的进展，但在处理长视频和复杂任务时仍存在不足。

二、Qwen3-VL 模型架构

1、增强的交错 MRoPE 位置编码

（2）ROPE 的本质：RoPE 做的事只有一件事，对每个 token／像素，给一个旋转角度：\theta_m = m \cdot \theta_i

m = 位置（第几个像素／第几帧）
\theta_i = 基底频率（决定转得快还是慢）然后用这个角度做旋转： (q, m) \rightarrow q \cdot e^{im\theta_i}

（4）RoPE 中第 i 维的角度：\theta_i = \frac{1}{10000^{\frac{2i}{d}}}，其中 i 表示维度序号，d 表示总维度。

（5）RoPE 旋转位置编码的高低频含义：

低频：\theta_i 很小 → 转得很慢，擅长远距离位置区分（长序列、大图、长视频等）
高频（维度越低的时候）：\theta_i 很大 → 转得极快，转得快，位置稍微一变，角度就剧变，擅长近距离精细区分（小区域、局部细节）

2、传统的 MRoPE 和当前交错 MRoPE 的对比：

传统的 MRoPE（在 qwen2.5 VL 中）：
- 将嵌入维度划分为时间（t）、水平（h）和垂直（w）子空间，导致频谱不平衡。

	Qwen2.5-VL	Qwen3-VL
方案	T-RoPE (绝对时间位置编码)	文本时间戳 (Text-based Timestamp)
实现方式	通过 MRoPE 位置编码直接嵌入绝对时间信息	用格式化文本字符串如 `<3.0 seconds>` 作为 token 输入
状态	❌ 被弃用	✅ 当前 qwen3 vl 采用

特性	说明
每个 Merger 的结构	仍然是 2 层 MLP（与 Qwen2.5-VL 相同）
Merger 数量	3 个（对应选取的 3 个 ViT 层）
输出到哪里	分别加到 LLM 的第 1/2/3 层的 hidden states（通过残差连接）

数据类型	关键改进
图像标题	用 Qwen2.5-VL-32B 重新生成高质量描述，语义去重
交错图文	支持长达 256K tokens 的书籍级文档
OCR	扩展至39 种语言 (Qwen2.5-VL 仅 10 种)
文档解析	QwenVL-HTML/Markdown 双格式，支持复杂布局
grounding	归一化坐标 [0,1000]，支持 2D/3D 定位、计数
空间理解	关系推理、affordance、动作规划
代码	UI→HTML/CSS、图像→SVG、视觉编程
视频	时间戳交错描述、时空定位、长度自适应采样
STEM	6000 万 K-12/大学题目，1200 万长 CoT 推理
Agent	GUI 感知 + 决策、函数调用、搜索能力

Qwen3-VL 模型架构与训练流程

速读：Qwen3-VL

1、快速介绍

2、模型应用

一、研究背景

二、Qwen3-VL 模型架构

1、增强的交错 MRoPE 位置编码

Qwen3-VL 模型架构与训练流程

速读：Qwen3-VL

1、快速介绍

2、模型应用

一、研究背景

二、Qwen3-VL 模型架构

1、增强的交错 MRoPE 位置编码

更多推荐文章

相关免费在线工具

2、视觉编码器

3、显式视频时间戳

4、视觉 - 语言融合：DeepStack 集成

5、其他

三、模型训练

四、模型评测分析

五、相关代码解读

1、数据流

2、多模态处理

3、模型变体与扩展

更多推荐文章

相关免费在线工具

Qwen3-VL 模型架构与训练流程

速读：Qwen3-VL

1、快速介绍

2、模型应用

一、研究背景

二、Qwen3-VL 模型架构

1、增强的交错 MRoPE 位置编码

Qwen3-VL 模型架构与训练流程

速读：Qwen3-VL

1、快速介绍

2、模型应用

一、研究背景

二、Qwen3-VL 模型架构

1、增强的交错 MRoPE 位置编码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2、视觉编码器

3、显式视频时间戳

4、视觉 - 语言融合：DeepStack 集成

5、其他

三、模型训练

四、模型评测分析

五、相关代码解读

1、数据流

2、多模态处理

3、模型变体与扩展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具