多模态大模型解析：InternVL-v1.5 与 Qwen2VL 架构对比

多模态大模型：视觉模型与 LLM 的结合之路

一、背景与回顾

在多模态大模型的发展进程中，视觉编码器（Vision Encoder）与大语言模型（LLM）的融合方式经历了显著演变。早期的工作如 Mini-GPT4、Llava、Blip2 和 QwenVL 主要处于第一阶段，侧重于通过堆叠数据和设计训练任务来提升图像理解能力。然而，受限于图像分辨率（通常为 448x448）和视觉特征序列长度，这些模型在 OCR 能力和细节感知上存在瓶颈。

本文重点介绍进入第二阶段的多模态大模型代表：InternVL-v1.5 与 Qwen2VL。InternVL-v1.5 首次将 ViT 参数量扩展至 6B，并引入动态长宽比技术；Qwen2VL 则进一步提出了动态分辨率策略和统一的多模态位置编码。以下将详细解析两者的核心架构差异与技术实现。

二、InternVL-v1.5 深度解析

2.1 核心架构升级

相较于第一阶段的模型，InternVL-v1.5 在模型规模与数据处理上进行了重大革新：

特性	第一阶段模型	InternVL-v1.5
ViT 参数量	<300M	6B
图像分辨率	448*448	4484487 (动态)
视觉特征序列长度	512	1792
动态长宽比	不支持	支持

视觉编码器增强：InternVL-v1.5 将 ImageEncoder (ViT) 的参数量扩展到了 6B，显著提升了视觉特征的表达能力。同时，图像分辨率被提升至相当于 7 个 448x448 的 patch，并引入了动态长宽比机制。

数据增强：除了自然场景数据，InternVL-v1.5 还收集了大量文档数据，专门针对算法的 OCR 能力进行了强化。

2.2 动态长宽比 (Dynamic Aspect Ratio)

传统多模态模型通常将图像 resize 到固定的长宽比（如 448x448 或 1344x1344），这会导致两个问题：极端长宽比的图片失真严重，或者固定较大尺寸导致 ViT 产生超长序列消耗算力。

InternVL-v1.5 引入了动态长宽比解决方案，具体流程如下：

预设最大 Patch 数：设定 max_patches（例如 7），图像会被切分为多个 448x448 的 patch，但总数不超过该限制。
适配长宽比：根据 max_patches 计算可适配的长宽比组合（长 * 宽 <= max_patches - 1）。
匹配与切片：根据原图分辨率和长宽比，选择最匹配的网格（如 2:3），将图片 resize 后切片为多个 448x448 的 patch。
填充处理：若不足，将原图 resize 到 448x448 放在 patch 后面作为补充。

优势：

避免极端长宽比图片因强制 resize 导致的变形。
根据图像实际分辨率动态调整序列长度，平衡计算量与信息量。
采用分块思想，解决了大分辨率图像直接输入 ViT 的计算量过大问题。

2.3 Pixel Shuffle 与模型结构

由于动态长宽比的引入，ViT 最多会接受 max_patches 个 448x448 的图片。若不做处理，视觉特征序列长度将达到，导致显存占用过高。

训练阶段	可训练参数	训练数据集介绍
第一阶段预训练	ViT, Adapter	共 600B Tokens，主要是图片分类、图文对关系和 OCR 训练任务
第二阶段预训练	全部参数	数据集内容同上，数据量增加到 1400B Tokens
Finetune 训练	全部参数	指令跟随数据集，包含图像问答、文档解析、多图理解、视频理解及多 Agent 合作

多模态大模型解析：InternVL-v1.5 与 Qwen2VL 架构对比

多模态大模型：视觉模型与 LLM 的结合之路

一、背景与回顾

二、InternVL-v1.5 深度解析

2.1 核心架构升级

2.2 动态长宽比 (Dynamic Aspect Ratio)

2.3 Pixel Shuffle 与模型结构

更多推荐文章

相关免费在线工具

2.4 训练数据集

三、Qwen2VL 深度解析

3.1 核心改进点

3.2 动态分辨率 (Dynamic Resolution)

3.3 统一的多模态 RoPE 位置编码

3.4 训练过程

四、总结

更多推荐文章

相关免费在线工具

多模态大模型解析：InternVL-v1.5 与 Qwen2VL 架构对比

多模态大模型：视觉模型与 LLM 的结合之路

一、背景与回顾

二、InternVL-v1.5 深度解析

2.1 核心架构升级

2.2 动态长宽比 (Dynamic Aspect Ratio)

2.3 Pixel Shuffle 与模型结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.4 训练数据集

三、Qwen2VL 深度解析

3.1 核心改进点

3.2 动态分辨率 (Dynamic Resolution)

3.3 统一的多模态 RoPE 位置编码

3.4 训练过程

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具