多模态大模型:视觉模型与 LLM 的结合之路
一、背景与回顾
在多模态大模型的发展进程中,视觉编码器(Vision Encoder)与大语言模型(LLM)的融合方式经历了显著演变。早期的工作如 Mini-GPT4、Llava、Blip2 和 QwenVL 主要处于第一阶段,侧重于通过堆叠数据和设计训练任务来提升图像理解能力。然而,受限于图像分辨率(通常为 448x448)和视觉特征序列长度,这些模型在 OCR 能力和细节感知上存在瓶颈。
本文重点介绍进入第二阶段的多模态大模型代表:InternVL-v1.5 与 Qwen2VL。InternVL-v1.5 首次将 ViT 参数量扩展至 6B,并引入动态长宽比技术;Qwen2VL 则进一步提出了动态分辨率策略和统一的多模态位置编码。以下将详细解析两者的核心架构差异与技术实现。
二、InternVL-v1.5 深度解析
2.1 核心架构升级
相较于第一阶段的模型,InternVL-v1.5 在模型规模与数据处理上进行了重大革新:
| 特性 | 第一阶段模型 | InternVL-v1.5 |
|---|---|---|
| ViT 参数量 | <300M | 6B |
| 图像分辨率 | 448*448 | 4484487 (动态) |
| 视觉特征序列长度 | 512 | 1792 |
| 动态长宽比 | 不支持 | 支持 |
视觉编码器增强:InternVL-v1.5 将 ImageEncoder (ViT) 的参数量扩展到了 6B,显著提升了视觉特征的表达能力。同时,图像分辨率被提升至相当于 7 个 448x448 的 patch,并引入了动态长宽比机制。
数据增强:除了自然场景数据,InternVL-v1.5 还收集了大量文档数据,专门针对算法的 OCR 能力进行了强化。
2.2 动态长宽比 (Dynamic Aspect Ratio)
传统多模态模型通常将图像 resize 到固定的长宽比(如 448x448 或 1344x1344),这会导致两个问题:极端长宽比的图片失真严重,或者固定较大尺寸导致 ViT 产生超长序列消耗算力。
InternVL-v1.5 引入了动态长宽比解决方案,具体流程如下:
- 预设最大 Patch 数:设定
max_patches(例如 7),图像会被切分为多个 448x448 的 patch,但总数不超过该限制。 - 适配长宽比:根据
max_patches计算可适配的长宽比组合(长 * 宽 <= max_patches - 1)。 - 匹配与切片:根据原图分辨率和长宽比,选择最匹配的网格(如 2:3),将图片 resize 后切片为多个 448x448 的 patch。
- 填充处理:若不足,将原图 resize 到 448x448 放在 patch 后面作为补充。
优势:
- 避免极端长宽比图片因强制 resize 导致的变形。
- 根据图像实际分辨率动态调整序列长度,平衡计算量与信息量。
- 采用分块思想,解决了大分辨率图像直接输入 ViT 的计算量过大问题。
2.3 Pixel Shuffle 与模型结构
由于动态长宽比的引入,ViT 最多会接受 max_patches 个 448x448 的图片。若不做处理,视觉特征序列长度将达到 ,导致显存占用过高。


