InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]

InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]

Summary:

该论文提出了 InternVL,这是一个大规模的视觉语言基础模型,它将一个拥有 60 亿参数的视觉编码器与一个大型语言模型(LLM)进行了对齐,从而在广泛的通用视觉语言任务上实现了最先进的性能。主要贡献包括:

  1. 将视觉编码器的参数规模扩大到 60 亿,并将其与一个拥有 80 亿参数的 LLM 中间件进行了对齐,后者充当了连接视觉和语言组件的"粘合剂"层。
  2. 采用了渐进式的图像-文本对齐策略,利用大规模的噪声网络数据进行对比学习,并利用细粒度数据进行生成学习,确保了训练的稳定性和持续的性能改进。
  3. 展示了 InternVL 的多功能性,它可以作为独立的视觉编码器使用,也可以与 LLM 中间件协作完成各种视觉、视觉语言和多模态对话任务,并超越了之前的最先进模型。

该论文强调了缩小 LLM 快速进步与视觉和视觉语言基础模型相对较慢发展之间差距的重要性,并提出 InternVL 作为这一方向的领先解决方案。

www.zeeklog.com  - InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]

图像 文本 视觉编码器 文本编码器 对比学习(Contras(ve) 图像 文本 生成式 扩展规模 视觉编码器 至 60亿参数 大型语言模型 大型语言模型 提示 共享权重 图像类别 视觉编码器 (a) 监督预训练 (b) 对比预训练 (c) InternVL:扩展视觉编码器并与大型语言模型(LLM)对齐(我们的方法)

图 1. 不同视觉和视觉-语言基础模型的比较。(a) 表示传统的视觉基础模型,例如在分类任务上预训练的ResNet [57]。(b) 代表视觉-语言基础模型,例如在图像-文本对上预训练的CLIP [117]。

(c) 是我们的InternVL,它展示了一种实用的方法,将大规模视觉基础模型(即,InternViT-6B)与大型语言模型对齐,并适用于对比和生成任务。

摘要 大型语言模型(LLMs)的指数级增长为多模态通用人工智能(AGI)系统开辟了无数可能性。然而,视觉和视觉-语言基础模型的进展,作为多模态AGI的关键元素,并没有跟上LLMs的步伐。在这项工作中,我们设计了一个大规模视觉-语言基础模型(InternVL),将视觉基础模型扩展到60亿参数,并逐步与其对齐,使用来自各种来源的web规模图像-文本数据。该模型可以广泛应用于32个通用视觉-语言基准测试,并在包括图像级或像素级识别的视觉感知任务、零样本图像/视频分类、零样本图像/视频-文本检索以及与LLMs链接创建多模态对话系统等任务上实现最先进的性能。它具有强大的视觉能力,可以作为ViT-22B的良好替代品。我们希望我们的研究能够为多模态大型模型的发展做出贡献。

† 当他们是上海人工智能实验室的实习生时完成的工作; 对应作者()

  1. 引言 大型语言模型(LLMs)以其在开放世界语言任务中令人印象深刻的能力,大大推动了人工通用智能(AGI)系统的发展,其模型规模和性能仍在快速增长。利用LLMs的视觉大型语言模型(VLLMs)[3, 5, 21, 23, 34, 92, 115, 147, 187]也取得了重大突破,实现了复杂的视觉-语言对话和交互。然而,对于VLLMs同样至关重要的视觉和视觉-语言基础模型的进展却落后于LLMs的快速增长。为了将视觉模型与LLMs桥接,现有的VLLMs [5, 81, 131, 177, 187]通常采用轻量级的“粘合”层,如QFormer [81]或线性投影[92],来对齐视觉和语言模型的特征。这种对齐包含几个限制:(1)参数规模的差异。大型LLMs [48]现在已达到1000亿参数,而VLLMs中广泛使用的视觉编码器仍然在10亿左右。这一差距可能导致LLM容量的未充分利用。(2)表示不一致。视觉模型,无论是在纯视觉数据上训练的,还是与BERT系列[39, 70, 93]对齐的,通常表现出与LLMs的表示不一致。
  2. (3)连接效率低下。“粘合”层通常很轻量级,并且是随机初始化的,可能无法捕捉到对多模态理解和生成至关重要的丰富跨模态交互和依赖性。这些限制揭示了视觉编码器与LLM之间在参数规模和特征表示能力上存在很大差距。为了弥合这一差距,我们的灵感在于提升视觉编码器,使其与LLM的参数规模对齐,然后协调它们的表示。然而,如此大规模模型的训练需要大量的来自互联网的图像-文本数据。这些数据中的显著异质性和质量变化对训练过程构成了相当的挑战。为了提高训练的有效性,生成性监督被视为对比学习的一种补充方法,如图1所示。该策略旨在在训练期间为模型提供额外的指导。然而,低质量数据对生成训练的适用性仍然是一个关注点。此外,如何有效地表示用户的命令以及对齐视觉编码器和LLM之间的表示是另一个未解决的问题。为了解决这些问题,我们制定了InternVL,一个大规模视觉-语言基础模型,它将扩展的视觉编码器的表示与LLM对齐,并在各种视觉和视觉-语言任务上实现了最先进的性能。如图1(c)
  3. 所示,InternVL有三个关键设计:(1)参数平衡的视觉和语言组件:它包括一个扩展到60亿参数的视觉编码器和一个80亿参数的大型语言模型中间件,其中中间件作为一个重要的“粘合”层,根据用户命令重新组织视觉特征。与以前的视觉仅(图1(a))或双塔(图1(b))结构不同,我们的视觉编码器和中间件为对比和生成任务提供了灵活的组合。(2)一致的表示:为了保持视觉编码器和LLM之间的表示一致性,我们采用预训练的多语言LLaMA [32]来初始化中间件,并将视觉编码器与其对齐。(3)渐进式图像-文本对齐:我们利用来自不同来源的图像-文本数据,通过渐进式对齐策略确保训练稳定性。该策略首先在大规模噪声图像-文本数据上进行对比学习,然后逐渐过渡到在细粒度数据上进行生成学习。这种方法确保了模型性能和任务范围的一致增强。这些设计赋予我们的模型几个优点:(1)多功能。它可以作为独立的视觉编码器用于感知任务,或与语言中间件协作用于视觉-语言任务和多模态对话系统。语言中间件弥合了视觉编码器和LLM解码器之间的差距。(2)强大。通过利用训练策略、大规模参数和web规模数据,我们的模型具有强大的表示能力,有助于在各种视觉和视觉-语言任务上实现最先进的结果,如图2所示。(3)LLM友好。由于与LLMs对齐的特征空间,我们的模型可以顺利地与现有的LLMs集成,如LLaMA系列[138, 139]、Vicuna [184]和InternLM [135]。这些特点使我们的模型与以前的方法区别开来,并为各种应用建立了领先的视觉-语言基础模型。
www.zeeklog.com  - InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]
www.zeeklog.com  - InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]

任务 样本数量 数据集 字幕 588K COCO字幕 [22], TextCaps [126] VQAv2 [54], OKVQA [104], A-OKVQA [122], VQA 1.1M IconQA [99], AI2D [71], GQA [64] OCR-VQA [107], ChartQA [105], DocVQA [29], ST-VQA [12], EST-VQA [150], InfoVQA [106], OCR 294K LLaVAR [182] 基础 323K RefCOCO/+/g [103 170], Toloka [140] 基础字幕 284K RefCOCO/+/g [103 170] LLaVA-150K [92], SVIT [183], VisDial [36], 对话 1.4M LRV-Instruction [90], LLaVA-Mix-665K [91]

表3. InternVL在第三阶段训练中使用的数据集详情。我们收集了大约400万样本的高质量指令数据。为了公平比较,我们仅使用了这些数据集的训练分割。

(4) 对于多模态对话,我们引入了InternVLChat,利用InternVL作为视觉组件连接到LLMs。为此,我们有两种不同的配置。一种选择是独立使用InternViT-6B,如图4 (c)所示。另一种是同时使用完整的InternVL模型,如图4 (d)所示。

3.3 对齐策略 如图3所示,InternVL的训练包括三个渐进阶段,包括视觉-语言对比训练、视觉-语言生成训练和监督微调。这些阶段有效地利用了来自不同来源的公共数据,从网络上的噪声图像-文本对到高质量的字幕、VQA和多模态对话数据集。视觉-语言对比训练。在第一阶段,我们在多语言LLaMA-7B [32]上对InternViT-6B进行对比学习,使用大规模、嘈杂的网络图像-文本对。数据全部公开可用,包括多语言内容,包括LAION-en [120]、LAION-multi [120]、LAION-COCO [121]、COYO [14]、Wukong [55]等。我们使用这些数据集的组合,过滤掉一些极低质量的数据来训练我们的模型。如表2总结的,原始数据集包含60.3亿图像-文本对,经过清理后剩下49.8亿。更多关于数据准备的细节将在补充材料中提供。在训练期间,我们采用LLaMA-7B对文本进行编码为Tf,并使用InternViT-6B提取视觉特征If。按照CLIP [117]的目标函数,我们在批次中的图像-文本对的相似性分数上最小化对称交叉熵损失。这个阶段让InternVL在对比任务上表现出色,如零样本图像分类和图像-文本检索,这个阶段的视觉编码器也可以在视觉感知任务上表现良好,如语义分割。视觉-语言生成训练。在第二阶段的训练中,我们将InternViT-6B与QLLaMA连接,并采用生成训练策略。具体来说,QLLaMA在第一阶段继承了LLaMA-7B的权重。我们保持InternViT-6B和QLLaMA冻结,并且只训练使用过滤后的高质量数据的新增可学习查询和交叉注意力层。表2总结了第二阶段的数据集。可以看出,我们进一步过滤掉了低质量字幕的数据,将其从第一阶段的49.8亿减少到1.03亿。遵循BLIP-2 [81]的损失函数,这个阶段的损失计算为三个组成部分的总和:图像-文本对比(ITC)损失、图像-文本匹配(ITM)损失和图像基础文本生成(ITG)损失。这使得查询能够提取强大的视觉表示,并进一步与LLMs对齐特征空间,这归功于有效的训练目标和我们大规模、LLM初始化的QLLaMA的有效利用。监督微调。为了展示InternVL在创建多模态对话系统中的优势,我们通过MLP层将InternVL连接到现成的LLM解码器(例如Vicuna [184]或InternLM [135]),并进行监督微调(SFT)。如表3详细说明的,我们收集了各种高质量的指令数据,总计约400万样本。对于非对话数据集,我们遵循[91]中描述的方法进行转换。由于QLLaMA和LLMs具有相似的特征空间,我们甚至可以在冻结LLM解码器的情况下实现强大的性能,选择只训练MLP层或同时训练MLP层和QLLaMA。这种方法不仅加快了SFT过程,还保持了LLMs的原始语言能力。

  1. 实验 4.1 实施细节 第一阶段。在这个阶段,图像编码器InternViT-6B是随机初始化的[7],文本编码器LLaMA-7B是用[32]中的预训练权重初始化的。所有参数都是完全可训练的。第二阶段。在这个阶段,InternViT-6B和QLLaMA继承了它们在第一阶段的权重,而QLLaMA中新增的可学习查询和交叉注意力层是随机初始化的。得益于第一阶段学到的强大表示,我们保持InternViT-6B和QLLaMA冻结,并且只训练新参数。第三阶段。在这个阶段,我们有两种不同的配置。一种是独立使用InternViT-6B,如图4 (c)所示。另一种是同时使用整个InternVL模型,如图4 (d)所示。更多的细节将在补充材料中提供。

4.2 视觉感知基准

首先,我们验证了InternVL最核心组件InternViT-6B的视觉感知能力。转移到图像分类。我们使用ImageNet-1K [38]数据集评估InternViT-6B产生的视觉效果的质量。按照常见实践[37, 58, 111],我们采用线性探测评估,即在保持主干冻结的情况下训练线性分类器。除了ImageNet-1K验证集外,我们还报告了几个ImageNet变体[10, 60, 61, 119, 141]的性能指标,以基准化域泛化能力。如表4所示,InternViT-6B在线性探测上取得了显著的改进,超过了以前的最先进方法[46, 67, 111]。据我们所知,这是目前没有使用JFT数据集[173]的最佳线性评估结果。

转移到语义分割。为了研究InternViT-6B的像素级感知能力,我们在ADE20K [185]数据集上进行了广泛的语义分割实验。按照ViT-22B [37]的做法,我们开始进行少样本学习实验,即在有限的数据集上对主干进行微调。如表5a所示,InternViT-6B在五次实验中一致地优于ViT-22B,这些实验的培训数据比例不同。此外,表5b展示了我们在三种不同设置中的进一步验证,包括线性探测、头部调整[158]和全参数调整。值得注意的是,在线性探测的情况下,InternViT-6B达到了47.2 mIoU,比ViT-22B有+12.6 mIoU的显著提高。这些结果强调了我们InternViT-6B强大的开箱即用的像素级感知能力。

4.3 视觉-语言基准

在这一部分,我们在各种视觉-语言任务上评估了InternVL的固有能力。零样本图像分类。我们对InternVL-C的零样本图像分类能力进行了彻底的验证。如表6a所示,InternVL-C在各种ImageNet变体[38, 60, 61, 119, 141]和ObjectNet [8]上取得了领先的性能。与EVA-02-CLIP-E+ [130]相比,它表现出更强的对分布变化的鲁棒性,这体现在ImageNet变体上更一致的准确性上。此外,如图6b所示,我们的模型在多语言ImageNet-1K基准上展示了强大的多语言能力,超过了竞争模型[16, 26, 67, 162]。零样本视频分类。按照以前的方法[117, 130, 152],我们在Kinetics-400/600/700 [17-19]上报告了顶部1准确性和顶部1和顶部5准确性的平均值。如图8所示,当每个视频中只采样一个中心帧时,我们的方法在三个数据集上的平均准确率分别为76.1%、75.5%和67.5%,分别超过了EVA-02-CLIP-E+ [130] 6.3、6.2和4.1个百分点。此外,当在每个视频中均匀采样8帧时,我们至少比单帧设置提高了3.3个百分点,超过了使用网络规模视频数据训练的ViCLIP [152]。总之,InternVL-C在视频分类中表现出显著的泛化能力。零样本图像-文本检索

(3)连接效率低下。通常“粘合”层是轻量级的,并且是随机初始化的,这可能无法捕捉到对多模态理解和生成至关重要的丰富跨模态交互和依赖性。这些限制揭示了视觉编码器和大型语言模型(LLM)在参数规模和特征表示能力上存在很大差距。为了弥合这一差距,我们的灵感在于提升视觉编码器,使其与LLM的参数规模对齐,然后协调它们的表示。然而,如此大规模模型的训练需要大量的来自互联网的图像-文本数据。这些数据中的显著异质性和质量变化对训练过程构成了相当的挑战。为了提高训练的有效性,生成性监督被视为对比学习的一种补充方法,如图1所示。该策略旨在在训练期间为模型提供额外的指导。然而,低质量数据对生成训练的适用性仍然是一个关注点。此外,如何有效地表示用户的命令以及对齐视觉编码器和LLM之间的表示是另一个未解决的问题。为了解决这些问题,我们制定了InternVL,一个大规模视觉-语言基础模型,它将扩展的视觉编码器的表示与LLM对齐,并在各种视觉和视觉-语言任务上实现了最先进的性能。如图1(c)所示,InternVL有三个关键设计:(1)参数平衡的视觉和语言组件:它包括一个扩展到60亿参数的视觉编码器和一个80亿参数的大型语言模型中间件,其中中间件作为一个重要的“粘合”层,根据用户命令重新组织视觉特征。与以前的视觉仅(图1(a))或双塔(图1(b))结构不同,我们的视觉编码器和中间件为对比和生成任务提供了灵活的组合。

(2)一致的表示:为了保持视觉编码器和LLM之间的表示一致性,我们采用预训练的多语言LLaMA [32]来初始化中间件,并将视觉编码器与其对齐。

(3)渐进式图像-文本对齐:我们利用来自不同来源的图像-文本数据,通过渐进式对齐策略确保训练稳定性。该策略首先在大规模噪声图像-文本数据上进行对比学习,然后逐渐过渡到细粒度数据的生成学习。这种方法确保了模型性能和任务范围的一致增强。这些设计赋予我们的模型几个优点:(1)多功能性。它可以作为独立的视觉编码器用于感知任务,或与语言中间件协作用于视觉-语言任务和多模态对话系统。语言中间件弥合了视觉编码器和LLM解码器之间的差距。(2)强大性。通过利用训练策略、大规模参数和web规模数据,我们的模型具有强大的表示能力,有助于在各种视觉和视觉-语言任务上实现最先进的结果,如图2所示。(3)LLM友好性。由于与LLMs对齐的特征空间,我们的模型可以顺利地与现有的LLMs集成,如LLaMA系列[138, 139]、Vicuna [184]和InternLM [135]。这些特性使我们的模型与以前的方法区别开来,并为各种应用建立了领先的视觉-语言基础模型。总的来说,我们的贡献有三个方面:(1)我们提出了一个大规模视觉-语言基础模型—InternVL,这是首次将大规模视觉编码器与LLMs对齐。该模型在包括视觉感知任务、视觉-语言任务和多模态对话在内的广泛通用视觉-语言任务上展示了强大的性能。(2)我们引入了一种渐进式图像-文本对齐策略,用于高效训练大规模视觉-语言基础模型。这种策略最大化了web规模噪声图像-文本数据用于对比学习以及细粒度、高质量的数据用于生成学习的利用。(3)我们广泛比较了所提出的模型与当前最先进的视觉基础模型和VLLMs。结果表明,InternVL在包括图像分类(ImageNet)、语义分割(ADE20K)、视频分类(Kinetics)、图像-文本检索(Flickr30K & COCO)、视频-文本检索(MSR-VTT)和图像字幕(COCO & Flickr30K & NoCaps)在内的广泛的通用视觉-语言任务上实现了领先的性能。同时,它也适用于多模态对话(MME & POPE & Tiny LVLM)。

  1. 相关工作 2.1. 视觉基础模型 在过去的十年中,计算机视觉领域内的基础模型取得了显著的发展。从开创性的AlexNet [73]开始,出现了各种各样的卷积神经网络(CNN),不断刷新ImageNet基准 [33, 40, 57, 62, 65, 95, 148, 160]。特别是残差连接的引入 [57],有效地解决了梯度消失问题。这一突破引领了“大而深”神经网络的时代,意味着只要有充分的训练和数据,更大更深的模型就能取得更好的性能。换句话说,规模扩大是重要的。近年来,ViT [42]为计算机视觉领域的网络架构开辟了新的可能性。ViT及其变体 [15, 25, 37, 46, 94, 117, 144, 145, 178, 179] 显著提高了它们的容量,并在各种重要的视觉任务中表现出色。在LLM时代,这些视觉基础模型通常通过一些轻量级的“粘合”层 [80, 92, 187] 与LLM连接。然而,存在差距,因为这些模型主要来源于视觉数据集如ImageNet [38] 或 JFT [173],或者是使用图像-文本对与BERT系列 [39, 70, 93] 对齐,缺乏与LLMs的直接对齐。此外,用于连接LLMs的流行视觉模型仍然限制在大约10亿参数 [46, 67],这也限制了VLLMs的性能。

2.2. 大型语言模型 大型语言模型(LLMs)彻底改变了人工智能领域,使得自然语言处理任务成为可能,这些任务以前被认为是人类独有的 [110, 138, 153]。GPT-3 [153]的出现带来了能力的显著飞跃,特别是在少样本和零样本学习方面,凸显了LLMs的巨大潜力。随着ChatGPT和GPT-4 [110]的进步,这一承诺得到了进一步的实现。该领域的进展进一步加速了开源LLMs的出现,包括LLaMA系列 [138, 139],Vicuna [184],InternLM [135],MOSS [132],ChatGLM [44],Qwen [4],Baichuan [6] 和 Falcon [114] 等。

2.3 视觉大型语言模型(续) 最近的进步见证了视觉大型语言模型(VLLMs)[3, 23, 75, 79, 82, 88, 131, 156, 165, 168, 175, 177, 180, 181, 188]的创建,这些模型旨在通过处理和解释视觉信息的能力来增强语言模型。Flaningo [3]使用视觉和语言输入作为提示,并在视觉问题回答的少样本性能方面表现出色。随后,GPT-4 [110]、LLaVA系列 [91, 92, 100]和MiniGPT-4 [187]引入了视觉指令调整,以提高VLLMs的指令遵循能力。同时,像VisionLLM [147]、KOSMOS-2 [115]和Qwen-VL等模型[5, 21, 149]通过视觉基础能力改进了VLLMs,促进了区域描述和定位等任务。许多基于API的方法[96, 97, 125, 133, 155, 163, 166]也尝试将视觉API与LLMs集成,以解决以视觉为中心的任务。此外,PaLM-E [43]和EmbodiedGPT [108]代表了将VLLMs适应于具体应用的先进努力,显著扩展了它们的潜在应用。这些工作展示了VLLMs已经取得了重大突破。然而,对于VLLMs同样至关重要的视觉和视觉-语言基础模型的进展并没有跟上。

  1. 提出的方法 3.1 总体架构 如图3所示,与只关注视觉的传统背骨[57, 94, 148]和双编码器模型[67, 117, 130]不同,提出的InternVL设计有视觉编码器InternViT-6B和语言中间件QLLaMA。具体来说,InternViT-6B是一个具有60亿参数的视觉变换器,定制以实现性能和效率之间的良好折衷。QLLaMA是一个具有80亿参数的语言中间件,用多语言增强的LLaMA[32]初始化。它可以为图像-文本对比学习提供强大的多语言表示,或作为连接视觉编码器和现成的LLM解码器的桥梁。为了对齐这两大组件,它们在模态和结构上存在相当大的差距,我们引入了一种渐进式对齐训练策略。训练策略是逐步进行的,首先在大规模噪声数据上进行对比学习,然后逐渐转向精致和高质量的数据上的生成学习。这样,我们确保了来自各种来源的web规模图像-文本数据的有效组织和充分利用。然后,配备对齐的视觉编码器和语言中间件,我们的模型就像一把瑞士军刀。它拥有灵活的组合,可以适应各种通用视觉-语言任务。这些任务从视觉感知和图像/视频-文本检索到图像字幕、视觉问题回答和多模态对话等。

3.2 模型设计

大规模视觉编码器:InternViT-6B。我们使用普通视觉变换器(ViT)[42]实现InternVL的视觉编码器。为了与LLM的规模相匹配,我们将视觉编码器扩展到60亿参数,产生了InternViT-6B模型。为了在准确性、速度和稳定性之间获得良好的折衷,我们对InternViT-6B进行了超参数搜索。我们变化模型深度在{32, 48, 64, 80}之间,头尺寸在{64, 128}之间,MLP比率在{4, 8}之间。模型宽度和头数是根据给定的模型规模和其他超参数计算的。我们使用LAION-en数据集[120]的100M子集进行对比学习,以衡量不同配置的InternViT-6B变体的准确性、速度和稳定性。我们报告了以下发现:(1)速度。对于不同的模型设置,当计算没有饱和时,较小深度的模型每个图像的速度更快。然而,当GPU计算完全利用时,速度差异变得可以忽略不计;(2)准确性。在相同数量的参数下,深度、头尺寸和MLP比率对性能影响很小。基于这些发现,我们确定了我们最终模型的最稳定配置,如表1所示。语言中间件:QLLaMA。语言中间件QLLaMA被提出来对齐视觉和语言特征。如图3所示,QLLaMA基于预训练的多语言LLaMA[32]开发,并新增了96个可学习的查询和交叉注意力层(10亿参数),这些层是随机初始化的。这种方式允许QLLaMA将由InternViT-6B生成的图像标记转换为与LLMs对齐的表示,从而增强了组合特征的一致性和有效性。与最近流行的使用轻量级“粘合”层的方法[81, 92],如QFormer[81]和线性层[92]连接视觉编码器和LLMs的方法相比,我们的方法有三个优点:(1)通过使用[32]的预训练权重初始化,QLLaMA可以将由InternViT-6B生成的图像标记转换为与LLMs对齐的表示;(2)QLLaMA有80亿参数用于视觉-语言对齐,是QFormer的42倍。因此,即使冻结了LLM解码器,InternVL也能在多模态对话任务上取得有希望的性能;(3)它也可以应用于对比学习,为图像-文本对齐任务提供强大的文本表示,如零样本图像分类和图像-文本检索。“瑞士军刀”模型:InternVL。通过灵活地组合视觉编码器和语言中间件,InternVL可以支持各种视觉或视觉-语言任务。(1)对于视觉感知任务,InternVL的视觉编码器,即InternViT-6B,可以用作视觉任务的骨干。给定一个输入图像I ∈ RH×W ×3,我们的模型可以为密集预测任务生成特征图F ∈ RH/14×W/14×D,或者与全局平均池化和线性投影一起使用进行图像分类。(2)对于对比任务,如图4(a)(b)所示,我们引入了两种推理模式:InternVL-C和InternVL-G,使用视觉编码器或InternViT和QLLaMA的组合来编码视觉特征。具体来说,我们对InternViT的视觉特征或QLLaMA的查询特征应用注意力池化,以计算全局视觉特征If。此外,我们通过从QLLaMA的[EOS]标记中提取特征来编码文本为Tf。通过计算If和Tf之间的相似性分数,我们支持各种对比任务,如图像-文本检索。(3)对于生成任务,与QFormer [80]不同,由于其扩展的参数,QLLaMA天生具有有希望的图像字幕能力。QLLaMA的查询重新组织来自InternViT-6B的视觉表示,并充当QLLaMA的前缀文本。随后的文本标记一个接一个地顺序生成。

图 1.不同视觉和视觉语⾔基础模型的⽐较。

(a) 表⽰传统的视觉基础模型,例如在分类任务上预先训练的ResNet [57] 。

(b) 表⽰视觉语⾔基础模型,例如在图 像 - ⽂本对上预先训练的 CLIP [117] 。

(c) 是我们的 InternVL,它提供了⼀种可⾏的⽅法来将⼤规模视觉基础模型(即 InternViT-6B)与⼤型语⾔模型对⻬,并 且对于对⽐任务和⽣成任务都具有通⽤性。 图像 ⼤型语 ⾔模型

(a)监督预训练

(c)InternVL:扩⼤视觉编码器并与 LLM(我们的)保持⼀致 共享权重 扩⼤视觉编码 器 ⾄6B #params

(b)对⽐预训练 想象 ⼤型语 ⾔模型 图像 反对 视觉编 码器 ⽂本 类 编码器 编码器 反对 图像 迅速的 ⽣成性 ⽂本 ⽂本 https://github.com/OpenGVLab/InternVL InternVL:扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 我们希望我们的研究能够为多模式⼤型模型的发展做出贡献。 ⼤型语⾔模型 (LLM) 凭借其在开放世界语⾔任务中的出⾊表现,极⼤地推 动了通⽤⼈⼯智能 (AGI) 系统的发展,其模型规模和性能仍在快速提升。利 ⽤ LLM 的视觉⼤型语⾔模型 (VLLM) [ 3、5、21、23、34、92、115、147、187 ] 也取得了重⼤突破,实现了复杂的视觉语⾔对话和交互。然⽽,对于 VLLM 来说同样⾄关重要的视觉和视觉语⾔基础模型的进展却落后于 LLM 的快 速发展。 在这项⼯作中,我们设计了⼀个⼤规模视觉语⾔基础模型 (InternVL),该 模型将视觉基础模型扩展到 60 亿个参数,并逐步将其与 LLM 对⻬,使⽤ 来⾃各种来源的⽹络规模图像⽂本数据。该模型可⼴泛应⽤于 32 个通⽤视 觉语⾔基准测试,并在这些基准测试中取得最佳性能,包括视觉感知任务(例 如图像级或像素级识别)、视觉语⾔任务(例如零样本图像/视频分类、零样 本图像/视频⽂本检索),并与 LLM 链接以创建多模式对话系统。它具有强 ⼤的视觉功能,可以成为 ViT-22B 的良好替代品。 ⼤型语⾔模型 (LLM) 的迅猛发展为多模态 AGI 系统开辟了⽆限可 能。然⽽,视觉和视觉语⾔基础模型(也是多模态 AGI 的关键要素)的进步 却未能跟上 LLM 的步伐。 为了将视觉模型与 LLM 连接起来,现有的 VLLM [5, 81, 131, 177, 187] 通常采⽤轻量级“粘合”层,如 QFormer [81]或线性投影[92],来对⻬视觉 和语⾔模型的特征。这种对⻬有⼏个限制:

(1)参数规模不⼀致。⼤型 LLM [48]现在已将参数增加到 10000 亿个,⽽ VLLM 中⼴泛使⽤的视觉编码器 仍在 10 亿个左右。这⼀差距可能导致 LLM 的容量未得到充分利⽤。

(2) 表⽰不⼀致。基于纯视觉数据或

1 arXiv:2312.14238v3 [cs.CV] 2024 年 1 ⽉5 ⽇ † 该⼯作是在他们在上海⼈⼯智能实验室实习期间完成的;通讯作者 ([email protected]) Machine Translated by Google 线性探测图像分类 零样本图像和视频分类 先前的 SOTA 我们的表现 零样本图像⽂本检索 对话 图 2.在各种通⽤视觉语⾔学任务上的⽐较结果,包括图像分类、视频分类、图像⽂本检索、图像字幕和多模态对话。所提出的 InternVL 在所有这些任务上都取得了最佳表 现。请注意,仅包括在公共数据上训练的模型。“IN”是 ImageNet [38]的缩写。 COCO T2I Flickr30K-CN I2T Flickr30K-CN T2I 内镜 IN-1K IN-1K(意⼤利) IN-1K(AR) IN-V2 XTD R@10 I2T COCO-CN T2I ⼥⼠ 素描 IN-Sketch ObjectNet 教皇 Flickr30K I2T 英爱 可可 I2T IN-1K ZS COCO 标题 IN-V2 动⼒学-400 动⼒学-600 动⼒学-700 Flickr30K T2I 英爱 内镜 IN-1K(⽇本) COCO-CN I2T 微型 LVLM 真实 IN-1K(中⽂) 61.5 54.6 327.6 322.5 71.4 73.8 70.0 69.2 80.6 135 95.7 93.9 89.8 75.9 67.5 63.4 88.2 90.4 87.8 89.6 95 92.9 88.9 115 96.6 94.6 75 三⼗五 77.7 74.5 87.6 85.9 74.9 68.8 95.5 73.9 79.6 75.7 71.6 64.5 155 58.6 51.4 79.9 77.5 87.8 78.4 83.2 83.8 94.5 82.0 82.1 69.1 66.4 1586.4 1531.3 128.2 117.7 85.0 80.4 55 59.6 77.3 76.1 75.5 65.7 69.8 69.3 56.8 44.9 37.0

总结起来,我们的贡献有三点:

(1)我们提出了⼀个⼤规模视觉 语⾔基础模型InternVL,⾸次将⼤规模视觉编码器与LLM对⻬。该模型在包 括视觉感知任务、视觉语⾔任务和多模态对话在内的各种通⽤视觉语⾔任务上表 现出⾊。 这些设计赋予了我们的模型⼏个优点:(1)多功能。它可以作为感知任务的独 ⽴视觉编码器,也可以与语⾔中间件协作,⽤于视觉语⾔任务和多模态对话系统。语 ⾔中间件弥补了视觉编码器和 LLM 解码器之间的差距。

(2)强⼤。 为了实现视觉编码器和 LLM 之间的对⻬,我们使⽤了预先训练过的多语⾔ LLaMA [32]来初始化中间件并对⻬视觉编码器。

(3)渐进式图⽂对⻬:我们利⽤来⾃不同 来源的图像⽂本数据,通过渐进式对⻬策略确保训练稳定性。该策略在⼤规模噪声 图⽂数据上启动对⽐学习,随后过渡到细粒度数据的⽣成学习。这种⽅法可确保 模型性能和任务范围的持续增强。

2 为了解决这些问题,我们制定了 InternVL,这是⼀个⼤规模视觉语⾔基础模型,它将 扩⼤的视觉编码器的表⽰与 LLM 对⻬,并在各种视觉和视觉语⾔任务上实现了最佳性 能。 如图1 (c) 所⽰,InternVL 有三个关键设计:(1)参数平衡的视觉和语⾔组件:它包括 ⼀个扩展到 60 亿个参数的视觉编码器和⼀个具有 80 亿个参数的 LLM 中间件,其中中间 件充当实质性的“粘合”层,根据⽤⼾命令重新组织视觉特征。 与以前的纯视觉(图1 (a)) 或双塔(图1 (b))结构不同,我们的视觉编码器和中间件为对⽐和⽣成任务提供了灵活的 组合。(2)⼀致的表⽰:为了保持表⽰的⼀致性,我们使⽤ LLM 中间件来重新组织视觉特 征。 通过利⽤训练策略、⼤规模参数和⽹络规模数据,我们的模型具有强⼤的表⽰能⼒, 有助于在各种视觉和视觉语⾔任务上取得最佳效果,如图 2 所⽰。 (3)LLM 友 好。由于特征空间与 LLM 对⻬,我们的模型可以顺利与现有的 LLM 集成,例如 LLaMA 系列[138, 139]、 Vicuna [184]和 InternLM [135]。这些特性使我们的 模型有别于以前的⽅法,并为各种应⽤建⽴了领先的视觉语⾔基础模型。 这些限制表明视觉编码器和 LLM 在参数规模和特征表⽰能⼒⽅⾯都存在很⼤ 差距。为了弥合这⼀差距,我们的灵感在于提升视觉编码器以与 LLM 的参数规模 保持⼀致,并随后协调它们的表⽰。然⽽,训练这种⼤规模模型需要从互联⽹上获 取⼤量图像⽂本数据。这些数据的显著异质性和质量变化对训练过程提出了相当 ⼤的挑战。为了提⾼训练的效率,⽣成监督被视为对⽐学习的补充⽅法,如图1 所⽰。 该策略旨在在训练期间为模型提供额外指导。然⽽,低质量数据是否适合⽣成训练 仍然是⼀个问题。此外,如何有效地表⽰⽤⼾的命令并协调视觉编码器和 LLM 之 间的表⽰是另⼀个悬⽽未决的问题。 与 BERT 系列[39, 70, 93] 保持⼀致,但经常表现出与 LLM 的表⽰不⼀致。(3)连 接效率低下。“粘合”层通常很轻量且随机初始化,可能⽆法捕获对多模态理解和 ⽣成⾄关重要的丰富的跨模态交互和依赖关系。 (2)我们引⼊了⼀种渐进式图像⽂本对⻬策略,⽤于⾼效训练⼤规模视觉语⾔ 基础模型。该策略最⼤限度地利⽤了⽹络规模的噪声图像⽂本数据进⾏对⽐学习, 并充分利⽤了细粒度、⾼质量的数据进⾏⽣成学习。 Machine Translated by Goog 2.1. 愿景基础模型 3.1. 总体架构 2.3. 视觉⼤型语⾔模型 2.2. ⼤型语⾔模型 带来了能⼒的重⼤⻜跃,特别是在少样本学习和零样本学习⽅⾯,凸显了法学硕 ⼠的巨⼤潜⼒。这⼀承诺随着 LLM 在多模态交互⽅⾯的能⼒已准备就绪 从先驱 AlexNet [73] 开始,各种卷积神经⽹络 (CNN) 相继出现,不断刷新 ImageNet基准[ 33、40、57、62 、 语⾔输⼊作为提⽰,并表现出显著的少镜头 在⼤规模噪声数据上进⾏学习,并逐渐 多模式对话(MME、POPE 和 Tiny LVLM)。 视觉基础能⼒,促进区域描述和定位等任务。许多基于 API 的⽅法[96, 97, 125, 133, 155, 163, 166]也试图 编码器和现成的 LLM 解码器。 及其变体[15, 25, 37, 46, 94, 117, 144, 145, 178, 179] 开源法学硕⼠ (LLM),包括 LLaMA 系列[138, 139], 缺乏与法学硕⼠ (LLM) 的直接联系。此外, 最近的进步⻅证了视觉⼤ 130],提出的 InternVL 采⽤视觉编码器 InternViT-6B 和语⾔中间件 QLLaMA 设计。 深度”神经⽹络,这意味着,通过⾜够的训练和数据,更⼤更深的模型可以实现更 好的 [187]引⼊了视觉指令调整,以提⾼ VLLMs。结果表明,InternVL 实现了 ⼀些轻量级的“胶⽔”层[80, 92, 187]。然⽽, 代表了 VLLM 在具体应⽤⽅⾯的先进努⼒,⼤⼤扩展了其潜在应⽤。这些⼯作表 明 VLLM 已经 ⼈⼯智能领域,使以前被认为是⼈类独有的⾃然语⾔处理任务成为可能[110, 138, 153]。GPT -3 的出现[153] 可以带来额外的信息,这意味着更多的可能性。因此,探索如何利⽤优秀的 语⾔模型能够处理和解释视觉信息。Flamingo [3]使⽤视觉和 计算机视觉领域内的基础模型。 为了使两个规模较⼤的组成部分在模式和结构上存在巨⼤差距,我们引⼊了 ⼀种渐进式对⻬训练策略。训练策略是逐步进⾏的,从对⽐开始 这也限制了 VLLM 的性能。 Flickr30K & NoCaps)。同时,它对 结合多语⾔增强的 LLaMA [32]。它可以为图像⽂本对⽐学习提供强⼤的多语⾔ 表⽰,或作为连接视觉和语⾔的桥梁。 Qwen-VL 等⼈[5, 21, 149]改进了 VLLM,其 ⽤于计算机视觉领域的⽹络架构。ViT 使⽤ BERT 系列[39, 70, 93]进⾏图像-⽂本对 在该领域的发展进⼀步加速了 对于 VLLM 来说⾄关重要,但还没有跟上步伐。 如图 3 所⽰,与传统的仅视觉主⼲模型[57, 94, 148]和双编码器模型[67, 117] 不同, 连接[57]有效地解决了梯度消失的问题。这⼀突破引领了“⼤⽽⽆当”时代的到 来。 3 当前最先进的视觉基础模型和 GPT-4 [110]、 LLaVA系列[91、92、100 ]和MiniGPT-4 任务。此外,PaLM-E [43]和 EmbodiedGPT [108] 不仅限于⾃然语⾔。视觉模态 各种重要的视觉任务。在法学硕⼠时代,这些视觉基础模型通 常通过以下⽅式与法学硕⼠相联系 ⼤型语⾔模型 (LLM) 彻底改变了 [44]、 Qwen [4]、Baichuan [6]和Falcon [114]等 165、168、175、177、180、181、188 ] ,旨在提⾼ 仍然限制在 10 亿个参数左右[46, 67], 过去⼗年, 具有 80 亿个参数的语⾔中间件,已初始化 语义分割 (ADE20K)、视频分类 (Ki-netics)、图像⽂本检索 (Flickr30K 和 COCO)、视频⽂本检索 (MSR-VTT) 和图像字幕 (COCO 和 近年来,ViT [42]开辟了新的可能性 VisionLLM [147]、 KOSMOS-2 [115]等模型,以及 ChatGPT 和 GPT-4 的进展[ 110]。 数据集,如 ImageNet [38]或 JFT [173],或与 成为下⼀步的研究趋势。 视觉和视觉语⾔基础模型,同样 65, 95, 148, 160].特别是,引⼊残差 视觉问答的表现。随后, ⾛向精致、⾼质量的⽣成学习 (3)我们将提出的模型与 将视觉 API 与 LLM 集成,以解决以视觉为中⼼的 ers [32, 134, 154]。然⽽,在实际场景中,交互 显著提⾼了他们的能⼒,并且在 Vicuna [184]、 InternLM [135]、 MOSS [132]、 ChatGLM 语⾔模型( VLLM ) [ 3、23、75、79、82、88、131、156 、 ⽤于与法学硕⼠ (LLM) 连接的流⾏视觉模型 具体来说,InternViT-6B 是⼀款具有 60 亿个参数的视觉转换器,经过定制,可 在性能和效率之间实现良好的平衡。QLLaMA 是⼀款 VLLM 的指令遵循能⼒。同时, 在⼴泛的通⽤视觉语⾔任务中表现出⾊,包括图像分类(ImageNet), 性能。换句话说,扩⼤规模很重要。 取得了重⼤突破。然⽽,进展 差距存在,因为这些模型主要源于视觉 3.提出的⽅法 2.相关⼯作 Machine Translated by Google / 来源多样,从⽹络上嘈杂的图像⽂本对到⾼质量字幕、VQA 和多模式对话数据集。 表 1. InternViT-6B 模型的架构细节。 对⽐训练、视觉语⾔⽣成训练和监督微调。这些阶段有效地利⽤了来⾃ 图 3.提出的 InternVL 模型的训练策略。它由三个渐进阶段组成,包括视觉-语⾔ 多层感知处理器 实习⽣ViT-6B 第⼀阶段:对⽐预训练 注意⼒ 2. 零样本图像⽂本检索(新) 叉 ⼩⽺驼-13B 匹配损失 3. 零样本图像字幕(新) ⽀持的任务: 4.多模式对话(新) 叉 第⼆阶段:⽣成预训练 5. 视觉问答(新) ⽣成性损失 ⽀持的任务: 1.零样本图像分类 2.零样本图像⽂本检索 第三阶段:监督微调 3. ⽣成性损失 昆明市昆明路 多层感知处理器 2. 对⽐损失 对⽐损失 注意⼒ LLaMA-7B 昆明市昆明路 1. 零样本图像分类(新) ⽀持的任务: 实习⽣ViT-6B 实习⽣ViT-6B 可训练权重 冷冻重量 共享权重 相同数量的参数,深度,头部尺⼨, 源。然后,配备对⻬的视觉编码器 语⾔中间件:QLLaMA。语⾔中间件 QLLaMA 旨在对⻬视觉和语⾔特征。如图 3 所⽰,QLLaMA 是基于预训练的多语⾔ LLaMA [32]开发的, 为了在准确率、速度和稳定性之间做出权衡,我们对 InternViT-6B 进⾏了超参数搜索。我们改变了模型 ⽅法有三个优点:(1)通过初始化 ⽐ QFormer ⼤ 42 倍。因此,即使使⽤ {64, 128},MLP ⽐率在 {4, 8} 范围内。该模型 和不同配置的 InternViT-6B 变体的稳定性。我们报告以下发现:(1)速度。对 于 随机初始化的层(10 亿个参数)。 军⼑。它拥有灵活的结构,可以 我们对 1 亿个⼦集进⾏了对⽐学习 速度差异变得可以忽略不计;(2)准确性。 组合特征的⼀致性和有效性。 transformer(ViT) [42]。为了匹配 LLM 的规模,我们 数据。通过这种⽅式,我们确保有效地组织和 和 MLP ⽐率对绩效影响不⼤。基于 使⽤轻量级的“粘合”层,例如 QFormer [81]和 并新增了 96 个可学习查询和交叉注意 LAION-en 数据集[120]⽤来测量准确率、速度、 和语⾔中间件,我们的模型就像瑞⼠的 线性层[92]连接视觉编码器和LLM,我们的 充分利⽤各种⽹络规模的图像⽂本数据 将视觉编码器扩展到 60 亿个参数,得到 InternViT-6B 模型。为了获得良好的 权衡 宽度和头数是根据 不同的模型设置,当计算未饱和时, 这种⽅式允许 QLLaMA 顺利地整合视觉 适⽤于多种通⽤的视觉语⾔任务。 冻结的 LLM 解码器,InternVL 可以在多模态对话任务上取得良好的表现。(3) 它也可以 深度在 {32, 48, 64, 80} 之内,头部尺⼨在 预训练的权重[32], QLLaMA 可以将 InternViT-6B ⽣成的图像标记转换为 与 LLM 对⻬的表⽰;(2)QLLaMA 有 80 亿个⽤于视觉语⾔对⻬的参数,它们 是 4 这些任务包括视觉感知、图像/视频⽂本检索、图像字幕、视觉问答和多模式对话 等。 深度较⼩的模型每幅图像的处理速度更快。然⽽,由于 GPU 计算被充分利⽤, 元素融⼊语⾔模型,从⽽增强 根据这些发现,我们确定了最终模型最稳定的配置,如表1 所⽰。 给定模型规模和其他超参数。 与最近流⾏的⽅法[81,92 ]相⽐, ⼤规模视觉编码器:InternViT-6B。我们使⽤ vanilla vision 实现了 InternVL 的视觉编码器 維特[23] EVA-02-ViT-E [130] 4400 3926 維他命-G [173] ViT-22B [37] 5903 ViT-6.5B [128] 6440 21743 8192 15360 15360 16384 24576 12800 姓名 InternViT-6B(我们的) 1664 48 1792 1843 56 1792 64 4096 32 6144 48 3200 48 宽度深度 MLP #heads #param (M) 16 16 16 32 48 25 3.2. 模型设计 Machine Translated by Google ⼤约 400 万个样本。为了公平⽐较,我们仅 使⽤这些数据集的训练分割。 表 2.第 1 阶段 InternVL 的训练数据详情 和第 2 阶段。其中,LAION-en [120]、 LAION-multi [120]、 各种视觉语⾔任务,包括对⽐任务、⽣成任务和多模式对话。 我们收集了⼴泛的⾼质量教学数据,总计 表 3.第 3 阶段 InternVL 的训练数据详情。 图 4.使⽤ InternVL 的不同⽅式。通过灵活地结合视觉编码器和语⾔中间件,InternVL 可以⽀持 COYO [14]和Wukong [55]是⽹络规模的图像-⽂本对数据。 学术字幕数据集。“多”表⽰多语⾔。 LAION-COCO [121]是来⾃ LAION-en 的合成数据集,包含⾼质量字幕。 CC12M [20]、 CC3M [124]、 SBU [112]是 OCR-VQA [107]、 ChartQA [105]、 DocVQA [29]、 1.4⽶ 全部的 接地 323K RefCOCO/+/g [103, 170], Toloka [140] 2.3B 19.4亿 84.3% 9.1亿 4.0% 中⽂ 1亿 6940万 69.4% 6940万 69.4% 多 视觉质量评估 LLaVA-150K [92]、 SVIT [183]、 VisDial [36]、 LRV 指令[90]、 LLaVA-Mix-665K [91] LAION-COCO [121] #samples 数据集 7.47亿 5.35亿 71.6% 2亿 26.8% CC3M [124] IconQA [99]、 AI2D [71]、 GQA [64] 对话 60.3亿 49.8亿 82.6% 10.3亿 17.0% 300万 260万 86.7% 260万 86.7% 数据集 第⼆阶段 294K ST-VQA [12]、 EST-VQA [150]、 InfoVQA [106]、OCR 悟空[55] LAION-en [120] 任务 接地电容 284K RefCOCO/+/g [103, 170] ⾼×宽×3 100万 100万 100% 100万 100% LAION-多[120] 1.1⽶ 科约[14] 588K COCO 标题[22]、 TextCaps [126] 多 22亿 18.7亿 85.0% 1亿 4.5% 特征 英语 6.63亿 5.5亿 83.0% 5.5亿 83.0% VQAv2 [54]、 OKVQA [104]、 A-OKVQA [122]、 CC12M [20] 拉⽡尔[182] 第⼀阶 段 语⾔ 原件 已清理 保留 已清理 保留 字幕 1240万 1110万 89.5% 1110万 89.5% 安全部队[112] 视觉-语⾔对⽐训练。在第⼀阶段, token 是按顺序⼀个⼀个⽣成的。 图像⽂本对⻬任务的表⽰,例如零样本图像分类和图像⽂本检索。 是同时使⽤完整的 InternVL 模型,因为 将注意⼒池应⽤于 InternViT 的视觉特征 多语⾔内容,包括 LAION-en [120]、 LAION-multi [120]、 LAIONCOCO [121]、 COYO [14]、 Wukong 我们的 5 三个渐进阶段,包括视觉语⾔对⽐训练、视觉语⾔⽣成训练和 (1)对于视觉感知任务,In-ternVL 的视觉编码器,即 InternViT-6B,可以作为 视觉特征如果。此外,我们通过从 QLLaMA 的 [EOS] 令牌中提取特征将⽂本编 码为Tf 。通过 如表 2 所⽰,原始数据集包含 密集预测任务,或者使⽤全局平均池化 (3)对于⽣成任务,与 QFormer [80] 不同, QLLaMA 60.3 亿个图⽂对,清洗后剩余 49.8 亿个。关于数据准备的更多细节将在 视觉任务。给定⼀个输⼊图像 I ∈ R 计算If和Tf之间的相似度得分,我们⽀持 监督微调。这些阶段有效地利⽤ 配置。⼀种选择是采⽤ InternViT-6B (2)对于对⽐任务,如图4 (a)(b)所⽰,我们引⼊了两种推理模式: InternVLC和InternVL- G,使⽤视觉编码器或InternViT的组合 到其放⼤的参数。QLLaMA 的查询重新组织了来⾃ InternViT-6B 的视觉表征, 并且 我们进⾏对⽐学习,以使InternViT-6B与 多模式对话数据集。 在训练过程中,我们采⽤ LLaMA-7B 来编码 和 QLLaMA 来编码视觉特征。具体来说,我们 应⽤于对⽐学习,提供强⼤的⽂本 独⽴地,如图4 (c) 所⽰。替代⽅法 扮演 QLLaMA 的前缀⽂本。后续⽂本 在⽹络规模的嘈杂图像⽂本对上进⾏了多语⾔ LLaMA-7B [32]测试。这些数据 都是公开的,包括 [55]等。我们利⽤这些数据集的组合,并过滤掉⼀些极低质量的数据来训练我们 的模型。 如图 3 所⽰,InternVL 的训练包括 或 QLLaMA 的查询特征,来计算全局 如图4 (d)所⽰。 “瑞⼠军⼑”模型:InternVL。通过灵活组合视觉编码器和语⾔中间件,InternVL 可以⽀持各种视觉或视觉语⾔任务。 , 各种对⽐任务,例如图像⽂本检索。 模型可以⽣成特征图 F ∈ R H/14×W/14×D ,⽤于 来⾃不同来源的公共数据,包括⽹络上嘈杂的图像⽂本对、⾼质量字幕、VQA 和 在补充材料中提供。 ⽂本作为Tf ,并使⽤ InternViT-6B 提取视觉特征 天⽣就具有良好的图像字幕能⼒ 和线性投影进⾏图像分类。 (4)对于多模态对话,我们引⼊了InternVL-Chat,利⽤ InternVL 作为视觉组件 与 LLM 连接。为此,我们有两个不同的 3.3. 对⻬策略 实习⽣ViT-6B 昆明市昆明路 实习⽣ViT-6B 昆明市昆明路 实习⽣ViT-6B ⼩⽺驼-13B 实习⽣ViT-6B 昆明市昆明路 ⼩⽺驼-13B (a)实习⽣VL-C (b)实习⽣VL-G (c) InternVL-Chat(不包含 QLLaMA) (d)InternVL-Chat(与 QLLaMA 合作) [EOS] ⼀只可爱的熊猫 [EOS] [EOS] ⼀只可爱的熊猫 [EOS] ⼀只可爱的熊猫 ⼀只可爱的熊猫 注意⼒集中 注意⼒集中 这是什么? 这是什么? 这是什么? ⽂本 询问 ⽂本 图⽚+⽂字 询问 ⽂本 相似 相似 图像 图像 图像 图像 图像+查询+⽂本 Machine Translated by Google 119, 141]. ViT-22B [37]使⽤私有 JFT-3B 数据集[173]。 InternViT-6B具有更好的像素级感知能⼒。 ImageNet-1K [38]及其变体[10, 60, 61, 表 4.图像分类的线性评估。我们报告了 表 5. ADE20K 上的语义分割。结果表明 ViT-22B [37],我们使⽤线性分类器对 InternViT-6B 进⾏微调。 从上到下:线性探测、头部调整和全参数调整。 (b)三种不同环境下的语义分割性能, (a)使⽤有限训练数据的少样本语义分割。以下 最先进的⽅法[46, 67, 111] 。为了 此阶段的损失计算为三个部分的总和:图像⽂本对⽐ (ITC) 损失、图像⽂本匹 配 (ITM) 损失和基于图像的⽂本⽣成 (ITG) 图4 (c)。另⼀种是使⽤整个InternVL模型 图像分类和图像⽂本检索,以及视觉 由第⼀期的49.8亿增加到10.3亿。 6 3、我们⼴泛收集⾼质量的教学数据, 冻结 LLM 解码器,选择仅训练 MLP 在补充材料中提供。 视觉语⾔⽣成训练。在第⼆个 ⾸先,我们验证了 第 1 阶段。在此阶段,图像编码器 InternViT-6B 数据集,我们按照[91]中描述的⽅法进⾏转换。由于 QLLaMA 的特征空间相似 转移到语义分割。为了研究 参数是完全可训练的。 我们让 InternViT-6B 和 QLLaMA 保持冻结状态,并且只 ImageNet-1K [38]数据集。按照常⻅做法[37, 58, 111],我们采⽤线性探测评 估,即在保持主⼲不变的情况下训练线性分类器。除了 ImageNet-1K 验证集 外, 层或 MLP 层和 QLLaMA。这种⽅法 培训阶段,我们将InternViT-6B与QLLaMA连接起来 InternViT-6B,InternVL的最核⼼组件。 真如果。根据CLIP [117]的⽬标函数, 层,并采⽤经过过滤的⾼质量数据。表2总结了 变体[10、60、61、119、141 ] ,⽤于对域进⾏基准测试 并且 QLLaMA 冻结并且只训练新参数。 通过 MLP 层将其与现成的 LLM 解码器(例如 Vi-cuna [184]或 InternLM [135])连接起来,并且 法学硕⼠ (LLM) 的原始语⾔能⼒。 像素级感知能⼒的 InternViT-6B,我们在 按照 BLIP-2 [81]的损失函数,损失 损失。这使得查询能够提取强⼤的视觉表⽰,并进⼀步将特征空间与 LLM 对 ⻬,这归因于有效的训练⽬标和我们⼤规模、LLM 初始化的 QLLaMA 的利⽤。 总计约 400 万个样本。对于⾮对话 第⼆阶段的数据集。可以看出,我们进⼀步过滤了低质量字幕的数据,从⽽降低 了 泛化能⼒。如表 4 所⽰,InternViT-6B ⽐之前的 监督微调。为了展⽰ 第三阶段。在这个阶段,我们有两种不同的配置。⼀种是单独使⽤ InternViT-6B, 我们最⼩化了⼀批图像-⽂本对相似度分数的对称交叉熵损失。这⼀阶段使 如图所⽰ InternVL 能够在零样本等对⽐任务上表现出⾊ 随机初始化[7],⽂本编码器LLaMA-7B 和法学硕⼠,我们可以实现稳健的表现,即使 此阶段的编码器在语义分割等视觉感知任务上也能表现良好。 同时,如图4 (d)所⽰。更多详细信息请参⻅ InternVL 在创建多模式对话系统⽅⾯,我们 不仅加快了 SFT 流程,⽽且保持了 转移到图像分类。我们使⽤以下⽅法评估 InternViT-6B 产⽣的视觉表征的质 量: 据我们所知,这代表了⽬前没有 JFT 数据集的最佳线性评估结果[173]。 使⽤[32]中的预训练权重进⾏初始化。所有 并采⽤⽣成式训练策略。具体来说,QL-LaMA 继承了第⼀阶段 LLaMA-7B 的 权重。 ADE20K [185]数据集。继 ViT-22B [37] 之后,我们 进⾏监督微调(SFT)。如表所⽰ 第 2 阶段。在此阶段,InternViT-6B 和 QLLaMA 从第⼀阶段继承权重,⽽ QLLaMA 中新的可学习查询和交叉注意层则随机初始化。得益于第⼀阶段学习 到的强⼤表⽰,我们保留了 InternViT-6B 训练新添加的可学习查询和交叉注意⼒ 我们还报告了⼏个 ImageNet 上的性能指标 1.1亿 86.5 89.6 78.4 75.9 78.8 62.5 78.6 ViT-22B [37] 线性 (Linear) ⽅法 InternViT-6B(我们的) 5.9B 88.2 90.4 79.9 77.5 89.8 69.1 82.5 ‒ 50万 / 59亿47.2 0.3亿 5042 线性 0.3M / 1.8B 39.3 5042 优普⽹络 DINOv2-g [111] 1.8亿 90.9 5042 1.8亿 86.2 89.4 77.2 63.8 87.8 66.4 78.5 維他命-G [173] ViT-22B冷冻[37] 优普⽹络 21.7B 89.5 InternViT-6B(我们的) 5042 1.1B 86.5 22.5亿 / 22.5亿 55.3 5042 46.5 50.0 53.3 55.8 57.2 5122 #param 裁剪尺⼨ 1/16 1/8 1/4 1/2 1 ViT-22B冷冻[37] OpenCLIP-G [67] ‒ ‒ ‒ ‒ 0.6B 84.4 88.4 75.5 42.4 47.0 50.2 52.4 55.6 0.8亿 / 22.5亿 52.7 OpenCLIP-Gfrozen [67] 維特-L [137] ViT-22B [37] 0.9百万 / 21.7亿 34.6 MAWS-ViT-6.5B [128] 6.5B 87.8 ViT-22B* [37] 5042 5042 44.7 47.2 50.6 52.5 54.9 89.3 77.4 70.5 87.7 63.1 79.1 InternViT-6B(我们的) 解码器 #param(训练/总计)裁剪尺⼨ mIoU InternViT-6Bfrozen (我们的)线性 优普⽹络 ⽅法 OpenCLIP-H [67] ‒ #param IN-1K IN-ReaL IN-V2 IN-A IN-R IN-Ske 平均值。 5042 36.1 41.3 45.6 48.4 51.9 6.3亿 / 6.3亿58.9 ⽅法 InternViT-6Bfrozen (我们的) UperNet 5042 5042 EVA-01-CLIP-g [46] 0.4亿 / 6.3亿54.9 83.2 83.8 87.4 − − 217亿 59亿 4.实验 4.2. 视觉感知基准 4.1. 实施细节 Machine Translated by G COCO 和零样本转移到 Flickr30K,有助于提⾼ Flickr30K 上的零样本性能。 表 7.零样本图像⽂本检索性能⽐较。我们使⽤ 表 8.零样本视频分类结果⽐较 Kinetics 400/600/700。我们报告了 top-1 准确率和平均值 语⾔包括英语 (EN)、中⽂ (ZH)、⽇语 (JP)、阿拉伯语 (AR) 和意⼤利语 (IT)。 Flickr30K [116]和 COCO [22],以及中⽂版使⽤ Flickr30K-CN [77]和 COCO-CN [84]。 †BLIP-2 [81]在 top-1 准确率。 CoCa [169]和 LiT-22B [37]在训练过程中使⽤私有 JFT-3B 数据集[173] 。多语⾔评估涉及 5 表 6.零样本图像分类性能⽐较。 “∆↓”:平均 top-1 准确率与 IN-1K 之间的差距 top-1 和 top-5 准确率。“#F”表⽰帧数。 47.2 mIoU,⽐之前⼤幅提⾼了 +12.6 mIoU ViT-22B.这些结果强调了我们的 InternViT-6B 强⼤的开箱即⽤像素级感知能 ⼒。 探测、头部调整[158]和全参数调整。值得注意的是,在线性探测的情况下, InternViT-6B 达到了 在本节中,我们评估 In-ternVL 在各种视觉语⾔任务上的固有能⼒。 五项实验中不同⽐例的 ViT-22B 训练数据。此外,表5b展⽰了我们在三种不同设置中的进⼀步验证,包括线性 在有限的数据集上,使⽤线性头部作为⻣⼲。如表 5a 所⽰, InternViT-6B 的表 现始终优于 gin 与少样本学习实验相结合,即微调 与 EVA-02-CLIP-E+ [130] 相⽐,它表现出更强的鲁棒性 InternVL-C 的可靠性。如表6a所⽰, InternVL-C 在各种 ImageNet 变体[38, 60, 61, 119, 141]和 ObjectNet [8] 上取得了领先的性能。相⽐之下 分布偏移,表现为 ImageNet 变体之间更⼀致的准确率。此外,如图所⽰ 零样本图像分类能⼒的验证 7 零样本图像分类。我们进⾏了彻底的 (a)ImageNet变体[38、60、61、119、141 ]和ObjectNet [8 ] 。 (b)多语⾔ ImageNet-1K [38, 76]。 80.6 0.8 82.4 − EN ZH JP AR IT 平均。 × − − 86.6 91.5 92.0 93.9 85.9 86.0 86.1 86.0 86.2 87.5 86.2 86.9 87.8 ⽅法 1 − 69.8 65.9 64.8 69.1 InternVL-C(我们的) ‒ ⽅法 InternVL-C(我们的) 97.6 86.3 92.7 OpenCLIP-XLM-RH [67] 77.0 55.7 53.1 37.0 56.8 55.9 99.9 99.9 98.5 97.5 97.5 98.8 99.4 79.6 81.5 81.5 81.5 82.1 82.0 83.0 82.7 2.5 76.0 OpenCLIP-XLM-RH [67] − 68.8 70.6 74.9 WuKong-ViT-LG [55] − 57.5 − − − − − 92.9 97.0 96.7 97.7 多89.0 − 47.2 48.0 49.5 48.8 49.3 50.3 51.2 51.4 51.1 − Flickr30K(英语,1K测试集) [116] 69.2 66.1 − 59.6 − − − − 55.2 63.3 IN-1K IN-A IN-R IN-V2 IN-Sketch ObjectNet ∆↓ 平均值 100.0 99.6 99.7 − InternVL-G(我们的) − − − − 20.2 − − × 83.2 71.4 EVA-01-CLIP-g+ [130] 78.0 3.9 76.2 85.1 维基百科[152] − 93.5 95.2 ⽅法 90.9 实习⽣VL-C(我们的) 83.2 64.5 61.5 44.9 65.7 64.0 81.7 85.0 99.5 98.8 99.2 99.7 99.8 图⽚ → ⽂本 − CN-CLIP-ViT-H [162] 68.9 73.8 54.1 58.6 − − 90.9 90.9 90.8 91.4 91.8 91.6 92.5 92.9 93.9 InternVL-C(我们的) 73.9 − − − − − 22.1 − 71.4 71.5 73.4 73.3 73.2 74.0 74.2 74.9 75.0 × ✓ 73.0 75.3 × ✓ 83.0 悟空-ViT-L [55] K400 [17] ‒ − 69.3 − 63.4 66.6 67.5 61.0 平均 98.2 98.6 74.5 71.2 83.9 × ⽅法 可可[169] 84.6 88.0 − 95.5 95.5 94.9 96.4 97.3 佛罗伦萨[171] 89.0 91.3 67.3 71.0 ⽅法 MCLIP [16] × − ⽂本 → 图像 语⾔ R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 − AltCLIP-ViT-L [26] 74.5 59.6 − − − − − R2D2-ViT-L [159] × ‒ 76.1 65.5 75.5 56.8 67.5 OpenCLIP-H [67] 78.0 59.3 89.3 70.9 69.7 5.7 72.3 81.0 89.3 100.0 89.9 90.8 91.9 94.4 83.9 #F OpenCLIP-G [67] 2.4 76.9 76.1 77.6 92.0 91.4 90.5 92.9 94.8 ⼀個和平[143] K600 [18] 68.9 84.0 77.3 81.3 EVA-02-CLIP-E+ [130] 75.1 96.1 96.0 96.5 98.1 × 82.0 3.6 5.0 0.2 41.2 − COCO(英语,5K测试集) [22] 86.6 − 99.8 99.7 99.6 99.8 99.8 99.9 99.8 99.8 OpenCLIP-g [67] 78.5 60.8 90.2 71.7 69.2 5.5 73.0 71.6 77.6 89.7 90.6 95.7 99.1 98.8 99.3 99.2 99.4 99.3 99.5 99.3 99.4 75.7 62.2 73.5 54.3 66.4 − 1 81.9 ‒ 94.8 96.7 K700 [19]前 1 名平均值 前 1 名平均值 前 1 名平均值 OpenCLIP-g [67] × 太⼄-CLIP-ViT-H [176] Flickr30K-CN(中⽂,1K 测试集) [77] BLIP-2† [81] 84.6 ‒ 97.5 98.9 1 − 63.9 − 64.1 − 56.9 88.8 EVA-02-CLIP-E+ [130] 96.2 96.6 96.9 96.5 96.9 97.7 97.1 96.8 − OpenCLIP-H [67] ✓ ✓ ✓ 68.1 76.7 77.2 77.8 77.7 77.8 78.9 80.4 79.5 78.8 − 77.7 8 8 − CLIP-意⼤利语[11] − × OpenCLIP-G [67] AltCLIP-ViT-H [26] 79.6 1.1 80.9 98.1 96.0 97.0 OpenAI CLIP-L+ [117] 76.6 77.5 89.0 70.9 72.0 2.1 74.5 53.4 56.4 60.0 InternVL-C(我们的) 51.7 60.9 ‒ × 1 − 65.9 − 66.1 − 59.2 CN-CLIP-ViT-H [162] 79.4 68.9 78.8 60.6 71.5 OpenCLIP-g [67] EVA-01-CLIP-g+ [130] 72.3 90.3 92.9 COCO-CN (中⽂,1K 测试集) [84] 84.8 ⽇语-CLIP-ViT-B [102] − − 54.6 − − − − − 86.1 × 图⽚ → ⽂本 82.7 0.6 85.7 EVA-01-CLIP-g [130] 78.5 73.6 92.5 71.5 OpenCLIP-G [67] 80.1 69.3 92.1 73.6 EVA-01-CLIP-g+ [130] 79.3 74.1 92.5 72.1 MAWS-ViT-2B [128] 93.6 93.5 94.1 94.1 94.1 94.5 95.7 95.0 94.2 98.9 80.2 85.0 84.0 − × 78.9 86.8 OpenCLIP-XLM-RH [67] 63.0 70.0 87.6 − − EVA-02-CLIP-E+ [130] 90.1 93.1 93.3 EVA-02-CLIP-E+ [130] 82.0 82.1 94.5 75.7 CoCa [169] 86.3 90.2 96.5 80.7 LiT-22B [37, 174] 85.9 90.1 96.0 80.9 InternVL-C (我们的) 83.2 83.8 95.5 77.3 平均 − 85.0 1 − 66.7 − 67.0 − 60.9 InternVL-G(我们的) ‒ − 87.6 ⽂本 → 图像 OpenCLIP-XLM-RB [67] 62.3 42.7 37.9 26.5 43.7 42.6 91.9 91.9 91.8 92.2 92.5 91.8 92.6 92.8 94.7 95.7 88.9 81.6 86.1 − 64.7 64.7 66.0 66.4 65.9 68.2 66.3 67.3 68.8 太⼄-CLIP-ViT-H [176] − 54.4 − − − − ✓ ✓ 4.3. 视觉语⾔基准 Machine Translated by Goo 数据集,超越 EVA-02-CLIP-E+ [130] +6.3、+6.2、 中国⼈使⽤Flickr30K-CN [77]和COCO-CN [84]。 在表10 中, QLLaMA 在零样本测试中超越了其他模型 此外,我们利⽤ XTD 数据集[1]来评估跨多语⾔图像⽂本检索能⼒ 与以前的⽅法相⽐表现出优异的性能 强⼤的多语⾔图像⽂本检索能⼒。在表7 中,我们使⽤ ⽤于评估物体幻觉的流⾏数据集。 在每个视频中采样 8 帧,我们⾄少获得 3.3 除了传统的多模式任务之外, 在 Flickr30K Karpathy 测试[116]和 No-Caps 验证集[2]上取得了与 当前最先进模型相当的结果。当 InternVL 与 LLM 相关联时 InternVL-C 在以下领域取得了最佳表现: 任务表明视觉和 Flickr30K和NoCaps,如表9所⽰。 ChatGPT [110]的出现,使得⼈们越来越关注评估多模态模型在实际 使⽤中的性能 与单帧设置相⽐,改进点数有所提⾼,优于使⽤⽹络规模训练的ViCLIP [152] Kinetics-400/600/700 上 top-1 和 top-5 准确率的平均值 语⾔中间件QLLaMA。 多语⾔ ImageNet-1K 基准。 视频分类中的泛化能⼒。 两个著名的多模态对话基准测试,包括 MME [50]和 POPE [86]。MME 是⼀个综合基准测试,包括 14 个⼦任务,重点关注 如表 9 所⽰,它清楚地表明我们的模型 [17‒19]。如表 8 所⽰,当在每个视频中仅采样⼀个中⼼帧时,我们的⽅ 法在三个⽅⾯的平均准确率分别为 76.1%、75.5% 和 67.5%。 Flickr30K [116]和COCO [22]数据集,以及 零样本图像字幕。得益于对⼤量⾼质量图像⽂本对进⾏视觉语⾔⽣成 训练,我们的 QLLaMA 在零样本图像字幕⽅⾯拥有良好的能⼒。如图所 ⽰ ⼤多数检索指标,并且通过第⼆阶段的预训练,InternVL-G 进⼀步增强 了零样本图⽂ (例如 Vicuna-7B/13B [184])并进⾏ SFT,显著 和 +4.1 个百分点。此外,当均匀 8 在 COCO Karpathy 测试集上的表现[22]。它还 8 种语⾔(⻅补充材料)。总之, 表6b,我们的模型展⽰了强⼤的多语⾔能⼒,优于竞争模型[16, 26, 67, 162 ] 视频数据。总之,InternVL-C 表现出显著的 检索性能。这些检索⽅⾯的改进 零样本性能的增强在 场景,特别是在多模态对话领域。我们对 InternVL-Chat 模型进⾏了测 试 零样本视频分类。根据以前的⽅法[117,130,152 ] ,我们报告了 top-1 准确率和 零样本图像⽂本检索。InternVL展⽰了 语⾔特征,通过使⽤额外的图像编码 模型的感知和认知能⼒。POPE 是⼀个 4.4. 多模式对话基准 Karpathy 测试[116]、 NoCaps val [2]。VQA 数据集包括:VQAv2 test-dev [54]、 GQA test-balanced [64]、 VizWiz test-dev [56]和 表 10.零样本图像字幕制作⽐较。QLLaMA TextVQA val [127]。 在训练期间观察到数据集的训练注释。“IViT-6B”代表我们的 InternViT-6B。 表 9.在 9 个基准上与 SoTA ⽅法的⽐较。图像字幕数据集包括:COCO Karpathy 测试[22]、 Flickr30K 本⾝就具备良好的零样本字幕能⼒ 这得益于其扩⼤的参数和数据集。 61.5 1586.4 87.6 71.6 对话 ‒ ‒ 50.1 42.5 1293.8 85.3 QFormer Vicuna-13B InstructBLIP [34] QFormer Vicuna-13B Shikra-13B [21] ‒ ‒ 81.0 CLIP-G VL 适配器 Qwen-7B 35.2 448 1.4B† 50M† 9.6B 120.2 78.2 57.5 Qwen-VL-Chat [5] CLIP-G VL 适配器 Qwen-7B 81.0 ‒ ‒ 63.8 ‒ 121.9 ‒ 法学硕⼠ 57.0 1525.1 86.4 ‒ ‒ VL-适配器 Qwen-7B Qwen-VLChat [5] VL-适配器 Qwen-7B Emu [131] 121.4 ‒ 49.1 1317.2 85.4 视觉编码 器 InstructBLIP [34] ‒ ‒ ‒ ‒ 73.9 87.7 85.8 CLIP-L336 MLP Vicuna-13B 336 558K 665K 13B 80.0* 63.3* 53.6 InternVL-Chat (我们的) IViT-6B MLP Vicuna-7B 336 558K 665K 7B 79.3* 62.9* 52.5 InternVL-Chat (我们的) 6B MLP 骆驼⽑- 13B 336 558K 665K 13B 80.2* 63.9* 54.6 InternVL-Chat(我们的) IViT-6B QLLaMA Vicuna-13B 336 1.0B 4.0M 13B 146.2* 92.2 126.2 81.2* 66.6* 58.5 60.0 37.4 30.9 交叉攻击⻰猫-7B 79.4 61.5 Flamingo-80B [3]交叉攻击⻰猫-70B 84.3 67.2 KOSMOS-2 [115]线性 KOSMOS-1 66.7 PaLI-X-55B [24]线性 UL2-32B BLIP-2 [81] ‒ ‒ Linear Vicuna-7B 115.4 InternVL-G(我们的)CrossAttn QLLaMA 128.2 ‒ CLIP-L 线性 15B 91.8 53.7 6.7M 15B 117.2 65.3 104.5 IDEFICS-80B [66] CLIP-H 交叉注意 LLaMA-65B 224 1.6B 65.0 36.0 交叉注意 LLaMA-65B 224 353M IDEFICS-80B-I [66] CLIP-H 26.0 448 1.4B† 50M† 9.6B Qwen-VL [5] 85.8 121.4 78.8 59.3 ‒ ‒ ‒ 61.3 1531.3 85.9 ‒ 103.9 117.2 ‒ ⽅法 ‒ ‒ Q前哈⼠奇-7B Qwen-VL [5] ‒ ‒ 胶层 QFormer Vicuna-7B QFormer Vicuna-13B 224 129M ‒ 188M ‒ QFormer Vicuna-13B 224 129M 1.2M 188M ‒ 42.1 1298.5 85.2 ‒ CLIP-L336 MLP Vicuna-7B 336 558K 665K 7B 78.5* 62.0* 50.0 LLaVA-1.5 [91] ‒ ‒ ‒ ⽕烈⻦-9B [3] 113.7 49.2 34.5 41.0 19.6 49.5 33.4 72.3* 57.7* 44.5 71.7* 59.5* 54.0 77.4* ‒ 45.2 QFormer LLaMA-13B 117.7 DreamLLM [41] ‒ ‒ EVA-g 82.8 121.9 InternVL-Chat (我们的) IViT-6B QLLaMA Vicuna-7B 224 1.0B 4.0M 64M 141.4* 89.7 120.5 InternVL-Chat (我们的) IViT-6B QLLaMA Vicuna-13B 224 1.0B 4.0M 90M 142.4* 89.9 123.1 Vicuna-13B 224 600K 5.5M 7B 117.5* 73.9 希克拉[21] ‒ ‒ ‒ ‒ 58.2 1510.7 85.9 82.8 ‒ 图像字幕 视觉问答 参数 COCO Flickr NoCaps VQAv2 GQA VizWiz VQAT MME POPE ‒ ‒ 50.7 1212.8 78.9 ‒ 线性 Vicuna-13B ASM [149] ‒ 126.3 ⽕⻋。 41.0 38.9 LLaVA-1.5 [91] ‒ ‒ ⽅法粘合层 LLM 解码器 COCO Flickr30K NoCaps ‒ PT SFT 报告 79.2 58.7 1546.9 87.1 ‒ Q前 LLaMA-13B 112.4 Emu-I [131] ‒ 120.2 ‒ ‒ 224 1.29亿 120万 1.88亿 ‒ EVA-g 82.4 123.1 BLIP-2 [81] 71.6 103.9 EVA-g InstructBLIP [34] ‒ ‒ 61.5 1487.5 ‒ Machine Translated b 5. 结论 致谢 4.5. 消融研究 测试期间使⽤了Flash Attention [35]和 bf16 精度。 验证集[38]。最终选定的模型标记为灰⾊。 吞吐量(img/s)和 GFLOP 是在 224×224 输⼊分辨率下测量的,在单个 A100 GPU 上批量⼤⼩为 1 或 128。 表 11.InternViT -6B 中的超参数⽐较。 表 12.使⽤ InternVL 构建多模态对话系统的消融研究。V -7B 和 V-13B 表⽰ Vicuna-7B/13B “zs IN” 表⽰ ImageNet-1K 上的零样本 top-1 准确率 [184] 。“IViT-6B”代表我们的InternViT-6B。 型号 3 3200 48 12800 25 5903M 1536G 28.0 / 64.6 66.2 视觉胶⽔ 对话字幕 视觉问答 型号 2 3200 48 12800 50 5903M 1536G 28.1 / 64.9 66.1 型号 5 2816 64 11264 44 6095M 1589G 21.6 / 61.4 66.2 EVA-E MLP V-7B 665K [91] 970.5 75.1 40.1 25.5 41.3 型号 4 2496 48 19968 39 5985M 1553G 28.3 / 65.3 65.9 编码器层 MME NoCaps OKVQA VizWizval GQA IViT-6B QLLaMA V-7B 665K [91] 1227.5 94.5 51.0 38.4 57.4 型号 6 2496 80 9984 39 5985M 1564G 16.9 / 60.1 66.2 IViT-6B MLP V-7B 665K [91] 1022.3 80.8 42.9 28.3 45.8 IViT-6B QLLaMA V-13B 我们的 1317.2 123.1 55.5 55.7 59.5 型号 1 3968 32 15872 62 6051M 1571G 35.5 / 66.0 65.8 LLM 数据集 IViT-6B QLLaMA V-7B 我们的 1298.5 120.5 51.8 44.9 57.7 名称宽度深度MLP#heads#param FLOPs吞吐量zs IN 与现成的LLM⼀致。 Yue 对训练框架优化的贡献。我们感谢⻩振航在数据准备⽅⾯的帮助。 不同之处在于使⽤随机初始化的⽂本编码器 模型和 LLM。结果如表12所⽰。我们 例如图像/视频分类、图像/视频⽂本检索、图像字幕、视觉问答等 在这种简单的设置下,性能更好。此外,值得注意的是,这三个⽅⾯的性能 对 VLLM 社区的发展。 为了准确性、推理速度和训练稳定性, 8},最终得到 16 个不同的模型。在选择最佳模型时,我们最初将重点缩⼩到 6 个 验证 In-ternVL 与现成的 LLM 的特征表⽰的⼀致性。我们采⽤极简 描绘出 InternVL 的特征表⽰更加 在本⽂中,我们提出了 InternVL,这是⼀种⼤规模视觉语⾔基础模型,它将视 觉基础模型扩展到 60 亿个参数,并且与通⽤模型保持⼀致 9 将其与 LLM 初始化的语⾔中间件 QL-LaMA 对⻬,并利⽤来⾃各种来源的⽹ 络规模图像⽂本数据进⾏⾼效训练。它弥补了 我们感谢张胜⻰、周北通、张新⽉、 在 LAION-en 的 100M ⼦集上进⾏对⽐学习[120] LLaVA-Mix-665K [85]数据集。此外,只有 MLP 为了加快训练速度,我们使⽤了 CLIP-L [117]中的 观察发现,与 EVA-E [130]相⽐,我们的 InterViT-6B ods,在可训练参数数量公平的条件下。 多模态对话。我们希望这项⼯作能够有助于 InternViT-6B 的超参数。如第 3.2 节所述,我们探索了模型深度的变化{32, 48, 我们最终选择了变体3作为最终的InternViT-6B。 使⽤ QLLaMA 后任务得到显著改善 视觉语⾔任务。具体来说,我们设计了⼀个⼤规模视觉基础模型 InternViT-6B, 逐步 根据其吞吐量选择的模型,如表11所⽰。这些模型经过进⼀步评估,使⽤ 64, 80}、头部尺⼨{64, 128}和 MLP ⽐率{4, 特征表⽰的⼀致性。在本研究中,我们 视觉基础模型和法学硕⼠,并展⽰了在⼴泛的通⽤视觉语⾔任务中的熟练程 度, 超过 10K 次迭代。对于实验设置,主要 史东兴、孙伟⾼、张兴成、志峰 层是可训练的,从⽽确认来⾃不同视觉基础的特征之间的固有对⻬⽔平 作为“粘合层”。这些显著的改进显然 设置,即仅使⽤ Machine Translated by Google A.补充材料 A.2. 更多消融研究 A.1. 更多实验 表 15.微调后的图像⽂本检索性能⽐较。我们评估了英⽂和中⽂的图像⽂本检索 †这些模型是⽤时间注意层训练的。 表 14. MSR-VTT 上的零样本视频⽂本检索性能⽐较。 “#F”表⽰帧数。 意⼤利语 (IT)、韩语 (KO)、俄语 (RU) 和⽇语 (JP)。我们 按照 M-CLIP [16]报告 Image-to-Text 上的召回率@10。 包括英语 (EN)、西班⽛语 (ES)、法语 (FR)、中⽂ (ZH)、 表 13. XTD 数据集上零样本多语⾔图⽂检索性能⽐较。多种语⾔ 使⽤Flickr30K [116]和Flickr30K-CN [77],并对每个图像进⾏单独微调, 以防⽌数据泄露。 BEiT-3 [146] 97.3 99.9 100.0 87.9 97.8 99.1 97.0 Flickr30K(英语,1K测试集) [116] OpenAI CLIP-L [117] 1 27.8 49.4 58.0 29.0 50.5 59.2 45.7 ⽅法 Flickr30K-CN (中⽂,1K 测试集) [77]平均值 菲利普[167] OpenCLIP-XLM-RH [67] 97.3 96.1 94.5 94.7 96.0 90.2 93.9 94.0 94.6 InternVL-C(我们的) InternVL-G-FT (我们的) 8 40.2 63.1 74.1 44.7 68.2 78.4 61.5 R@1 R@5 R@10 R@1 R@5 R@10 OpenAI CLIP-L [117] 8 26.6 50.8 61.8 30.7 54.4 64.0 48.1 R@1 R@5 R@10 R@1 R@5 R@10 97.2 100.0 100.0 88.5 98.4 99.2 97.2 R2D2-ViT-L [159] 95.6 99.8 100.0 84.4 96.7 98.4 95.8 M-CLIP [16] 92.4 91.0 90.0 89.7 91.1 85.2 85.8 81.9 88.4 全能[142] ‒ 97.2 99.9 87.9 98.1 97.4 99.8 99.9 87.6 97.7 99.0 96.9 InternVL-G(我们的) 平均 − − 对⻬[70] OpenCLIP-XLM-RB [67] 95.8 94.4 92.5 91.8 94.4 86.3 89.9 90.7 92.0 LanguageBind† [186] 8 40.9 66.4 75.7 44.8 70.0 78.7 62.8 ‒ ⽂字 → 视频 InternVL-C-FT (我们的) 实习⽣VL-G(我们的) 1 36.6 58.3 67.7 39.1 61.7 70.7 55.7 97.6 100.0 100.0 89.6 98.0 99.1 97.4 ⽂本 → 图像 CN-CLIP-ViT-H [162] 95.3 99.7 100.0 83.8 96.9 98.6 95.7 缪斯 m3 [164] 85.3 78.9 78.9 76.7 73.6 67.8 76.1 70.7 76.0 实习⽣VL-C(我们的) 98.6 97.7 96.5 96.7 96.9 95.1 94.8 96.1 96.6 突发事件监测[80] 8 ‒ 8 39.6 8 38.6 59.8 69.6 42.6 64.4 73.1 58.0 96.6 100.0 100.0 87.1 97.7 99.1 96.8 #F 平均 实习⽣视频† [151] ‒ 40.7 ‒ UMT-L† [83] − AltCLIP [26] 95.4 94.1 92.9 95.1 94.2 94.4 91.8 91.7 93.7 ‒ 视频 → ⽂本 InternVL-G-FT(我们的) 96.9 99.9 100.0 85.9 97.1 98.7 96.4 ⼀個和平[143] 实习⽣VL-C(我们的)1 35.3 56.6 66.6 37.5 60.9 70.9 54.6 97.5 99.9 100.0 89.1 98.6 99.3 97.4 图⽚ → ⽂本 佛罗伦萨[171] ⽅法 EN ES FR ZH IT KO RU JP 平均 悟空-ViT-L [55] 92.7 99.1 99.6 77.4 94.5 97.0 93.4 97.3 95.7 95.1 95.6 96.0 92.2 93.3 95.5 95.1 InternVL-G(我们的) 95.3 99.8 100.0 84.9 97.4 98.6 96.0 8 42.4 65.9 75.4 46.3 70.5 79.6 63.4 ⽅法 ⽅法 佛罗伦萨[171] ‒ 37.6 63.8 72.6 ‒ 97.9 100.0 100.0 89.6 98.6 99.2 97.6 壁画[69] − 92.9 − 89.7 91.8 88.1 87.2 − − MSR-VTT(1K测试集) [161] ‒ InternVL-C-FT(我们的) 96.5 99.9 100.0 85.2 97.0 98.5 96.2 任务。这些结果证明了我们的 Tiny LVLM 的结果⻅表17。 和平均分数。重要的是,两个模型都表现出 可以看出,InternVL-C 的召回率达到了平均⽔平@10 在所有 20 个基准测试中。这⼀性能明显超过了之前领先的⽅法 EVA-02-CLIPE+ [47],⾼出 1.0 个百分点。这强调了, 与其他法学硕⼠的兼容性。在本实验中,我们 部分,我们扩展了我们的检查以展⽰ InternVL 在 20 种不同的零 InternVL-G 进⼀步提升了检索性能,在每种语⾔中均取得最⾼分,并以 96.6% 的平均成绩创下新纪录。 设置。这些结果强调了 QL-LaMA 在协调视觉和语⾔特征⽅⾯的有效性。 Tiny LVLM。Tiny LVLM [123]是评估多模态对话模型性能的能⼒⽔平基准。它 对五项指标进⾏了系统评估 Flickr30K 的英⽂和中⽂版本 与正⽂表9相同。如表所⽰ 除了 ImageNet [38]及其变体之外,InternVL 还拥有 数据集[161]使⽤我们的 InternVL 模型,即 InternVL-C 测试 InternVL 与 LLM 的兼容性 XTD 上的零样本图像⽂本检索。表13报告了 InternVL 在多语⾔图像⽂本上的 结果 将它们作为独⽴图像进⾏编码,然后取平均值 在两个数据集上都略微超过了 InternVL-C-FT。值得注意的 是,在极具挑战性的 Flickr30K-CN 中,两个模型 语⾔中间件,尤其是在检索任务中。 在 20 个数据集上进⾏零样本图像分类。在此 在这些语⾔中达到 95.1%。第⼆阶段模型, 在单帧和多帧配置中取得了令⼈满意的结果,其中 InternVL-G 的性能略⾼于 InternVL-C,尤其是在多帧配置中 常识和物体幻觉。我们报告我们的 镜头图像分类基准。如表16 所⽰, InternVL 的平均性能为 78.1% 微调图像⽂本检索。在表15 中,我们报告 零样本视频检索。在表14 中,我们展⽰了我们的 多模态能⼒的类别,包括视觉感知、视觉知识获取、视觉推理、视觉 在零样本图像分类中跨各种不同领域的稳健泛化能⼒。 和 InternVL-G。在 1 帧设置中,我们从每个视频中选择⼀个中⼼帧。在 8 帧设置 中,我们从每个视频中均匀提取 8 帧,处理 数据集[77, 116]。微调的具体超参数如表21所⽰。可以看出,我们的模型获得了 具有竞争⼒的性能,其中 InternVL-G-FT Vicuna [184]。这⾥使⽤的实验装置是 MSR-VTT 上的零样本视频⽂本检索结果 InternVL 经过微调的图像⽂本检索结果 检索数据集 XTD [1],涵盖 8 种语⾔。 表现出良好的跨语⾔检索能⼒ 嵌⼊。结果显⽰,各种指标都有持续改进,例如 R@1、R@5、R@10、 10 Machine Translated by Google 除 Vicuna 之外的法学硕⼠[184]。实验设置 表 19. InternVL 对图像⽂本对进⾏编码的效率分析。对图像⽂本对进⾏编码的 总时间包括 与论⽂主要表9相同。 测试期间使⽤了Flash Attention [35]和 bf16 精度。 表 18.与其他 LLM 的兼容性。这⾥我们使⽤ InternLM [135]为例验证 InternVL 与 ImageNet [38], InternVL 在各个领域的零样本图像分类中也具有良好的泛化能⼒。 表 16. 20 个其他数据集上的零样本图像分类性能⽐较。这些结果表明,除了 表 17. Tiny LVLM 测试集的评估。我们在此报告 (VKA)、视觉常识(VC)和物体幻觉(OH)。 五类多模态能⼒,包括视觉推理(VR)、视觉感知(VP)、视觉知识获取 图像编码部分和⽂本编码部分。我们在单个 A100 GPU 上以 128 的批处理⼤⼩ 测量时间成本。 A.3. 详细训练设置 CIFAR-10 [74] CIFAR-100 [74] MNIST [78] 加州理⼯学院-101 [49] 太阳397 [157] FGVC ⻜机[101] 国家-211 [117] 斯坦福汽⻋[72] ⻦鸣声[9] DTD [28] 欧洲卫星组织[59] 2013 年联邦储备委员会[52] 花-102 [109] ⻝物101 [13] GTSRB [129] 宠物[113] 渲染后的 SST2 [117] 雷西斯克45 [27] STL10 [30] VOC2007 [45] 平均 top-1 分数 41.6 37.0 15.1 52.4 74.0 216.4 LLaVA-1.5 [91] 15.5 4.9 28.6 35.0 实习⽣VL-G 336 ‒ OpenCLIP-g [67] 98.2 84.7 71.9 88.1 74.1 44.6 30.9 94.0 51.0 68.7 64.7 55.8 81.0 92.4 49.7 93.9 56.7 69.6 98.9 81.6 72.5 ⽅法 MiniGPT-4 [187] InternVL-Chat(我们的) 41.6 38.3 18.7 49.4 49.0 197.0 99.4 93.2 80.6 89.5 76.0 52.7 34.1 94.2 72.0 70.7 79.4 56.2 86.1 95.3 65.5 96.0 67.9 74.2 99.5 80.0 78.1 57.0 1525.1 86.4 Qwen-7B 62.4 54.5 55.1 54.8 90.0 316.8 实习⽣VL-C 224 法兰T5XL 44.9 49.0 64.1 44.0 82.7 284.7 ‒ EVA-01-CLIP-g+ [130] 99.1 90.1 71.8 88.1 74.3 39.4 30.8 90.7 52.6 67.3 73.2 56.0 79.7 93.7 66.5 94.8 58.6 71.4 99.5 82.9 74.0 ⽔獭[79] 视觉粘合编码器层 IViT-6B MLP Vicuna-7B 79.3 62.9 52.5 IViT-6B MLP InternLM-7B 79.7 63.2 53.1 ⽔獭-9B 骆驼⽑-7B 46.7 48.0 61.7 59.2 85.0 300.6 66.9 4.9 71.8 13.9 实习⽣VL-G 224 EVA-01-CLIP-g [130] 98.3 88.7 62.3 87.7 74.2 32.4 28.6 91.7 50.0 61.3 73.6 52.2 74.5 93.5 49.1 94.2 58.4 70.3 98.9 83.2 71.2 实习⽣LM-XComposer [177]实习⽣LM-7B 55.8 53.8 64.1 61.8 87.0 322.5 ⼩⽺驼-7B ⼭猫[172] 37.6 37.8 17.6 49.0 50.7 192.6 EVA-02-CLIP-E+ [130] 99.3 93.1 74.7 90.5 75.1 54.1 35.7 94.6 58.1 68.2 75.8 58.6 84.5 94.9 67.7 95.8 61.4 75.6 99.2 85.6 77.1 VQAv2 GQA VizWiz VQAT MME POPE Qwen-VL-聊天[5] 66.9 4.9 84.6 11.8 第⼀⼈称射击游戏 8.2 10.3 12.8 EVA-02-CLIP-L+ [130] 98.9 89.8 64.3 89.5 74.8 37.5 33.6 91.6 45.8 64.5 71.4 51.0 77.2 94.2 57.6 94.2 64.6 69.8 99.7 82.7 72.6 VR VP VKA VC OH 总体 视觉GLM [44] 35.2 4.9 40.1 24.9 ⼩⽺驼-7B 99.3 92.5 76.7 89.0 76.5 47.9 34.7 94.4 56.3 68.2 77.6 55.1 82.5 95.2 67.1 95.6 61.1 73.5 99.2 83.0 76.3 指导BLIP [34] 巴德 64.2 57.0 68.1 59.6 70.7 319.6 实习⽣VL-C 448 OpenAI CLIP-L+ [117] 94.9 74.4 79.0 87.2 68.7 33.4 34.5 79.3 41.0 56.0 61.5 49.1 78.6 93.9 52.4 93.8 70.7 65.4 99.4 78.1 69.6 法学硕⼠ 骆驼⽑-7B 52.2 65.8 17.6 57.4 86.3 279.2 法学硕⼠ EVA-02-CLIP-E [130] 视觉问答对话 35.2 4.9 50.4 19.8 骆驼⽑-7B 55.6 49.0 57.0 57.2 88.3 307.2 实习⽣VL-G 448 ⽅法 ‒ ⽅法 OpenCLIP-H [67] 97.4 84.7 72.9 85.0 75.2 42.8 30.0 93.5 52.9 67.8 72.7 52.0 80.1 92.7 58.4 94.5 64.3 70.5 98.5 77.7 73.2 拉⽡[92] ⼩⽺驼-13B 56.4 52.3 68.0 62.0 89.0 327.6 图像编码图像(毫秒)编码⽂本(毫秒)总⼤⼩ InternViT-6B QLLaMA QLLaMA 时间 15.5 4.9 20.4 48.9 ChatGLM-6B 37.3 36.3 46.9 37.6 54.0 211.9 InternVL-C(我们的) BLIP-2 [81] 巴德[53] 实习⽣VL-C 336 58.0 1532.8 86.4 OpenCLIP-G [67] 98.2 87.5 71.6 86.4 74.5 49.7 33.8 94.5 54.5 69.0 70.0 59.5 81.5 93.1 62.5 95.2 65.2 72.6 98.5 80.7 74.9 LLaMA-适配器-V2 [51] LLaMA-7B 43.5 46.8 22.3 56.0 60.7 229.2 权衡计算效率和 [32],多语⾔ LLaMA-7B。所有参数均完全 448)结果如表19所⽰。 增加,编码时间也显著增加, 并且还有很⼤的优化空间,例如 0.9, β2 = 0.95,权重衰减为 0.1,余弦学习 效率分析。在本研究中,我们分析了 InternVL 在图像⽂本编码中的计 算效率 在所有图像尺⼨上保持合理的帧速率; 18、 InternLM-7B [135]表现略好 图像的速率表从 1e-3 和 1e-4 开始, 直接导致帧率下降;(2)InternVL-G 就像使⽤模型量化和 TensorRT ⼀样。 BEiT 的初始化⽅法[7],以及⽂本编码器 图像编码和⽂本编码。分析涵盖 时间开销在于图像编码。总⽽⾔之,当 第 1 阶段的设置。如表20所⽰,在此阶段, 11 两种模型(InternVL-C 和 InternVL-G)及其在三种不同图像尺⼨(224、 336 和 在 InternVL-C 和 InternVL-G 之间进⾏选择,应该 LLaMA-7B 使⽤来⾃以下位置的预训练权重进⾏初始化 可训练。我们使⽤ AdamW 优化器[98] ,其中β1 = 从这些结果中,我们发现:(1)随着图像尺⼨ 根据具体要求进⾏潜在的性能改进。此外,这些结果是使⽤ PyTorch 和 Flash Attention [35]以及 bf16 精度测量的, 由于引⼊了 QLLaMA 进⾏⼆次图像编码,编码时间略有增加,但仍然 ⽂本编码器。我们采⽤统⼀的放置路径 ⽐ Vicuna-7B [184] 更好。这表明我们的 InternVL 与各种 LLM 表现 出良好的兼容性。 对。整个编码过程包括两部分: (3)即使我们扩⼤了⽂本编码器的规模,⽂本编码的额外成本也不⼤, 因为主要 图像编码器 InternViT-6B 使⽤随机初始化 Machine Translated by Google β1, β2 = 0.9,0.999 β1、 β2 = 0.9、0.95 β1、 β2 = 0.9、0.98 “1962 → 2242 ” 表⽰我们最初以 196×196 的分辨率进⾏训练, 样本,提⾼训练效率。 表 20. InternVL 第 1 阶段和第 2 阶段的训练设置。 表 21.检索微调的训练设置。我们分别在 Flickr30K 和 Flickr30K-CN 上对 InternVL 进⾏微调。 表 22.ImageNet线性探测的训练设置。 然后将最后的 5 亿个像素切换为 224×224 分辨率 10 0.1 0.05 1024 287亿 16亿 ⽤于训练的 GPU 余弦衰减 余弦衰减 ⽤于训练的 GPU 2242 32×A100(80G) 14 14 余弦衰减 0.3 深度速度 bf16 [118]深度速度 bf16 [118] 从第⼀阶段开始 5e-5 1e-6 1 17.5万 8万 14 配置峰 值学习率学习率计划优 化器优化器动量权重衰减输 ⼊分辨率补 丁⼤⼩总批量⼤⼩预热时期 训练时期数据增强 配置图像 编码权重初始化⽂本编码权重初 始化图像编码峰值学习率⽂本 编码峰值学习率交叉注意峰值学习率学习率 计划优化器优化器超参数权重衰减输⼊ 分辨率补丁⼤⼩总批量⼤⼩预热迭代总 迭代样本可⻅丢弃路径率[63]数 据增强数值精 度可训练/总参数⽤于训练的GPU 0.0 配置图像 ⽂本数据峰值学习率 分层 lr 衰减率学习率计划 优化器优化器超参数权重衰减输 ⼊分辨率补丁⼤⼩总批次⼤⼩ 预热迭代训练 时期下降路径率[63]数据增强数值精度 可训练/总参数 14B / 14B 8×A100(80克) 亚当W [98] 2242 0.2 10 第⼆阶段 随机调整⼤⼩裁剪 随机调整⼤⼩裁剪 Flickr30K [116] / Flickr30K-CN [77] 亚当W [98] 冻结 1024 5K 2K 3642 0.9 冻结 DeepSpeed bf16 [118] 640×A100(80G) 160×A100(80G) 随机调整⼤⼩裁剪和翻转 1962 → 2242 余弦衰减 100 均匀(0.2)0.0 ImageNet 线性探测 第 1 阶段 随机初始化。 [7]来⾃ [32] 1e-3 检索微调 亚当W [98] 14 1e-4 164千 20千 0.05 新加坡元 13B / 13B 1B / 14B 从第⼀阶段开始 随机调整⼤⼩裁剪和翻转 ‒ InternViT-6B (0.9)、QLLaMA (0.9) InternViT-6B 和 QLLaMA,以及丢包率 学习率为 0.2,1 个 epoch 预热,⽆权重衰减。数据增强涉及随机调整⼤ ⼩裁剪和 ImageNet 线性探测的设置。我们遵循 处理约 287 亿个样本。为了提⾼效率, 衰减设置为 0.05,总批次⼤⼩为 20K。训练 然后对其进⾏微调。由于 (1) InternVL-Chat(⽆ QLLaMA):对于此设置,我们 检索微调的设置。在本实验中,所有 2K 热⾝步骤,由余弦学习率控制 图像标记[87],然后切换到224×224分辨率 [37, 58, 111]。具体来说,我们采⽤了额外的 Batch-Norm [68]来规范 化预先训练的⻣⼲特征 相同的超参数和数据集⽤于监督微调,即我们⾸先⽤ LGS-558K 训练 MLP 层 ImageNet-1K [38],总批次⼤⼩为 1024,峰值 QLLaMA 中的可学习查询和交叉注意层 第三阶段的设置。在这个阶段,我们有两个不同的 我们对两者应⽤ 0.9 的逐层学习率衰减 我们⾸先使⽤⾃定义 SFT 数据集训练 MLP 层 在训练过程中。此外,我们将平均池化后的补丁标记特征与类标记连接 起来。线性 [92]数据集,然后使⽤ LLaVA-Mix-665K [91]数据集训练 LLM,均训练⼀ 个 epoch。 对于 InternViT-6B,其权重为 0.3。使⽤ AdamW 优化器[98] ,总批次 ⼤⼩为 1024,在 10 个时期内对 In-ternVL 模型进⾏微调。有关更详细 的训练 InterViT-6B 和 QLLaMA 冻结,只训练新 率为 0.2。训练涉及的总批次⼤⼩为 164K 如图4 (c)所⽰。另⼀种是同时使⽤整个In-ternVL模型,如图4 (d)所 ⽰。 翻转。更多训练细节请参⻅表22。 我们最初以 196×196 的分辨率进⾏训练,掩盖 50% ADE20K语义分割的设置。⻅表 设置请参考表21。 跨越 640 个 A100 GPU,经过 175K 次迭代, 添加参数。输⼊图像的分辨率为 224×224。为了进⾏优化,采⽤AdamW 优化器[98] , β1 = 0.9, β2 = 0.98,权重 学习率峰值为 5e-5。更详细的 最后 5 亿个样本⽆需掩蔽。 InternVL 的参数设置为可训练的。我们进⾏ 遵循 LLaVA-1.5 [91]的训练⽅法。我们使⽤ 数据集,我们将批量⼤⼩增加到 512。 扩展到 160 个 A100 GPU,超过 80K 个步骤,包括 以前⽅法中线性探测的常⻅做法 (2)InternVL-Chat(带 QLLaMA):对于这种更⾼级的设置,我们 也分两步进⾏了培训。 在 Flickr30K [116]和 Flickr30K-CN [77]上分别进⾏微调。按照惯例 [81],采⽤ 364×364 分辨率进⾏微调。为了避免过度拟合, 第⼆阶段的设置。在这⼀阶段,InternViT-6B 和 QL-LaMA 从第⼀阶段 继承了权重,⽽ 训练设置列于表20。 使⽤ SGD 优化器对 head 进⾏ 10 次训练 12 配置。⼀种是单独使⽤ InternViT-6B, 是随机初始化的。得益于第⼀阶段学到的强⼤的编码能⼒,我们保留了 Machine Translated by Google (1)第⼀阶段:在第⼀阶段,我们只应⽤了少量数据 第 1 阶段和第 2 阶段的训练数据清理。为了充分 和标题⻓度,删除极端数据点,避免 字幕主要考虑⻓度、完整性、 (如菜单、错误消息或重复⽂本),包含 23,我们列出了三种不同的超参数 测试视频分类的数据集。如图所⽰ 与 ImageNet-1K/22K [38]、 Flickr30K复制 第⼀期投资49.8亿。 第 1 阶段和第 2 阶段的训练数据。在第⼀阶段 第 1 阶段和第 2 阶段的过滤策略。 测试图像分类数据集。我们进⾏了 ADE20K语义分割中的配置,包括线性探测、头部调整和全参数调整。 图5 (c),为了评估视频分类的能⼒,我们使⽤以下 Kinetics 数据集:Kinetics InternViT-6B 和 InternVL-C 的零样本性能。所⽤的数据集列于表24 中。 LAION-multi [120], LAION-COCO [121], COYO [14], 过滤,从⽽保留绝⼤多数数据。我们 严格的数据过滤策略。通过⽣成监督 ⼗三 Wukong [ 55 ]等。表24提供了这些数据集的详细介绍。 考虑了六个因素:CLIP相似度、⽔印概率、不安全概率、美学评分、图像分辨率、 包括,我们删除了⼤部分基于 [116]和 COCO [89]来确保我们的零样本评估的可靠性。由于下载失败和使⽤ 攻击性语⾔、占位符⽂本或源代码。我们 可读性,以及它们是否是胡⾔乱语或样板 破坏训练稳定性。此外,我们删除了数据 利⽤⽹络规模的图像⽂本数据,我们采⽤了不同的数据 400 [17]、 Kinetics 600 [18]和 Kinetics 700 [19]。 我们的数据过滤管道,保留的数据总量 仅保留10.3亿个条⽬。 (2)第⼆阶段:在第⼆阶段,我们实施了更 在第⼆阶段,我们采⽤了⼤量的图像-⽂本对数据(⻅图5 (a)),例如 LAIONen [120], 在图像分类任务上进⾏了⼴泛的验证(⻅图5 (b)),包括 β1, β2 = 0.9,0.999 在处理通⽤的视觉语⾔任务时,我们对⼀系列任务和数据集进⾏了⼴泛的验证,包括(b)图像 分类、(c)视频分类、(d)图像⽂本检索、(e)视频⽂本检索、(f)图像字幕和(g)语义分割。 利⽤来⾃各种来源的⽹络级图像⽂本数据来训练我们的 InternVL 模型,如 (a) 所⽰。评估 InternVL 的能⼒ 图 5. InternVL 第 1 阶段和第 2 阶段使⽤的数据集全景概览。在第 1 阶段和第 2 阶段的训练过程中,我们 表23.ADE20K语义分割的训练设置。 我们列出了三种不同配置的超参数,包括线性探测、头部调整和全参数调整。 A.4. 预训练的数据准备 Flickr30K MSR-VTT ⽆⼤写字⺟ 軟體 STL10 LAION-en CIFAR-100 MNIST 宠物 斯坦福汽⻋ CC3M 2013 年联邦储备委员会 CIFAR-10 悟空 动⼒学 400 太阳397 渲染的 SST2 花-102 对象⽹ 可可 可可 ADE20K ⻦鸣声 ImageNet-Real 战略事业部 国⼟安全部 COCO-CN 国家-211 ImageNet-1K 雷西斯克45 CC12M ImageNet-R LAION-多 ImageNet 草图 欧洲卫星组织 动⼒学 600 Flickr30K 科耀 拉昂-科科 加州理⼯学院-101 类型定义 (DTD) 动⼒学 700 ImageNet-A 多语⾔IN-1K ImageNet-V2 RGVC ⻜机 ImageNet-1K ⻝品-101 VOC2007 Flickr30K-CN 0.0 / 0.0 / 0.4 1.5千 8万 ⽤于训练的 GPU 4e-5 DeepSpeed bf16 [118] 线性探测/头部调整/全调整 MMSeg 中的默认增强[31] 5042 多项式衰减 亚当W [98] 0.0 / 0.05 / 0.05 ‒ / ‒ / 0.95 8×A100(80克) 16 配置峰值 学习率逐层 lr 衰减率学习 率计划优化器优化器超参数权重 衰减输⼊分辨率补丁⼤⼩总批 次⼤⼩预热迭 代总迭代丢弃路径率[63]数据增强数值 精度 14 (c)视频分类测试数据集 (d)图像⽂本检索的测试数据集 (a)第 1 阶段和第 2 阶段的训练数据 (b)图像分类的测试数据集 (e)视频⽂本检索测试数据集 (f)图像字幕测试数据集 (g)分割测试数据集 训练集(英⽂) 训练集(多语⾔) 零样本测试集(英⽂) 零样本测试集(多语⾔) 迁移学习数据集 Machine Translated by Google 图像字幕测试数据集。如图5 (f)所⽰,我们使⽤三个图像字幕数据集来测试我们的 InternVL 模型。表26提供了这些数据集的详细介绍。 SFT 的训练数据。在此阶段,我们收集⼴泛的⾼质量指令数据。对于⾮对话数据集,我们遵 循[91]中描述的⽅法进⾏转换。表27 提供了详细介绍。 视频⽂本检索测试数据集如图5 (e)所⽰,我们使⽤ MSR-VTT [161]数据集来评估我们的 InternVL 在零样本视频⽂本检索中的表现。 测试图像⽂本检索数据集。我们使⽤五个数据集(⻅图5 (d))来评估 InternVL 的零样本、 多语⾔图像⽂本检索功能。表25提供了这些数据集的详细介绍。 语义分割测试数据集。我们使⽤ ADE20K [185]数据集来研究 InternViT-6B 的像素级感 知能⼒,如图5 (g) 所⽰。表26提供了该数据集的详细介绍。 测试 SFT 的数据集。我们在三个任务上验证了监督微调的 InternVL-Chat 模型的有效 性,包括图像字幕、视觉问答和多模态对话。这些数据集列在表28中。对于⼤多数这些数据 集,我们使⽤与 LLaVA-1.5 [91]相同的响应格式提⽰。 14 A.5. SFT 的数据准备 Machine Translated by Google MNIST [78] 元属性来提⾼训练各种模型的可⽤性。它遵循与以前的 按照原始⽅法收集。 CC3M [124]⽐ CC3M 更能体现这种变化。 进⾏预训练并对⼴泛的通⽤视觉语⾔任务进⾏综合评估。 该数据集包含 10,000 张⻜机图像,其中 102 种不同的⻜机型号各有 100 幅图像 LAION-multi 是 LAION-5B 的另⼀个部分,包含超过 22.6 亿个图像-⽂本对 CC12M [20] ImageNet-R [60] 使⽤带有标准类名后跟“sketch of”的 Google Image 查询。 FGVC ⻜机[101] ImageNet-V2 [119] Wukong 是⼀个⼤规模中⽂图⽂数据集,⽤于对不同的多模态预训练进⾏基准测试 该数据集包含 101 个类别的物体图像和背景杂乱类别,每个类别都标有 通过收集艺术品、卡通、Deviantart、涂鸦、刺绣、图形、折纸、绘画、图案、塑料物品、⽑绒物品、雕塑、素描、纹⾝等获得⼀组带有 ImageNet 标签 的图像, 它过滤了 YFCC100M [136]数据集,以查找⾄少有 300 张带有 GPS 坐标的照⽚的 211 个国家/地区。OpenAI 构建了⼀个包含 211 个类别的 平衡数据集,通过抽样 200 张照⽚进⾏训练,100 Laion-COCO [121] 第 1 阶段和第 2 阶段的训练数据。 多语⾔ IN-1K [76] ImageNet-1K 的改编版,⽀持多语⾔注释,促进跨语⾔研究 ImageNet-1K [38] CIFAR-10/100 [74] COYO-700M 是⼀个⼤规模数据集,包含 7.47 亿个图像-⽂本对以及许多其他 CC12M 是⼀个包含 1200 万个图像-⽂本对的数据集。它更⼤,涵盖了更多样化的 为测试在 ImageNet-1K 上训练的模型的鲁棒性⽽创建的数据集,包含新的测试图像 表 24. InternVL 第 1 阶段和第 2 阶段使⽤的数据集介绍。总之,我们利⽤⼤量的图像⽂本数据进⾏ 包含 109K 张图⽚。 LAION-多[120] 它包含 51K 幅图像,每个 ImageNet 类别⼤约有 50 幅图像。它构建于 CC3M [124] 分为⼏乎 50-50 的训练/测试分割,其中训练图像为 8K,测试图像为 8K。 包含 70K 28×28 ⼿写数字灰度图像的经典数据集。 太阳397 [157] ImageNet-Real [10] ⽂件。 这是OpenAI发布的数据集,旨在评估视觉表征的地理定位能⼒。 模型[57]。其设计初衷是强调⾃然环境中对抗性样本的挑战。 介绍 从 Flicker 中提取。 图像分类的测试数据集。 Laion-COCO 包含 6.63 亿条⽹络图像合成字幕,使⽤ BLIP-L/14 [80]和 CLIP 模型[117]的混合⽣成。 旨在挑战识别性能。它包括对旋转、背景和视点的控制,涵盖 313 个对象类,其中 113 个与 ImageNet [38] 重叠。 对象⽹络[8] 斯坦福汽⻋[72] 该数据集包含约 300 万张图像,每张图像均带有说明。 SUN397 或场景理解 (SUN) 是⼀个⽤于场景识别的数据集,包含 397 个类别 它包含使⽤⼀组新的“重新评估”标签增强的 ImageNet val 图像。这些标签是使⽤增强协议收集的,从⽽产⽣多标签和更准确的注释。 该数据集包含 196 个汽⻋类别,共 16K 张从后⽅拍摄的图像。数据是 LAION-en 是 LAION-5B 数据集的⼀部分,包含 23.2 亿个纯英语图像⽂本对。 30K 张图⽚。 悟空[55] 加州理⼯学院-101 [49] 它包含 10 类(CIFAR-10)或 100 类(CIFAR-100)的 60K 32×32 图像。 视觉语⾔数据集,收集了许多信息丰富的替代⽂本对及其 HTML 关联图像 不同的阶级。 它由现实世界中未经修改且⾃然发⽣但被 ResNet 错误分类的例⼦组成 SBU 带字幕照⽚数据集包含超过 100 万张图像以及相关⽂字描述 变体,其中⼤部分是⻜机。 数据集 安全部队[112] 100 种语⾔,是多语⾔研究的理想选择。 ImageNet-Sketch [141] ObjectNet 是⼀个众包测试集,包含 50,000 张图像,其中展⽰了姿势不寻常且场景杂乱的物体, 国家-211 [117] ⽅法。它包含来⾃⽹络的1亿个中⽂图⽂对。 单个对象。每个类别包含⼤约 40 到 800 张图像,总计约 9K 张图像。 ImageNet-A [61] 每个国家的测试照⽚。 科约[14] LAION-en [120] 玩具和视频游戏对 ImageNet 类的再现。它有 200 个 ImageNet 类的再现,结果如下 图像分类。 图像分类中常⽤的⼤规模数据集,包含 1K 空间中的 100 多万幅图像 15 Machine Translated by Google XTD [1] 拥有 27K 个带标记和地理参考的样本。 GTSRB [129] 德国交通标志识别基准 (GTSRB) 包含 43 类交通标志,分为 表 25. InternVL 第 1 阶段和第 2 阶段使⽤的数据集介绍。总之,我们利⽤⼤量的图像⽂本数据进⾏ 检索和图像字幕任务。 2,443 张测试图像中。 场景类,每个类包含 700 个图像。 新开发的 1K 多语⾔测试集,包含⽤各种语⾔注释的 COCO 图像。 动⼒学 400 [17] 这是⼀个⽤于开放域视频字幕和视频⽂本检索的⼤规模数据集,包含 10,000 欧洲卫星组织[59] 它与英国常⻅的 102 种花卉类别⼀致。每个类别包括 动⼒学 700 [19] 雷西斯克45 [30] 该数据集包含来⾃ Flickr 的 31,000 张图⽚,每张图⽚都带有 5 个说明,因此 ⽜津⼤学视觉⼏何⼩组。 图像分类的测试数据集。 该数据集是 Kinetics 400 的扩展,包含 600 个动作类别,并提供了更⾼的多样性 Pascal VOC 2007 数据集专注于识别现实场景中的物体,包含 20 个物体 Flickr30K-CN [77] 该数据集基于 Sentinel-2 卫星图像,涵盖 13 个光谱带,包含 10 个类别 总共有 101K 张图像。 ⻝物101 [13] 验证,其中 2,990 个⽤于测试⽬的。 COCO Caption 数据集包含各种带有详细字幕的图像,⼴泛⽤于图⽂ ⽤于训练,2,443 张⽤于测试。由于链接损坏,我们只能下载 1,845 张 测试视频分类的数据集。 这是⼀个⽤于遥感场景分类的数据集。它包含 31,500 张 RGB 图像,分为 45 个 检索任务。 动⼒学 600 [18] MSR-VTT [161] DTD [28] 恐惧、快乐、悲伤、惊讶和中性。 检索,全部在跨语⾔环境中进⾏。 渲染后的 SST2 [117] 介绍 Oxford-IIIT 宠物数据集是⼀个包含 37 个类别的宠物数据集,每个类别⼤约有 200 张图⽚,由 每张图⽚⼤⼩为 96×96 像素。 具有受纹理感知特性启发的以⼈为本的属性。 课程,来源于YouTube。 Flickr30K [116] 所有字幕中都有不同的单词。数据集的标准划分为 6,513 个剪辑⽤于训练,497 个⽤于 Food-101 数据集包含 101 个⻝物类别,每个类别有 750 张训练图像和 250 张测试图像, 可可[22] 花-102 [109] Flickr30K-CN 为图⽚提供中⽂说明,⽀持跨语⾔和多模式研究 Birdsnap 是⼀个⼤型⻦类数据集,包含来⾃ 500 个⻦类物种的 49,829 幅图像,其中使⽤了 47,386 幅图像 VOC2007 [45] 在 Standford Sentiment Treebank v2 数据集中渲染句⼦。 视频⽂本检索的测试数据集。 该系列的最新产品 Kinetics 700 提供了 700 个动作类别,范围更加⼴泛,进⼀步挑战了检索模型的稳健性。 该数据集包含约 30K 张 RGB ⾯部图像,分为七种表情:愤怒、厌恶、 通过裁剪图像来使⽤边界框隔离物体。 宠物[113] 39,209 张训练图像和 12,630 张测试图像。 COCO-CN 是⼀个双语图像描述数据集,通过⼈⼯编写的中⽂句⼦和标签丰富了 COCO。新数据集可⽤于多种任务,包括图像标记、字幕和 进⾏预训练并对⼴泛的通⽤视觉语⾔任务进⾏综合评估。 数据集 STL-10 数据集受到 CIFAR-10 [74]的启发,包括 10 个类别,其中 500 个训练颜⾊样本和 800 个测试颜⾊样本 可描述纹理数据集 (DTD) 包含 5,640 张⾃然纹理图像。它们带有注释 COCO-CN [84] 包含约 400 个⼈类动作类别的⼤规模数据集,每个类别⾄少有 400 个视频⽚段 20 个类别的视频⽚段。每个⽚段注释有 20 个英⽂句⼦,总计约 29,000 个 40 ⾄ 258 张图像。 图像⽂本检索的测试数据集。 2013 年联邦储备委员会[52] 适⽤于图像⽂本检索。 该数据集⽤于评估模型的光学字符识别能⼒。它由 ⻦鸣声[9] STL10 [109] 在视频表现中。 9,963 张图像中的 24,640 个带标签对象分类。数据被分为 50% ⽤于训练/验证,50% ⽤于测试。按照惯例,我们进⾏零样本图像分类 16 Machine Translated by Google 数据集,我们按照[91]中描述的响应格式提⽰进⾏转换。注意,只有训练集⽤于训练。 语义分割的测试数据集。 ⼀个包含 107K 个问题的数据集,涵盖三个⼦任务,重点关注抽象图识别和综合视觉推理。我们使⽤以下提⽰将其转换为对话数据集:“⽤ 数据集 视频量化分析[54] 我们使⽤Karpathy测试集进⾏测试。 TextCaps 包含 28K 张图⽚的 145K 个标题。它要求模型识别⽂本,并将其与图⽚关联起来 图表问答[105] OCR-VQA 数据集包含 207,572 张书籍封⾯图像和超过 100 万个问答 视觉问答。我们使⽤响应格式提⽰将其转换为对话数据集: 物体部分标签。共有 150 个语义类别,包括天空、道路、草地、 ST-VQA 数据集共包含 23,038 幅图像,31,791 个问题。仅训练集 根据前⾯提到的选项回答问题。” 图标问答[99] COCO 字幕[22] 图像字幕的测试数据集。 ChartQA 是⼀个⽤于回答有关图表的问题的数据集,侧重于视觉和逻辑推理。它包含 9.6K 个⼈⼯编写的问题和 23.1K 个由⼈⼯编写的图表 摘要⽣成的问题。 为所提供图⽚添加标题。” 表 27. InternVL 第 3 阶段使⽤的数据集介绍。我们收集了⼴泛的⾼质量教学数据。对于⾮对话 超出了训练数据的范围。我们报告了 NoCaps 验证集上的性能。 进⾏预训练并对⼴泛的通⽤视觉语⾔任务进⾏综合评估。 提⽰:“直接⽤所给选项中的字⺟来回答。” ⽂字⼤写字⺟[126] Flickr30K [116] 提⽰:“⽤⼀个单词或短语回答问题。” 提⽰:“为所提供的图像提供⼀句话的标题。” OCR-VQA [107] 使⽤提⽰“使⽤单个单词或短语回答问题”进⼊对话数据集。 包含超过 14,000 个问题的数据集,这些问题需要外部知识来解答,重点关注基于知识的 ADE20K 包含超过 20,000 张以场景为中⼼的图像,并详尽标注了像素级对象和 OKVQA [122] AI2D 拥有超过 5000 张带有丰富注释的⼩学科学图表和 15000 道⽤于图表理解研究的多项选择题。我们使⽤以下提⽰将其转换为对话数据 集:“请 介绍 SFT 的训练数据。 我们使⽤响应格式提⽰将其转换为对话数据集:“提供⼀个句⼦ NoCaps 因测试模型在开放式字幕⽣成⽅⾯的能⼒⽽脱颖⽽出,它使⽤的图像 “⽤⼀个单词或短语回答问题。” 意法半导体 VQA [12] 表 26. InternVL 第 1 阶段和第 2 阶段使⽤的数据集介绍。总之,我们利⽤⼤量的图像⽂本数据进⾏ 答案格式提⽰:“⽤⼀个单词或短语回答问题。” OKVQA [104]的增强后继者,包含 25K 个问题,需要⼴泛的常识和世界知识才能回答。我们使⽤响应格式将其转换为对话数据集 质量保证[64] 我们使⽤Karpathy测试集进⾏测试。 平衡问答对,⽤于视觉推理。我们使⽤ Karpathy 训练集进⾏训练。我们使⽤响应格式将其转换为对话数据集 DocVQA 数据集包含 12,000 多张⽂档图像上定义的 50,000 个问题。我们将其转换为 ADE20K [185] 使⽤提⽰的数据集:“使⽤单个单词或短语回答问题。” 选项的字⺟直接从给定的选项中选择。”和“⽤⼀个单词或短语回答问题。” 介绍 OKVQA [104] 数据集 视觉上下⽂,并决定复制或解释⽂本的哪⼀部分。OCR 标记在训练期间使⽤。 ⽆⼤写字⺟[2] DocVQA [29] 关于这些图像的对。我们使⽤响应格式提⽰将其转换为对话数据集: 以及⼈、⻋、床等离散物体。我们报告了 ADE20K 验证集上的性能。 包含基于 19,027 幅图像的 26,308 个问题。我们使⽤ “⽤⼀个单词或短语回答问题。” ⼈⼯智能2D [71] 它包含超过 50 万个描述超过 11 万张图⽚的字幕。按照惯例,我们使⽤ 可可[22] GQA 是⼀个⼤规模数据集,包含超过 110,000 张图像和 2200 万个问题,结合了真实图像 我们使⽤提⽰进⾏转换:“⽤⼀个单词或短语回答问题。” VQAv2 是 VQA 数据集的第⼆个版本,它以与图像相关的开放式问题为特⾊。回答这些问题需要掌握视觉、语⾔和常识。我们将其转换成对话 17 Machine Translated by Google 表 28. InternVL 第 3 阶段使⽤的数据集介绍。我们收集了⼴泛的⾼质量教学数据。对于⾮对话 LLaVAR 数据集通过关注富含⽂本的图像来推进⼤型语⾔模型的视觉指令调整。它整合了 422K 张经过 OCR 处理的图像和 16K 张 GPT-4 ⽣ 成的对话, 维斯迪尔[36] TolokaVQA 数据集包含带有相关⽂本问题的图像,每个图像都标有边界 TextVQA 验证集⽤于测试。提⽰为:“使⽤单个单词或短语回答问题。” 答案格式提⽰:“⽤⼀个单词或短语回答问题。” 复杂推理问答对,以及 106K 详细图像描述。它旨在提⾼多模态 和代码推理。这个数据集的提⽰是:“⽤⼀个单词或短语回答问题。” 使⽤ Karpathy 测试集进⾏测试,提⽰为:“为提供的图⽚提供⼀句话的标题。” 我们采⽤与LLaVA-1.5 [91]相同的响应格式提⽰。 GPT-4 为 16 个视觉和语⾔任务⽣成了 120K 条视觉指令,包括⽤于稳健调整的正指令和负指令。负指令侧重于不存在和存在的元素操作。此数 据集有助于提⾼多模式任务的准确性和⼀致性。 信息VQA [106] 使⽤ GQA 测试平衡集。提⽰是:“使⽤单个单词或短语回答问题。” SFT(图像字幕)的测试数据集。 ⼥⼠[50] 这是⼀组 GPT ⽣成的多模态教学跟踪数据,专为视觉教学⽽构建 SFT 的训练数据。 SFT(视觉问答)的测试数据集。 基于 COCO 图像的数据集,包含由两名 Amazon Mechanical Turk ⼯作⼈员创建的对话。 教皇[86] 使⽤提⽰将其转换为对话数据集:“使⽤单个单词或短语回答问题。” 遵循LLaVA-1.5的数据集[91]。 SVIT [183] 回答‘⽆法回答’。⽤⼀个单词或短语回答问题。” 表⽰图像中提供答案的区域。我们使⽤ Flickr30K [116] 该数据集包含 320 万个视觉指令调整数据、160 万个对话问答对、160 万个 名⼈、场景、地标、艺术品、OCR、常识推理、数值计算、⽂本翻译、 质量保证[64] 我们在三个任务上评估了我们的 InternVL-Chat 模型,包括图像字幕、VQA 和多模式对话。对于这些数据集, LRV-Instruction 数据集旨在对抗⼤型多模态模型中的幻觉。它包括 我们仅使⽤ 20K ⾼质量数据对 LLaVAR 进⾏微调。 SFT(多模式对话)的测试数据集。 LLaVA-Mix-665K [91] LLaVA-Mix-665K 是由 10 个学术导向数据集混合⽽成的指令遵循数据集。 介绍 Toloka 平台。我们按照 LLaVA-1.5 [91]将其转换为对话数据集。 同⼀训练图像被放到单个对话中。 专注于对⽂档布局、⽂本内容、图形元素和数据可视化的推理。我们 使⽤ NoCaps val set 进⾏测试。提⽰为:“为提供的图像提供⼀句话的标题。” 这个数据集是:“⽤⼀个单词或短语回答问题。” RefCOCO [103, 170] RefCOCO [170]、 RefCOCO+[170]和 RefCOCO-g [103]的混合数据集。我们将其转换为对话 使⽤ VizWiz test-dev set 进⾏测试。提⽰为:“当提供的信息不⾜时, LLaVA-150K [92] 感知和认知能⼒在总共 14 个⼦任务上的表现,包括存在、计数、位置、颜⾊、海报、 EST-VQA 数据集提供问题、图像和答案,以及每个问题的边界框 使⽤ Karpathy 测试集进⾏测试,提⽰为:“为提供的图⽚提供⼀句话的标题。” 独特的语⾔图像指令遵循样本。 数据集,我们按照[91]中描述的响应格式提⽰进⾏转换。注意,只有训练集⽤于训练。 使⽤ VQAv2 test-dev 集进⾏测试。提⽰为:“使⽤单个单词或短语回答问题。” 增强基于⽂本的 VQA 性能和不同场景下的⼈机交互能⼒。请注意, 图像。他们就该图像进⾏了 10 轮问答环节。 LRV 指令[90] 表⽰视觉答案的框。它来⾃ COCO 数据集的授权⼦集,并标记在 ⽂本VQA [127] 数据集 在视觉感知、推理和规划⽅⾯的表现。对于此数据集,我们合并了来⾃ 该数据集包含各种带有⾃然语⾔问题和答案的信息图表。它 POPE 是⽤于评估物体幻觉的流⾏数据集。⽤于 ⽆⼤写字⺟[2] 拉⽡尔[182] 維茲[56] 托洛卡[140] MME 是多模态⼤型语⾔模型的综合评估基准。它同时测量 调整和构建⼤型多模态模型以实现 GPT-4 视觉/语⾔能⼒。它包括 158K EST-VQA [150] 可可[22] 视频量化分析[54] ⼀个⼈扮演“提问者”,只能看到图⽚的⽂字描述,另⼀个⼈扮演“回答者”,看到 18 Machine Translated by Google 19 参考 [9] Thomas Berg、刘炯欣、李承宇、Michelle L [12] 阿⾥·福尔坎·⽐特恩、鲁本·蒂托、安德烈斯·⻢夫拉、路易斯·⼽⻨斯、 [ 16 ] Fredrik Carlsson、Philipp Eisen、Faton Rekathati 和 Magnus Sahlgren。跨语 ⾔和多语⾔剪辑。《第⼗三届语⾔资源与评估会议论⽂集》,第 6848-6854 ⻚, 2022年。7、8、10 11 具有多种能⼒。arXiv 预印本

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk