[论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

[论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

全文总结

本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

研究背景

  1. 背景介绍: 这篇文章的研究背景是近年来计算机视觉和视觉语言表示研究的快速发展,推动了大规模模型的出现。然而,这些大规模模型通常需要大量的计算资源和数据,难以被更广泛的研究社区所使用。
  2. 研究内容: 该问题的研究内容包括提出一种新的视觉表示模型EVA-02,旨在通过更少的参数和计算预算实现高性能的视觉任务。
  3. 文献综述: 该问题的相关工作有:现有的大规模视觉模型如ViT和CLIP等,虽然性能优异,但计算资源需求高。之前的研究表明,通过掩码图像建模(MIM)预训练可以显著提升视觉模型的性能。

研究方法

这篇论文提出了EVA-02模型。具体来说:

  • 模型架构: EVA-02基于平面Vision Transformers(ViTs),采用了更新的纯Transformer架构,并结合了强大的CLIP视觉编码器进行预训练。
  • 预训练策略: 使用EVA-02作为MIM任务的教师模型,目标是通过可见图像块的条件回归来重建被掩码的EVA-CLIP视觉特征。预训练数据来自公开可用的IN-21K和Merged-38M数据集。

实验设计

  • 数据集: 主要使用IN-1K、IN-21K、COCO、ADE20K等公开数据集进行训练和评估。
  • 训练设置: 使用Adam优化器和DeepSpeed加速器进行训练,采用不同的预训练步数和中间微调设置。
  • 评估指标: 包括图像分类、视频分类、目标检测、实例分割和语义分割等任务的准确率、AP值和mIoU等。

结果与分析

  • 图像分类: EVA-02在IN-1K验证集上表现出色,尤其是EVA-02-L模型,仅使用304M参数就达到了90.0的顶级1准确率。
  • 零样本分类: EVA-02-CLIP在IN-1K上的零样本顶级1准确率达到80.4,超过了之前最大的开源CLIP模型。
  • 目标检测和实例分割: 在COCO和LVIS数据集上,EVA-02-L模型表现出色,分别达到了64.5 APbox和55.8 APmask。
  • 语义分割: 在COCO-Stuff-164K和ADE20K数据集上,EVA-02也取得了显著的性能提升,分别达到了53.7 mIoU和62.0 mIoU。

结论

这篇论文展示了EVA-02作为一种高效且可访问的视觉表示模型,在各种视觉任务中均表现出色。通过使用公开的训练数据和较少的参数,EVA-02实现了与更大规模模型相当甚至更高的性能。EVA-02不仅降低了计算资源的门槛,还促进了视觉和视觉语言表示研究的普及和发展。

这篇论文通过实验证明了EVA-02的有效性,具有重要的理论和实际意义。

核心速览

研究背景

  1. 研究问题:这篇文章要解决的问题是如何在保持较高性能的同时,降低大规模视觉表示模型的计算和存储需求。现有的研究主要集中在通过增加参数、数据和计算预算来提升模型性能,但这导致了高昂的计算成本和有限的资源访问。
  2. 研究难点:该问题的研究难点包括:训练、调优和评估非常大的视觉模型需要显著的计算资源,这些资源可能非常昂贵且耗时;现有的最先进模型通常使用大量的私有训练数据和基础设施,限制了研究的可访问性和透明度。
  3. 相关工作:该问题的研究相关工作包括:近年来在视觉和视觉语言表示学习方面的研究进展,如Vision Transformers (ViT)、CLIP等。这些工作表明,增加模型规模、数据和计算预算可以提升性能,但同时也带来了高昂的资源需求。

研究方法

这篇论文提出了EVA-02,一种基于Transformer的视觉表示方法,旨在通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。具体来说,

架构改进:EVA-02采用了改进的Plain ViT架构,包括使用Gated Linear Unit (GLU)作为前馈网络(FFN),Sub-LN作为归一化层,以及2D Rotary Position Embedding (RoPE)进行位置信息注入。这些改进使得模型在最小视觉结构先验和偏差的情况下,能够更好地适应掩码建模任务。

www.zeeklog.com  - [论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

预训练策略:EVA-02的预训练目标是回归掩码的图像文本对齐视觉特征。使用大小为1亿参数的CLIP视觉编码器作为目标表示,通过块状掩码策略进行掩码处理。预训练数据来自公开的IN-21K数据集。

模型变体:提供了四种EVA-02变体,参数从6M到304M不等,每个变体都展示了出色的性能。

实验设计

  1. 数据收集:预训练数据主要来自IN-21K数据集,合并了CC12M、CC3M、COCO、ADE20K、Object365和OpenImages等公开数据集,总计3800万张图像。
  2. 实验设置:预训练采用Adam优化器,峰值学习率为3e-3,批量大小为4k。训练分为三个阶段:初始预训练、中间预训练和最终预训练。中间预训练在IN-21K数据集上进行,最终预训练在合并后的数据集上进行。
  3. 评估任务:在图像分类、零样本视频分类、目标检测和实例分割、语义分割等任务上进行评估。评估使用了多个基准数据集,包括ImageNet-1K、ImageNet-V2、ImageNet-ReaL、ImageNet-Adversarial、ImageNet-Rendition、ImageNet-Sketch、ObjectNet、COCO、LVIS、COCO-Stuff-164K和ADE20K。

结果与分析

图像分类:EVA-02在ImageNet-1K验证集上的细调顶1准确率达到了90.0%,使用304M参数的大模型表现尤为突出。此外,使用22M参数的小模型在ImageNet-1K验证集上的细调顶1准确率为85.8%。

www.zeeklog.com  - [论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

零样本视频分类:EVA-02-CLIP在UCF-101数据集上的顶1准确率为75.9%,在K-400、K-600和K-700数据集上的平均顶1准确率分别为67.7%、66.1%和60.2%。

目标检测和实例分割:EVA-02在COCO和LVIS数据集上的表现优于现有的最先进模型,特别是在LVIS数据集上,EVA-02-L的APbox和APmask分别达到了65.2%和57.3%。

语义分割:EVA-02在COCO-Stuff-164K和ADE20K数据集上的表现也优于现有的最先进模型,使用UperNet的EVA-02-L在ADE20K数据集上的单尺度顶1 IoU达到了59.8%。

总体结论

这篇论文提出的EVA-02通过改进的Plain ViT架构和掩码图像建模预训练策略,实现了强大的视觉表示能力,同时大幅降低了计算和存储需求。EVA-02系列模型在不同规模的参数下均表现出卓越的性能,使得更多研究人员能够访问和使用最先进的视觉模型。未来的研究可以进一步探索EVA-02在多模态系统中的应用潜力。

论文评价

优点与创新

  1. 显著的参数和计算资源减少:EVA-02在保持优越性能的同时,显著减少了参数数量和计算预算。例如,EVA-02-CLIP仅使用约1/6的参数和1/6的图像-文本训练数据,却达到了80.4的零样本Top-1准确率。
  2. 高效的预训练策略:通过使用CLIP视觉编码器的掩码图像建模(MIM)预训练,EVA-02能够从强大的CLIP视觉编码器中学习可迁移的双向视觉表示。
  3. 多样化的模型尺寸:提供了从6M到304M参数的多种EVA-02变体,每个变体都表现出令人印象深刻的性能。
  4. 开放性和可访问性:为了促进开放研究和开放获取,EVA-02的完整套件已发布给社区。
  5. 强大的性能:在各种代表性视觉任务上,EVA-02的性能优于现有的最先进方法,包括图像分类、目标检测和实例分割、语义分割等。
  6. 鲁棒性和泛化能力:EVA-02在多个ImageNet验证集变体上表现出卓越的鲁棒性和泛化能力。

不足与反思

  1. 数据污染的影响:尽管研究表明数据污染对MIM预训练的影响较小,但在未来的研究中仍需进一步探讨这一问题,以确保数据集的纯净性。
  2. 中间微调的作用:虽然EVA-02在没有额外中间微调的情况下表现出色,但进一步的中间微调可能会进一步提升性能,这需要在未来的研究中探索。
  3. 未来研究的方向:论文建议未来的研究可以进一步探索不同尺寸的视觉和视觉-语言表示的交替训练方法,以实现更高效和可扩展的预训练。

关键问题及回答

问题1:EVA-02在图像分类任务中的具体表现如何?

在ImageNet-1K(IN-1K)验证集上,EVA-02-B和EVA-02-L分别达到了88.6和90.0的微调top-1准确率。具体来说,EVA-02-Ti和EVA-02-S在小型模型中也表现出色,分别达到了80.7和85.8的准确率。这表明EVA-02在各种模型尺寸下都能实现较高的图像分类性能。

问题2:EVA-02在零样本评估中的表现如何?

EVA-02-CLIP在ImageNet-1K上的零样本top-1准确率达到了74.7(基础模型)和80.4(大型模型),显著优于之前的CLIP模型。这一结果表明,EVA-02-CLIP在不需要额外标注数据的情况下,能够有效地进行零样本学习,展现出强大的泛化能力。

问题3:EVA-02在目标检测和实例分割任务中的表现如何?

在COCO和LVIS数据集上,EVA-02-L在目标检测和实例分割任务中表现出色。具体来说,EVA-02-L在COCO数据集上的APbox为64.1,APmask为55.4;在LVIS数据集上的APbox为65.2,APmask为57.3。这些结果显示出EVA-02在处理复杂的目标检测和实例分割任务时具有很高的准确性。

EVA-02:Neon Genesis的视觉表示

方旭新,孙全,王兴刚,黄铁军,王新龙,曹岳11,11 北京人工智能研究院2华中科技大学

与Asuka一起在baaivision/EVA/02中战斗

摘要

我们推出了EVA-02,这是一个下一代基于Transformer的视觉表示,经过预训练以通过掩码图像建模重建强大且健壮的语言对齐视觉特征。EVA-02采用了更新的普通Transformer架构以及来自开放且可访问的巨大CLIP视觉编码器的广泛预训练,与以往最先进的各种代表性视觉任务相比,它在利用显著更少的参数和计算预算的同时展示了卓越的性能。值得注意的是,仅使用公开可获取的训练数据,EVA-02仅拥有304M参数,在ImageNet-1K验证集上实现了惊人的90.0微调Top-1准确率。此外,我们的EVA-02-CLIP能够在ImageNet-1K上达到高达80.4的零样本Top-1,超过了之前最大的&最好的开源CLIP,其参数仅为约1/6,图像-文本训练数据约为1/6。我们提供了四种EVA-02变体,模型大小从6M到304M不等,所有这些都具有令人印象深刻的性能。为了促进开放获取和开放研究,我们将EVA-02的完整套件发布给社区。

1. 引言

最近的研究进展导致了对扩展视觉[81, 44, 124, 17]以及视觉-语言[140,123,30,139]表示的兴趣激增。这些努力是由增加参数、数据和计算预算最终会提高性能[63,142,134,93]这一信念所驱动的。

然而,大型模型在计算机视觉领域与更广泛的研究社区可负担的模型之间存在日益扩大的差距。训练、调整和评估非常大的视觉模型需要大量的计算资源,这可能成本高昂且耗时。这通常导致大规模视觉表示以少量甚至单次拍摄的方式进行训练,限制了完全优化整个过程的能力。此外,

www.zeeklog.com  - [论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

图1:EVA-02(#params:304M)与EVA(#params: 1011M)预训练表示之间的定性比较。仅使用304M预训练表示的EVA-02能够对之前的最先进EVA发起“大杀戮”行为。请注意,雷达图中的每个轴的比例都是按EVA的性能进行归一化的,每个轴的步长是相同的。

研究最先进表示的方法通常需要大量基础设施和网络规模私有训练数据[142,3,26,38][142,3,26,38],这使得以一种既直观又透明的方式评估建模进步的效果变得困难,并限制了对广泛的研究者和从业者的访问。这些挑战突显了迫切需要一种更高效、可访问的方法来训练和评估最先进的视觉以及视觉-语言表示。

在这项工作中,我们提出了EVA-02,一系列经过稳健优化的普通视觉变换器(ViTs)[118,41],它们具有中等大小的模型,配备了通过掩码图像建模(MIM)预训练从强大的CLIP[95, 44]视觉编码器学习到的可迁移双向视觉表示[40, 80]。与当前

methodzero-shot evaluation with EVA-CLIPzero-shot evaluation with EVA-CLIPzero-shot evaluation with EVA-CLIPtransfer learningtransfer learningtransfer learningtransfer learningtransfer learningtransfer learningtransfer learning
methodimage clsimage clsvideo clse2e ft image clsobject detobject detinstance seginstance segsemantic segsemantic seg
methodenc.IN-1K27 avg.4 avg.IN-1K variants avg.COCOLVISCOCOLVISCOCO164KCOCO164K ADE20K
method#params(Table 10)(Table 9)(Table 11)(Table 7) (Table 6)(Table 14)(Table 14)(Table 14)(Table 14)(Table 16)(Table 16)
EVA[44] EVA-02-L1011M78.571.466.089.7 84.064.462.255.555.053.462.3
EVA[44] EVA-02-L304M80.473.567.790.0 85.264.565.255.857.353.762.0
EVA[44] EVA-02-L-707M+1.9+2.1+1.7+0.3 +1.2+0.1+3.0+0.3+2.3+0.3-0.3

表1:EVA-02-L在各种主流视觉基准测试上的定量性能总结。

领先的视觉模型拥有数十亿参数[81, 44,124,17],这些EVA-02变体需要更少的计算预算和资源来研究,允许对通常被忽视的方面进行深入探索。

我们的实证调查表明,小型纯ViTs具有很高的能力,它们的潜力已被显著低估。通过利用从语言模型借用的最新纯Transformer架构设计[37,110,113,122],以及从公开可用的巨大EVA-CLIP[44]视觉编码器进行彻底的MIM预训练,EVA-02能够在各种视觉任务上实现比之前最先进的方法更优越的性能,且模型规模要大得多。

值得注意的是,仅使用3800万公开可获取的数据,EVA-02的小型变体仅有2200万个参数,在ImageNet-1K(IN-1K)评估集上实现了85.8微调top-1准确率[105],而大型模型仅有30.4百万参数则实现了杰出的90.0微调top-1准确率。此外,我们还展示了通过MIM预训练的EVA-02表示初始化CLIP的图像编码器,在IN-1K评估集上可以达到高达80.4零样本top-1,超越了之前最大的&最好的开源CLIP-Giant[1],后者仅有约1/6个参数和约1/6的图像-文本训练数据。EVA-02还在其他代表性视觉任务上取得了最先进的表现,例如在LVIS上的目标检测和实例分割[50](65.2 APbox& 57.在val上使用了3个APmask,在test-dev上使用了COCO[78](64.5 APbox& 55.8 APmask),以及在COCO-stuff-164K[16](53.7 mIoUss)和ADE20K[147](61.7 mIoUss和62.0 mIoUms)上进行的语义分割。关于EVA-02性能的定量总结,请参考表1。

arch.norminit.FFNpos. embed.IN-1K ft top-1 acc.
base-sized model(86M), IN-1K ft number of tokens= 196base-sized model(86M), IN-1K ft number of tokens= 196base-sized model(86M), IN-1K ft number of tokens= 196base-sized model(86M), IN-1K ft number of tokens= 196base-sized model(86M), IN-1K ft number of tokens= 196
pre-LNBEiTMLPabs.PE84.0(*)
pre-LNxnormMLPabs.PE84.0
pre-LNBEiTSwiGLUabs.PE83.9
pre-LNxnormSwiGLUabs.PE85.0
sub-LNxnormSwiGLUabs.PE85.2
TrVsub-LNxnormSwiGLU2D RoPE85.6()
sub-LNxnormSwiGLU2D rel. PEX
post-LNxnormSwiGLURoPEX

表2:从ViT到TrV。所有实验都是在基础大小的普通ViT(宏架构:深度=12,宽度=768,#heads=12)上进行进行的,并在IN-1K上进行了300个周期的MIM预训练。MIM的目标是基于可见图像块重建被遮蔽的EVA-CLIP视觉特征。“X”:不稳定的或发散的预训练。“xnorm”:xavier正则化权重初始化。

所提出的EVA-02系列提供了从6M到304M参数的一系列多样化的模型大小,每个都展示了卓越的性能。这项工作的目标不一定是提出一种新颖的方法,而是努力确定一个健壮且有效的配方,以使最先进的模型在实践中更加经济实惠。通过提供一个更易于访问和性能更好的选项,EVA-02使得获取最先进视觉模型的途径更加民主化,允许研究人员和从业者在没有大量基础设施或资源需求的情况下进行高质量的研究。我们希望我们的努力能使更多的研究社区以更高效和公平的方式推动这一领域的发展。

2. 方法

EVA-02的目标是引入下一代基于Transformer的视觉表示,该表示在中等模型大小下实现了强大的性能。为了实现这一目标,我们的表示工具性项目包括两部分:对普通ViT进行的架构改进,以及在§2.1中介绍的我们的MIM预训练策略。

2.1. 架构

在高层,普通的ViT及其变体带有交织的多头自注意力(MHSA)层,用于全局空间信息聚合和逐位置。

www.zeeklog.com  - [论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

图2:ViT和TrV块示意图。TrV建立在原始的简单ViT架构[41]之上,并包括几个增强功能:SwiGLU全连接层(FFN)、子线性网络(sub-LN)、二维RoPE和xavier归一化权重初始化。为了保持参数和FLOPs与基线一致,SwiGLU的FFN隐藏维度是典型MLP对应物的一半。

MIM teacherIN-21K pt datase pt epochs intermed. ftIN-21K pt datase pt epochs intermed. ftIN-21K pt datase pt epochs intermed. ftIN-1K ft top-1 acc.
arch.
(a) base-sized model(86M), IN-1K ft number of tokens=196(a) base-sized model(86M), IN-1K ft number of tokens=196(a) base-sized model(86M), IN-1K ft number of tokens=196(a) base-sized model(86M), IN-1K ft number of tokens=196(a) base-sized model(86M), IN-1K ft number of tokens=196(a) base-sized model(86M), IN-1K ft number of tokens=196
ViT-BVQKD-B[92]IN-1K300(0.2M-step)X85.0
ViT-BCLIP-B[95]IN-1K300(0.2M-step)X85.0
ViT-BEVA-CLIP[44]IN-1K300(0.2M-step)X84.0(*)
TrV-BEVA-CLIP[44]IN-1K300(0.2M-step)X85.6(t)
(b) base-sized model, longer pre-training(b) base-sized model, longer pre-training(b) base-sized model, longer pre-training(b) base-sized model, longer pre-training(b) base-sized model, longer pre-training(b) base-sized model, longer pre-training
ViT-BVQKD-B[92]IN-1K1600(1M-step)X85.5
TrV-BEVA-CLIP[44]IN-1K1600(1M-step)X86.8
(c) base-sized model, longer pre-training& larger dataset(c) base-sized model, longer pre-training& larger dataset(c) base-sized model, longer pre-training& larger dataset(c) base-sized model, longer pre-training& larger dataset(c) base-sized model, longer pre-training& larger dataset(c) base-sized model, longer pre-training& larger dataset
ViT-BVQKD-B[92]IN-1K1600(1M-step)90 epochs,224286.5
TrV-BEVA-CLIP[44]IN-21K150(1M-step)X87.0

表3:MIM目标表示。当使用足够的计算预算和数据预训练时,与较小的CLIP教师相比,从巨大的EVA-CLIP进行学习可以带来相当大的性能提升。

前馈网络(FFNs)用于特征变换,没有下采样层和多阶段设计[118,41,115]。这使得它成为表征学习的理想测试平台,因为它的视觉结构先验和偏差最小,以及它与掩模建模的自然兼容性,这已被证明是一种简单、强大且可扩展的预训练方法[5, 92, 123, 44]。预训练的普通ViT也可以成功适应需要高分辨率输入和具有可行成本的多尺度表示的挑战性视觉任务[75, 45]。

尽管普通ViT的内部块微架构自2020年Inception以来一直在不断发展[109, 117],但我们注意到,在视觉表征学习背景下,尚未探索到一些重要的架构进步。这些包括带有sigmoid线性单元(SiLU)作为前馈网络的门控线性单元[37, 110],子LN[4, 122]作为归一化层,以及用于位置信息注入的2D旋转位置嵌入(RoPE)[113]。

在表2中,我们进行了一系列试点实验研究这些架构修改[1]。掩码EVA-CLIP视觉特征在可见图像块上使用IN-1K训练图像进行300个周期的回归任务,评估是通过在IN-1K上微调预训练的基尺寸模型来完成的。从原始BEiT系列预训练中使用的基线ViT配置[5, 92, 123](见表2)开始,我们逐步细化模型设计并做出以下观察:(i)SwiGLU FFN的性能在中等,使用的是BEiT中使用的随机权重初始化方法,但使用xavier正则权重初始化48时表现相当好。(ii)子LN与预LN相比略有提高性能(+0.2)。(iii)2D RoPE可以提高性能(+0.4),而标准相对位置嵌入[109, 5, 92]由于预训练不稳定而受到影响。

methodIN-21K intermed. ft?IN-1K ft img sizeIN-1K ft top-1 acc.IN-V2 ft top-1 acc.
EVA-02-BX196287.077.6
EVA-02-BX448288.379.5
EVA-02-B40 epochs, 448°44888.679.8
EVA-02-LX196288.980.7
EVA-02-LX44889.682.3
EVA-02-L30 epochs, 448244890.082.4

表4:更多的扩展可以进一步提高性能。预训练和架构配置在表5中详细说明。“IN-V2”指的是ImageNet-V2[103]。

其他配置保持不变。

最终模型配置(见表2),称为Trans-form Vision(TrV,图2b),与当前领先语言模型的模型架构一致,并且与原始配置相比(即从84.0到85.6),实现了1.6分的整体提升,但接下来将描述的一个警告是。

2.2. 预训练策略

在前一节中,我们选择使用一个拥有十亿参数的巨大CLIP视觉编码器的特征作为我们的MIM伪教师的目标表示。然而,我们尚未解释这一选择的理由。尽管类似的预训练策略在最近的文献中被广泛研究[126, 59, 44, 79, 145]并且被证明是有效的,但它们通常使用来自更小CLIP模型的视觉特征。选择1B参数EVA-CLIP是基于我们的假设,更大的CLIP将为MIM提供更稳健和可迁移的目标表示,并最终导致更好的预训练模型。在表3中,我们研究了不同大小CLIP产生的目标表示的影响。

这是从速成课程中得到的一个警告。乍一看,与较小的VQKD-B[92]和CLIP-B[95]作为MIM教师相比,准确性退化(即从85.0到84.在学生使用基础大小的普通ViT(在[41, 5]中)并且进行了300个周期的IN-1K预训练(见表2和表3)时,与EVA-CLIP目标一起使用。TrV的架构修改在一定程度上补偿了这一点,导致总改进幅度仅为0.6点(在表2和表3中用††表示)。

我们推测,随着教师变得更强,学生在短时间内学习稳健且可迁移的表示变得更加困难。因此,学生需要更广泛的预训练来完全掌握教师的知识。当我们将预训练计划扩展到1600个周期(约100万步),使用EVA-CLIP作为MIM教师的TrV在BEiTv2上产生了1.3点的非平凡改进[92]。此外,在ImageNet-21K上进行纯MIM预训练(在IN-21K上,有1420万像素图像)[39]时,我们的基础大小TrV达到了87.0%的top-1准确率,甚至超过了BEiTv2,后者在IN-1K上进行1600个周期(约100万步)的MIM预训练,并在IN-21K上额外进行了90个周期的中等微调,带有标签。

进一步地,在表4中,我们展示了缩放模型大小,

MIM pre-training settingsMIM pre-training settingsMIM pre-training settingsmacro arch configs(refer to Table 2& Fig. 2b for micro arch)macro arch configs(refer to Table 2& Fig. 2b for micro arch)macro arch configs(refer to Table 2& Fig. 2b for micro arch)macro arch configs(refer to Table 2& Fig. 2b for micro arch)macro arch configs(refer to Table 2& Fig. 2b for micro arch)macro arch configs(refer to Table 2& Fig. 2b for micro arch)enc. FLOPsenc. FLOPs
modelteacherpt datapt epochspatch sizedepthwidthattn headsFFN typeFFN hidden dim#params(#tokens=196)
EVA-02-TiEVA-CLIPIN-21K(14M)24014x14121923SwiGLU5126M1.3G
EVA-02-SEVA-CLIPIN-21K(14M)24014x14123846SwiGLU102422M4.6G
EVA-02-BEVA-CLIPIN-21K(14M)15014x141276812SwiGLU204886M18G
EVA-02-LEVA-CLIPMerged-38M5614x1424102416SwiGLU2730304M62G

表5:MIM预训练设置和架构配置摘要。

通过中间微调提高分辨率以及注入标签,可以进一步提高性能,在IN-1K上仅使用304M参数的EVA-02就达到了90.0%的top-1准确率。值得注意的是,我们的纯MIM预训练表示可以在不进行额外中间微调的情况下实现非常具有竞争力的性能。

从现在开始,我们将带有足够MIM预训练的EVA-CLIP表示称为EVA-02。在本节的其余部分,我们将在第3节中进行性能评估之前介绍MIM预训练的一些技术细节。

模型变体和架构。我们提供了四种变体,即EVA-02-Ti(6M)、-S(22M)、-B(86M)和-L(304M),如表5所详述。EVA-02变体的框架架构(例如,模型深度、宽度、#head)遵循[115, 41]中的经典平面ViT配置。内部块修改在第2.1节中详细介绍。

预训练目标与EVA[44]类似,即仅基于可见图像块条件回归掩码后的图像-文本对齐视觉特征。我们用[MASK]标记破坏输入块,并且我们按照[5, 44]使用40%的掩码率进行逐块掩码。MIM预训练的目标表示来自公开可用的EVA-CLIP[44]视觉塔,拥有十亿个参数。EVA-02的输出特征首先被规范化[4],然后通过线性层投影到与EVA-CLIP视觉特征相同的维度。我们使用负余弦相似度作为损失函数。

预训练数据。对于EVA-02-Ti,-S和-B,我们使用IN-21K[39]的图像进行预训练。对于EVA-02-L,我们使用一个合并的数据集,该数据集由IN-21K、CC12M[22]、CC3M[108]、COCO[78]、ADE20K[147]、Object365[107]和OpenImages[67]组成。对于CC12M和CC3M,我们只使用没有标题的图像数据。对于COCO和ADE20K,我们只使用训练集图像。用于预训练EVA-02-L的合并数据集总共有3800万张图像(表示为Merged-38M)。所有这些数据集都是公开可获取的。

超参数通常遵循BEiT系列[5, 92,123]。优化器是Adam[64],具有解耦的权重衰减[84]/β2为0.05/ 0.98[80]。峰值学习率/批量大小对于微小和小型模型为3e-3/ 4k,对于大型模型为1.5e-3/ 2k。我们训练微小和小型模型约0.8M步,训练大型模型约1M步。

实现。预训练代码基于开源EVA实现[91, 44, 43]。我们采用DeepSpeed[102],带有ZeRO阶段0/-1优化器和fp16精度,以及动态损失缩放[98]。所有MHSA操作都由xFormers[72]加速。尽管我们的MIM教师带有十亿个参数,但墙钟预训练时间比官方BEiT系列实现[5, 92]短约10%。

3. 实验与评估

在本节中,我们在代表性视觉任务和基准测试上全面评估了我们方法的表现,包括图像分类[§3.1]、对比度图像文本预训练(CLIP)以及零样本评估[§3.2]、目标检测与实例分割[§3.3]。1. 在§3.3.2中进行了语义分割。我们主要使用基础大小(86M)和大大小(304M)预训练表示进行实验。我们的结果表明,EVA-02能够在不增加或仅增加最少的中间微调的情况下,超越更大规模的对应物,并实现最先进的表现。更多细节和结果可以在附录中找到。

3.1. 图像分类

数据集。对于图像分类,我们在IN-1K[105]上主要评估EVA-02的性能。我们还使用一些IN-1K验证集变体,包括与ImageNet-V2匹配频率(IN-V2)[104]、ImageNet-ReaL(IN-ReaL)[8]、ImageNet-Adversarial(IN-Adv.)[57]、ImageNet-Rendition(IN-Ren.)[55]、ImageNet-Sketch(IN-Ske.)[121]以及ObjectNet(Ob-jNet)[6],按照[51, 44]中的设置进行评估。

训练设置。为了充分发挥EVA-02的潜力,我们根据[5,92]对IN-21K[39]上的基础/大尺寸模型进行了中间微调,共进行了40/30个周期,如表7所示。所有尺寸模型的最终IN-1K微调(包括EVA-02-Ti和-S)可以不使用强正则化方法,如cutmix[141]、mixup[143]和随机擦除[146]。在附录中,我们展示了我们的预训练表示足够稳健,可以使用各种数值精度(例如fp16和bf16)和优化器(例如Lion[25]、AdamW[64, 84]和SGD[87])进行微调。值得注意的是,即使是使用仅有0.的SGD优化器也可以完成微调。一点性能下降。

method#paramsextra labeled datacrop sizeIN-1K top-1
(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)
LAION-ViT-CLIP-B+[68]86MLAION-2B& IN-21K384287.2
BEiTv2-B[92]86MIN-21K(14M)384287.5
ViT-BπViT-22B-JFT-4B[38]86MJFT-4B38488.6
EVA-02-B86MIN-21K(14M)44888.6
(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models
LAION-ViT-CLIP-L↑[70]304MLAION-2B& IN-21K3362336288.2
FD-CLIP-L[127]304MIN-21K(14M)33689.0
BEiTv2-L[92]304MIN-21K(14M)384°89.2
ViT-Lπ ViT-22B-JFT-4B[38]304MJFT-4B38489.6
EVA-02-L304MIN-21K(14M)44890.0
InternImage-H[124]~1080M427M img-txt& IN-21K64089.2
EVA-CLIP|[44]1011MIN-21K(14M)336°89.5
BEiT-3[123]~1900M100M img-txt& IN-21K336°89.6
EVA[44]1011MIN-21K(14M)560°89.7
RevCol-H[17]2158M168M(semi sup.)640°90.0

表7:EVA-02-B和EVA-02-L在IN-1K验证集上的图像分类性能。仅使用公开可获取的数据,EVA-02创造了惊人的结果,并且模型规模适中。“”:微调的CLIP视觉编码器。“”:模型蒸馏[58,9]。

IN-1K结果(EVA-02-B&-L)。表7比较了EVA-02与一些最先进的IN-1K验证集模型。我们的基础尺寸模型,仅使用ImageNet数据训练,超过了几个强大的竞争对手,并且使用大规模内部训练数据从4B参数教师模型中蒸馏出的ViT-B实现了相同的性能[38]。此外,仅使用304M参数的EVA-02-L可以实现惊人的90.0微调顶级准确率,优于使用更多(通常是公开不可获取)数据的几个最先进的较大模型,包括其微调的EVA-CLIP MIM教师,它区分了MIM和知识蒸馏[58]。

IN-1K结果(EVA-02-Ti&-S)。通常认为,由于轻量级设置缺乏归纳偏见,普通ViTs的表现不佳。然而,与具有强大视觉的专业轻量级网络相比,[58]

method#paramsIN-1K ft img sizeFLOPsIN-21K label?IN-1K top-1
(a) model size: 5M~10M(a) model size: 5M~10M(a) model size: 5M~10M(a) model size: 5M~10M(a) model size: 5M~10M(a) model size: 5M~10M
MobileViTv3-1.0[120]5.1M 3842 4.2G5.1M 3842 4.2G5.1M 3842 4.2GX79.7
MobileViTv2-1.5[86]10.6M25624.0GX80.4
EVA-02-Ti5.7M3364.8GX80.7
(b) model size: 20M~30M(b) model size: 20M~30M(b) model size: 20M~30M(b) model size: 20M~30M(b) model size: 20M~30M(b) model size: 20M~30M
DeiT-III-S[116]22M38416G84.8
ConvNeXt V2-T[129]29M384213G85.1
MOAT-0[135]28M38418G85.7
EVA-02-S22M336°16GX85.8
BEiTv2-B[92]86M224218GX85.5

表8:EVA-02-Ti和EVA-02-S在IN-1K验证集上的图像分类性能。EVA-02具有较少的归纳偏见,但通过足够的MIM预训练,在轻量级设置中表现良好。

表8中的结构先验,EVA-02作为配备广泛MIM预训练的普通ViT变体,可以克服归纳偏见,并且能够使用微小和小型模型实现良好的性能。

鲁棒性评估。我们评估了EVA-02在几个IN-1K验证集变体上的鲁棒性和泛化能力。按照[51, 44]中的评估程序,所有这些模型首先在原始IN-1K训练集上进行微调,然后直接在不同验证集上使用相同的微调模型进行评估,无需进一步超参数选择和专门的微调。

在表6中,我们将EVA-02与一些顶级开源模型进行了比较。从Top-1准确率方面来看,EVA-02是最有竞争力的。除了绝对性能外,我们还关注一个模型及其训练设置是否偏向原始验证集并在其他地方泛化得很好。从这个角度来看,EVA-02不仅实现了最高的平均准确率,而且具有最小的性能差距(以验证集变体平均准确率与原始IN-1K验证集准确率之间的差异来衡量),这反映了EVA-02出色的鲁棒性和泛化能力。

method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]method #params data IN-1K[105] IN-V2[104] IN-ReaL[8] IN-Adv.[57]IN-Ren.[55] IN-Ske.[121] ObjNet[6] avg.IN-Ren.[55] IN-Ske.[121] ObjNet[6] avg.IN-Ren.[55] IN-Ske.[121] ObjNet[6] avg.IN-Ren.[55] IN-Ske.[121] ObjNet[6] avg.IN-Ren.[55] IN-Ske.[121] ObjNet[6] avg.
(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)(a) comparisons with SOTA base-sized models(86M)
LAION-ViT-CLIP-B↑[68]86MLAION-2B& IN-21K87.277.890.259.266.253.572.414.8
DeiT-III-H[116]632MIN-21K87.279.290.270.270.855.875.611.6
EVA-02-B86MIN-21K88.679.890.878.176.857.755.378.610.0
(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models(b) comparisons with larger SOTA models
LAION-ViT-CLIP-H[69]632MLAION-2B& IN-21K88.679.590.574.283.165.380.28.4
EVA[44](prev. best)1011MMerged-30M89.681.690.886.288.367.760.984.05.6
EVA-02-L304MMerged-38M90.082.491.187.789.970.162.885.24.8

表6:IN-1K变体的鲁棒性和泛化能力评估。所有这些模型首先在原始IN-1K训练集上进行微调,然后使用相同的微调模型在不同验证集上评估,不进行任何专门的微调。“avg.”:不同IN-1K验证集变体(即IN-{1K, V2, ReaL, Adv., Ren., Ske.},不包括ObjNet)的平均Top-1准确率。“△↓”:验证集变体平均Top-1准确率与原始IN-1K验证集Top-1准确率之间的差距(越低越好)。“十”:微调的CLIP视觉编码器

method#params (img+text) precision#params (img+text) precisiondataset& samplesimg sizeIN-1K zs top-1
(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines
OpenAI CLIP-B/1686M+63Mfp16WIT-400M& 13B224268.3
OpenCLIP-B/1686M+63Mbf16LAION-2B& 34B224270.2
EVA-02-CLIP-B/1686M+63Mfp16Merged-2B& 8B224274.7
(b)comparisonswith CLII-Large baselines
224275.5
OpenAI CLIP-L/140.3B+124Mfp16WIT-400M& 13B
OpenCLIP-L/140.3B+124Mbf16LAION-2B& 32B224275.3
EVA-02-CLIP-L/140.3B+124Mfp16Merged-2B& 4B224279.8
(c) comparisons with larger CLIPs trained with more samples(c) comparisons with larger CLIPs trained with more samples(c) comparisons with larger CLIPs trained with more samples(c) comparisons with larger CLIPs trained with more samples(c) comparisons with larger CLIPs trained with more samples(c) comparisons with larger CLIPs trained with more samples
OpenAI CLIP-L/14+0.3B+124Mfp16WIT-400M& 13B336°76.6
OpenCLIP-H/140.6B+354Mbf16LAION-2B& 32B224278.0
FLIP-H/140.6B+354Mfp32LAION-2B& 26B224278.1
EVA-CLIP-g/141.0B+124Mfp16LAION-0.4B& 11B224278.5
OpenCLIP-G/141.8B+695Mbf16LAION-2B& 39B224280.1
EVA-02-CLIP-L/14+0.3B+124Mfp16Merged-2B&336280.4
method#params (img+text)UCF-101K-400K-600K-700avg. acc.
(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines
OpenAI CLIP-B/1686M+63M67.157.656.549.357.6
EVA-02-CLIP-B/1686M+63M68.657.457.050.058.3
(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models(b) comparisons with larger-sized CLIP models
OpenAI CLIP-L/14+0.3B+124M78.164.965.058.566.6
OpenCLIP-H/140.6B+354M78.263.163.656.165.3
EVA-02-CLIP-L/14+0.3B+124M78.665.966.160.267.7

表11:零样本视频分类性能。继[95]之后,我们报告了UCF-101的顶级准确率[111],以及K-400、K-600和K-700数据集的顶级和前五准确率的平均值。

在表10中,我们展示了CLIP模型配置和IN-1K零样本准确率。为了训练EVA-02-CLIP,我们合并了公开可获取的LAION-2B[106]和COYO-700M[15]的数据,这导致了一个包含20亿图像-文本对的数据集(我们从LAION-2B/CYO-700M数据集中只有约16亿/400M的有效样本)。利用预训练的MIM表示,我们的CLIP模型在IN-1K零样本分类方面显著优于以往的方法,实现了出色的74.7/80.4顶级准确率,无论是基础模型还是大型模型。

表10:CLIP配置与IN-1K零样本性能。EVA-02-CLIP在可承受的大小和更少的图像-文本样本上表现更好。

“+”:从使用2242个CLIP检查点训练的CLIP checkpoint初始化“”:模型炖菜[130]

3.2. 对比语言-图像预训练和零样本评估

在表9中,我们进一步展示了我们的方法在26个额外的零样本分类基准测试上的有效性和鲁棒性。值得注意的是,我们的EVA-02-CLIP-L模型,其模型大小只有开CLIP-H的一半,图像-文本对数量只有开CLIP-H的五分之一,实现了1.2点的非劣平均值改进。

对比语言-图像预训练(CLIP)模型是一种基础模型,通过对比图像-文本预训练来对齐视觉和自然语言[95]。它在表示学习领域的影响是显著的,使其成为识别和生成任务以及单模态和多模态应用的有力引擎[100,44,73,106]。

最后,在表11中,我们展示了EVA-02-CLIP在零样本视频识别基准测试中的有效性。

在本节中,我们彻底证明了按照[44]中的设置初始化EVA-02作为CLIP视觉编码器的有效性。得到的模型,称为EVA-02-CLIP,显著提高了零样本性能、样本效率和训练速度。

零样本检索性能。表12全面报告了Flickr30K[138]和COCO[78]上的零样本图像和文本检索结果。与OpenCLIP-H相比,EVA-02-CLIP在零样本检索性能上并不像分类那样显著,

CLIP配置&零样本分类。

OpenAI CLIP-B/1668.3 61.9 50.0 77.7 48.255.3 90.861.084.754.4 24.464.844.735.0 46.271.3 88.8 43.5 50.7 89.1 60.8 59.1 98.378.3
EVA-02-CLIP-B/1674.7 67.0 54.1 82.5 57.762.3 98.487.786.310.7 24.878.653.167.0 51.275.9 89.4 46.3 50.9 92.2 54.1 60.7 99.580.2
(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models
OpenAI CLIP-L/14+76.6 70.9 77.5 89.0 61.094.9 74.4 79.0 87.294.9 74.4 79.0 87.294.9 74.4 79.0 87.258.7 33.479.356.051.5 49.178.6 93.9 52.4 60.8 93.8 70.7 65.4 99.478.1
OpenCLIP-H/1478.0 70.8 59.2 89.3 66.697.4 84.7 72.9 85.097.4 84.7 72.9 85.097.4 84.7 72.9 85.015.2 42.893.567.872.7 52.080.1 92.7 58.4 54.2 94.5 64.3 70.5 98.577.7
EVA-02-CLIP-L/14+80.4 73.8 82.993.268.998.9 89.8 64.3 89.598.9 89.8 64.3 89.598.9 89.8 64.3 89.514.8 37.591.664.511.4 51.077.2 94.2 57.6 54.9 94.2 64.6 69.8 99.782.7

表9:EVA-02-CLIP零样本图像分类性能在27个数据集上的总结。

#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30K#params img-text Flickr30K COCO Flickr30KCOCOCOCOCOCO
method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10method (img+text) dataset samples R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10R@1 R@5 R@10R@1 R@5 R@10R@1 R@5 R@10
(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines(a) comparisons with CLIP-Base baselines
OpenAI CLIP-B/1686M+63MWIT-400M13B81.996.298.852.476.884.762.185.691.833.158.4 69.0 69.0
EVA-02-CLIP-B/1686M+63MMerged-2B8B85.796.798.958.780.788.271.291.094.742.266.976.3
OpenAI CLIP-L/14304M+124MWIT-400M13B85.297.399.056.379.386.765.287.392.036.561.071.1
(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models(b) comparisons with larger CLIP models
OpenAI CLIP-L/140.3B+124MWIT-400M13B85.297.399.056.379.386.765.287.392.036.561.071.1
OpenCLIP-L/140.3B+124MLAION-2B32B88.798.499.262.183.490.375.092.595.646.170.779.4
EVA-02-CLIP-L/140.3B+124MMerged-2B4B89.798.699.263.784.390.477.393.696.847.571.279.7
OpenAI CLIP-L/14+0.3B+124MWIT-400M13B87.498.399.357.981.287.967.389.093.337.161.671.5
EVA-02-CLIP-L/14+0.3B+124MMerged-2B6B89.298.999.664.185.290.877.994.296.847.971.780.0
OpenCLIP-H/140.6B+354MLAION-2B32B90.899.399.766.086.191.977.894.196.649.573.481.5

表12:EVA-02-CLIP零样本检索性能。

methodenc.COCO valCOCO valLVIS valLVIS val
method#paramsAPboxAPmaskAPboxAPmask
ViTDet-B[75]86M54.046.743.038.9
EVA-02-B86M55.547.147.141.4
(a) Head-to-head comparisons with the open-sourced ViTDet config.(a) Head-to-head comparisons with the open-sourced ViTDet config.(a) Head-to-head comparisons with the open-sourced ViTDet config.(a) Head-to-head comparisons with the open-sourced ViTDet config.(a) Head-to-head comparisons with the open-sourced ViTDet config.(a) Head-to-head comparisons with the open-sourced ViTDet config.
methodenc. #paramsCOCO val APbox APmaskCOCO val APbox APmaskCOCO val APbox APmaskCOCO val APbox APmask
ViTDet-B[75]86M56.056.048.048.0
MViTv2-L[76]218M56.956.948.648.6
MViTv2-H[76]667M57.157.148.848.8
EVA-02-B86M58.958.950.750.7

表13:EVA-02-B的目标检测和实例分割结果。

这些结果仍然具有竞争力。我们推测,这种差异的主要原因在于检索任务更多地依赖于语言编码器的容量和能力,而不是分类任务。

3.3. 目标检测与分割

在本节中,我们评估了EVA-02在主流目标级和像素级识别基准上的迁移学习性能,即在§3.3.1中的COCO[78]和LVIS[50]上进行的目标检测和实例分割,以及在§3.3.2中的COCO-Stuff-164K[16]和ADE20K[147]上进行的语义分割。

3.3.1 目标检测与实例分割

为了彻底评估EVA-02在目标检测和实例分割任务上的性能,我们采用了典型的级联掩码R-CNN[52, 18]作为任务层。这一选择是由于它同时执行两个任务的通用性,以及它的鲁棒性和准确性。为了确保与现有最先进方法的公平比较,我们基本上遵循ViTDet[75]的训练设置和架构配置,后者包括大规模抖动(LSJ)数据增强[47]和交错窗口化的全局注意力机制。

COCO和LVIS的模型架构以及超参数几乎相同,除了我们在LVIS上按照ViTDet使用预训练损失[149]和重复因子采样[50]。对于LVIS,我们在所有实验中都使用了IN-21K MIM预训练的EVA-02的检测器,因为Merged-38M数据集中的COCO训练图像包括10k张LVIS val set2中的图像。

在本节的其余部分,我们在表13和表14中评估了EVA-02在三种不同迁移学习设置下的表现,包括:(i) 理性检查,(ii) 不使用额外检测数据的系统级比较,以及(iii) 使用额外中间检测微调的系统级比较。

(i) 理性检查。我们首先使用与ViTDet相同的开源架构配置(LSJ,具有10242个作物,4x全局注意力块)进行头对头的比较。通常,表13a中的EVA-02-B和表14a中的EVA-02-L都可以大幅度超越相同/更大尺寸的ViTDet w/ Cascade Mask R-CNN对应物,特别是在LVIS上。

(ii) 不使用额外检测数据的系统级比较。在表13b和表14b中,我们探索了纯MIM预训练的EVA-02-B和L表示在物体检测和实例分割任务中的极限。为了充分发挥EVA-02的潜力,我们使用了改进的ViTDet配置(LSJ,具有15362个作物,窗口化注意力大小为32,以及6x/8x全局注意力块,适用于基础/大尺寸模型)。还应用了Soft-NMS[12]。例如,在分割任务中,分类得分通过掩码度[125]进行了校准。我们比较的基线也采用了改进的设置,如更大的输入分辨率、Soft-NMS等,并且RevCol

在附录中,我们展示了包括开发集/测试集中的未标记图像进行MIM预训练并不提高最终性能。

methodenc. #paramsCOCO val APbox APmaskAPboxApmask
ViTDet-L[75]304M57.6 50.049.244.5
ViTDet-H[75]632M58.7 51.051.546.6
EVA-02-L304M59.2 50.855.348.6

(a) 与开源ViTDet配置的直接比较。

enc.COCO valLVIS valLVIS val
method#paramsAPbox APmaskAPboxAPmask
ViTDet-L[75]304M59.6 51.151.246.0
ViTDet-H[75]632M60.4 52.053.448.1
RevCol-H[17]2158M61.1 53.0--
EVA-02-L304M62.3 53.860.153.5

(b) 无需额外检测训练数据的系统比较。

enc.COCO valCOCO valCOCO test-devCOCO test-dev
method#paramsAPboxAPmaskAPboxAPmask
BEiT-3[123]1011M63.754.8
FocalNet-H[136]689M63.863.9
FD-SwinV2-G[127]~3000M64.255.4
InternImg-XL{{[124]~600M64.2-64.3
GDETRv2[24]632M64.5
EVA[44]1011M64.255.064.455.5
EVA-02-L304M64.155.464.555.8
InternImg-H{{[124]~2000M65.065.4

(c) 在O365上进行额外训练后,对COCO进行系统比较。

enc.LVIS valLVIS val
method#paramsAPboxAPmask
EVA[44]1011M62.255.0
InternImg-H{{[124]~2000M63.2
EVA-02-L304M65.257.3

(d) 在LVIS上进行系统比较,并在O365上进行额外训练。

表14:EVA-02-L的目标检测和实例分割结果。

“+”:使用模型复合技术[77]使编码器参数翻倍

初始化HTC++[23, 82]作为任务层,这是我们使用的改进版Cascade Mask R-CNN。

我们的实验表明,EVA-02在LVIS上显著优于相同大小和更大尺寸的对应物。这些发现与我们之前在表13a和表14a中的结果一致。我们还鼓励未来的工作在表示学习中进行更深入的调查,以便在添加更多中间过程以追求绝对性能之前,对原始预训练表示进行更深入的研究。

(iii) 在额外O365训练下的系统比较。对于表14c和表14d中的最先进检测系统比较,所有方法都使用Object365(O365)[107]检测注释以进一步提高性能。我们还使用EMA[94]来更新模型权重。所有EVA-02的结果都使用单尺度评估,而利用测试时增强的方法则用“tta”上标标记。在表14c中牺牲实例分割能力的方法使用了更好的。

methodenc. #paramscrop sizeextra labeled dataADE20K mIoU
(a) comparisons with based-sized encoders(a) comparisons with based-sized encoders(a) comparisons with based-sized encoders(a) comparisons with based-sized encoders(a) comparisons with based-sized encoders
BEiTv2-B[92]86M5122X53.1
BEiTv2-B[92]86M5122IN-21K53.5
EVA-02-B86M5122 X55.3 X55.3​55.3
DeiT-III-L[116]304M5122251222IN-21K54.6
InternImage-XL[124]335M640IN-21K55.0
ConvNeXt V2-H[129]707M51225122X55.0
(b) comparisons with larger-sized encoders(b) comparisons with larger-sized encoders(b) comparisons with larger-sized encoders(b) comparisons with larger-sized encoders(b) comparisons with larger-sized encoders
BEiTv2-L[92]304M5122X56.7
BEiTv2-L[92]304M5122IN-21K57.5
EVA-02-L304M512X59.8
EVA-02-L+304M640X60.1
ConvNeXt V2-H[129]707M640IN-21K57.0
RevCol-H[17]2158M640168M57.8
SwinV2-G[81]~3000M89670M59.3
InternImage-H[124]1080M896IN-21K59.9

表15:使用UperNet进行语义分割。所有方法都使用单尺度评估。

“+”:使用更大的输入分辨率和分割头尺寸

enc.cropCOCO164KCOCO164K
method#paramssizemIoUssmIoUssmIoUss
RevCol-H2158M640°64026402-
BEiTv2-L w/ ViT-Ada.304M8962896252.361.261.2
EVA w/ ViT-Ada.1011M8962896253.4626262.3
EVA-02-L304M64053.764062.0

表16:使用Mask2Former进行语义分割。“mIoUss/mIoUms”:使用单尺度或多尺度评估的mIoU。

我们建立了DINO[144]作为检测器。与其他具有更大模型规模的最新技术相比,我们的EVA-02仍然相当有竞争力,特别是在LVIS上。

3.3.2 语义分割

我们使用两个不同的任务层——UperNet[132]和Mask2Former[28]——在两个广泛采用的基准测试上对EVA-02-B和L模型的语义分割性能进行了全面评估:ADE20K[147]和COCO-Stuff-164K[16]。值得注意的是,与之前涉及额外微调的主流方法不同,例如使用IN-21K中间微调模型进行语义分割,我们主要评估了EVA-02的纯MIM预训练表示。

UperNet结果。如表15所示,带有UperNet分割器的纯MIM预训练EVA-02-B和L模型显著优于相同大小的BEiTv2模型,无论是没有还是增加了90个时期的IN-21K中间微调。此外,我们的表示可以胜过更大的预训练对应物,如ConvNeXt V2、Intern-Image等,并且通过单尺度评估达到了高达60.1 mIoU的结果。

Mask2Former结果。表16显示了在COCO-Stuff-164K和ADE20K基准测试上的最新模型比较。ADE20K分割的模型是从COCO-Stuff-164K预训练表示中初始化的,只要报告了COCO-Stuff-164K的结果。BEiTv2-L和EVA也利用ViT-Adapter(表16中的ViT-Ada)[27]进行架构改进。

与使用Mask2Former任务层的较大模型相比,我们的方法仍然相当高效,并且在COCO-Stuff-164K和ADE20K语义分割基准测试上,使用大型模型创造了新的最先进的结果。

3.4. 所有评估总结

在§3中,我们展示了预训练EVA-02表示在大范围下游任务上的卓越迁移学习能力。尽管我们评估的所有任务/基准测试都是计算机视觉的核心,但在这里我们希望(重新)强调与EVA-02-CLIP相关的那些的重要性:不仅因为它们具有有前景的零样本迁移性,而且因为EVA-02-CLIP的视觉特征与自然语言非常对齐,自然语言比纯视觉信号/特征以及固定的一组预定标签集提供了更广泛的监督。因此,我们希望EVA-02-CLIP可以作为基本构建块,并为未来的多模态系统提供更稳健的视觉特征。

4. 相关工作

一些先前的表示学习进展并不一定伴随着全新的想法或新颖的方法。GPT系列[96, 97, 14, 89]实现了通过不断扩展最简单的语言建模来改变科学研究格局的定量变化。RoBERTa[80]对BERT预训练[40]进行了详细的复制研究,仔细衡量了许多关键超参数、训练数据和目标的影响,这导致了双向语言表示的极大改进。DeiT[115]和RSB[128]分别对较小尺寸的平面ViTs[41]和ResNets[53]的训练配方进行了密切评估,而ConvNeXt[83]则共同审视了下一代ConvNets模型设计之前的架构进步。[9]实证显示,一个稳健有效的知识蒸馏配方使得最先进的大规模图像分类模型在实践中变得经济实惠。

受这些工作的启发,本文对MIM视觉表示学习[5, 148, 133, 51]进行了彻底评估,这显著弥合了实现最先进性能的大规模视觉表示与更广泛研究社区可负担且易于获取的模型的差距。

www.zeeklog.com  - [论文解读]本文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且稳健的语言对齐视觉特征。

图3:MIM和CLIP表示的交替学习。从现成的CLIP(例如OpenAI CLIP[95])开始,交替训练纯MIM视觉表示以及视觉-语言CLIP表示可以以自举的方式提高MIM和CLIP的性能。MIM表示可用于微调各种下游任务,而(冻结的)CLIP表示则使得下一代模型设计模块化、可重用且可扩展。

5. 讨论与结论

在这项工作中,我们的目标是贡献于正在进行的视觉和视觉-语言表示学习的重新研究。我们不是提出一个全新的架构或方法,而是对现有的MIM预训练进行深入评估,并以CLIP视觉特征作为目标任务的背景。我们的实验表明,如果经过稳健优化,这种方法能够产生高性能、经济实惠且可迁移的表示,这些表示的性能超过了更先进的专门模型。

我们的分析揭示了,基于大型和小型EVA-02模型可以有效利用来获得紧凑且表达力强的CLIP表示,这些表示有潜力在未来促进模块化、可重用且可扩展的模型设计[100,3,26,73]。我们对中等大小模型的发现也可以作为未来关于模型和表示规模研究的宝贵参考。

此外,结合EVA[44],我们展示了纯MIM视觉表示以及视觉-语言CLIP表示的交替训练可以以自举的方式提高MIM和CLIP性能(图3)。这表明了一种有前景且可扩展的方法,用于预训练各种大小的视觉和视觉-语言表示,值得在未来研究中进一步探索。

致谢

我们要感谢Hanxiao Qu、Yan Tian、Yemin Shi和Xigang Cao在GPU资源方面的帮助。赵Xue、Quanyue Ma和Bowen Zhang在数据集和基准测试方面的帮助,以及北京人工智能学院其他同事在本项目中的支持。我们感谢Wen Wang就物体检测与实例分割任务进行建设性讨论,以及Qiang Chen就模型权重初始化进行建设性讨论。

methodMIMIN-1K ftIN-21KIN-1K top-1
methodteacherimg sizeFLOPslabel?IN-1K top-1
(a) ViT-Base model(86M),IN-1K ft number of tokens=196(a) ViT-Base model(86M),IN-1K ft number of tokens=196(a) ViT-Base model(86M),IN-1K ft number of tokens=196(a) ViT-Base model(86M),IN-1K ft number of tokens=196(a) ViT-Base model(86M),IN-1K ft number of tokens=196(a) ViT-Base model(86M),IN-1K ft number of tokens=196
BEiTv2-B[92]VQKD-B 2242 18G XVQKD-B 2242 18G XVQKD-B 2242 18G XVQKD-B 2242 18G X85.5
dBOT-B[79]CLIP-B224218GX85.7
BEiTv2-B[92]VQKD-B224222242218G86.5
EVA-02-BEVA-CLIP1962196218GX87.0
(b) Vi-Large model(304M), IN-1K ft number of tokens=196(b) Vi-Large model(304M), IN-1K ft number of tokens=196(b) Vi-Large model(304M), IN-1K ft number of tokens=196(b) Vi-Large model(304M), IN-1K ft number of tokens=196(b) Vi-Large model(304M), IN-1K ft number of tokens=196(b) Vi-Large model(304M), IN-1K ft number of tokens=196
BEiTv2-L[92]VQKD-B2242224262GX87.3
dBOT-L[79]CLIP-L2242224262GX87.8
BEiTv2-L[92]VQKD-B2242224262G88.4
EVA-02-LEVA-CLIP196262GX88.9

表17:基于和大型模型在IN-1K值集分类上的头对头比较。微调设置相对适中,每个模型的计算预算相同。

A. 附录

A.1. 架构

SwiGLU FFN。原始ViT设计中的位置前馈网络(FFN)是一个多层感知器(MLP),包含两层(由权重矩阵W1W1​和W2W2​表示,省略偏置),并带有GELU激活函数,记为FFNMLP。正式地,

FFNMLP(x,W1,W2)=GELU(xW1)W2.(1)FFNMLP​(x,W1​,W2​)=GELU(xW1​)W2​.(1)

SWIGLU FFN[110]用Gated Linear Unit(GLU)[37]的变体替换原始ViT的FFN中的第一个变换,该变体带有SiLU(SiLU =x∗sigmoid⁡(x)=x∗sigmoid(x))激活函数[56, 99],正式地,

FFNSwiGLU(x,U,V,W)=(SiLU(xU)⊙xV)W,FFNSwiGLU​(x,U,V,W)=(SiLU(xU)⊙xV)W,

⊙⊙ 是逐元素乘积。

为了保持参数数量和计算量不变,在将这些层与原始的 FFNMLPFFNMLP​ 比较时,我们将 FFNSwiGLUFFNSwiGLU​ 的隐藏单元(U 和 V 的输出维度以及 W 的输入维度)减少 2/3。

归一化。我们使用子-LN[122](我们发现内部注意力 LN 不必要,所以将其省略)作为 EVA-02-B 和 L 块的默认归一化方案。对于小型和微型模型,我们认为使用默认的预-LN 配置并遵循 [41,5] 就足够了。

RoPE 是一种位置嵌入类型,它统一了绝对和相对潜在表示,并且在最先进的自然语言模型中得到了广泛应用 [11,31,26]。有关 RoPE 的详细描述,请参考 [113, 10]。我们的实现基于开源 [2]。

简而言之,RoPE 扭曲/旋转输入嵌入(不改变范数),使得位置上的令牌的注意力

IN-1K top-1IN-1K top-1IN-V2 top-1IN-V2 top-1
methodoptimizerfp16bf16fp16bf16
EVA-02-BSGD88.4088.3779.7379.67
EVA-02-BAdamW88.5788.5879.7879.74
EVA-02-BLion88.5288.5079.9779.9679.96
EVA-02-LSGD89.8789.8482.1582.17
EVA-02-LAdamW89.9889.9582.4382.61
EVA-02-LLion89.9790.0082.1982.37

表18:不同数值精度和优化器对IN-1K分类微调的研究。为了探索EVA-02表示的极限,所有预训练模型都以44824482分辨率进行微调,并在表4中表现最佳的设置下进行IN-21K中间微调。

methodenc.best IN-1K top-1best IN-1K top-1
methodrole#paramsw/o IN-21K ftw/ IN-21K ft
EVA-CLIPteacher1011M1011M89.489.5
EVA-02-Lstudent304M304M89.690.0

表19:靛蓝来自靛蓝。经过足够的预训练,EVA-02-L在IN-1K图像分类中能够以参数304M超越其教师模型,参数为1011M1011M。“††”:“微调的CLIP视觉编码器”“††”:“微调的CLIP视觉编码器”

位置n处的标记m到位置的标记n之间的线性依赖性取决于m−nm−n。值得注意的是,与传统的相对位置表示不同,后者将位置信息注入注意力矩阵,RoPE仅操作q,k向量。因此,RoPE与现成的融合高性能MHSA操作符(如[36, 72])天然兼容。

RoPE是一种统一绝对和相对势能表示的位置嵌入,在最先进的自然语言模型中被广泛采用[11, 31, 26]。有关RoPE的详细描述,请参考[113, 10]。我们的实现基于开源[2]。

简而言之,RoPE扭曲/旋转输入嵌入(不改变范数),使得位置m处的标记对位置n处的标记的注意力依赖于m−nm−n。值得注意的是,与传统的相对位置表示不同,后者将位置信息注入注意力矩阵,RoPE仅操作q,k向量。因此,RoPE与现成的融合高性能MHSA操作符(如[36, 72])天然兼容。

权重初始化。我们使用xavier正态[48]来初始化TrV块中的所有权重。MHSA和FFN中的权重矩阵是从N∼(0,std⁡2)N∼(0,std2)中采样的,其中std是2/(dim⁡in+dim⁡out)2/(dimin​+dimout​)​。

A.2. 图像分类的额外结果

EVA-02-B和-L。在表17中,我们展示了足够预训练的纯MIM EVA-02表示(无IN-21K中间微调)优于一些先前的领先方法(即使有中间微调)。

MIM pt dataMIM to O365MIM to LVIS (Table 14a)MIM to O365 to LVIS (Table 14d)MIM to O365 to LVIS (Table 14d)
MIM pt dataAPboxAPbox APmaskAPboxAPmask
Merged-38M50.5755.34 48.7465.4257.42
IN-21K50.4755.28 48.5965.2257.32

表20:数据污染对MIM预训练的影响,当转移到目标检测与实例分割任务时。粉色设置是我们用于表14中LVIS验证集评估的默认设置。

表21:使用一个A100 GPU的推理吞吐量比较。批量大小为1024,补丁令牌数量为196。ViT的架构遵循BEiT系列5, 92。

精度和优化器。在表18中,我们展示了经过足够预训练的EVA-02表示足够稳健,可以使用各种数值精度(例如fp16和bf16)和优化器(例如Lion[25]、AdamW[64, 84]和SGD[87])进行微调。值得注意的是,微调可以使用SGD优化器完成,且性能下降很小。

学生是主人。表19区分了MIM与传统知识蒸馏[58]在“预训练&微调”范式下的区别。

A.3. MIM预训练中的数据污染:案例研究

我们提供了一个关于数据污染在MIM预训练中转移到目标检测和实例分割任务时的影响的案例研究。简而言之,我们发现影响较小。

我们预训练了两个EVA-02-L模型,一个使用合并的38M未标记图像进行MIM预训练,另一个使用IN-21K的图像作为预训练数据。两个模型的预训练都使用了1M步,批量大小为2k。其他设置和配置相同。请注意,合并的38M未标记图像包含了所有Object365(O365)[107]测试集图像,以及20k个LVIS[50]验证集图像中的15k个(合并的38M图像包含了所有的COCO训练图像,LVISv1.0验证分割也包含了来自COCO训练集的15k个图像)。

我们在三种不同的设置中研究了迁移学习性能:

(i) 直接将纯MIM预训练的EVA-02表示转移到O365(MIM到O365),使用O365测试集3(该测试集是一个非常大的且具有挑战性的基准,包含约20万张图像和250万个实例,分布在365个不同的类别中)来评估性能。

(ii) 直接将纯MIM预训练的EVA-02表示转移到LVIS(MIM到LVIS,表14a)。使用LVIS验证集(该验证集是一个长尾、大词汇量具有挑战性的基准,包含约2万张图像和0.25万个联邦标注实例,分布在超过1200个不同的类别中)来评估性能。

(iii) 将带有额外O365中间微调的EVA-02表示转移到LVIS(MIM到O365到LVIS,表14d)。使用LVIS验证集来评估性能。

结果总结在表20中。总体而言,我们发现将开发/测试集中的未标记图像用于MIM预训练对最终性能的影响很小。

这些实验的动机来自于我们最初使用合并的38M预训练表示进行LVIS验证集评估,这导致了开发/测试集中未标记图像的不预期使用,类似于[60]. [30]中报告的问题,也有报道称,在LAION-400M数据集中检测到了IN-1K及其变体Flickr30K和COCO的少量图像。这种数据污染问题引发了关于当大量未标记图像用于预训练时,下游基准的有效性的担忧。虽然可以识别并移除现有基准测试的所有重复项,但在未来基准测试或现实世界应用中,对已经预训练的模型进行此类操作可能是不可行的。尽管如此,我们认为这个问题不应阻碍未来表示学习研究的数据扩展。

A.4. 实施细节

在本节中,我们总结了训练/评估设置、配置和超参数。

A.4.1 MIM预训练

EVA-02 MIM预训练设置。见表22。

A.4.2 图像分类

TrV吞吐量。见表21。

IN-21K的中间微调设置。见表23。

IN-1K(带IN-21K中间微调)的微调设置。见表24。

IN-1K(不带IN-21K中间微调)的微调设置。见表25。

A.4.3 对比语言-图像预训练

EVA-02增强CLIP训练设置。见表26。

A.4.4目标检测与实例分割A.4.4目标检测与实例分割

O365中间微调。见表27。

COCO head-to-head comparisons. See Table 28.COCO head-to-head comparisons. See Table 28.

LVIS头对头比较。见表29。

COCO系统级比较(无O365中间微调)。见表30。

LVIS系统级比较(无O365中间微调)。见表31。

COCO系统级比较(有O365中间微调)。见表32。

LVIS系统级比较(有O365中间微调)。见表33。

A.4.5语义分割

使用UperNet在ADE20K上进行。见表34。

使用Mask2Former在COCO-Stuff-164K上进行。见表35。

使用Mask2Former在ADE20K上进行。见表36。

configEVA-02-B/-L
enc.weight initializationMIM pre-trained EVA-02(Table 22)
peak learning rate3e-4
layer-wise lr decay[33,5]0.70/0.75
learning rate schedulecosine decay
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.05
input resolution448
patch size
batch size2048
training epochs40/30
warmup epochs1
drop path[61]0.10/0.15
label smoothing[114]0.1
augmentationRandAug(9,0.5)[35]
random resized crop(0.2,1)
numerical precisionDeepSpeed fp16[102]
ZeRO optimizer[101]stage 0 or 1
ema[94]
cutmix[141]X
mixup[143]X
random erasing[146]

表23:IN-21K的中间微调设置。

configEVA-02-Ti/-S/-B/-L xavier normal random initialization[48]configEVA-02-B/-L
enc. weight initializationEVA-02-Ti/-S/-B/-L xavier normal random initialization[48]enc. weight initialization peak learning rateIN-21K fine-tuned EVA-02(Table 23) 5e-5/2e-5
MIM teacherEVA-CLIP vision encoder[44]layer-wise lr decay[33, 5]0.80/0.85
image data sourceIN-21K/IN-21K/IN-21K/ Merged-38Mlearning rate schedulecosine decay
peak learning rate3e-3/3e-3/1.5e-3/1.5e-3optimizerAdamW[64,84]
learning rate schedulecosine decayoptimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
optimizerAdamW[64,84]weight decay0.05
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.98,1e−6β1​,β2​,ϵ=0.9,0.98,1e−6input resolution448
weight decay0.05142
input resolution224patch size batch size512
patch size14training epochs15/20
masking ratio40%warmup epochs2
batch size4k/4k/2k/2kdrop path[61]0.15
training steps0.85M/0.85M/1M/1Mlabel smoothing[114]0.2
training epochs240/240/150/56augmentationRandAug(9,0.5)[35]
warmup epochs1random resized crop(0.08,1)
drop path[61]0.0/0.0/0.0/0.1test crop ratio1.0
random resized crop(0.2,1)numerical precisionDeepSpeed fp16[102]
numerical precisionDeepSpeed fp16[102]ZeRO optimizer[101]stage 0 or 1
ZeRO optimizer[101]stage 0 or 1ema[94]0.9999
Table 22: MIM pre-training setting.Table 22: MIM pre-training setting.cutmix[141]X
mixup[143]X
random erasing[146]X

表24:IN-1K(带IN-21K中间微调)的微调设置。

configEVA-02-Ti/-S/-B/-L
enc.weight initializationMIM pre-trained EVA-02(Table 22)
peak learning rate2e-4/1e-4/1e-4/7e-5
layer-wise lr decay[33,5]0.90/0.80/0.70/0.80
learning rate schedulecosine decay
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.05
input resolution336°/336°/4482/4482
patch size142
batch size1024
training epochs100/100/30/30
warmup epochs5/5/3/3
drop path[61]0.10/0.10/0.10/0.15
label smoothing[114]0.1/0.1/0.1/0.2
augmentationRandAug(9,0.5)[35]
random resized crop(0.08,1)
test crop ratio1.0
numerical precisionDeepSpeed fp16[102]
ZeRO optimizer[101]stage 0 or 1
ema[94]0.9999
cutmix[141]X
mixup[143]X
random erasing[146]X

表25:IN-1K(无IN-21K中间微调)的精细调整设置。

configEVA-02-L
enc.weight initialization MIM pre-trained EVA-02(Table 22) MIM pre-trained EVA-02(Table 22)
learning rate6e-5
layer-wise lr decay0.8
batch size160
training steps400k
learning rate scheduleIr step at[320k,360k]
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.1
LSJ[47] crop size1536
patch size16
attention window size16
#global attention blocksevenly 8 blocks
drop path0.4
numerical precisionPyTorch amp fp16[91]
ema[94]

表27:基于ViTDet[75]的O365对象检测和实例分割中间微调设置。

configEVA-02-B/-L/-L+
image enc. weight init.EVA-02-B/-L/EVA-02-CLIP-L
text enc. weight init.OpenAI CLIP-B/-L/EVA-02-CLIP-L
image-text dataLAION-1.6B[106]+COYO-0.4B[15]
image enc. peak learning rate2e-4/4e-4/4e-4
image enc. layer-wise Ir decay[33,5]0.75/0.85/0.75
text enc. peak learning rate2e-5/4e-5/4e-5
text enc. layer-wise lr decay[33,5]0.75/0.75/0.65
learning rate schedulecosine decay
optimizerLAMB[137]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.98,1e−6β1​,β2​,ϵ=0.9,0.98,1e−6
weight decay0.05
input resolution2242/2242/3362
patch size162/142/142
batch size131k/ 131k/ 61k
samples seen8B/4B/2B
random resized crop(0.9,1)
numerical precisionDeepSpeed fp16[102]
ZeRO optimizer[101]stage 1
drop path[61]X
FLIP training[74]X
ema[94]X
image augmentationX
image cutmix[141]X
image mixup[143]X
image random erasing[146]X

表26:EVA-02增强对比度语言图像预训练(CLIP)设置。

configEVA-02-B/-L
enc. weight initializationMIM pre-trained EVA-02(Table 22)
learning rate5e-5/6e-5
layer-wise lr decay0.7/0.8
batch size128/144
training steps60k
learning rate schedulelr step at[48k, 54k]
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.1
LSJ[47] crop size1024210242
patch size162
attention window size162
#global attention blocksevenly 4 blocks
drop path0.1/0.4
test score threshold0.05
max numbers of detection100
numerical precisionPyTorch amp fp16[91]
softnms[12]
maskness scoring[62, 125]X
ema[94]X

表28:基于ViTDet[75]的COCO物体检测与实例分割、头对头比较设置。

configconfigEVA-02-B/-L
enc.weight initializationMIM pre-trained EVA-02(Table 22)
learning rate1e-4
layer-wise lr decay0.7/0.8
batch size128
training steps50k/40k
learning rate schedulelr step at[40k,45k]/[32k,36k]
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.1
LSJ[47] crop size1024
patch size16
attention window size16
#global attention blocksevenly 4 blocks
drop path0.1/0.4
test score threshold0.02
numerical precisionPyTorch amp fp16[91]
softnms[12]X
maskness scoring[62, 125]X
ema[94]X

表29:基于ViTDet[75]的LVIS物体检测与实例分割、头对头比较设置。

configEVA-02-L
enc.weight initializationMIM pre-trained EVA-02(Table 22)
learning rate1e-4
layer-wise lr decay0.8
batch size128
training steps40k
learning rate schedulelr step at[32k, 36k]
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.1
LSJ[47] crop size1536
patch size16
attention window size32
#global attention blocksevenly 8 blocks
drop path0.4
test score threshold0.02
max numbers of detection300
softnms[12]IoU threshold=0.6
maskness scoring[62, 125]maskness threshold=0.5
numerical precisionPyTorch amp fp16[91]
ema[94]

表31:基于ViTDet75的系统级比较设置下的LVIS物体检测与实例分割。

configEVA-02-B/-L config EVA-02-LEVA-02-B/-L config EVA-02-LEVA-02-B/-L config EVA-02-L
enc.weight initializationMIM pre-trained EVA-02(Table 22)
learning rate5e-5enc. weight initializationO365 fine-tuned EVA-02(Table 27)
layer-wise Ir decay0.7/0.8learning rate layer-wise Ir decay4e-5
batch size1280.8
training steps60kbatch size training steps64 40k
learning rate scheduleIr step at[48k, 54k]
optimizerAdamW[64,84]learning rate scheduleconstant
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8optimizerAdamW[64,84]
weight decay0.1optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
LSJ[47] crop size1536weight decay0.1
patch size16LSJ[47] crop size1536215362
attention window size322322patch size
#global attention blocksevenly 6/ 8 blocksattention window size16
drop path0.1/ 0.4#global attention blocksevenly 8 blocks
test score threshold0.00drop path test score threshold0.3 0.00
max numbers of detection100
softnms[12]IoU threshold=0.6max numbers of detection100
maskness scoring[62, 125]maskness threshold=0.5(instance seg only)softnms[12] maskness scoring[62, 125]IoU threshold=0.6
ema[94]××maskness threshold= 0.5(instance seg only)
numerical precisionPyTorch amp fp16[91]numerical precision ema[94]PyTorch amp fp16[91] 0.9999

表30:基于ViTDet75的系统级比较设置进行COCO目标检测和实例分割。

表32:基于ViTDet75的系统级比较设置进行COCO目标检测和实例分割。

configEVA-02-L
enc. weight initializationO365 fine-tuned EVA-02(Table 27)
learning rate4e-5
layer-wise lr decay0.8
batch size64
training steps70k
learning rate scheduleconstant
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.1
LSJ[47] crop size1536
patch size16
attention window size16
#global attention blocksevenly 8 blocks
drop path0.3
test score threshold0.02
max numbers of detection1000
softnms[12]IoU threshold=0.6
maskness scoring[62,maskness threshold=0.5
numerical precisionPyTorch amp fp16[91]
ema[94]0.9999

表33:基于ViTDet[75](w/ O365中间微调)的系统级比较设置,LVIS物体检测和实例分割。

configEVA-02-B/-L/-L+
enc.weight initializationMIM pre-trained EVA-02(Table 22)
learning rate6e-5/4e-5/4e-5
layer-wise lr decay0.85/0.90/0.90
batch size32/16/16
training steps60k/80k/80k
learning rate schedulelinear decay
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.05
crop size512°/512°/640°
patch size16
drop path0.15/0.20/0.20
seg head dim768/1024/1536
numerical precisionPyTorch amp fp16[91]
ViT-Adapter[27]X

表34:使用Uper-Net[132]对ADE20K进行语义分割。

configEVA−02−LEVA−02−L
enc.weight initializationMIM pre-trained EVA-02(Table 22)MIM pre-trained EVA-02(Table 22)
learning rate2e-5
layer-wise lr decay0.9
batch size16
training steps120k
learning rate schedulelinear decay
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.05
crop size640
patch size16
drop path0.2
seg head dim1024
seg head#enc.&#dec.6& 9
numerical precisionPyTorch amp fp16[91]
ViT-Adapter[27]X

表35:使用Mask2Former[28]对COCO-Stuff-164K进行语义分割。

configEVA-02-L
enc. weight initializationCOCO-Stuff fine-tuned EVA-02(Table 35)
learning rate2e-5
layer-wise lr decay0.9
batch size64
training steps20k
learning rate schedulelinear decay
optimizerAdamW[64,84]
optimizer hyper-parametersβ1,β2,ϵ=0.9,0.999,1e−8β1​,β2​,ϵ=0.9,0.999,1e−8
weight decay0.05
crop size64026402
patch size16
drop path0.2
seg head dim1024
seg head#enc.&#dec.6& 9
numerical precisionPyTorch amp fp16[91]
ViT-Adapter[27]X

表36:使用Mask2Former[28]对COCO-Stuff-164K进行语义分割。

参考文献

[1] 使用openclip达到80%的零样本准确率:在laion-2b上训练的Vit-g/14。https://laion.ai/blog/giant-openclip/.2

[2] 一个用于在pytorch中添加旋转嵌入到变换器的独立库。https://github.com/lucidrains/rotary-embedding-torch.10

[3] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds等。Flamingo:一种用于小样本学习的视觉语言模型。arXiv预印本arXiv:2204.14198,2022.1,9

[4] Jimmy Lei Ba, Jamie Ryan Kiros和Geoffrey E Hinton。层归一化。arXiv预印本arXiv:1607.06450,2016.3,4

[5] Hangbo Bao, Li Dong和Furu Wei。 Beit:BERT图像变换器的预训练。arXiv预印本arXiv:2106.08254,2021.1,3,4,9,10,11,12,13

[6] Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christo-pher Wang, Dan Gutfreund, Josh Tenenbaum和Boris Katz。Ob-jectnet:一个大规模受控偏见数据集,用于推动物体识别模型的极限。在NeurIPS,2019.4,5,6

[7] Thomas Berg, Jiongxin Liu, Seung Woo Lee, Michelle L Alexan-der, David W Jacobs和Peter N Belhumeur。Birdsnap:鸟类的大规模细粒度视觉分类。在CVPR, 2014。

[8] Lucas Beyer, Olivier J Hénaff, Alexander Kolesnikov, Xiaohua Zhai和Aaron van den Oord。我们完成了Imagenet吗?arXiv预印本arXiv:2006.07159,2020.4,5

[9] Lucas Beyer, Xiaohua Zhai, Amélie Royer, Larisa Markeeva, Ro-han Anil和Alexander Kolesnikov。知识蒸馏:一个好的老师是耐心和一致的。在CVPR,2022.5,9

[10] Stella Biderman, Sid Black, Charles Foster, Leo Gao, Eric Halla-han, Horace He, Ben Wang, 和 Phil Wang. Rotary embeddings:A relative revolution, 2021.10

[11] Sid Black,Stella Biderman,Eric Hallahan,Quentin Anthony,Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle Mc-Donell, Jason Phang, 等人。Gpt-neox-20b: 一个开源自回归语言模型。arXiv预印本arXiv:2204.06745,2022.10

[12] Navaneeth Bodla, Bharat Singh, Rama Chellappa, 和 Larry S Davis. Soft-nms-improving object detection with one line of code.In ICCV,2017.7,13,14,15

[13] Lukas Bossard, Matthieu Guillaumin, 和 Luc Van Gool. Food-101-mining discriminative components with random forests. 在ECCV,2014.6

[14] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah,Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, 等人。语言模型是少样本学习器。arXiv预印本arXiv:2005.14165,2020.9

[15] Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee,Woonhyuk Baek, 和 Saehoon Kim. Coyo-700m: 图文对数据集。https://github.com/kakaobrain/coyo-dataset,2022.6,13

[16] Holger Caesar, Jasper Uijlings, 和 Vittorio Ferrari. Coco-stuff: 物和物类在上下文中的类别。在CVPR,2018.2,7,8

[17] Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun Li, 和 Xiangyu Zhang. 可逆列网络。在ICLR,2023.1,2,5,8

[18] Zhaowei Cai 和 Nuno Vasconcelos. Cascade r-cnn: 高质量物体检测和实例分割。TPAMI, 2019.7

[19] Joao Carreira, Eric Noland, Andras Banki-Horvath, Chloe Hillier, 和 Andrew Zisserman. 关于动力学的简短笔记 - 600. arXiv预印本arXiv:1808.01340, 2018.6

[20] Joao Carreira, Eric Noland, Chloe Hillier, 和 Andrew Zisserman. 关于动力学 - 700人机动作数据集的简短笔记. arXiv预印本arXiv:1907.06987, 2019.6

[21] Joao Carreira 和 Andrew Zisserman. 动作识别去向何方?一个新的模型和动力学数据集. 在CVPR, 2017.6

[22] Soravit Changpinyo, Piyush Sharma, Nan Ding, 和 Radu Soricut. 概念性12m:推动网络规模图像-文本预训练以识别长尾视觉概念. 在CVPR, 2021.4

[23] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, 等. 混合任务级联用于实例分割. 在CVPR, 2019.8

[24] Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, 等. Group detr v2:带有编码器-解码器预训练的强对象检测器. arXiv预印本arXiv:2211.03594, 2022.8

[25] Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, 等. 优化算法的符号发现. arXiv预印本arXiv:2302.06675, 2023.4,11

[26] Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Pi-otr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner,Basil Mustafa, Lucas Beyer, 等. Pali:一个联合缩放的多语言语言-图像模型. arXiv预印本arXiv:2209.06794, 2022.1,9,10

[27] 程哲,段玉晨,王文海,何俊军,陆通,戴继锋,乔宇。用于密集预测的视觉变换器适配器。arXiv预印本arXiv:2205.08534,2022.9,15

[28] 成波文,米斯拉伊什南,施温格亚历山大,基里洛夫阿列克谢德,吉尔达尔罗希特。用于通用图像分割的掩模注意力掩模变换器。arXiv预印本arXiv:2112.01527,2021.8,15

[29] 郑刚,韩俊伟,陆晓强。遥感图像场景分类:基准与现状。IEEE会议论文集,2017.6

[30] 莱蒂姆·切里蒂,罗曼·博蒙特,罗斯·威特曼,米切尔·沃茨曼,加布里埃尔·伊拉科,凯德·戈登,克里斯托夫·舒曼,路德维希·施密特,杰尼亚·季塞夫。对比语言-图像学习的可复制缩放法则。arXiv预印本arXiv:2212.07143,2022.1,11

[31] 查恩·阿卡兰沙,纳朗·沙兰,德夫林雅各布,博斯马马特,米什拉古拉瓦,罗伯茨亚当,巴赫姆保罗,钟炫,施泰因查尔斯,盖尔曼塞巴斯蒂安等。Palm:带有路径的缩放语言建模。arXiv预印本arXiv:2204.02311,2022.3,10

[32] 米科波伊M.,马吉S.,科基诺斯I.,穆罕默德S.,韦达利A.。描述野外纹理。在CVPR,2014.6

[33] 克拉克Kevin,隆明-张Minh-Thang,勒Quoc V,曼宁Christopher D。ELECTRA:预训练文本编码器作为鉴别器而非生成器。arXiv预印本arXiv:2003.10555,2020.12,13

[34] 卡茨Adam,吴Andrew,李Honglak。单层网络在无监督特征学习中的分析。在AIS-TAT,2011.6

[35] 库布克Ekin D,佐夫Barret,施伦Jonathan,勒Quoc V。缩减:具有减少搜索空间的实用自动化数据增强。在CVPRW,2020.12,13

[36] Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, 和 Christo-pher Ré. FlashAttention:快速且内存高效的精确注意力,具有IO感知。在NeurIPS, 2022. 10

[37] Yann N Dauphin, Angela Fan, Michael Auli, 和 David Grangier. 使用门控卷积网络进行语言建模。在ICML,2017.2,3,10

[38] Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Steiner,Mathilde Caron, Robert Geirhos, Ibrahim Alabdulmohsin, 等人。将缩放视觉变压器扩展到220亿参数。arXiv预印本arXiv:2302.05442,2023.1,5

[39] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, 和 Li Fei-Fei.Imagenet:一个大规模的层次化图像数据库。在CVPR,2009.3,4

[40] Jacob Devlin, Ming-Wei Chang, Kenton Lee, 和 Kristina Toutanova. Bert:深度双向变换器的预训练用于语言理解。arXiv预印本arXiv:1810.04805,2018.1,9

[41] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, 和 Neil Houlsby. 一张图片值16x16个单词:大规模图像识别的变换器。在ICLR,2021.1,2,3,4,9,10

[42] Mark Everingham, SM Ali Eslami, Luc Van Gool, Christopher KI Williams, John Winn, 和 Andrew Zisserman. Pascal视觉对象类别挑战:回顾性。IJCV,2015.6

方旭新,王文,谢斌辉,孙全,吴乐德,王星刚,黄铁军,王心龙,曹岳。Eva:探索大规模遮蔽视觉表示学习的极限。https://github.com/baaivision/EVA,2022年4月。

方旭新,王文,谢斌辉,孙全,吴乐德,王星刚,黄铁军,王心龙,曹岳。Eva:探索大规模遮蔽视觉表示学习的极限。arXiv预印本arXiv:2211.07636,2022年1月,2月,3月,4月,5月,6月,8月,9月,12月。

方旭新,杨树生,王世杰,葛一晓,严英,王星刚。利用遮蔽图像建模解锁普通视觉变换器进行目标检测。arXiv预印本arXiv:2204.02964,2022年3月。

李飞飞,罗布·弗格斯,皮特罗·佩洛纳。从少量训练样本中学习生成视觉模型:一种增量贝叶斯方法在101个目标类别上进行了测试。在CVPRW,2004年。6。

戈尔扎·吉西亚,崔寅,阿瓦因德·斯里尼瓦斯,钱瑞,林宗义,埃金·D·库布克,郭国伟,查尔斯·Z·博雷特。简单复制粘贴是一种强大的数据增强方法,用于实例分割。在CVPR,2021年。7,13,14,15。

格洛罗特,约书亚·本吉奥。理解训练深度前馈神经网络的难度。在AISTAT,2010年。3,10,12。

古普塔,阿格丽姆,杜波尔,罗斯·吉尔希克。Lvis:一个大型词汇实例分割的数据集。在CVPR,2019.2,7,11

[51] 何凯明,陈新磊,谢赛宁,李阳豪,多拉尔·皮奥特,吉尔希克·罗丝。掩模自编码器是可扩展的视觉学习器。arXiv预印本arXiv:2111.06377,2021.4,5,9

[52] 何凯明,格奥吉亚·格科伊萨里,多拉尔·皮奥特,吉尔希克·罗丝。Mask r-cnn。在ICCV,第2961-2969页,2017.7

[53] 何凯明,张祥宇,任绍青,孙建。深度残差学习在图像识别中的应用。在CVPR,2016. 9

[54] 帕特里克·赫尔伯,本杰明·比施克,安德烈亚斯·登格尔,达米安·博尔特。Eurosat:一个新颖的数据集和深度学习基准,用于土地利用和土地覆盖分类。IEEE J. Sel. Top. Appl.Earth Obs. Remote Sens.,2019.6

[55] 丹·亨德里克斯,史蒂文·巴斯塔尔,诺曼·穆,索拉夫·卡达瓦特,王 Frank,多伦多 Evan,德赛 Rahul,朱 Tyler,帕拉贾利 Samyak,郭 Mike 等。鲁棒性的多面性:分布外泛化的关键分析。在CVPR,2021.4,5,6

[56] 丹·亨德里克斯 和 凯文·金佩尔。高斯误差线性单元(gelus)。arXiv预印本arXiv:1606.08415,2016.3,10

[57] 丹·亨德里克斯,赵 Kevin,巴斯塔尔 Steven,斯坦哈特 Jacob,宋 Dawn。自然对抗示例。在CVPR,2021.4,5,

[58] 吉弗里·辛顿,奥里奥尔·维纳尔斯,迪恩 Jeff。提炼神经网络中的知识。arXiv预印本arXiv:1503.02531,2015.5,11

[59] 胡子江,孙飞,陈妍-光,谢远,孔孙远。米兰:语言辅助表示上的掩模图像预训练。arXiv预印本arXiv:2208.06049,2022.3

[60] 荣杭胡,舒布克·德贝纳特,谢赛宁,陈新磊。探索长序列掩码自编码器。arXiv预印本arXiv:2210.07224,2022.11

[61] 高华,孙宇,刘庄,丹尼尔·塞德拉,基利安·Q·温伯格。具有随机深度的深度网络。在ECCV,2016.12,13

[62] 黄兆进,黄立超,龚永超,黄昌,王新刚。掩码评分r-cnn。在CVPR,2019.7,13,14,15

[63] 杰瑞德·卡普兰,山姆·麦克唐利什,汤姆·亨尼汉,汤姆·B·布朗,本杰明·切奇,雷文·查尔德,斯科特·格雷,亚历山大·拉德福德,吴杰辉,阿达里奥·阿莫德雷里。神经语言模型的标度定律。arXiv预印本arXiv:2001.08361,2020.1

[64] 迪德里克·P·金格玛和吉米·巴。Adam:一种用于随机优化的方法。arXiv预印本arXiv:1412.6980,2014.4,11,12,13,14,15

[65] Jonathan Krause,Michael Stark,贾德,李飞飞。用于细粒度分类的三维对象表示。在ICCVW,2013.6

[66] Alex Krizhevsky,Geoffrey Hinton等。从微小图像中学习多层特征。2009. 6

[67] Alina Kuznetsova,Hassan Rom,Neil Alldrin,Jasper Uijlings,Ivan Krasin,Jordi Pont-Tuset,Shahab Kamali,Stefan Popov,Mat-teo Malloci,Alexander Kolesnikov等。开放图像数据集v4:统一图像分类、对象检测和视觉关系检测规模。IJCV,2020.4

[68] LAION团队和Timm团队。Pytorch图像模型:vit-base-patch16-clip-384px-laion2b-ft-in12k-in1k。https://huggingface.co/timm/vit_base_patch16_clip_384.1aion2b_ft_in12k_in1k,2022.5

[69] LAION团队和Timm团队。Pytorch图像模型:vit-huge-patch14-clip-336px-laion2b-ft-in12k-in1k. https://huggingface.co/timm/vit_huge_patch14_clip_336.1aion2b_ft_in12k_in1k,2022.5

[70] LAION和Timm团队。Pytorch图像模型:vit-large-patch14-clip-336px-laion2b-ft-in12k-in1k. https://huggingface.co/timm/vit_large_patch14_clip_336.1aion2b_ft_in12k_in1k,2022.5

[71] Yann LeCun, Léon Bottou, Yoshua Bengio, 和 Patrick Haffner. 应用于文档识别的基于梯度的学习。IEEE会议论文集,1998.6

[72] Benjamin Lefaudeux, Francisco Massa, Diana Liskovich, Wen-han Xiong, Vittorio Caggiano, Sean Naren, Min Xu, Jieru Hu,Marta Tintore, Susan Zhang, Patrick Labatut, 和 Daniel Haz-iza. xformers:一个模块化和可扩展的变压器建模库。https://github.com/facebookresearch/xformers,2022.4,10

[73] Junnan Li, Dongxu Li, Silvio Savarese, 和 Steven Hoi. Blip-2:使用冻结的im-age编码器和大型语言模型进行语言-图像预训练。arXiv预印本arXiv:2301.12597,2023.6,9

[74] Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, 和 Kaiming He. 通过掩码进行缩放语言-图像预训练。arXiv预印本arXiv:2212.00794,2022.13

[75] Yanghao Li, Hanzi Mao, Ross Girshick, 和 Kaiming He. 探索用于物体检测的普通视觉变压器背骨。arXiv预印本arXiv:2203.16527,2022.3,7,8,13,14,15

[76] Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, 和 Christoph Feichtenhofer. 提供改进的多尺度视觉变压器用于分类和检测。arXiv预印本arXiv:2112.01526,2021.7

[77] 李婷婷,楚晓杰,刘玉东,王永涛,唐志,褚伟,陈静东,凌海滨。Cbnet:一种用于目标检测的复合骨干网络架构。TIP,2022.8

[78] 林宗义,迈克尔·迈尔,塞尔日·博隆吉,詹姆斯·海斯,皮特罗·佩罗纳,德瓦·拉马南,皮奥特·多拉尔,C·劳伦斯·齐特尼克。Microsoft coco:上下文中的常见对象。在欧洲计算机视觉会议,第740-755页。施普林格,2014.2,4,6,7

[79] 刘兴斌,周静豪,孔涛,林仙明,纪荣荣。探索遮罩自编码器的目标表示。arXiv预印本arXiv:2209.03917,2022.3,10

[80] 刘寅涵,奥托·米勒,乔亚尔·纳曼,杜静飞,乔希·曼达尔,陈丹琪,列维·奥默,刘迈克,泽特尔莫耶,斯托伊扬诺夫·韦斯利。Roberta:一种经过强优化的bert预训练方法。arXiv预印本arXiv:1907.11692,2019.1,4,9

[81] 刘哲,胡汉,林玉东,姚志良,谢振东,魏一轩,宁佳,曹岳,张正,董立等。Swin Transformer v2:扩展容量和分辨率。在CVPR,2022. 1,2,8

[82] 刘哲,林玉东,曹岳,胡汉,魏一轩,张正,林思聪,郭斌。Swin Transformer:使用移位窗口的层次化视觉变压器。arXiv预印本arXiv:2103.14030,2021.8

[83] 刘庄,毛汉子,吴超远,克里斯托夫·费希腾霍弗,特雷弗·达雷尔,谢赛宁。一个2020年代的卷积神经网络。在CVPR,2022.9

[84] 伊利亚·洛什奇洛夫和弗兰克·赫特勒。解耦权重衰减正则化。在ICLR,2019.4,11,12,13,14,15

[85] Subhransu Maji, Esa Rahtu, Juho Kannala, Matthew Blaschko, 和 Andrea Vedaldi. 飞机细粒度视觉分类。arXiv预印本arXiv:1306.5151,2013.6

[86] Sachin Mehta 和 Mohammad Rastegari. 移动视觉变换器的可分离自注意力。arXiv预印本arXiv:2206.02680,2022.5

[87] Yurii Evgen'evich Nesterov. 一种解决凸规划问题的方法,收敛速率大到 \\ bigl(k^2 \\ bigr)。在Doklady Akademii Nauk, 1983.4,11

[88] Maria-Elena Nilsback 和 Andrew Zisserman. 在大量类别上自动花卉分类。在ICVGIP, 2008.6

[89] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal,Katarina Slama, Alex Ray, 等人。训练语言模型跟随人类反馈的指令。arXiv预印本arXiv:2203.02155,2022.9

[90] Omkar M. Parkhi, Andrea Vedaldi, Andrew Zisserman, 和 C. V.Jawahar. 猫和狗。在CVPR, 2012. 6

[91] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, 等人。Pytorch:一种命令式风格的高性能深度学习库。NeurIPS,2019. 4,13,14,15

[92] Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, 和 Furu Wei.Beit v2: 使用向量量化视觉令牌器的掩码图像建模。arXiv预印本arXiv:2208.06366,2022.3,4,5,8,10,11

[93]Hieu Pham,Zihang Dai,Golnaz Ghiasi,Hanxiao Liu,Adams Wei Yu, Minh-Thang Luong, Mingxing Tan, 和 Quoc V Le.零样本迁移学习中的组合缩放。arXiv预印本arXiv:2111.10050,2021.1

[94] Boris T Polyak和Anatoli B Juditsky。通过平均加速随机逼近。SIAM控制与优化杂志,1992年。第8卷,第12期,第13期,第14期,第15期

[95] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh,Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell,Pamela Mishkin, Jack Clark等。从自然语言监督中学习可迁移的视觉模型。在ICML会议上,2021年。第1卷,第3期,第6期,第9期

[96] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever等。通过生成式预训练改进语言理解。2018年。

[97] Alec Radford, Jeff Wu, Rewon Child, David Luan,Dario Amodei和Ilya Sutskever。语言模型是无监督的多任务学习器。2019年。

[98] Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase和Yuxiong He。Zero:针对训练万亿参数模型的记忆优化。在SC20会议上,2020年。第4期

[99] Prajit Ramachandran, Barret Zoph和Quoc V Le。寻找激活函数。arXiv预印本arXiv:1710.05941,2017年。第3期,第10期

[100] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu和Mark Chen。带有剪辑潜力的层次化文本条件图像生成。arXiv预印本arXiv:2204.06125,2022年。第6期,第9期

[101] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh,Scott Gray, Chelsea Voss, Alec Radford, Mark Chen和Ilya Sutskever。零样本文本到图像生成。arXiv预印本arXiv:2102.12092,2021年。第12期,第13期

[102] Jeff Rasley,Samyam Rajbhandari,Olatunji Ruwase和Yuxiong He。深度速度:系统优化使得训练深度学习模型能够使用超过1000亿个参数。在KDD,2020年4月,第103页

[103] Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, 和 Vaishaal Shankar. ImageNet分类器是否泛化到ImageNet?2019年3月

[104] Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, 和 Vaishaal Shankar. ImageNet分类器是否泛化到ImageNet?在ICML,2019年4月,第5,6页

[105] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, 等人。Imagenet大规模视觉识别挑战。IJCV,2015年2月,第4,5,6页

[106] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon,Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, 等人。Laion-5b:一个开放的大规模数据集用于训练下一代图像-文本模型。arXiv预印本arXiv:2210.08402,2022年6月,第13页

[107] Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, 和 Jian Sun。Objects365:一个大规模、高质量的物体检测数据集。在ICCV,2019年4月,第8,11页

[108] Piyush Sharma, Nan Ding, Sebastian Goodman, 和 Radu Sori-cut。概念性标题:一个清洗的、同义词映射的、图像alt-text数据集用于自动图像标题。在ACL,2018年4月

[109] Peter Shaw, Jakob Uszkoreit, 和 Ashish Vaswani。带有相对位置表示的自注意力。arXiv:1803.02155,2018年3月,第11页

[110] Noam Shazeer。Glu变体改进了变压器。arXiv预印本arXiv:2002.05202,2020年2月,第3,10页

[111] Khurram Soomro, Amir Roshan Zamir, 和 Mubarak Shah。UCF101:一个包含101个来自野外视频的人类动作类别的数据集。arXiv预印本arXiv:1212.0402,2012.6

[112] Johannes Stallkamp, Marc Schlipsing, Jan Salmen, 和 Christian Igel. 人与计算机:机器学习算法在交通标志识别中的基准测试。神经网络,2012年。6

[113] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, 和 Yunfeng Liu. Roformer:带有旋转位置嵌入的增强变压器。arXiv预印本arXiv:2104.09864,2021年2月,3月,10月

[114] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, 和 Zbigniew Wojna. 重新思考Inception架构用于计算机视觉。在CVPR,2016年12月,13月

[115] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, 和 Hervé Jégou. 训练数据高效的图像变压器和通过注意力进行蒸馏。在国际机器学习会议上,第10347-10357页。PMLR,2021年3月,4月,9月

[116] Hugo Touvron, Matthieu Cord, 和 Hervé Jégou. Deit iii:Vit的复仇。在ECCV,2022年5月,8月

[117] Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, 和 Herve Jegou. 使用图像变换器更深入地探索。在ICCV,2021年3月,11月

[118] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Lion Jones, Aidan N Gomez, Lukasz Kaiser, 和 Illia Polosukhin. 注意力就是你所需要的。NeurIPS,30,2017年1月,3月

[119] Bastiaan S Veeling, Jasper Linmans, Jim Winkens, Taco Cohen, 和 Max Welling. 数字病理学的旋转等变CNNs。在MICCAI,2018年6月

[120] Shakti N Wadekar 和 Abhishek Chaurasia.移动视觉Transformer(Mobilevitv3):一种针对移动设备的视觉变换器,它简单有效地融合了局部、全局和输入特征。arXiv预印本arXiv:2209.15159,2022.5

[121] 王浩南,葛松伟,利普顿扎卡里,邢二飞。通过惩罚局部预测功率来学习鲁棒的全局表示。NeurIPS,2019.4,5,6

[122] 王宏宇,马书明,黄绍汉,董立东,王文辉,彭志良,吴宇,巴杰贾佩亚尔,辛格拉姆萨克沙姆,本海姆阿隆等。基础变换器。arXiv预印本arXiv:2210.06423,2022.2,3,10

[123] 王文辉,包航波,董立东,比约克约翰,彭志良,刘强,阿加瓦尔克里蒂,穆罕默德奥维斯汗,萨克沙姆辛格拉姆,索姆苏布霍吉特等。图像作外语:Beit预训练用于所有视觉和视觉-语言任务。arXiv预印本arXiv:2208.10442,2022.1,3,4,5,8

[124] 王文海,戴继锋,陈哲,黄振杭,李志琪,朱锡洲,胡晓伟,卢通,陆磊伟,李洪生等。Internimage:探索具有可变形卷积的大规模视觉基础模型。arXiv预印本arXiv:2211.05778,2022.1,2,5,8

[125] 王新龙,张若峰,沈春华,孔涛,李磊。Solo:一个简单的实例分割框架。TPAMI,2021.7,13,14,15

[126] 魏龙辉,谢凌熙,周文刚,李侯强,田奇。Mvp:多模态引导的视觉预训练。arXiv预印本arXiv:2203.05175,2022.3

[127] 魏一轩,胡汉,谢振达,张正,曹岳,包建民,陈东,郭斌。对比学习区域掩码图像建模在微调中通过特征蒸馏。arXiv预印本arXiv:2205.14141,2022.5,8

[128] Ross Wightman, Hugo Touvron, 和 Hervé Jégou. Resnet反击:Timm中改进的训练程序。arXiv预印本arXiv:2110.00476,2021.9

[129] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen,Zhuang Liu, In So Kweon, 和 Saining Xie. Convnext v2:与掩码自编码器共同设计和扩展卷积网络。arXiv预印本arXiv:2301.00808,2023.5,8

[130] Mitchell Wortsman, Gabriel Ilharco, Samir Ya Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, 等人。模型汤:平均多个微调模型的权重可以提高准确性而不增加推理时间。在ICML,2022.6

[131] Jianxiong Xiao, James Hays, Krista A Ehinger, Aude Oliva, 和 Antonio Torralba。Sun数据库:从修道院到动物园的大规模场景识别。在CVPR, 2010. 6

[132] Tete Xiao,Yingcheng Liu, Bolei Zhou, Yuning Jiang, 和 Jian Sun。统一感知解析用于场景理解。在ECCV会议论文集中,第418-434页,2018年8月,15

[133] Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, 和 Han Hu。Simmim:一个简单的掩码图像建模框架。arXiv预印本arXiv:2111.09886,2021.9

[134] Zhenda Xie,Zheng Zhang,Yue Cao,Yutong Lin,Yixuan Wei,Qi Dai, 和 Han Hu。关于掩码图像建模中的数据缩放。arXiv预印本arXiv:2206.04664,2022.1

[135]Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, 和 Liang-Chieh Chen。莫特:交替移动卷积和注意力带来了强大的视觉模型。在ICLR,2023年。第5页

杨建伟,李春远,高建锋。聚焦调制网络。arXiv预印本arXiv:2203.11926,2022年8月

杨宇,李静,Reddi Sashank,Hseu Jonathan,Kumar Sanjiv,Bhojanapalli Srinadh,宋晓丹,Demmel James,Keutzer Kurt,谢Cho-Jui。深度学习的批量优化:在76分钟内训练BERT。arXiv预印本arXiv:1904.00962,2019年13月

杨彼得,赖爱丽丝,霍多什米卡,霍肯迈尔朱莉娅。从图像描述到视觉表示:事件描述的语义推断的新相似性度量。TACL,2014年6月

余家辉,王子睿,瓦苏德万维杰,杨乐,赛义德霍斯尼,吴永辉。Coca:对比增强字幕器是图像-文本基础模型。arXiv预印本arXiv:2205.01917,2022年1月

卢元,陈东东,陈一灵,科德拉诺埃尔,戴希阳,高建锋,胡宏东,黄学东,李宝珍,李春远等。Florence:计算机视觉的新基础模型。arXiv预印本arXiv:2111.11432,2021年1月

云尚斗,韩东勋,吴成俊,春熙,崔俊旭,俞英俊。Cutmix:一种用于训练具有可定位特征的强分类器的正则化策略。在ICCV,2019年4月,第12期,第13页

蔡小华,科列斯尼科夫亚历山大,侯尔斯比尼尔,贝耶卢卡斯。缩放视觉变换器。在CVPR,2022年1月

张宏毅,西塞穆斯塔法,达普林扬南,洛佩兹-帕兹大卫。mixup:超越经验风险最小化。arXiv预印本arXiv:1710.09412,2017年4月,第12期,第13页

[144] 郝张,冯李,刘世龙,张磊,苏航,朱军,尼昂·M·尼,孙宏业。Dino:改进的去噪锚框用于端到端物体检测。arXiv预印本arXiv:2203.03605, 2022.8

[145] 张新宇,陈家辉,袁坤坤,陈强,王健,王晓东,韩世民,陈小康,皮锦民,姚坤等。Cae v2:带有剪辑目标的上下文自编码器。arXiv预印本arXiv:2211.09799, 2022.3

[146] 郑忠,郑亮,康国梁,李绍子,杨一。随机擦除数据增强。在AAAI,2020.4, 12, 13

[147] 周博磊,赵航,Puig Xavier,肖铁,Fidler Sanja,Barriuso Adela,Torralba Antonio。通过ade20k数据集理解场景的语义。IJCV,2018.2, 4, 7, 8

[148] 周静豪,魏晨,王慧玉,沈伟,谢志航,Yuille Alan,孔涛。ibot:使用在线分词器的Image bert预训练。arXiv预印本arXiv:2111.07832, 2021.9

[149] 周兴义,Koltun Vladlen,Krahenbuihl Philipp。概率两阶段检测。arXiv预印本arXiv:2103.07461, 2021.7

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk