DINOv2:在没有监督的情况下学习鲁棒的视觉特征
DINOv2:在没有监督的情况下学习鲁棒的视觉特征
Maxime Oquab**, Timothée Darcet**, Théo Moutakanni**,
Huy V. Vo*, Marc Szafraniec*, Vasil Khalidov*, Pierre Fernandez, Daniel Haziza,
Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba,
Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat,
Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal1,
Patrick Labatut*, Armand Joulin*, Piotr Bojanowski*
Meta AI Research 1Inria
*core team **equal contribution
摘要
最近在大量数据上的预训练模型自然语言处理方面取得的突破,为计算机视觉中的类似基础模型开辟了道路。 这些模型可以通过生成通用视觉特征(即无需微调即可跨图像分布和任务工作的特征)来极大地简化任何系统中图像的使用。 这项工作表明,现有的预训练方法,尤其是自监督方法,如果经过来自不同来源的足够的精选数据的训练,可以产生这样的特征。 我们重新审视现有方法并结合不同的技术来扩展我们的预训练数据和模型大小。 大多数技术贡献旨在加速和稳定大规模训练。 在数据方面,我们提出了一个自动管道来构建专用的、多样化的和精选的图像数据集,而不是像自我监督文献中通常所做的那样未经精选的数据。 在模型方面,我们训练了一个具有 1B 参数的 ViT 模型 (Dosovitskiy 等人, 2021),并将其提炼成一系列较小的模型,这些模型超越了最佳可用的通用功能 OpenCLIP (Ilharco 等人, 2021) 在图像和像素级别的大多数基准测试上。
0
1简介
学习与任务无关的预训练表示已成为自然语言处理(NLP)的标准(Radford 等人,2019;Raffel 等人,2020;Chowdhery 等人,2022;Hoffmann 等人,2022;Touvron 等人,2023 )。 人们可以“按原样”使用这些特征,即无需微调,并且在下游任务上实现的性能明显优于特定任务模型产生的性能(Brown等人,2020) 。 这一成功得益于使用借口目标对大量原始文本进行预训练,例如语言建模(Radford等人,2017)或词向量(Devlin等人,2019),不需要监督。
随着 NLP 范式的转变,我们预计类似的“基础”模型将出现在计算机视觉中(Bommasani 等人,2021)。 这些模型应该生成可以在任何任务上开箱即用的视觉特征,无论是在图像级别(例如图像分类)还是像素级别(例如分割)。 这些基础模型最有前途的努力集中在文本引导的预训练上,即使用文本监督的形式来指导特征的训练(Joulin 等人,2016;Mahajan 等人,2018;Radford 等人, 2021)。 这种形式的文本引导预训练限制了可以保留的图像信息,因为字幕只能近似图像中的丰富信息,而复杂的像素级信息可能不会在这种监督下浮现出来。 此外,这些图像编码器需要对齐的文本图像语料库,因此不提供文本对应物的灵活性,即仅从原始数据中学习。
图1: 第一个 PCA 组件的可视化。 我们计算同一列(a、b、c 和 d)的图像块之间的 PCA,并显示它们的前 3 个分量。 每个组件都与不同的颜色通道匹配。 尽管姿势、风格甚至物体发生了变化,但相关图像之间的相同部分仍会匹配。 通过对第一个 PCA 分量进行阈值处理来去除背景。
文本引导预训练的替代方案是自监督学习(Caron 等人,2018;Chen 等人,2020;He 等人,2022),其中特征仅从图像中学习。 这些方法在概念上更接近语言建模等借口任务,可以捕获图像和像素级别的信息(Caron 等人,2021)。 此外,自监督模型输出的特征已被证明表现出各种有用的属性,并启用了多种应用(Amir 等人,2022;Tumanyan 等人,2022;Ofri-Amar 等人, 2023;汉密尔顿等人,2022)。 然而,尽管它们具有学习通用特征的潜力,但自监督学习的大部分进步都是在小型精选数据集 ImageNet-1k (Russakovsky 等人,2015)上进行预训练的背景下取得的。 t0>. 人们已经尝试将这些方法扩展到 ImageNet-1k 之外(Caron 等人,2019;Goyal 等人,2021;2022a),但他们专注于未经整理的数据集,这通常会导致显着下降在功能的质量上。 这是因为缺乏对数据质量和多样性的控制,而数据质量和多样性对于产生良好的特征至关重要。
在这项工作中,我们探讨了如果对大量精选数据进行预训练,自监督学习是否有潜力学习通用视觉特征。 我们重新审视现有的区分性自我监督方法,这些方法在图像和块级别上学习特征,例如 iBOT (Zhou 等人,2022a),并且我们在更大的数据集。 我们的大部分技术贡献都是为了在模型和数据规模扩展时稳定和加速有区别的自我监督学习。 这些改进使我们的方法比类似的判别性自我监督方法快 2× 左右,所需内存减少 3×,从而使我们能够利用更大批量的更长训练。
关于预训练数据,我们构建了一个自动管道,用于从大量未经整理的图像中过滤和重新平衡数据集。 该管道的灵感来自于 NLP 中使用的管道(Wenzek 等人,2020),其中使用数据相似性而不是外部元数据,并且不需要手动标注。 在野外处理图像时的一个主要困难是重新平衡概念并避免对一些主导模式的过度拟合。 在这项工作中,朴素的聚类方法可以很好地解决这个问题。 我们收集了一个由 1.42 亿张图像组成的小型但多样化的语料库来验证我们的方法。
最后,我们提供了各种预训练的视觉模型,称为 DINOv2,在我们的数据上使用不同的 Vision Transformers (ViT) (Dosovitskiy 等人,2016) 架构进行训练。 我们发布了所有模型和代码,以在任何数据上重新训练 DINOv2。 我们在缩放图像和像素级别时在各种计算机视觉基准上验证了 DINOv2 的质量,如图 所示。 我们得出的结论是,自监督预训练本身就是学习可转移冻结特征的良好候选者,这些特征与最好的公开可用的弱监督模型具有竞争力。
2相关工作
图像内自我监督训练。
第一类自监督方法侧重于从图像构建的借口任务,即从图像中提取信号以根据图像的其余部分进行预测。 这个想法在 Doersch 等人 (2015) 的工作中变得普遍,他们通过预测给定补丁的上下文来进行训练。 引入了许多其他借口任务,例如,重新着色图像(Zhang等人,2016),预测变换(Gidaris等人,2018),修复(Pathak 等人,2016) 或补丁重新排序(Noroozi & Favaro,2016;Misra & Maaten,2020)。 最近,基于补丁的架构(例如 ViT)的出现,引发了对预训练修复的重新审视(He 等人,2022;Bao 等人,2021;El-Nouby 等人,2021),可能在特征空间(Assran等人,2023;Baevski等人,2022)中。 特别有趣的是,He 等人 (2022) 表明,掩码自动编码器 (MAE) 学习的功能在对下游任务进行微调时可提供实质性改进。 MAE 的这一属性已在视频 (Tong 等人, 2022)、音频 (Xu 等人, 2022) 以及其他模态 (Girdhar等人,2023)。 然而,他们的功能需要监督微调,而我们的功能开箱即用,表现良好。
图2: 参数缩放时性能的演变。 我们展示了八种类型的视觉任务的表现,如第 2 节中所示。 ,以及每种类型的平均指标。 特征是从我们的自监督编码器 DINOv2(深蓝色)中提取的,我们将它们与自监督方法(浅橙色)以及弱监督方法(深粉色)进行比较。 我们将表现最好的弱监督模型的性能报告为水平虚线。 我们的模型系列比之前的自监督学习技术有了很大的进步,并且达到了与弱监督特征相当的性能。 参见第 2 节。 进行详细分析。
歧视性自我监督学习。
第二条工作与我们的工作更接近,是使用图像或图像组之间的判别信号来学习特征。 这一系列方法源于早期的深度学习工作(Hadsell等人,2006),但随着实例分类方法的出现而变得流行(Dosovitskiy等人,2016;Bojanowski&Joulin,2017) ;吴等人,2018)。 基于实例级目标进行了多项改进(Hénaff 等人,2019;He 等人,2020;Chen & He,2021;Chen 等人,2020;Grill 等人,2020;Caron 等人,2021 ) 或聚类 (Caron 等人, 2018; Asano 等人, 2020; Caron 等人, 2020)。 这些方法在 ImageNet 等标准基准上提供了高性能的冻结特征(Russakovsky 等人,2015),但它们很难扩展到更大的模型尺寸(Chen 等人,2021) 。 在这项工作中,我们在大型预训练数据集和模型的背景下重新审视这些方法的训练。 特别是,我们建立在 Zhou 等人 (2022a) 之上,我们发现它特别适合扩展。
扩展自我监督预训练。
越来越多的工作集中在数据和模型大小方面的自监督学习的扩展能力(Caron 等人,2019;Goyal 等人,2019;Tian 等人,2021;Goyal 等人,2022a )。 这些作品大多数都使用大量未经整理的数据来训练模型,而无需监督。 他们证明了判别方法会随着数据的变化而扩展,但由于预训练数据的质量较差,大多数结果都是通过对特征进行微调来获得的。 特别有趣的是,Goyal 等人 (2021) 还表明,在给定足够的预训练数据的情况下,这些方法受益于模型大小的缩放。 这一系列工作质疑自监督方法处理任何数据的能力,而我们专注于生产最好的预训练编码器。
自动数据管理。
我们的数据集构建借鉴了图像检索社区(Weinzaepfel等人,2021;Radenović等人,2018b;Berman等人,2019;Douze等人,2009;Tolias等人,2016;Revaud等人,2019). 特别是,在半监督学习的背景下研究了使用检索来增强训练集(Yalniz 等人,2019)。 同样,其他人也使用主题标签或其他元数据(Mahajan 等人,2018;Radford 等人,2021)或预训练视觉编码器(Schuhmann 等人,2021;2022)来过滤未经整理的数据集。 与这些作品不同的是,我们不使用预训练的编码器、元数据或监督来过滤图像并利用图像之间的视觉相似性。 我们的方法受到文本管理管道(Wenzek等人,2020)的启发,其中语言模型在维基百科上进行训练,以对从未经管理的来源中提取的文本进行评分。
3数据处理
我们通过从大量未整理的数据中检索与多个整理数据集中的图像接近的图像来组装整理的 LVD-142M 数据集。 下面我们描述了数据管道中的主要组件,包括精选/非精选数据源、图像重复数据删除步骤和检索系统。 我们的管道不需要任何元数据或文本,直接处理图像,如图所示。 我们建议读者参阅附录 以了解有关我们方法的更多详细信息。
图3: 我们的数据处理流程概述。 来自精选和非精选数据源的图像首先被映射到嵌入。 然后,将未整理的图像进行重复数据删除,然后将其与整理的图像进行匹配。 由此产生的组合通过自我监督的检索系统增强了初始数据集。
数据源。 我们选择的精选数据集在附录(表 )中有详细说明,其中包含 ImageNet-22k、ImageNet-1k 的训练分割、Google Landmarks 和几个细粒度数据集。 对于未经整理的数据源,我们从公开可用的爬网网络数据存储库收集原始的未经过滤的图像数据集。 我们从资源库中的每个网页的 <img> 标记中提取图片的 URL 链接。 我们丢弃不安全或受域限制的 URL,并对下载的图像进行后处理(PCA 哈希重复数据删除、NSFW 过滤和模糊可识别面孔)。 这会产生 1.2B 的独特图像。
重复数据删除。 我们将 Pizzi 等人 (2022) 的复制检测管道应用于未整理的数据并删除接近重复的图像。 这减少了冗余并增加了图像之间的多样性。 我们还删除了本工作中使用的任何基准的测试或验证集中包含的几乎重复的图像。
自监督图像检索。 我们通过从我们的非策划数据源中检索与我们策划的源中的图像接近的图像来构建我们策划的预训练数据集。 为此,我们首先使用在 ImageNet-22k 上预训练的自监督 ViT-H/16 网络计算图像嵌入,并使用余弦相似度作为图像之间的距离度量。 然后,我们对未整理的数据执行 k 均值聚类。 给定一个用于检索的查询数据集,如果它足够大,我们会检索每个查询图像的 N (通常是 4 个)最近邻。 如果它很小,我们从与每个查询图像对应的集群中采样 M 图像。 尽管目视检查似乎表明远大于 4 的 N 具有良好的检索质量,但这会导致更多冲突(图像是多个查询的最近邻检索)。 我们选择 N=4 因为它在这个意义上提供了一个很好的权衡。
实施细节。 我们管道的重复数据删除和检索阶段依赖于 Faiss 库(Johnson 等人,2019) 来有效地索引和计算最近嵌入的批量搜索。 特别是,我们充分利用了它对 GPU 加速索引的支持,使用带有产品量化代码的倒排文件索引(Jegou 等人,2010)。 整个处理分布在配备 8 个 V100-32GB GPU 的 20 个节点的计算集群上,生成 LVD-142M 数据集需要不到两天的时间。
4有区别的自监督预训练
我们通过一种有区别的自我监督方法来学习我们的特征,该方法可以被视为以 SwAV (Caron 等人,2020)为中心的 DINO 和 iBOT 损失的组合。 我们还添加了一个正则化器来扩展特征和一个简短的高分辨率训练阶段。 我们快速介绍了每种方法,但更多详细信息可以在相关论文或我们的开源代码中找到。
- •
图像级目标(Caron 等人,2021)。 我们考虑从学生和教师网络提取的特征之间的交叉熵损失。 这两个特征都来自 ViT 的词符类,是从同一图像的不同裁剪中获得的。 我们通过学生DINO头来传递学生课词符。 这个头是一个输出分数向量的 MLP 模型,我们称之为“原型分数”。 然后我们应用 softmax 来获得 ps。 同样,我们将恐龙头老师应用到老师课词符上,得到老师原型分数。 然后,我们应用 softmax,然后使用移动平均进行居中(或如下文详述的 Sinkhorn-Knopp 居中)以获得 pt。 DINO 损失项对应于:
ℒDINO=−∑ptlogps |
我们学习学生的参数,并使用过去迭代的指数移动平均值构建教师头(He等人,2020)。
- •
补丁级目标(周等人,2022a)。 我们随机屏蔽一些提供给学生的输入补丁,但不屏蔽给老师的输入补丁。 然后,我们将学生 iBOT 头应用到学生面具 Token 上。 类似地,我们将教师 iBOT 头应用于与学生中屏蔽的标记相对应的(可见)教师补丁标记。 然后我们应用上面的 softmax 和中心化步骤,并获得 iBOT 损失项:
ℒiBOT=−∑iptilogpsi |
,其中 i 是屏蔽标记的补丁索引。 与上面类似,我们学习学生的参数,并通过指数移动平均构建教师头。
- •
解除两个目标之间的头部重量。 DINO 和 iBOT 都使用可学习的 MLP 投影头。 它应用于输出 Token ,并在顶部计算损失。 Zhou 等人 (2022a) 中的一项消融研究表明,DINO 和 iBOT 头之间共享参数可以带来更好的性能。 在规模上,我们观察到事实恰恰相反,因此我们在所有实验中使用两个单独的头。
- •
Sinkhorn-Knopp 中心(Caron 等人,2020)。 Ruan 等人 (2023) 建议用 SwAV 的 Sinkhorn-Knopp (SK) 批量归一化代替 DINO 和 iBot 的教师 softmax-centering 步骤 (Caron 等人, 2020). 我们运行 Sinkhorn-Knopp 算法步骤 3 次迭代。 对于学生,我们应用 softmax 归一化。
- •
KoLeo 正则化器(Sablayrolles 等人, 2019)。 KoLeo 正则化器源自 Kozachenko-Leonenko 微分熵估计器(参见 Beirlant 等人 (1997);Delattre & Fournier (2017)),并鼓励批次内特征的统一跨度。 给定一组n向量(x1,…,xn),它被定义为
ℒkoleo=−1n∑i=1nlog(dn,i), |
其中 dn,i=minj≠i‖xi−xj‖ 是 xi 与批次内任何其他点之间的最小距离。 我们还在计算此正则化器之前ℓ2对特征进行归一化。
- •
调整决议(Touvron等人,2019)。 提高图像分辨率是分割或检测等像素级下游任务的关键,其中小物体在低分辨率下会消失。 然而,高分辨率训练需要时间和内存,因此我们在预训练结束后的短时间内将图像分辨率提高到 518×518。 这也类似于 Likhomanenko 等人 (2021) 中的 UniViT 训练和 Beyer 等人 (2023) 中的 FlexiViT 训练。
5高效实施
我们考虑对更大规模的训练模型进行一些改进。 我们使用 PyTorch 2.0 在 A100 GPU 上训练模型。 代码和预训练模型在 Apache 2.0 许可证下可用 1。 我们模型的详细信息请参见附录表。 使用相同的硬件,与 iBOT 实现相比,DINOv2 代码仅使用 1/3 内存,运行速度大约 2× 左右。
快速且高效记忆的注意力。
我们实现了自己的 FlashAttention (Dao 等人, 2022) 版本,以提高自注意力层的内存使用率和速度。 我们的版本在所有考虑的情况下都与原始版本相当或更好,同时涵盖了更多的用例和硬件。 由于 GPU 硬件的具体情况,当每个头的嵌入维度为 64 的倍数时,效率最佳,而当完整嵌入维度为 256 的倍数时,矩阵运算甚至更好。 因此,我们的 ViT-g 架构与 Zhai 等人 (2022) 提出的架构略有不同,为了最大限度地提高计算效率,我们使用 1536 的嵌入维度和 24 个头(64 个暗淡的/头),而不是 1408 有 16 个头(88 暗淡/头)。 我们的实验没有显示出最终精度的显着差异,并且我们的 ViT-g 主干网计数了 1.1B 参数。
顺序打包。
DINO 算法需要转发大作物(分辨率 224)和小作物(分辨率 98)。 当分割成补丁时,这两组由不同长度的词符序列表示,并且不能一起转发。 为了加速训练,我们使用了一种名为“序列打包”的技巧,该技巧源自 NLP (Krell 等人, 2022)。 这个想法很简单:我们将必须通过 Transformer 转发的序列连接成一个长序列。 我们像往常一样通过 Transformer 块传递这个序列。 然而,对注意力层中的自注意力矩阵应用了块对角掩码,从而防止了不同序列之间的注意力。 这样,转发严格相当于分别转发每个序列。 与之前的实现中使用单独的前向和后向传递相比,这个技巧为我们带来了显着的计算效率提升。 我们设置的较低级别组件可在 xFormers 库2 (Lefaudeux 等人 (2022))。
有效的随机深度。
我们实现了随机深度的改进版本(Huang等人,2016),它跳过了丢弃残差的计算,而不是屏蔽结果。 得益于特定的融合内核,这可以节省内存和计算,其比例大约等于丢弃率。 由于丢弃率较高(本工作中为d=40%),因此可以大幅提高计算效率和内存使用率。 该实现包括在批量维度上随机混洗 B 样本,并切片第一个 (1−d)×B 样本以进行块中的计算。
全分片数据并行 (FSDP)。
使用 AdamW 优化器最小化我们的目标需要 4 个 float32 精度的模型副本 - 学生、教师、优化器第一时刻、优化器第二时刻。 对于像我们的 ViT-g 这样的十亿参数模型来说,这总计为 16GB 内存。 为了减少每个 GPU 的内存占用,我们在 GPU 之间分割模型副本,即使用 FSDP 的 PyTorch 实现在 GPU 之间进行分片 16GB。 因此,模型大小不受单个 GPU 内存的限制,而是受计算节点上 GPU 内存总和的限制。 FSDP 的 Pytorch 实现带来了第二个优势,即节省跨 GPU 通信成本:权重分片根据优化器的要求以 float32 精度存储,但骨干网的广播权重和减少梯度以 float16 精度完成(MLP 头梯度在 float32 中减少,以避免训练不稳定)。 与其他自监督预训练方法中使用的 DistributedDataParallel (DDP) 中使用的 float32 梯度全归约操作相比,这导致通信成本降低约 50% (Caron 等人, 2021; Zhou 等人,2022a)。 因此,在扩展 GPU 节点数量时,训练过程的扩展效率比使用 float16 自动转换的 DDP 更有效。 总的来说,在我们遇到的几乎所有情况下,Pytorch-FSDP 混合精度都优于带有自动转换的 DDP。
模型蒸馏。
我们对训练循环的大多数技术改进旨在改进大型模型在大量数据上的训练。 对于较小的模型,我们从最大的模型 ViT-g 中提取它们,而不是从头开始训练它们。 知识蒸馏(Hinton等人,2014)旨在通过最小化一组给定输入的两个输出之间的距离,用较小的模型再现大模型的输出。 由于我们的目标函数是从教师网络到学生网络的一种蒸馏形式,因此我们利用相同的训练循环,但有一些例外:我们使用更大的模型作为冻结的教师,保留我们用作学生网络的备用 EMA我们的最终模型,去除掩蔽和随机深度,并将 iBOT 损失应用于两种全球作物。 在我们的消融中,我们观察到这种方法比从头开始训练取得了更好的性能,即使对于 ViT-L 也是如此。我们的蒸馏方法最终接近于 Duval 等人 (2023) 所描述的方法,只是我们不修改蒸馏的损失项并评估学生的 EMA。
6消融研究
我们提出了一组消融来凭经验验证我们管道的不同组成部分:第 2 节中描述的技术修改。 ,预训练数据和模型蒸馏的影响。 我们考虑第 2 节中描述的各种下游任务。 。
6.1改进的训练配方
我们的方法通过与第 2 节中描述的几个现有组件相结合,对 iBOT 方法进行了改进。 。 为了评估它们的重要性,我们训练了多个模型,其中我们相继将组件添加到基线 iBOT 模型中。 我们在表 中报告了使用 k-NN 和线性探针的 ImageNet-1k 验证集的 Top-1 准确率。 一般来说,我们观察到每个组件都提高了 k-NN 或线性探测的性能,甚至在大多数情况下两者都提高了。 根据我们的经验,只有 LayerScale 和随机深度会导致线性探测中的性能下降,但会显着提高训练稳定性。
INet-1k k-NN | INet-1k linear | |
iBOT | 72.9 | 82.3 |
+(our reproduction) | 74.5 ↑1.6 | 83.2 ↑0.9 |
+LayerScale, Stochastic Depth | 75.4 ↑0.9 | 82.0 ↓1.2 |
+128k prototypes | 76.6 ↑1.2 | 81.9 ↓0.1 |
+KoLeo | 78.9 ↑2.3 | 82.5 ↑0.6 |
+SwiGLU FFN | 78.7 ↓0.2 | 83.1 ↑0.6 |
+Patch size 14 | 78.9 ↑0.2 | 83.5 ↑0.4 |
+Teacher momentum 0.994 | 79.4 ↑0.5 | 83.6 ↑0.1 |
+Tweak warmup schedules | 80.5 ↑1.1 | 83.8 ↑0.2 |
+Batch size 3k | 81.7 ↑1.2 | 84.7 ↑0.9 |
+Sinkhorn-Knopp | 81.7 = | 84.7 = |
+Untying heads = DINOv2 | 82.0 ↑0.3 | 84.5 ↓0.2 |
表1: iBOT 和 DINOv2 之间训练差异的消融研究。 我们针对 k-NN 性能进行优化,根据我们的经验,线性探针性能受到 k-NN 性能的下限。 一些修改,例如 LayerScale 和高随机训练深度 (rate=0.4),会导致线性探测性能下降,但具有通过避免训练 期间 NaN 损失值来提高稳定性的好处(Touvron 等人,2022)。 总的来说,这些修改允许添加下一组改进。 使用 ImageNet-22k 上的 ViT-Large 架构运行实验。
6.2预训练数据源
特征的质量直接关系到预训练数据的质量。 在本实验中,我们探讨了 LVD-142M 与 ImageNet-22k(常用的预训练数据集)或直接使用原始数据和未经整理的数据相比的影响。 对于未经整理的数据集,我们从与 LVD-142M 相同的数据源中随机采样 142 万张图像。 我们在每个数据集上训练 ViT-g/14,进行相同次数的迭代。 为了完整性,我们还包括通过删除 ImageNet-1k 的同义词集而获得的 ImageNet-22k 变体(INet-22k ∖ INet-1k)。 我们在表中报告了比较。
Training Data | INet-1k | Im-A | ADE-20k | Oxford-M | iNat2018 | iNat2021 | Places205 |
INet-22k | 85.9 | 73.5 | 46.6 | 62.5 | 81.1 | 85.6 | 67.0 |
INet-22k ∖ INet-1k | 85.3 | 70.3 | 46.2 | 58.7 | 80.1 | 85.1 | 66.5 |
Uncurated data | 83.3 | 59.4 | 48.5 | 54.3 | 68.0 | 76.4 | 67.2 |
LVD-142M | 85.8 | 73.9 | 47.7 | 64.6 | 82.3 | 86.4 | 67.6 |
表2: 预训练数据来源的消融。 我们将 iBOT 中使用的 INet-22k 数据集与我们的数据集 LVD-142M 进行比较。 每个模型都经过相同次数的迭代训练,这比我们最终运行时要少,没有高分辨率适应。 LVD-142M 上的预训练保持了 INet-1k 上的性能,同时导致模型在其他领域表现更好。
最显着的观察结果是,在大多数基准测试中,在精选图像集上进行训练比在未精选数据上进行训练效果更好。 这证实了整理数据的好处,即使在自我监督预训练的情况下也是如此。 与在 ImageNet-22k 上训练的模型相比,LVD-142M 上的训练在除 ImageNet-1k 之外的所有基准测试中也表现出色。 这证实了在更多样化的图像集上进行训练可以提高 ImageNet-22k 未覆盖的领域中特征的质量。 我们还看到,对我们策划的数据进行训练提高了未用于策划过程的领域的性能(INaturalist 2018、2021 和 Places205),证明规模和多样性可以使看不见的领域受益。 总的来说,这种消融的结论是,我们的数据集提供了不同类型图像的良好平衡,从而实现了整体最佳性能。
6.3模型大小和数据
我们用图中的模型大小来量化缩放数据的重要性。 随着模型规模的增大,在 LVD-142M 上的训练变得比在 ImageNet-22k 上的训练更有利。 例如,在 LVD-142M 上训练的 ViT-g 与在 ImageNet-22k 上训练的模型在 ImageNet-1k 上的性能相匹配,同时在其他基准测试上显着优于它。
图4: 模型规模与数据规模。 两个不同预训练数据集的性能随模型大小的变化:ImageNet-22k(14M 图像)和 LVD-142M(142M 图像)。 在大多数基准测试中,在 LVD-142M 上训练的 ViT-g 超过了在 ImageNet-22k 上训练的 ViT-g。
6.4损耗分量
我们验证了第二节中提出的技术改进。 通过增量添加它们。 本节分析了如果我们从性能最佳的模型开始消除特定损失项,观察到的性能影响。 我们消除了 KoLeo 损失的重要性和掩模图像建模项的影响。 对于这两者,我们报告了使用线性分类器的 ImageNet-1k 的性能、使用线性分类器的 ADE-20k 分割的性能以及 Oxford-M 上的最近邻图像检索的性能。表显示了使用KoLeo损失的影响。 我们看到实例检索性能提高了超过 8%,证实该术语有助于在输出空间中传播特征。 同时,其他指标不会受到这种正则化的影响。 在表中,我们展示了使用 iBOT 的掩模图像建模项的影响。 该术语对于密集预测任务至关重要,可带来几乎 3% 的性能提升。
KoLeo | INet-1k | Im-A | ADE-20k | Oxford-M |
✕ | 85.3 | 70.6 | 47.2 | 55.6 |
✓ | 85.8 | 72.8 | 47.1 | 63.9 |
(a)Koleo loss
MIM | INet-1k | Im-A | ADE-20k | Oxford-M |
✕ | 85.3 | 72.0 | 44.2 | 64.3 |
✓ | 85.8 | 72.8 | 47.1 | 63.9 |
(b)MIM objective in iBOT 表3: (a) KoLeo 损失项的影响。 (b) iBOT 掩模图像建模 (MIM) 损失项的影响。 在 ImageNet-{1k,A}(使用线性探针分类,准确度 %)、ADE-20k(使用线性层分割,mIoU)和 Oxford-M(图像检索,mAP)上进行评估。 每个模型都经过相同次数的迭代训练,这比我们的最终运行要少。 KoLeo 损失项改进了最近邻搜索任务(例如检索),而 MIM 损失项改进了补丁级任务(例如分割)。
6.5知识蒸馏的影响
对于小型架构,我们提取更大的模型,而不是从头开始训练它们。 我们使用第 2 节中描述的蒸馏程序。 。 我们通过将从头开始训练的 ViT-L/14 与从 ViT-g/14 中提取的 ViT-g/14 在图 中超过 12 个基准进行比较来评估这种方法的有效性。 我们还报告了用于蒸馏的 ViT-g/14 的性能作为顶线。 蒸馏后的模型在所有 12 个基准测试中都优于从头开始训练的模型,验证了我们针对小型模型的预方法。
(a)Comparison on individual metrics
Arch | Method | INet-1k | Segm. | Depth↓ | Classif. |
ViT-g/14 | Scratch | 86.5 | 73.4 | 1.00 | 92.1 |
ViT-L/14 | Scratch | 84.5 | 72.2 | 1.10 | 90.2 |
ViT-L/14 | Distill | 86.3 | 73.3 | 1.08 | 91.2 |
Arch | Method | Finegr. | Retriev. | ARSketch | Video |
ViT-g/14 | Scratch | 78.3 | 75.2 | 77.0 | 69.3 |
ViT-L/14 | Scratch | 75.8 | 71.3 | 69.5 | 67.3 |
ViT-L/14 | Distill | 77.6 | 76.3 | 74.5 | 67.5 |
(b)Averaged metrics on 8 vision tasks 图5: 知识蒸馏的有效性。 从头开始训练的 ViT-L 或使用 ViT-g/14 从 DINOv2 中提取的 ViT-L 之间的比较。 作为参考,我们还报告了 ViT-g/14 老师的表现。 我们证明,从冷冻 ViT-g 中提取的 ViT-L 模型在所有基准测试中都优于从头开始训练的相同模型,有时甚至优于提取目标。
6.6分辨率的影响
我们测量预训练期间改变分辨率对图像和补丁级特征性能的影响。 我们考虑使用固定分辨率 224×224 或 416×416 从头开始训练的模型,以及在 224×224 处从头开始训练的模型,然后在416×416。 高分辨率训练是计算密集型的,因此我们在一个小型设置上进行这种消融:在 ImageNet1k 上训练的 ViT-L/16。 在图中,我们报告了线性探针在 ImageNet-1k 和 ADE-20k 上的性能,并在不同分辨率下进行了评估。 在高分辨率图像上训练的模型在不同分辨率下表现最佳,但代价也很高:训练 416 时的计算密集度约 3× 高于训练 224 时的计算密集度。 另一方面,在训练结束时仅进行 10k 次迭代的高分辨率训练几乎同样好,并且只需要一小部分计算。 因此,我们在训练的最后包含此步骤,而不是从头开始以高分辨率进行训练。
图6: 决议的作用。 ViT-L/16 在 ImageNet-1k 上以固定分辨率(“224”和“416”)训练或在 224 然后 416 上训练一段时间(“224→416”)的性能。 我们在不同分辨率的冻结特征之上训练线性分类器,并在 ImageNet 上报告 Top-1 准确率,在 ADE-20k 上报告 mIoU。 我们观察到,在短时间内以高分辨率执行 SSL 训练所获得的行为和结果接近于在完整训练中以相同高分辨率进行的训练,而成本只是其一小部分。
7结果
在本节中,我们将介绍我们的模型在许多图像理解任务上的实证评估。 我们评估类别和实例级识别、语义分割、单目深度预测和动作识别方面的全局和局部图像表示。 我们在附录中详细列出了基准列表。本次评估的目的是双重的。 首先,我们证明我们的自我监督功能大大优于当前最先进的技术。 其次,我们表明它们在大量任务上的表现与弱监督的表现相匹配或超过。
基线。 在我们的比较中,我们使用两种模型作为基线。 我们与公开可用的表现最佳的自我监督模型进行比较。 首先,我们对 MAE (He 等人,2022)、DINO (Caron 等人,2021)、SEERv2 (Goyal 等人,2022a) 进行评估、MSN (Assran 等人,2022)、EsViT (李等人,2022a)、Mugs (周等人,2022b) t5> 和 iBOT (周等人,2022a)。 当针对给定方法提出多种架构变体时,我们会报告在 ImageNet-1k 上获得最佳 top-1 准确度的变体的结果。 其次,我们报告了开源弱监督模型的性能,例如 CLIP (Radford 等人, 2021)、OpenCLIP (Ilharco 等人, 2021; Cherti 等人, 2023) t1> 和 SWAG (Singh 等人,2022)。 在评估 ImageNet-1k 上的模型时,我们报告了上述每种方法的性能。 对于所有其他评估,我们报告了 SSL 模型中性能最佳的四个模型。 此外,作为参考,我们报告了弱监督 OpenCLIP-G 中性能最佳的 OpenCLIP-G。
7.1ImageNet分类
作为首次评估,我们探讨了模型在 ImageNet-1k 分类数据集上生成的整体图像表示的质量。 我们通过在冻结的主干上训练一个简单的分类器来评估特征的质量,并且不对主干权重进行微调。 继之前的工作之后,为了简单起见,我们使用线性模型,确保可重复的评估,尽管事实上类可能不是线性可分的。 由于大多数 SSL 方法都是使用 ImageNet-1k 验证性能作为调试信号来开发的,因此我们还报告了 ImageNet-ReaL 和 ImageNet-V2 上的 top-1 准确度。 为了报告所有模型的额外验证性能,我们使用代码运行评估。 我们将我们的冻结功能与表 中最好的公开可用 SSL 功能进行比较,无论架构或预训练数据如何。 我们看到这项工作中提出的组件在线性评估方面比之前的最先进技术(在 ImageNet-22k 上训练的 iBOT ViT-L/16)带来了非常显着的改进 (+4.2%)。 同时,我们还看到我们的方法在替代测试集上的性能提升更大,表明泛化能力更强。 我们在附录 中描述了线性评估的详细信息。
kNN | linear | ||||||
Method | Arch. | Data | Text sup. | val | val | ReaL | V2 |
Weakly supervised | |||||||
CLIP | ViT-L/14 | WIT-400M | ✓ | 79.8 | 84.3 | 88.1 | 75.3 |
CLIP | ViT-L/14336 | WIT-400M | ✓ | 80.5 | 85.3 | 88.8 | 75.8 |
SWAG | ViT-H/14 | IG3.6B | ✓ | 82.6 | 85.7 | 88.7 | 77.6 |
OpenCLIP | ViT-H/14 | LAION-2B | ✓ | 81.7 | 84.4 | 88.4 | 75.5 |
OpenCLIP | ViT-G/14 | LAION-2B | ✓ | 83.2 | 86.2 | 89.4 | 77.2 |
EVA-CLIP | ViT-g/14 | custom* | ✓ | 83.5 | 86.4 | 89.3 | 77.4 |
Self-supervised | |||||||
MAE | ViT-H/14 | INet-1k | ✕ | 49.4 | 76.6 | 83.3 | 64.8 |
DINO | ViT-S/8 | INet-1k | ✕ | 78.6 | 79.2 | 85.5 | 68.2 |
SEERv2 | RG10B | IG2B | ✕ | – | 79.8 | – | – |
MSN | ViT-L/7 | INet-1k | ✕ | 79.2 | 80.7 | 86.0 | 69.7 |
EsViT | Swin-B/W=14 | INet-1k | ✕ | 79.4 | 81.3 | 87.0 | 70.4 |
Mugs | ViT-L/16 | INet-1k | ✕ | 80.2 | 82.1 | 86.9 | 70.8 |
iBOT | ViT-L/16 | INet-22k | ✕ | 72.9 | 82.3 | 87.5 | 72.4 |
DINOv2 | ViT-S/14 | LVD-142M | ✕ | 79.0 | 81.1 | 86.6 | 70.9 |
ViT-B/14 | LVD-142M | ✕ | 82.1 | 84.5 | 88.3 | 75.1 | |
ViT-L/14 | LVD-142M | ✕ | 83.5 | 86.3 | 89.5 | 78.0 | |
ViT-g/14 | LVD-142M | ✕ | 83.5 | 86.5 | 89.6 | 78.4 |
表4: 对冻结预训练特征的 ImageNet-1k 进行线性评估。 我们报告了在公共或私人数据上训练的公开可用模型的验证集的 Top-1 准确性,无论是否有文本监督(文本支持)。 作为参考,我们还报告了验证集上的 kNN 性能。 我们比较任何可能的架构(Arch.),除非另有说明,否则按决议224×224。 用于训练 EVA-CLIP 的数据集是自定义混合物,详细信息请参阅论文(Fang 等人,2023)。
我们离弱监督模型还有多远?
我们还想验证我们的功能与最先进的开源弱监督模型具有竞争力。 为此,我们使用线性评估在 ImageNet-1k 上与具有多种架构变体的三种现成方法进行比较。 对于所有模型,在确保我们的数字与技术报告和论文中报告的数字相符后,我们都会使用我们的代码运行线性评估。 我们在表 中显示了此评估的结果。 我们看到我们的主干网的性能超越了采用 ViT-G/14 架构 (+0.3%) 的 OpenCLIP 和采用 ViT-g/14 (+0.1%) 的 EVA-CLIP。 同时,我们还观察到我们在 ImageNet-V2 测试集上的性能明显更好(+1.1% 与 EVA-CLIP 相比),表明泛化能力更好。 在本节的其余部分中,我们报告 OpenCLIP-G 作为弱监督模型的参考。
我们可以微调编码器吗?
我们质疑,在对特定数据集进行监督微调时,我们的模型产生高质量冻结特征的能力是否会影响其性能。 虽然这不是本文的核心,但这个实验表明我们是否不自觉地将我们的模型专门用于冻结特征的线性评估的设置。 为了运行此健全性检查,我们应用了来自 Touvron 等人 (2022) 的微调管道,而不调整超参数。 在表 中,我们表明,当主干网络进行微调时,ImageNet-1k 验证集的 Top-1 准确率提高了超过 +2%。 使用分辨率 224 和 448 的模型时都是如此。 通过调整微调的超参数可以获得进一步的增益,但这超出了此健全性检查的目标。 尽管如此,我们的最佳微调性能 (88.9%) 仅比 (−2.2%) 绝对最佳性能 (91.1%) 低几个百分点,通过 Chen 等人 (2023a). 由于 DINOv2 在线性和微调设置方面都具有强大的功能,因此我们方法的一个强大特性是微调是可选的。
Arch. | Res. | Linear | Finetuned | Δ |
ViT-g/14 | 224 | 86.5 | 88.5 | +2.0 |
448 | 86.7 | 88.9 | +2.2 |
表5: ImageNet-1k 上的监督微调。 我们使用 Touvron 等人 (2022) 的管道以分辨率 224×224 或 448×448 微调 ImageNet-1k 上的编码器。 我们与线性探测获得的精度进行比较,并观察到微调仅带来适度的改进:这表明 DINOv2 功能已经开箱即用,表现良好。
稳健性分析。
为了补充我们的研究并探讨我们特征的泛化,我们评估了在域泛化基准上使用线性分类头训练的 ImageNet-1k 模型。 如上所述,我们使用性能最佳的线性分类器,并简单地对这些基准进行推理。 请注意,文献中的大多数结果都是通过在 ImageNet-1k 上进行端到端微调的模型获得的。 我们在表中展示了这个实验的结果。 与最先进的 SSL 方法相比,我们的模型显示出明显更好的鲁棒性(+29.6% on A (Hendrycks 等人, 2021b), +22.1% 在 R (Hendrycks 等人, 2021a) 上和 Sketch (Wang 等人, 2019) 上的 +23.0% 与 iBOT 相比)。 我们的模型还改进了 ImageNet-A 上最好的弱监督模型,但落后于 R 和 Sketch。
Method | Arch | Data | Im-A | Im-R | Im-C↓ | Sketch |
OpenCLIP | ViT-G/14 | LAION-2B | 63.8 | 87.8 | 45.3 | 66.4 |
MAE | ViT-H/14 | INet-1k | 10.2 | 34.4 | 61.4 | 21.9 |
DINO | ViT-B/8 | INet-1k | 23.9 | 37.0 | 56.6 | 25.5 |
iBOT | ViT-L/16 | INet-22k | 41.5 | 51.0 | 43.9 | 38.5 |
DINOv2 | ViT-S/14 | LVD-142M | 33.5 | 53.7 | 54.4 | 41.2 |
ViT-B/14 | LVD-142M | 55.1 | 63.3 | 42.7 | 50.6 | |
ViT-L/14 | LVD-142M | 71.3 | 74.4 | 31.5 | 59.3 | |
ViT-g/14 | LVD-142M | 75.9 | 78.8 | 28.2 | 62.5 |
表6: 使用线性探针进行域泛化,在分辨率为 224 的冻结特征之上。 对于除 Im-C 之外的所有基准测试,数字越高越好。
7.2附加图像和视频分类基准
在本节中,我们研究下游分类基准上的特征的泛化。 我们在此背景下考虑两组评估。 一方面,我们使用大型且细粒度的数据集,例如 iNaturalist 和 Places205。 另一方面,我们使用 SimCLR 中最初提出的 12 个图像分类任务(Chen 等人,2020)。 对于 iNaturalist 2018、iNaturalist 2021 和 Places205,我们使用数据增强训练线性分类器,如第 2 节中所示。 我们在表 中报告了这三个数据集的 top-1 准确度。 有趣的是,我们的模型在 iNaturalist 的两个变体(分别为 2018 年和 2021 年的 +8.6% 和 +9.7%)上均显着优于 OpenCLIP ViT-G/14,并且在 Places 205 上略微落后(−2.3%)。
Image classification | Video classification | ||||||
Feature | Arch | iNat2018 | iNat2021 | Places205 | K400 | UCF-101 | SSv2 |
OpenCLIP | ViT-G/14 | 73.0 | 76.0 | 69.8 | 78.3 | 90.7 | 35.8 |
MAE | ViT-H/14 | 31.0 | 32.3 | 52.4 | 54.2 | 70.6 | 29.2 |
DINO | ViT-B/8 | 59.6 | 68.3 | 60.4 | 64.5 | 85.0 | 32.6 |
iBOT | ViT-L/16 | 66.3 | 74.6 | 64.4 | 72.6 | 88.6 | 38.7 |
DINOv2 | ViT-S/14 | 69.0 | 74.2 | 62.9 | 67.8 | 87.0 | 33.1 |
ViT-B/14 | 76.4 | 81.1 | 66.2 | 73.2 | 89.1 | 34.4 | |
ViT-L/14 | 80.4 | 85.1 | 67.3 | 76.3 | 90.5 | 35.6 | |
ViT-g/14 | 81.6 | 85.7 | 67.5 | 78.4 | 91.2 | 38.3 |
表7: 对其他图像和视频分类的线性评估。 图像基准包含大量有关对象或场景的细粒度示例。 视频基准涵盖动作分类和人机交互。 所有特征都被顶部的线性探针冻结。
在第二组评估中,我们测量了模型在视频动作识别上的性能,即使我们的特征没有在视频上进行训练。我们评估了三个数据集上的特征,即 UCF-101 (Soomro 等人,2012) 、Kinetics-400 (Kay 等人,2017) 和 Something-Something v2 (Goyal 等人,2017)。 对于此评估,我们在视频中选择 8 均匀间隔的帧,并根据 UCF 和 K-400 的平均特征训练线性分类器。 对于 SSv2,我们选择级联来保留比特征平均更多的时间信息。 对于每个数据集,我们测量平均准确度并在表 中报告结果。 我们看到,在自我监督的方法中,我们的模型显然树立了新的技术水平。 此外,我们的模型在 UCF 和 Kinetics(分别为 +0.1% 和 +0.5%)上与 OpenCLIP 特征的准确性相匹配,并且在 SSv2 上明显优于它们(+2.5%)。 这特别有趣,因为 SSv2 需要对视频帧有更丰富的理解。
最后,在表中,我们比较了Chen等人(2020)最初提出的12个传输分类基准上的选定冻结特征。 该基准测试涵盖场景、物体(食物、汽车、飞机)和纹理。 我们将 Birdsnap 数据集替换为 CUB,因为前者并未完整公开。 我们遵循 Chen 等人 (2020) 概述的实验协议,即在预先计算的特征上训练逻辑回归。 我们的模型明显优于最先进的 SSL 模型,在斯坦福汽车(+14.8% 与 DINO ViT-B/8)和 FGVC 飞机(+14.8% 与 iBOT)上最显着的差异ViT-L/16)。 尽管这些基准有利于文本引导的预训练,但我们的功能在大多数分类基准上仍然与 OpenCLIP 竞争,除了少数数据集,特别是 SUN (−5.3%) 和 Cars (−4.7%)。
Feature | Arch | Food | C10 | C100 | SUN | Cars | Aircr | VOC | DTD | Pets | Cal101 | Flowers | CUB | Avg |
OpenCLIP | ViT-G/14 | 94.5 | 98.7 | 91.0 | 84.0 | 96.1 | 80.2 | 89.3 | 86.0 | 95.7 | 98.1 | 99.5 | 89.9 | 91.9 |
MAE | ViT-H/14 | 78.4 | 96.1 | 83.9 | 63.9 | 56.1 | 63.4 | 84.3 | 75.4 | 89.4 | 95.9 | 92.3 | 57.2 | 78.0 |
DINO | ViT-B/8 | 85.1 | 97.2 | 86.9 | 70.3 | 76.6 | 70.6 | 86.7 | 79.6 | 93.2 | 95.4 | 97.6 | 81.7 | 85.1 |
iBOT | ViT-L/16 | 91.0 | 99.0 | 92.8 | 75.6 | 71.8 | 72.4 | 89.0 | 80.7 | 87.7 | 97.5 | 99.6 | 82.1 | 86.6 |
DINOv2 | ViT-S/14 | 89.1 | 97.7 | 87.5 | 74.4 | 81.6 | 74.0 | 87.8 | 80.6 | 95.1 | 97.0 | 99.6 | 88.1 | 87.7 |
ViT-B/14 | 92.8 | 98.7 | 91.3 | 77.3 | 88.2 | 79.4 | 88.2 | 83.3 | 96.2 | 96.1 | 99.6 | 89.6 | 90.1 | |
ViT-L/14 | 94.3 | 99.3 | 93.4 | 78.7 | 90.1 | 81.5 | 88.3 | 84.0 | 96.6 | 97.5 | 99.7 | 90.5 | 91.2 | |
ViT-g/14 | 94.7 | 99.5 | 94.4 | 78.7 | 91.4 | 87.2 | 89.0 | 84.5 | 96.7 | 97.6 | 99.7 | 91.6 | 92.1 |
表8: 在细粒度基准上对冻结特征进行线性评估。 按照 Chen 等人 (2020) 中提出的评估协议,涵盖对象、场景和纹理的 12 个基准的准确性。
7.3实例识别
在这个实验中,我们使用非参数方法探讨了实例级识别任务的模型。 数据库中的图像根据其与查询图像的余弦相似度进行排名。 我们评估了我们的模型,并与巴黎和牛津的基线进行比较,这是具有里程碑意义的识别基准。 我们还对 Met(大都会博物馆的艺术品数据集)和 AmsterTime 进行了评估,其中包含与阿姆斯特丹档案图像匹配的街景图像。 我们通过计算平均精度来衡量性能,并在表 中报告我们的结果。 我们发现我们的特征明显优于 SSL(Oxford-Hard 上的 +41% mAP)和弱监督(Oxford-Hard 上的 +34% mAP)特征。 有趣的是,我们的功能在类别级别和实例级别跨任务粒度上表现良好。 对于强大的现成计算机视觉功能来说,这是一个理想的属性。
Oxford | Paris | Met | AmsterTime | ||||||
Feature | Arch | M | H | M | H | GAP | GAP- | ACC | mAP |
OpenCLIP | ViT-G/14 | 50.7 | 19.7 | 79.2 | 60.2 | 6.5 | 23.9 | 34.4 | 24.6 |
MAE | ViT-H/14 | 11.7 | 2.2 | 19.9 | 4.7 | 7.5 | 23.5 | 30.5 | 4.2 |
DINO | ViT-B/8 | 40.1 | 13.7 | 65.3 | 35.3 | 17.1 | 37.7 | 43.9 | 24.6 |
iBOT | ViT-L/16 | 39.0 | 12.7 | 70.7 | 47.0 | 25.1 | 54.8 | 58.2 | 26.7 |
DINOv2 | ViT-S/14 | 68.8 | 43.2 | 84.6 | 68.5 | 29.4 | 54.3 | 57.7 | 43.5 |
ViT-B/14 | 72.9 | 49.5 | 90.3 | 78.6 | 36.7 | 63.5 | 66.1 | 45.6 | |
ViT-L/14 | 75.1 | 54.0 | 92.7 | 83.5 | 40.0 | 68.9 | 71.6 | 50.0 | |
ViT-g/14 | 73.6 | 52.3 | 92.1 | 82.6 | 36.8 | 73.6 | 76.5 | 46.7 |
表9: 实例级识别的冻结特征评估。 我们考虑了 4 个不同的基准并报告了它们的主要指标。
7.4密集识别任务
我们在几个密集的下游任务中探测从网络中提取的补丁级特征的质量。 我们考虑在多种设置中进行语义图像分割和单目深度估计,并对每种设置的多个数据集进行评估。
语义分割。
对于我们的语义分割评估,我们考虑两种不同的设置。 线性:训练线性层以根据补丁标记预测类别逻辑。 它用于生成低分辨率 logit 图(例如,块大小为 16 的模型为 32x32),然后将其上采样到全分辨率 (512x512) 以获得分割图。 这个过程非常简单,但不能轻易产生高分辨率的分割。 +ms:线性设置的增强版本。 我们连接最后 4 层的补丁标记,使用更大的图像分辨率 640,并使用多尺度测试时间增强来改进预测。 我们在表 中报告了模型变体的性能以及两种设置下三个数据集的基线。
我们的模型在所有数据集和所有设置上都显示出非常好的性能。 有趣的是,我们使用 +ms 的评估与使用上网解码器完全微调 MAE 的评估相当(53.0 与 53.6 mIoU)。 这是令人惊讶的,因为我们使用了一个明显简单的预测器。 此外,当使用增强配方进行评估时,我们的最佳模型几乎与 Pascal VOC 的最新技术相匹配(86.2 与 89.0 mIoU)。
SOTA 管道中的骨干网冻结。
在最后的实验中,我们冻结了主干,并将其插入带有 Mask2former 头 (Cheng 等人, 2022) 的 ViT-Adapter Chen 等人 (2023b) 中。 我们调整适配器和头部的重量,但保持骨干冻结,这意味着 66% 的重量被冻结。 与完整的端到端微调相比,这允许更轻松的分割训练。 通过这种设置,我们在 ADE20k 上达到了 60.2 mIoU,接近最先进的竞争水平,为 62.9 mIoU (Wang 等人,2022)。 尽管我们的实验设置没有利用第 2 节中描述的优化。 ,本实验中的分割训练在 16 个 V100 GPU 上花费了 28 小时。
ADE20k | CityScapes | Pascal VOC | |||||
(62.9) | (86.9) | (89.0) | |||||
Method | Arch. | lin. | +ms | lin. | +ms | lin. | +ms |
OpenCLIP | ViT-G/14 | 39.3 | 46.0 | 60.3 | 70.3 | 71.4 | 79.2 |
MAE | ViT-H/14 | 33.3 | 30.7 | 58.4 | 61.0 | 67.6 | 63.3 |
DINO | ViT-B/8 | 31.8 | 35.2 | 56.9 | 66.2 | 66.4 | 75.6 |
iBOT | ViT-L/16 | 44.6 | 47.5 | 64.8 | 74.5 | 82.3 | 84.3 |
DINOv2 | ViT-S/14 | 44.3 | 47.2 | 66.6 | 77.1 | 81.1 | 82.6 |
ViT-B/14 | 47.3 | 51.3 | 69.4 | 80.0 | 82.5 | 84.9 | |
ViT-L/14 | 47.7 | 53.1 | 70.3 | 80.9 | 82.1 | 86.0 | |
ViT-g/14 | 49.0 | 53.0 | 71.3 | 81.0 | 83.0 | 86.2 |
表10: 具有冻结特征的 ADE20K、CityScapes 和 Pascal VOC 的语义分割 和线性分类器(lin.) 并具有多尺度(+ ms)。 绝对最先进的技术 – 分别来自 Wang 等人 (2022)、Liu 等人 (2021) 和 Chen 等人 (2018) – 在表的顶部提到。 作为参考,在我们冷冻的 ViT-g/14 之上使用 Mask2Former 管道 (Steiner 等人, 2021) 和 ViT-Adapter (Chen 等人, 2023b)主干网在 ADE-20k 上给出 60.2 mIoU。
深度估计。
在本实验中,我们在三个单目深度估计基准上评估我们的补丁级特征:NYUd、KITTI 和从 NYUd 到 SUN3d 的零样本传输。 我们遵循Li等人(2022b)的评估协议。 我们为此评估考虑了三种不同的设置。 林。 1:我们提取冻结的 Transformer 的最后一层,并将 [CLS] 词符连接到每个补丁词符。 然后,我们对标记进行双线性上采样 4 倍以提高分辨率。 最后,我们通过将深度预测范围划分为 256 个均匀分布的箱,使用分类损失训练一个简单的线性层,并使用遵循 Bhat 等人 (2021) 的线性归一化。 林。 4:我们使用与一层相同的协议,但连接 ViT-S/B 层 l={3,6,9,12} 层、ViT-L 层 l={5,12,18,24} 层的标记,和 l={10,20,30,40} 为 ViT-g。 DPT:我们在冻结模型之上使用 DPT 解码器(Ranftl 等人,2021) 并设置回归任务。 我们根据每个架构的特征尺寸来缩放头部的大小。 我们在表 中显示了所有基线、所有数据集和所有设置的结果。
从该表中,我们看到我们的功能明显超过了现有的最佳 SSL 和 WSL 功能。 有趣的是,从 ViT-L 提取的 iBOT 特征优于使用 ViT-G 提取的 OpenCLIP 特征。 这一观察结果支持了这样一种直觉:基于标题的特征学习无法学习像这样的微妙模式。 此外,我们的模型具有 DPT 解码器和冻结骨干网,匹配或超过了 Li 等人 (2022b) 最近工作的性能。 最后,SUN-RGBd 上的域外泛化结果表明,我们的特征允许域之间非常好的传输。 在 NYUd 的室内场景上训练的深度预测模块可以很好地推广到 SUN-RGBd 的室外示例。
NYUd | KITTI | NYUd → SUN RGB-D | ||||||||
(0.330) | (2.10) | (0.421) | ||||||||
Method | Arch. | lin. 1 | lin. 4 | DPT | lin. 1 | lin. 4 | DPT | lin. 1 | lin. 4 | DPT |
OpenCLIP | ViT-G/14 | 0.541 | 0.510 | 0.414 | 3.57 | 3.21 | 2.56 | 0.537 | 0.476 | 0.408 |
MAE | ViT-H/14 | 0.517 | 0.483 | 0.415 | 3.66 | 3.26 | 2.59 | 0.545 | 0.523 | 0.506 |
DINO | ViT-B/8 | 0.555 | 0.539 | 0.492 | 3.81 | 3.56 | 2.74 | 0.553 | 0.541 | 0.520 |
iBOT | ViT-L/16 | 0.417 | 0.387 | 0.358 | 3.31 | 3.07 | 2.55 | 0.447 | 0.435 | 0.426 |
DINOv2 | ViT-S/14 | 0.449 | 0.417 | 0.356 | 3.10 | 2.86 | 2.34 | 0.477 | 0.431 | 0.409 |
ViT-B/14 | 0.399 | 0.362 | 0.317 | 2.90 | 2.59 | 2.23 | 0.448 | 0.400 | 0.377 | |
ViT-L/14 | 0.384 | 0.333 | 0.293 | 2.78 | 2.50 | 2.14 | 0.429 | 0.396 | 0.360 | |
ViT-g/14 | 0.344 | 0.298 | 0.279 | 2.62 | 2.35 | 2.11 | 0.402 | 0.362 | 0.338 |
表11: 使用冻结特征进行深度估计。 我们报告在一个线性分类器(lin.classifier)之上训练线性分类器时的性能。 1) 或四个 (lin. 4)Transformer层,以及Ranftl等人(2021)的DPT解码器(DPT)。 我们报告 3 个数据集的 RMSE 指标。 越低越好。 作为参考,我们在表顶部的每个基准上报告了 Li 等人 (2022b) 的最新结果。
7.5定性结果
在对我们的特征进行实证评估的最后一部分中,我们提出了一些定性分析。
语义分割和深度估计。
我们展示了密集预测评估的一些定性结果:图 中 ADE20K 的分割以及图 中 NYUd、KITTI 和 SUN RGB-D 的深度估计。 我们将 DINOv2 与 OpenCLIP 进行比较,并在每个数据集上使用线性分类器。 虽然并不完美,但使用我们的 DINOv2 主干的线性分割模型产生了良好的结果,并且在此评估设置下的表现比 OpenCLIP 模型好得多。 事实上,OpenCLIP-G 生成的分割掩模显示了许多伪影和断开的组件。 深度估计的定性结果清楚地说明了 OpenCLIP 和 DINOv2 之间的定量差距。 这些结果表明,我们的特征以及从 OpenCLIP 中提取的特征能够线性分离深度等复杂信息,即使两者都没有接受过此类信息的训练。 然而,我们的功能可以实现更平滑的深度估计,并且伪影更少。 OpenCLIP 完全忽略了一些对象,例如 SUN RGB-D 图像上的椅子,并使用我们的特征正确定位。
图7: 使用线性分类器进行分割和深度估计。 来自 ADE20K、NYUd、SUN RGB-D 和 KITTI 的示例,在冻结的 OpenCLIP-G 和 DINOv2-g 特征上使用线性探针。
分布外泛化。
我们在图 中展示了将深度预测和分割线性分类器应用于分布外示例的一些示例。 定性结果支持我们的主张,即我们的特征在域之间转移。 动物图片或绘画的预测深度和分割质量非常好,即使领域非常不同。
图8: 分布外示例的示例,具有冻结的 DINOv2-g 特征和线性探针。
图9: 第一个 PCA 组件的更多可视化。 我们计算所有图像的补丁之间的 PCA,并显示它们的前 3 个分量。 每个组件对应一个特定的颜色通道。 尽管姿势、风格甚至物体发生变化,但相关图像之间的相同部分仍然匹配。 通过移除第一个 PCA 分量得分为负的补丁来移除背景。
补丁特征的PCA。
我们展示了对我们的模型提取的补丁特征进行主成分分析(PCA)的结果。 在对第一个组件进行阈值处理后,我们只保留具有正值的补丁。 这个过程最终将图像的主要对象与背景分开。 我们对描述同一类别的三张图像的剩余补丁计算第二个 PCA。 我们用三种不同的颜色对前三个组件进行着色,并在图 和 中显示结果。 有两个有趣的观察结果:首先,我们的无监督前景/背景检测器基于检测最高方差方向,表现非常好,能够勾画出图片中主要物体的边界。 其次,其他组件对应于对象的“部分”,并且与同一类别的图像匹配得很好。 这是一个新兴的特性——我们的模型没有经过训练来解析对象的各个部分。
补丁匹配。
最后,我们通过跨图像匹配补丁级特征来探索它们包含什么类型的信息。 我们首先使用上述过程检测前景对象。 然后,我们计算从两个图像中提取的补丁特征之间的欧几里德距离,并通过解决分配问题来映射它们。 为了减少匹配的数量,我们应用非极大值抑制来仅保留显着的匹配。 在图中,我们展示了此类匹配的一些示例。
我们观察到这些特征似乎捕获了有关在不同物体或动物中具有相似目的的语义区域的信息。 例如,飞机的机翼与鸟的翅膀相匹配。 我们还观察到该模型对于风格(图像与绘图)和姿势的大变化(参见大象)具有鲁棒性。
图10: 跨图像匹配。 我们匹配来自不同领域、姿势甚至共享相似语义信息的对象的图像之间的补丁级特征。 这展示了我们的模型跨领域传输和理解不同对象的相似部分之间关系的能力。
8公平性和偏差分析
我们对模型进行了两次公平性评估。 我们探讨地理公平性和潜在的有害标签关联。 对于这两项评估,我们都使用最大的 ViT-g 模型进行实验。
8.1地理公平性
我们使用 Goyal 等人 (2022b) 的评估协议在 De Vries 等人 (2019) 中引入的 Dollar Street 数据集上评估地理公平性。 该基准比较了不同国家和收入水平的表现。 它包含来自 54 个国家/地区 289 个家庭的 16,073 张图像。 任务是识别 94 个概念,这些概念根据收入或位置在不同家庭之间存在视觉上的差异。 在表 中,我们将我们的模型与 SEERv2 (Goyal 等人,2022a) 进行了比较,后者是一个在地理不同的图像集上训练的模型。 我们的模型在不同地区和收入方面比 SEERv2 模型稍微公平一些,并且明显优于 Goyal 等人 (2022a) 报告的监督基线。 然而,我们仍然观察到地区之间存在显着差异,特别是在非洲,与欧洲相比,我们的模型性能下降了 25.7%。 这说明我们的模式仍然偏向西方国家。 同样,我们的模型在高收入家庭上的表现明显优于低收入家庭,相差 31.7%。 尽管有所改进,但我们观察到我们的模型对西方国家富裕家庭存在显着偏见。
Income buckets | Regions | ||||||||
Method | Arch. | Data | low | medium | high | Africa | Asia | Americas | Europe |
SEERv2 | RG-10B | IG-1B | 59.7 | 78.5 | 86.6 | 65.9 | 76.3 | 81.1 | 85.6 |
DINOv2 | ViT-g/14 | LVD-142M | 67.4 | 83.3 | 90.5 | 74.0 | 81.6 | 86.2 | 89.7 |
表12: 跨收入类别和地区的地理公平性和多样性分析。
8.2性别、肤色和年龄
在第二组评估中,我们质疑我们的模型如何对不同性别、肤色和年龄的人的图像进行分类(全部是自我报告的)。 我们遵循 Goyal 等人 (2022b) 的协议,在 ImageNet-22k 的 619 个类的子集上训练多类分类器。 我们将 619 个类别分为四个更广泛的类别:人类、可能人类、非人类或犯罪。 非人类和犯罪被认为是有害的。 使用此分类器,我们对 Casual Conversations 数据集 (Hazirbas 等人,2021) 中的 2955 张图像进行推理,并将所有标签保留在前 5 名中,并分配了 0.1 或更高的概率。 因此,我们可以为每个图像分配多个类。 我们对原始评估协议进行了一项修改:我们不将梯度反向传播到主干网并保持其冻结。 我们将我们的模型与表 中的 SEERv2 进行比较。
我们的模型通常将所有群体的图像分类为人类,而肤色之间没有大的偏差。 SEERv2 和 DINOv2 都无法预测来自非人类或犯罪元类别的有害标签(背景包含视觉上与监狱酒吧类似的酒吧的两个实例除外)。 我们看到我们的模型经常触发可能的人类类别。 此类由 ImageNet-22k 中通常与人类相关的对象构建,例如围巾、眼镜或胡须。 由于胡须类别的普遍存在,我们的模型经常预测男性的可能人类类别。 在这项研究中,没有明确的模式表明对特定群体存在偏见。 虽然这令人鼓舞,但我们也承认,对偏见进行更彻底的评估可能会揭示我们模型中的缺陷。
Gender Skintone | Age Groups | ||||||||
Model | Assoc. | femaledarker | femalelighter | maledarker | malelighter | 18-30 | 30-45 | 45-70 | 70+ |
SEER | Non-Human | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
RG-10B | Crime | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
Human | 94.9 | 95.8 | 86.6 | 79.0 | 90.5 | 88.3 | 91.9 | 82.3 | |
Possibly-Human | 13.6 | 6.7 | 65.0 | 60.2 | 32.8 | 37.2 | 29.4 | 6.5 | |
DINOv2 | Non-Human | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
ViT-g/14 | Crime | 0.0 | 0.0 | 0.2 | 0.0 | 0.0 | 0.1 | 0.0 | 0.0 |
Human | 97.3 | 97.7 | 86.1 | 84.0 | 91.2 | 90.2 | 93.2 | 88.7 | |
Possibly-Human | 15.8 | 17.2 | 52.2 | 48.1 | 35.3 | 37.3 | 23.0 | 9.7 |
表13: 跨性别、肤色和年龄组的标签协会公平性评估。 我们遵循 Goyal 等人 (2022b) 提出的协议并稍加修改。 我们没有对主干网进行微调,而是简单地在 ImageNet-22k 的 619 个类别的子集上学习线性分类器。
9估计训练模型对环境的影响
Model to | GPU Type | GPU Power | GPU-hours | PUE | Total power | Carbon emitted |
Reproduce | consumption | consumption | (tCO2eq) | |||
DINOv2-g | A100-40GB | 400W | 22,016 | 1.1 | 9.7 MWh | 3.7 |
表14: 复制 DINOv2 的碳足迹。 我们报告了假设 A100-40GB 的功耗为 400W、PUE 为 1.1、碳强度系数为每千瓦时 0.385 kg CO2e 时,复制 DINOv2-g 的潜在碳排放量。
训练基础模型消耗大量能源,导致二氧化碳排放。 Patterson 等人 (2021) 提出了一种根据数据中心及其电网的具体情况报告模型训练期间碳排放估算的方法。 该计算为用于模型训练的数据中心的设计以及数据中心位置的选择提供了信息。 这种方法需要了解用于训练的数据中心的具体情况,当随着时间的推移涉及多个数据中心时,这可能会很复杂。 此外,这些细节通常不受人工智能从业者的控制,因此,当从业者对未来的培训做出技术决策时,这种方法的帮助不大。 相反,在本节中,我们采用另一种替代方案,报告在美国的普通数据中心重新训练类似模型的潜在碳排放量。 该方法已在之前的自然语言处理工作中使用过(Strubell 等人,2019;Touvron 等人,2023),以建立预训练方案之间的逐一比较。 更准确地说,我们将所有外生变量的值,即电网的电力使用效率(PUE)和碳强度因子固定为与Touvron等人(2023)中相同的值,即也就是说,PUE 为 1.1,美国平均碳强度系数为 0.385 kg CO2eq/KWh。 我们使用与 Patterson 等人 (2021) 相同的公式来估算潜在能源消耗和碳排放。 对于A100-80GB的功耗,我们采用NVLink系统的热设计功率,为400W。 我们在表 中报告了重新训练 DINOv2 ViT-g 的潜在碳排放量。 相比之下,如果在同一数据中心运行,重新训练 OpenCLIP ViT-L 或 OpenCLIP ViT-G 将分别需要 22.4 MWh 和 118.9 MWh。 这比碳排放量多了 10×。 请注意,这种比较对他们来说不公平,因为他们还并行训练文本编码器,因此我们不会在表中报告它们。 然而,它为那些只对训练视觉特征感兴趣的人提供了合理的指导:在这种情况下,就碳排放而言,训练自监督模型是更好的选择。 当计划重用文本编码器时,训练文本引导模型仍然有意义。
整个项目的碳足迹。
此外,我们使用与上述相同的网格估计整个项目的占地面积在 0.5k 和 1k tCO2eq 之间 3. 此碳足迹大约为 200k 个 GPU 天。 排放的主要来源是模型的自我监督预训练。 例如,ViT-g 模型(22k GPU 小时)的单次预训练会排放 3.7 吨 COeq,而 ImageNet-1k(1k GPU 小时)的微调会排放 0.2 吨 CO2eq 。 该估计仅考虑 GPU 的电力消耗,忽略其他排放,例如其制造和处置。
10未来的工作和讨论
在这项工作中,我们提出了 DINOv2,这是一系列新的图像编码器,在没有监督的情况下对大型精选数据进行了预训练。 这是第一个针对图像数据的 SSL 工作,它产生的视觉特征可以缩小与(弱)监督替代方案在各种基准测试中的性能差距,并且无需进行微调。 我们可以将 DINOv2 系列模型的强大性能归因于以下几个因素:i)具有更好的超参数和正则化的改进训练配方(表),ii )更大的模型规模和改进的训练结果,无论使用什么数据(图),iii)更大的数据集(图)和iv)蒸馏过程,使较小的模型受益于最强ViT-g模型的性能(图 这些模型产生了一些属性,例如无论图像域如何,都能理解对象部分和场景几何形状。 我们预计更多的这些属性将在更大规模的模型和数据中出现,类似于大型语言模型中的指令出现,并计划继续沿着这些轴扩展。 本文还证明了这些视觉特征与像线性层一样简单的分类器兼容 - 这意味着底层信息随时可用。 在未来的工作中,我们计划利用这种能力来训练一个支持语言的人工智能系统,该系统可以像处理单词标记一样处理视觉特征,并提取所需的信息来支撑系统。
致谢。
我们感谢 Mathilde Caron 进行的初步讨论促成了这项工作。 Julien Mailal 得到了 ERC 拨款号 101087696(APHELAIA 项目)和 ANR 3IA MIAI@Grenoble Alpes (ANR-19-P3IA-0003) 的支持。 我们感谢 Olivia Joulin 在图 中使用的马画。 我们感谢 Madeleine 和 Léon 为图 摆好姿势。我们还感谢 FAIR 和 Meta AI 的其他成员在整个项目中对这项工作的反馈。
参考
- Amir et al. (2022)Shir Amir, Yossi Gandelsman, Shai Bagon, and Tali Dekel.Deep vit features as dense visual descriptors.In ECCV workshop on "What is Motion For?", 2022.
- Asano et al. (2020)Yuki Markus Asano, Christian Rupprecht, and Andrea Vedaldi.Self-labelling via simultaneous clustering and representation learning.In ICLR, 2020.
- Assran et al. (2022)Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, and Nicolas Ballas.Masked siamese networks for label-efficient learning.In ECCV, 2022.
- Assran et al. (2023)Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, and Nicolas Ballas.Self-supervised learning from images with a joint-embedding predictive architecture.In CVPR, 2023.
- Baevski et al. (2022)Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, and Michael Auli.Data2vec: A general framework for self-supervised learning in speech, vision and language.In ICML, 2022.
- Bao et al. (2021)Hangbo Bao, Li Dong, and Furu Wei.Beit: Bert pre-training of image transformers.In ICLR, 2021.
- Beirlant et al. (1997)Jan Beirlant, Edward J Dudewicz, László Györfi, Edward C Van der Meulen, et al.Nonparametric entropy estimation: An overview.International Journal of Mathematical and Statistical Sciences, 6(1):17–39, 1997.
- Berman et al. (2019)Maxim Berman, Hervé Jégou, Vedaldi Andrea, Iasonas Kokkinos, and Matthijs Douze.MultiGrain: a unified image embedding for classes and instances.arXiv preprint arXiv:1902.05509, 2019.
- Beyer et al. (2020)Lucas Beyer, Olivier J Hénaff, Alexander Kolesnikov, Xiaohua Zhai, and Aäron van den Oord.Are we done with imagenet?arXiv preprint arXiv:2006.07159, 2020.
- Beyer et al. (2023)Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, and Filip Pavetic.Flexivit: One model for all patch sizes.In CVPR, 2023.
- Bhat et al. (2021)Shariq Farooq Bhat, Ibraheem Alhashim, and Peter Wonka.AdaBins: Depth estimation using adaptive bins.In CVPR, 2021.
- Bojanowski & Joulin (2017)Piotr Bojanowski and Armand Joulin.Unsupervised learning by predicting noise.In ICML, 2017.
- Bommasani et al. (2021)Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al.On the opportunities and risks of foundation models.arXiv preprint arXiv:2108.07258, 2021.
- Bossard et al. (2014)Lukas Bossard, Matthieu Guillaumin, and Luc Van Gool.Food-101 – mining discriminative components with random forests.In ECCV, 2014.
- Brown et al. (2020)Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners.In NeurIPS, 2020.
- Caron et al. (2018)Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze.Deep clustering for unsupervised learning of visual features.In ECCV, 2018.
- Caron et al. (2019)Mathilde Caron, Piotr Bojanowski, Julien Mairal, and Armand Joulin.Unsupervised pre-training of image features on non-curated data.In ICCV, 2019.
- Caron et al. (2020)Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin.Unsupervised learning of visual features by contrasting cluster assignments.In NeurIPS, 2020.
- Caron et al. (2021)Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin.Emerging properties in self-supervised vision transformers.In ICCV, 2021.
- Chen et al. (2018)Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam.Encoder-decoder with atrous separable convolution for semantic image segmentation.In ECCV, 2018.
- Chen et al. (2020)Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton.A simple framework for contrastive learning of visual representations.In ICML, 2020.
- Chen et al. (2023a)Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, et al.Symbolic discovery of optimization algorithms.arXiv preprint arXiv:2302.06675, 2023a.
- Chen & He (2021)Xinlei Chen and Kaiming He.Exploring simple siamese representation learning.In CVPR, 2021.
- Chen et al. (2021)Xinlei Chen, Saining Xie, and Kaiming He.An empirical study of training self-supervised vision transformers.In ICCV, 2021.
- Chen et al. (2023b)Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, and Yu Qiao.Vision transformer adapter for dense predictions.In ICLR, 2023b.
- Cheng et al. (2022)Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar.Masked-attention mask transformer for universal image segmentation.In CVPR, 2022.
- Cherti et al. (2023)Mehdi Cherti, Romain Beaumont, Ross Wightman, Mitchell Wortsman, Gabriel Ilharco, Cade Gordon, Christoph Schuhmann, Ludwig Schmidt, and Jenia Jitsev.Reproducible scaling laws for contrastive language-image learning.In CVPR, 2023.
- Chowdhery et al. (2022)Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al.Palm: Scaling language modeling with pathways.arXiv preprint arXiv:2204.02311, 2022.
- Cimpoi et al. (2014)M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, , and A. Vedaldi.Describing textures in the wild.In CVPR, 2014.
- Cordts et al. (2016)Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele.The cityscapes dataset for semantic urban scene understanding.In CVPR, 2016.
- Dao et al. (2022)Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré.Flashattention: Fast and memory-efficient exact attention with io-awareness.In NeurIPS, 2022.
- De Vries et al. (2019)Terrance De Vries, Ishan Misra, Changhan Wang, and Laurens Van der Maaten.Does object recognition work for everyone?In CVPR workshops, 2019.
- Delattre & Fournier (2017)Sylvain Delattre and Nicolas Fournier.On the kozachenko–leonenko entropy estimator.Journal of Statistical Planning and Inference, 185:69–93, 2017.
- Deng et al. (2009)Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei.Imagenet: A large-scale hierarchical image database.In CVPR, 2009.
- Devlin et al. (2019)Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.Bert: Pre-training of deep bidirectional transformers for language understanding.NAACL, 2019.
- Doersch et al. (2015)Carl Doersch, Abhinav Gupta, and Alexei A Efros.Unsupervised visual representation learning by context prediction.In ICCV, 2015.
- Dosovitskiy et al. (2016)Alexey Dosovitskiy, Philipp Fischer, Jost Tobias Springenberg, Martin Riedmiller, and Thomas Brox.Discriminative unsupervised feature learning with exemplar convolutional neural networks.TPAMI, 2016.
- Dosovitskiy et al. (2021)Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al.An image is worth 16x16 words: Transformers for image recognition at scale.In ICLR, 2021.
- Douze et al. (2009)Matthijs Douze, Hervé Jégou, Harsimrat Sandhawalia, Laurent Amsaleg, and Cordelia Schmid.Evaluation of gist descriptors for web-scale image search.In CIVR, 2009.
- Duval et al. (2023)Quentin Duval, Ishan Misra, and Nicolas Ballas.A simple recipe for competitive low-compute self supervised vision models.arXiv preprint arXiv:2301.09451, 2023.
- El-Nouby et al. (2021)Alaaeldin El-Nouby, Gautier Izacard, Hugo Touvron, Ivan Laptev, Hervé Jegou, and Edouard Grave.Are large-scale datasets necessary for self-supervised pre-training?arXiv preprint arXiv:2112.10740, 2021.
- Everingham et al. (2010)Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman.The pascal visual object classes (voc) challenge.IJCV, 2010.
- Fang et al. (2023)Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao.Eva: Exploring the limits of masked visual representation learning at scale.In CVPR, 2023.
- Fei-Fei et al. (2004)Li Fei-Fei, Rob Fergus, and Pietro Perona.Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories.In CVPR, 2004.
- Geiger et al. (2013)Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun.Vision meets robotics: The kitti dataset.IJRR, 2013.
- Gidaris et al. (2018)Spyros Gidaris, Praveer Singh, and Nikos Komodakis.Unsupervised representation learning by predicting image rotations.In ICLR, 2018.
- Girdhar et al. (2023)Rohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, and Ishan Misra.Omnimae: Single model masked pretraining on images and videos.In CVPR, 2023.
- Goyal et al. (2019)Priya Goyal, Dhruv Mahajan, Abhinav Gupta, and Ishan Misra.Scaling and benchmarking self-supervised visual representation learning.In ICCV, 2019.
- Goyal et al. (2021)Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, et al.Self-supervised pretraining of visual features in the wild.preprint arXiv:2103.01988, 2021.
- Goyal et al. (2022a)Priya Goyal, Quentin Duval, Isaac Seessel, Mathilde Caron, Mannat Singh, Ishan Misra, Levent Sagun, Armand Joulin, and Piotr Bojanowski.Vision models are more robust and fair when pretrained on uncurated images without supervision.arXiv preprint arXiv:2202.08360, 2022a.
- Goyal et al. (2022b)Priya Goyal, Adriana Romero Soriano, Caner Hazirbas, Levent Sagun, and Nicolas Usunier.Fairness indicators for systematic assessments of visual feature extractors.In FAcct, 2022b.
- Goyal et al. (2017)Raghav Goyal, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, et al.The "something something" video database for learning and evaluating visual common sense.In ICCV, 2017.
- Grill et al. (2020)Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, and Michal Valko.Bootstrap your own latent: A new approach to self-supervised learning.In NeurIPS, 2020.
- Hadsell et al. (2006)Raia Hadsell, Sumit Chopra, and Yann LeCun.Dimensionality reduction by learning an invariant mapping.In CVPR, 2006.
- Hamilton et al. (2022)Mark Hamilton, Zhoutong Zhang, Bharath Hariharan, Noah Snavely, and William T Freeman.Unsupervised semantic segmentation by distilling feature correspondences.In ICLR, 2022.
- Hazirbas et al. (2021)Caner Hazirbas, Joanna Bitton, Brian Dolhansky, Jacqueline Pan, Albert Gordo, and Cristian Canton Ferrer.Towards measuring fairness in ai: the casual conversations dataset.IEEE Transactions on Biometrics, Behavior, and Identity Science, 2021.
- He et al. (2020)Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick.Momentum contrast for unsupervised visual representation learning.In CVPR, 2020.
- He et al. (2022)Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick.Masked autoencoders are scalable vision learners.In CVPR, 2022.
- Hénaff et al. (2019)Olivier J Hénaff, Aravind Srinivas, Jeffrey De Fauw, Ali Razavi, Carl Doersch, SM Eslami, and Aaron van den Oord.Data-efficient image recognition with contrastive predictive coding.PMLR, 2019.
- Hendrycks & Dietterich (2019)Dan Hendrycks and Thomas Dietterich.Benchmarking neural network robustness to common corruptions and perturbations.In ICLR, 2019.
- Hendrycks et al. (2021a)Dan Hendrycks, Steven Basart, Norman Mu, Saurav Kadavath, Frank Wang, Evan Dorundo, Rahul Desai, Tyler Zhu, Samyak Parajuli, Mike Guo, et al.The many faces of robustness: A critical analysis of out-of-distribution generalization.In ICCV, 2021a.
- Hendrycks et al. (2021b)Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, and Dawn Song.Natural adversarial examples.In CVPR, 2021b.
- Hinton et al. (2014)Geoffrey Hinton, Oriol Vinyals, and Jeff Dean.Distilling the knowledge in a neural network.In NeurIPS Deep Learning Workshop, 2014.
- Hoffmann et al. (2022)Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al.Training compute-optimal large language models.arXiv preprint arXiv:2203.15556, 2022.
- Huang et al. (2016)Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger.Deep networks with stochastic depth.In ECCV, 2016.
- Ilharco et al. (2021)Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt.Openclip.2021.
- Jegou et al. (2010)Herve Jegou, Matthijs Douze, and Cordelia Schmid.Product quantization for nearest neighbor search.TPAMI, 2010.
- Johnson et al. (2019)Jeff Johnson, Matthijs Douze, and Hervé Jégou.Billion-scale similarity search with GPUs.IEEE Transactions on Big Data, 2019.
- Joulin et al. (2016)Armand Joulin, Laurens Van Der Maaten, Allan Jabri, and Nicolas Vasilache.Learning visual features from large weakly supervised data.In ECCV, 2016.
- Kay et al. (2017)Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al.The kinetics human action video dataset.arXiv preprint arXiv:1705.06950, 2017.
- Krause et al. (2013)Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei.3d object representations for fine-grained categorization.In 3DRR, 2013.
- Krell et al. (2022)Mario Michael Krell, Matej Kosec, Sergio P. Perez, and Andrew Fitzgibbon.Efficient sequence packing without cross-contamination: Accelerating large language models without impacting performance, 2022.
- Krizhevsky et al. (2009)Alex Krizhevsky, Geoffrey Hinton, et al.Learning multiple layers of features from tiny images.2009.
- Lefaudeux et al. (2022)Benjamin Lefaudeux, Francisco Massa, Diana Liskovich, Wenhan Xiong, Vittorio Caggiano, Sean Naren, Min Xu, Jieru Hu, Marta Tintore, Susan Zhang, Patrick Labatut, and Daniel Haziza.xformers: A modular and hackable transformer modelling library., 2022.
- Li et al. (2022a)Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, and Jianfeng Gao.Efficient self-supervised vision transformers for representation learning.In ICLR, 2022a.
- Li et al. (2022b)Zhenyu Li, Xuyang Wang, Xianming Liu, and Junjun Jiang.Binsformer: Revisiting adaptive bins for monocular depth estimation.arXiv preprint arXiv:2204.00987, 2022b.
- Likhomanenko et al. (2021)Tatiana Likhomanenko, Qiantong Xu, Gabriel Synnaeve, Ronan Collobert, and Alex Rogozhnikov.Cape: Encoding relative positions with continuous augmented positional embeddings.In NeurIPS, 2021.
- Liu et al. (2021)Huajun Liu, Fuqiang Liu, Xinyi Fan, and Dong Huang.Polarized self-attention: towards high-quality pixel-wise regression.arXiv preprint arXiv:2107.00782, 2021.
- Mahajan et al. (2018)Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, and Laurens van der Maaten.Exploring the limits of weakly supervised pretraining.In ECCV, 2018.
- Maji et al. (2013)S. Maji, J. Kannala, E. Rahtu, M. Blaschko, and A. Vedaldi.Fine-grained visual classification of aircraft.Technical report, 2013.
- Misra & Maaten (2020)Ishan Misra and Laurens van der Maaten.Self-supervised learning of pretext-invariant representations.In CVPR, 2020.
- Nilsback & Zisserman (2008)Maria-Elena Nilsback and Andrew Zisserman.Automated flower classification over a large number of classes.In ICVGIP, 2008.
- Noroozi & Favaro (2016)Mehdi Noroozi and Paolo Favaro.Unsupervised learning of visual representations by solving jigsaw puzzles.In ECCV, 2016.
- Ofri-Amar et al. (2023)Dolev Ofri-Amar, Michal Geyer, Yoni Kasten, and Tali Dekel.Neural congealing: Aligning images to a joint semantic atlas.In CVPR, 2023.
- Parkhi et al. (2012)Omkar M. Parkhi, Andrea Vedaldi, Andrew Zisserman, and C. V. Jawahar.Cats and dogs.In CVPR, 2012.
- Pathak et al. (2016)Deepak Pathak, Philipp Krähenbühl, Jeff Donahue, Trevor Darrell, and Alexei Efros.Context encoders: Feature learning by inpainting.In CVPR, 2016.
- Patterson et al. (2021)David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, and Jeff Dean.Carbon emissions and large neural network training.arXiv preprint arXiv:2104.10350, 2021.
- Pizzi et al. (2022)Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, and Matthijs Douze.A self-supervised descriptor for image copy detection.In CVPR, 2022.
- Radenović et al. (2018a)Filip Radenović, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, and Ondřej Chum.Revisiting oxford and paris: Large-scale image retrieval benchmarking.In CVPR, 2018a.
- Radenović et al. (2018b)Filip Radenović, Giorgos Tolias, and Ondřej Chum.Fine-tuning cnn image retrieval with no human annotation.TPAMI, 2018b.
- Radford et al. (2017)Alec Radford, Rafal Jozefowicz, and Ilya Sutskever.Learning to generate reviews and discovering sentiment.arXiv preprint arXiv:1704.01444, 2017.
- Radford et al. (2019)Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever.Language models are unsupervised multitask learners.2019.
- Radford et al. (2021)Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.Learning transferable visual models from natural language supervision.In ICML, 2021.
- Raffel et al. (2020)Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu, et al.Exploring the limits of transfer learning with a unified text-to-text transformer.JMLR, 2020.
- Ranftl et al. (2021)René Ranftl, Alexey Bochkovskiy, and Vladlen Koltun.Vision transformers for dense prediction.In ICCV, 2021.
- Recht et al. (2019)Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, and Vaishaal Shankar.Do imagenet classifiers generalize to imagenet?In ICML, 2019.
- Revaud et al. (2019)Jerome Revaud, Jon Almazán, Rafael S Rezende, and Cesar Roberto de Souza.Learning with average precision: Training image retrieval with a listwise loss.In ICCV, 2019.
- Ruan et al. (2023)Yangjun Ruan, Saurabh Singh, Warren Morningstar, Alexander A Alemi, Sergey Ioffe, Ian Fischer, and Joshua V Dillon.Weighted ensemble self-supervised learning.In ICLR, 2023.
- Russakovsky et al. (2015)Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C Berg, and Li Fei-Fei.Imagenet large scale visual recognition challenge.IJCV, 2015.
- Sablayrolles et al. (2019)Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou.Spreading vectors for similarity search.In ICLR, 2019.
- Schuhmann et al. (2021)Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki.Laion-400m: Open dataset of clip-filtered 400 million image-text pairs.In NeurIPS Data Centric AI Workshop, 2021.
- Schuhmann et al. (2022)Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al.Laion-5b: An open large-scale dataset for training next generation image-text models.In NeurIPS, 2022.
- Shazeer (2020)Noam Shazeer.Glu variants improve transformer.arXiv preprint arXiv:2002.05202, 2020.
- Silberman et al. (2012)Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus.Indoor segmentation and support inference from rgbd images.In ECCV, 2012.
- Singh et al. (2022)Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Dollár, and Laurens van der Maaten.Revisiting Weakly Supervised Pre-Training of Visual Perception Models.In CVPR, 2022.
- Song et al. (2015)Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao.Sun rgb-d: A rgb-d scene understanding benchmark suite.In CVPR, 2015.
- Soomro et al. (2012)Khurram Soomro, Amir Roshan Zamir, and Mubarak Shah.Ucf101: A dataset of 101 human actions classes from videos in the wild.arXiv preprint arXiv:1212.0402, 2012.
- Steiner et al. (2021)Andreas Steiner, Alexander Kolesnikov, Xiaohua Zhai, Ross Wightman, Jakob Uszkoreit, and Lucas Beyer.How to train your vit? data, augmentation, and regularization in vision transformers.TMLR, 2021.
- Strubell et al. (2019)Emma Strubell, Ananya Ganesh, and Andrew McCallum.Energy and policy considerations for deep learning in nlp.ACL, 2019.
- Tian et al. (2021)Yonglong Tian, Olivier J Henaff, and Aäron van den Oord.Divide and contrast: Self-supervised learning from uncurated data.In ICCV, 2021.
- Tolias et al. (2016)Giorgos Tolias, Ronan Sicre, and Hervé Jégou.Particular object retrieval with integral max-pooling of cnn activations.In ICLR, 2016.
- Tong et al. (2022)Zhan Tong, Yibing Song, Jue Wang, and Limin Wang.Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training.In NeurIPS, 2022.
- Touvron et al. (2019)Hugo Touvron, Andrea Vedaldi, Matthijs Douze, and Hervé Jégou.Fixing the train-test resolution discrepancy.In NeurIPS, 2019.
- Touvron et al. (2022)Hugo Touvron, Matthieu Cord, and Hervé Jégou.Deit iii: Revenge of the vit.In ECCV, 2022.
- Touvron et al. (2023)Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample.Llama: Open and efficient foundation language models.arXiv preprint arXiv:2302.13971, 2023.
- Tumanyan et al. (2022)Narek Tumanyan, Omer Bar-Tal, Shai Bagon, and Tali Dekel.Splicing vit features for semantic appearance transfer.In CVPR, 2022.
- Van Horn et al. (2018)Grant Van Horn, Oisin Mac Aodha, Yang Song, Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam, Pietro Perona, and Serge Belongie.The inaturalist species classification and detection dataset.In CVPR, 2018.
- Van Horn et al. (2021)Grant Van Horn, Elijah Cole, Sara Beery, Kimberly Wilber, Serge Belongie, and Oisin Mac Aodha.Benchmarking representation learning for natural world image collections.In CVPR, 2021.
- Wang et al. (2022)Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, et al.Internimage: Exploring large-scale vision foundation models with deformable convolutions.In CVPR, 2022.
- Wang et al. (2019)Xiaolong Wang, Allan Jabri, and Alexei A Efros.Learning correspondence from the cycle-consistency of time.In CVPR, 2019.
- Warburg et al. (2020)Frederik Warburg, Soren Hauberg, Manuel Lopez-Antequera, Pau Gargallo, Yubin Kuang, and Javier Civera.Mapillary street-level sequences: A dataset for lifelong place recognition.In CVPR, 2020.
- Weinzaepfel et al. (2021)Philippe Weinzaepfel, Thomas Lucas, Diane Larlus, and Yannis Kalantidis.Learning super-features for image retrieval.In ICLR, 2021.
- Welinder et al. (2010)P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, and P. Perona.Caltech-UCSD Birds 200.Technical Report CNS-TR-2010-001, 2010.
- Wenzek et al. (2020)Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave.Ccnet: Extracting high quality monolingual datasets from web crawl data.In LREC, 2020.
- Weyand et al. (2020)Tobias Weyand, Andre Araujo, Bingyi Cao, and Jack Sim.Google landmarks dataset v2 – a large-scale benchmark for instance-level recognition and retrieval.In CVPR, 2020.
- Wu et al. (2018)Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin.Unsupervised feature learning via non-parametric instance discrimination.In CVPR, 2018.
- Xiao et al. (2010)J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba.Sun database: Large-scale scene recognition from abbey to zoo.In CVPR, 2010.
- Xu et al. (2022)Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer, et al.Masked autoencoders that listen.arXiv preprint arXiv:2207.06405, 2022.
- Yalniz et al. (2019)I Zeki Yalniz, Hervé Jégou, Kan Chen, Manohar Paluri, and Dhruv Mahajan.Billion-scale semi-supervised learning for image classification.arXiv preprint arXiv:1905.00546, 2019.
- Yildiz et al. (2022)Burak Yildiz, Seyran Khademi, Ronald Maria Siebes, and Jan van Gemert.Amstertime: A visual place recognition benchmark dataset for severe domain shift.In ICPR, 2022.
- Ypsilantis et al. (2021)Nikolaos-Antonios Ypsilantis, Noa Garcia, Guangxing Han, Sarah Ibrahimi, Nanne Van Noord, and Giorgos Tolias.The met dataset: Instance-level recognition for artworks.In NeurIPS Datasets and Benchmarks Track, 2021.
- Zhai et al. (2022)Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer.Scaling vision transformers.In CVPR, 2022.
- Zhang et al. (2016)Richard Zhang, Phillip Isola, and Alexei A Efros.Colorful image colorization.In ECCV, 2016.
- Zhou et al. (2014)Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, and Aude Oliva.Learning deep features for scene recognition using places database.In NeurIPS, 2014.
- Zhou et al. (2017)Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba.Scene parsing through ade20k dataset.In CVPR, 2017.
- Zhou et al. (2022a)Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille, and Tao Kong.ibot: Image bert pre-training with online tokenizer.In ICLR, 2022a.
- Zhou et al. (2022b)Pan Zhou, Yichen Zhou, Chenyang Si, Weihao Yu, Teck Khim Ng, and Shuicheng Yan.Mugs: A multi-granular self-supervised learning framework.arXiv preprint arXiv:2203.14415, 2022b.
附录A数据处理
A.1数据选择
我们选择的用于构建 LVD-142M 的数据集详细信息见表 1。 . 该集合旨在提供涵盖各种下游视觉任务的图像,用于图像级和密集识别。
A.2图像相似度
我们使用余弦相似度来比较图像特征(无论是我们的图像特征还是为重复数据删除而生成的特征)与以下相似度函数m:
m(s,r)=cosine-similarity(f(s),f(r))=f(s)⋅f(r)∥f(s)∥2∥f(r)∥2 |
其中 s 和 r 是一对要比较的图像,f 是模型生成特征。
A.3重复数据删除
自重复数据删除。
为了对 1.3B 图像的未整理数据源进行重复数据删除,我们计算并使用 Pizzi 等人 (2022) 生成的嵌入,并检索每个图像的 k=64 最近邻(使用余弦相似)。 仅考虑具有相似性 >0.6 的邻居,借助可扩展的不相交集数据结构实现,我们提取了关联的 k-NN 图的连接组件。 然后,我们只为重复图像的每个组件保留一个代表。 这会产生 1.1B 图像的自重复数据删除数据源。
相对重复数据删除
为了减少冗余并正确评估特征的性能,我们丢弃了自我去重数据源的剩余图像,这些图像与评估数据集的训练和测试分割过于相似。 为了实现这一目标,我们应用了与自重复数据删除类似的过程,具有更严格的相似性>0.45,这次识别每个参考图像所属的重复组件(如果有)并将其完全丢弃。 这会产生 744M 图像的自我重复数据删除和相对重复数据删除的数据源。
A.4检索
我们采用两种方法通过检索来扩充数据集:基于样本和基于集群。 第一个基于样本,适用于大于 1M 图像的数据集,包括为要检索的数据集的每个样本图像收集固定数量的 k 个最近图像,有效地尝试乘以 k 数据集的大小。 我们对 Google Landmarks v2 和 ImageNet-22k 使用 k=4,但使用更大的 k=32,以使此特定检索成为 LVD-142M 数据集的核心部分。 对于较小的数据集,第二种基于集群的方法包括首先通过分布式 k-means 实现将我们的未整理数据源聚类到 100,000 单独的集群中。 每个集群应该捕捉不同类型的图像概念和内容。 然后,我们从与检索到的数据集的超过 3 个图像相关联的每个集群中挑选 10,000 个图像。 由于这可能会导致某些数据集检索到大量图像,因此我们将此类检索限制为最多 1M 个图像,以保持 LVD-142M 内不同数据集之间的平衡。
Task | Dataset / Split | Images | Retrieval | Retrieved | Final |
classification | ImageNet-22k / – | 14,197,086 | as is | – | 14,197,086 |
classification | ImageNet-22k / – | 14,197,086 | sample | 56,788,344 | 56,788,344 |
classification | ImageNet-1k / train | 1,281,167 | sample | 40,997,344 | 40,997,344 |
fine-grained classif. | Caltech 101 / train | 3,030 | cluster | 2,630,000 | 1,000,000 |
fine-grained classif. | CUB-200-2011 / train | 5,994 | cluster | 1,300,000 | 1,000,000 |
fine-grained classif. | DTD / train1 | 1,880 | cluster | 1,580,000 | 1,000,000 |
fine-grained classif. | FGVC-Aircraft / train | 3,334 | cluster | 1,170,000 | 1,000,000 |
fine-grained classif. | Flowers-102 / train | 1,020 | cluster | 1,060,000 | 1,000,000 |
fine-grained classif. | Food-101 / train | 75,750 | cluster | 21,670,000 | 1,000,000 |
fine-grained classif. | Oxford-IIIT Pet / trainval | 3,680 | cluster | 2,750,000 | 1,000,000 |
fine-grained classif. | Stanford Cars / train | 8,144 | cluster | 7,220,000 | 1,000,000 |
fine-grained classif. | SUN397 / train1 | 19,850 | cluster | 18,950,000 | 1,000,000 |
fine-grained classif. | Pascal VOC 2007 / train | 2,501 | cluster | 1,010,000 | 1,000,000 |
segmentation | ADE20K / train | 20,210 | cluster | 20,720,000 | 1,000,000 |
segmentation | Cityscapes / train | 2,975 | cluster | 1,390,000 | 1,000,000 |
segmentation | Pascal VOC 2012 (seg.) / trainaug | 1,464 | cluster | 10,140,000 | 1,000,000 |
depth estimation | Mapillary SLS / train | 1,434,262 | as is | – | 1,434,262 |
depth estimation | KITTI / train (Eigen) | 23,158 | cluster | 3,700,000 | 1,000,000 |
depth estimation | NYU Depth V2 / train | 24,231 | cluster | 10,850,000 | 1,000,000 |
depth estimation | SUN RGB-D / train | 4,829 | cluster | 4,870,000 | 1,000,000 |
retrieval | Google Landmarks v2 / train (clean) | 1,580,470 | as is | – | 1,580,470 |
retrieval | Google Landmarks v2 / train (clean) | 1,580,470 | sample | 6,321,880 | 6,321,880 |
retrieval | AmsterTime / new | 1,231 | cluster | 960,000 | 960,000 |
retrieval | AmsterTime / old | 1,231 | cluster | 830,000 | 830,000 |
retrieval | Met / train | 397,121 | cluster | 62,860,000 | 1,000,000 |
retrieval | Revisiting Oxford / base | 4,993 | cluster | 3,680,000 | 1,000,000 |
retrieval | Revisiting Paris / base | 6,322 | cluster | 3,660,000 | 1,000,000 |
142,109,386 |
表15: 我们的 LVD-142M 数据集的组成。 我们报告用于构建数据集的数据集和相关分割的列表,以及它们是如何包含的(没有检索或通过基于样本或基于集群的检索)。 对于检索,我们指示检索到的图像的实际数量以及数据集中包含的最终数量。 我们选择在预训练数据中包含尽可能多的数据集,以便覆盖尽可能多的领域。 我们保留了一些数据集,以便评估预训练域之外的性能。 有关数据集使用的更多详细信息,请参阅表。
附录B实施细节
B.1无监督预训练
对于无监督预训练,我们基于 DINO 和 iBOT 代码库构建。 我们使用表中所示的超参数,表中描述的ViT架构。
Arch. | Drop-rate | LR | Batch size | |
DINOv2-S (distilled) | ViT-S/14 | 0 | 1e-3 | 2048 |
DINOv2-B (distilled) | ViT-B/14 | 0 | 1e-3 | 2048 |
DINOv2-L (distilled) | ViT-L/14 | 0 | 1e-3 | 2048 |
DINOv2-L (from scratch) | ViT-L/14 | 0.4 | 3.5e-4 | 3072 |
DINOv2-g (from scratch) | ViT-g/14 | 0.4 | 3.5e-4 | 3072 |
表 16: 训练 DINOv2-S、DINOv2-B、DINOv2-L 和 DINOv2-g 的超参数。 所有模型都使用优化器 AdamW 运行 625k 次迭代,初始 LayerScale 值为 1e-5,权重衰减余弦计划从 0.04 到 0.2,学习率预热 100k 迭代,教师动量余弦计划从 0.994 到 1,我们在所有情况下都采用 float16 精度(除了 DINO 头,我们减少了 float32 的梯度)。
Arch. | Embed dim | Heads | Blocks | FFN layer |
ViT-S/14 (distilled) | 384 | 6 | 12 | MLP |
ViT-B/14 (distilled) | 768 | 12 | 18 | MLP |
ViT-L/14 (distilled) | 1024 | 16 | 24 | MLP |
ViT-L/14 (from scratch) | 1024 | 16 | 24 | SwiGLU |
ViT-g/14 (from scratch) | 1536 | 24 | 40 | SwiGLU |
表 17: 本工作中使用的 ViT-S/B/L/g 网络的架构详细信息。 我们将 MLP 前馈网络用于蒸馏模型,并在从头开始训练时使用 SwiGLU (Shazeer, 2020)。
KoLeo 正则化。
对于该步骤中没有交叉通信的 GPU 内的所有样本,我们在第一个全局裁剪的类标记之间应用权重为 0.1 的 KoLeo 正则化器。
老师的 EMA 更新。
教师的初始化状态与学生相同,是学生网络的指数移动平均值,动量值在 [0.994, 1.0] 中,遵循余弦时间表。 它会在每个训练步骤结束时更新。
B.2高分辨率适配
我们使用预训练权重初始化模型,然后使用与原始预训练相同的程序对其进行 10k 次迭代训练。 所有的计划都与原始训练中的相同,但被压缩以适应 10k 次迭代。 除了基础学习率降低之外,所有超参数都与第一次预训练中的相同。
B.3线性探测评估
对于线性探测,我们定义了 3 个评估参数:学习率、使用多少个输出层、是否将平均池化的词符特征与词符类连接(或仅使用词符类)。 我们使用随机调整大小裁剪数据增强,使用 SGD 训练线性层 12500 次迭代,并执行以下网格搜索:
- •
{0.0001,0.0002,0.0005,0.001,0.002,0.005,0.01,0.02,0.05,0.1,0.2,0.3,0.5} 中的学习率
- •
{1,4} 中的输出层
- •
连接 {yes,no} 中的平均池 Token
然后,我们按照惯例报告在验证集上获得的最高准确度值。 请注意,这种网格搜索并不昂贵,因为在每次迭代中,我们仅在主干上执行一次推理,然后将输出提供给所有线性分类器(每个线性分类器执行单个矩阵乘法)。
附录C使用的数据集列表
我们在表 中显示了所使用的基准和数据集及其用途的列表。
Dataset | Pretraining | ||||
(as is) | Retrieving | ||||
pretraining | |||||
data | Eval. | Task | Citation | ||
ImageNet-1k | ✗ | ✓ | ✓ | Classif. | (Russakovsky et al., 2015) |
ImageNet-22k | ✓ | ✓ | ✗ | (Deng et al., 2009) | |
ImageNet-V2 | ✗ | ✗ | ✓ | Classif. | (Recht et al., 2019) |
ImageNet-ReaL | ✗ | ✗ | ✓ | Classif. | (Beyer et al., 2020) |
ImageNet-A | ✗ | ✗ | ✓ | Classif. | (Hendrycks et al., 2021b) |
ImageNet-C | ✗ | ✗ | ✓ | Classif. | (Hendrycks & Dietterich, 2019) |
ImageNet-R | ✗ | ✗ | ✓ | Classif. | (Hendrycks et al., 2021a) |
ImageNet-Sk. | ✗ | ✗ | ✓ | Classif. | (Wang et al., 2019) |
Food-101 | ✗ | ✓ | ✓ | Classif. | (Bossard et al., 2014) |
CIFAR-10 | ✗ | ✓ | ✓ | Classif. | (Krizhevsky et al., 2009) |
CIFAR-100 | ✗ | ✓ | ✓ | Classif. | (Krizhevsky et al., 2009) |
SUN397 | ✗ | ✓ | ✓ | Classif. | (Xiao et al., 2010) |
StanfordCars | ✗ | ✓ | ✓ | Classif. | (Krause et al., 2013) |
FGVC-Aircraft | ✗ | ✓ | ✓ | Classif. | (Maji et al., 2013) |
VOC 2007 | ✗ | ✓ | ✓ | Classif. | (Everingham et al., 2010) |
DTD | ✗ | ✓ | ✓ | Classif. | (Cimpoi et al., 2014) |
Oxford Pets | ✗ | ✓ | ✓ | Classif. | (Parkhi et al., 2012) |
Caltech101 | ✗ | ✓ | ✓ | Classif. | (Fei-Fei et al., 2004) |
Flowers | ✗ | ✓ | ✓ | Classif. | (Nilsback & Zisserman, 2008) |
CUB200 | ✗ | ✓ | ✓ | Classif. | (Welinder et al., 2010) |
iNaturalist 2018 | ✗ | ✗ | ✓ | Classif. | (Van Horn et al., 2018) |
iNaturalist 2021 | ✗ | ✗ | ✓ | Classif. | (Van Horn et al., 2021) |
Places-205 | ✗ | ✗ | ✓ | Classif. | (Zhou et al., 2014) |
UCF101 | ✗ | ✗ | ✓ | Video | (Soomro et al., 2012) |
Kinetics-400 | ✗ | ✗ | ✓ | Video | (Kay et al., 2017) |
SSv2 | ✗ | ✗ | ✓ | Video | (Goyal et al., 2017) |
GLD v2 | ✓ | ✓ | ✗ | (Weyand et al., 2020) | |
R-Paris | ✗ | ✓ | ✓ | Retrieval | (Radenović et al., 2018a) |
R-Oxford | ✗ | ✓ | ✓ | Retrieval | (Radenović et al., 2018a) |
Met | ✗ | ✓ | ✓ | Retrieval | (Ypsilantis et al., 2021) |
Amstertime | ✗ | ✓ | ✓ | Retrieval | (Yildiz et al., 2022) |
ADE20k | ✗ | ✓ | ✓ | Seg. | (Zhou et al., 2017) |
Cityscapes | ✗ | ✓ | ✓ | Seg. | (Cordts et al., 2016) |
VOC 2012 | ✗ | ✓ | ✓ | Seg. | (Everingham et al., 2010) |
Mapillary SLS | ✓ | ✗ | ✗ | (Warburg et al., 2020) | |
NYU-Depth V2 | ✗ | ✓ | ✓ | Depth | (Silberman et al., 2012) |
KITTI | ✗ | ✓ | ✓ | Depth | (Geiger et al., 2013) |
SUN-RGBD | ✗ | ✓ | ✓ | Depth | (Song et al., 2015) |
DollarStreet | ✗ | ✗ | ✓ | Fairness | (De Vries et al., 2019) |
Casual Conv. | ✗ | ✗ | ✓ | Fairness | (Hazirbas et al., 2021) |
表 18: 使用的数据集列表。