在过去的十年中,深度监督学习取得了巨大的成功。但是,由于它对手动标签的强依赖以及泛化性不足的缺点,促使人们寻求更好的解决方案。与此同时,在硬件快速增长的帮助下,今天的模型可以轻松地训练上百万张图像并开始尝试训练数亿张图像数据。
然而,有监督方法对数据有着人工标注的要求,从而造成了获取成本过高,因此通过大规模有标签的数据来训练大规模通用预训练模型不现实。此外,即使是耗费大量人力物力获取标签,但是有标签的监督方法仍然会因为人为疏漏造就错误标签(即使是 ImageNet 这种高质量数据集也存在错误标签和混淆概念)。
图灵奖获得者 Yann LeCun 在演讲时表示,如果智能是一块蛋糕,那么蛋糕的主体是无监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习,而人类对世界的理解主要来自于大量未标记的信息。
而同时不可忽视的是,无监督/自监督学习这类方法已经革新了自然语言处理的通用范式,如 BERT、GPT 系列在大规模语料上进行无监督预训练,在各类下游任务中均取得了令人惊艳的效果。因此,无监督/自监督学习将是实现人类智能的关键,被广泛认为是通往通用人工智能的重要途径之一。
近些年自监督学习越来越受到广大研究人员的关注,其设计与思想天生就适合训练视觉大模型:利用大量的无标记数据训练模型构建通用的视觉表征,以此来使得所有类型的下游任务受益。自监督学习常用方法是提出不同的上游任务(pretext task)。
网络可以通过学习上游任务的目标函数来训练,视觉特征也在这一过程中获得。如图 2.2-1 所示,在自监督的上游任务训练阶段,自监督方法首先根据数据的某些属性自动生成该前置任务的伪标签,以此来训练神经网络获得预训练模型。在自监督的训练完成之后,可以将学习到的视觉特征迁移到下游任务(downstream task),使用少量带标签的数据进行微调,以提高性能并克服过度拟合的情况。
图 2.2-1 自监督方法框架图
本章节,我们全面回顾了现有的经验方法,并根据代理目标的不同将其概括为四个主要类别:生成式、上下文式、对比式以及多任务式。我们将进一步研究相关的理论分析工作,以提供有关自监督学习如何工作的更深层次的思想。
1. 生成式方法
生成式方法的典型代表如图像上色、图像超分辨率等,方法各式各样,但本质都是生成式方法。
图像上色: 图像上色任务是将彩色图像转化为灰度图像,此灰色图像通过神经网络,并使得上游训练任务为预测原本的彩色图像,逼迫网络来学习图像的结构和上下文信息,框架图如图 2.2-2 所示。
图 2.2-2 图像上色方法框架图
图像超分辨率: 图像超分辨率任务是将输入图像的尺寸缩小,并使得缩小后的图像通过神经网络,并使得上游训练任务为预测原本的图像,是以此生成对抗的思想逼迫网络来学习图像的结构和上下文信息,框架图如图 2.2-3 所示。
图 2.2-3 图像超分辨率方法框架图
这些方法是视觉自监督方法最早的启蒙思想,思想的本质是损坏输入图像的部分特征,让神经网络重建回原本的特征。在早期的领域中有着重要的贡献,然而正是因此,这些方法也有很多缺陷,如无法从图像中提取多粒度的特征,仅在某个或某几个任务中有效,很难泛化到各类下游任务。
1.1 上下文式方法
基于上下文的上游任务的设计主要利用图像的上下文特征,如上下文相似性、空间结构等。基于上下文的相似性的典型方法是根据图像的上下文相似性设计的,这种类型的方法主要是图像深度聚类的方法。
基于空间结构任务用于训练基于图像块之间的空间关系的神经网络,这种方法以上下文编码器思想的方法流行。深度图像聚类:深度图像聚类是将聚类与深度结合的方法,这种方法可以学习到一些有用的通用特征,这个框架如图 2.2-4 所示,整个过程包含对特征进行聚类,然后基于聚类的结果作为伪标签,更新网络的参数,让网络预测这些伪标签,这两个过程依次进行。
图 2.2-4 深度聚类框架图
上下文编码器: 上下文编码器将图像中的随机区域丢弃,丢弃填补 0 像素值,之后利用卷积神经网络的编码 - 解码结构和图像先天就具备的上下文信息来学习恢复被丢弃的随机区域,如图 2.2-5 所示。


