前言
本文对视觉语言模型(VLM)进行了介绍,阐释了 VLM 的定义、训练方法,以及如何依据不同的研究目标对其进行有效评估。随着大型语言模型(LLM)近期备受瞩目,学界已出现多种尝试将其扩展至视觉领域。从能够引导人们穿越陌生环境的视觉助手,到仅凭高级文本描述即可生成图像的生成式模型,视觉语言模型(VLM)的应用将深远地影响人类与技术的交互方式。
1、介绍(Introduction)
近年来,语言建模领域取得了令人瞩目的进展。许多大型语言模型(LLM)如今已能解决种类繁多的任务,其应用正日益普及。这些原本主要局限于文本输入的模型,现已扩展至具备视觉输入能力。将视觉与语言相连将解锁众多应用,而这些应用正是当前基于人工智能的技术革命之关键。尽管已有若干工作将大型语言模型扩展至视觉领域,但语言与视觉的连接问题尚未得到彻底解决。
本文对视觉语言模型(VLM)进行了介绍,阐释了 VLM 的定义、训练方法,以及如何依据不同的研究目标对其进行有效评估。需要说明的是,本文不应被视为关于 VLM 的综述或详尽指南,因此并未旨在引用该研究领域的所有文献,亦未囊括该领域内的所有最佳实践。相反,本文旨在为 VLM 研究提供一个清晰易懂的入门介绍,并着重指出该领域研究的有效实践方法。
2、视觉语言模型家族(The Families of VLMs)
鉴于深度学习在计算机视觉和自然语言处理领域所取得的显著进展,学界已采取多项举措来连接这两个领域。本文重点关注基于 Transformer 的最新技术,并将其归类为四种不同的训练范式。
图 1:VLM 的家族。 对比训练是一种常用的策略,它利用正例和反例对,VLM 被训练为预测正例对的相似表示,同时预测反例对的不同表示。掩码是另一种可用于训练 VLM 的策略,它通过给定未被掩码的文本标题来重建缺失的图像块。生成式 VLM 的训练方式使其能够生成完整的图像或非常长的标题,鉴于这些模型的特性,它们的训练成本通常最高。
2.1 基于 Transformer 的早期 VLM 工作
通过使用 Transformer 架构,来自 Transformer 的双向编码器表示(BERT)在当时显著超越了所有语言建模方法。研究人员已将 BERT 扩展到处理视觉数据。其中两个模型是 VisualBERT 和 ViLBERT,它们将文本与图像 token 结合起来。
2.2 基于对比学习的 VLM
对比训练方法确实通过基于能量的模型的视角来更好地解释。InfoNCE 损失并未预测一个二元值,而是利用在模型表示空间中计算的距离度量。对于诸如 SimCLR 等自监督学习方法,正样本对被定义为一个图像及其对应的手工数据增强版本。
2.2.1 CLIP
使用 InfoNCE 损失的常见对比方法是对比语言 - 图像预训练(CLIP)。原始 CLIP 模型在从网络收集的 4 亿个标题 - 图像对上进行训练,展示了卓越的零样本分类迁移能力。
SigLIP 与 CLIP 相似,不同之处在于它使用基于二元交叉熵的原始 NCE 损失,而非使用基于 InfoNCE 的 CLIP 多类别目标函数。
2.3 掩码目标视觉语言模型
掩码是深度学习研究中常用的一种技术。它可以被视为去噪自编码器的一种特定形式。最近,BERT 在训练期间使用了掩码语言建模来预测句子中缺失的 token。
2.3.1 FLAVA
基于掩码方法的一个首要例子是基础语言和视觉对齐模型(FLAVA)。它的架构包括三个核心组件,每个组件均基于 Transformer 框架并针对特定的模态进行定制。
2.3.2 MaskVLM
Kwon 等人引入了 MaskVLM,它直接在像素空间和文本 token 空间应用掩码。
2.3.3 VLM 目标的信息论观点
Federici 等人首先表明,VLM 可以被理解为通过减少多余信息和最大化预测信息来解决一个率失真问题。
2.4 基于生成的视觉语言模型
与之前主要在潜在表示上操作以构建图像或文本抽象,然后进行相互映射的训练范式不同,生成式范式考虑的是文本和/或图像的生成。


