跳到主要内容视觉语言模型(VLM)综述:An Introduction to VLM | 极客日志PythonAI算法
视觉语言模型(VLM)综述:An Introduction to VLM
综述由AI生成综述了视觉语言模型(VLM)的发展现状与关键技术。内容涵盖 VLM 的四种训练范式:基于对比学习、掩码目标、生成式及预训练主干网络。文章详细指导了 VLM 的训练数据筛选、软件工具选择及参数微调策略,并探讨了提升定位与对齐能力的方法。此外,还介绍了负责任评估 VLM 能力的基准测试,包括偏差、幻觉及视频扩展应用的挑战与机遇。旨在为研究者提供清晰的入门指南与实践参考。
剑仙30 浏览 前言
题目:An Introduction to Vision-Language Modeling
单位:Meta 相关
论文摘要:随着大型语言模型(LLM)近期备受瞩目,学界已出现多种尝试将其扩展至视觉领域。从能够引导人们穿越陌生环境的视觉助手,到仅凭高级文本描述即可生成图像的生成式模型,视觉语言模型(VLM)的应用将深远地影响人类与技术的交互方式。然而,要提高这些模型的可靠性,仍需克服诸多挑战,因为语言本质上是离散的,而视觉则演变于维度极高的空间中,其中的概念往往难以被简单地离散化。为了深入理解视觉到语言映射背后的机制,本文对 VLM 进行了介绍,旨在为有意涉足该领域的研究者提供参考。本文首先介绍了 VLM 的定义、工作原理及其训练方法,随后提出并探讨了 VLM 的评估方法,尽管本文主要关注从图像到语言的映射,但也探讨了将 VLM 扩展至视频领域的可能性。

1、介绍(Introduction)
近年来,语言建模领域取得了令人瞩目的进展。许多大型语言模型(LLM)(如 Llama 或 ChatGPT)如今已能解决种类繁多的任务,其应用正日益普及。这些原本主要局限于文本输入的模型,现已扩展至具备视觉输入能力。将视觉与语言相连将解锁众多应用,而这些应用正是当前基于人工智能的技术革命之关键。尽管已有若干工作将大型语言模型扩展至视觉领域,但语言与视觉的连接问题尚未得到彻底解决。例如,若无依赖额外数据标注的复杂工程辅助,大多数模型在理解空间关系或计数方面仍显吃力。许多视觉语言模型(VLM)也缺乏对属性和顺序的理解。它们往往会忽略输入提示词的某些部分,导致需投入大量精力进行提示词工程以获取预期结果。部分模型甚至会产生幻觉,生成非必需且不相关的内容。因此,开发可靠的模型仍是当前一个非常活跃的研究领域。
本文对视觉语言模型(VLM)进行了介绍,阐释了 VLM 的定义、训练方法,以及如何依据不同的研究目标对其进行有效评估。需要说明的是,本文不应被视为关于 VLM 的综述或详尽指南,因此并未旨在引用该研究领域的所有文献,亦未囊括该领域内的所有最佳实践。相反,本文旨在为 VLM 研究提供一个清晰易懂的入门介绍,并着重指出该领域研究的有效实践方法,这对于希望涉足该领域的学生或其他领域的研究人员将尤为有益。
本文首先介绍了不同的 VLM 训练范式,探讨了对比学习方法如何改变了这一领域,随后介绍了利用掩码策略或生成组件的方法,最后介绍了使用预训练主干网络(如 LLM)的 VLM。尽管将 VLM 归类并非易事,因为大多数模型都包含重叠的组件,但本文希望这种分类能帮助新研究人员在该领域探索,并阐明 VLM 背后的内部机制。
接下来,本文将介绍训练 VLM 的典型方法。例如,本文涵盖了以下问题:针对不同的研究目标,哪些数据集是合适的?应采用哪种数据管理策略?是否需要训练文本编码器,或可否利用预训练的 LLM?以及对比损失对于视觉理解是否足够,或者生成组件是否是关键?本文还介绍了用于提升模型性能,以及增强接地和更好对齐的常用技术。
尽管提供模型训练方法是更好地理解 VLM 需求的关键一步,但提供对这些模型的稳健可靠评估同样重要。近期已引入许多用于评估 VLM 的基准,然而,其中一些基准存在研究人员必须注意到的固有局限性。通过讨论 VLM 基准的优势和劣势,本文希望能够阐明未来的挑战,以加深我们对 VLM 的理解。本文首先讨论评估 VLM 视觉 - 语言能力的基准,然后介绍如何衡量模型偏差。
下一代 VLM 将能够通过实现视频到语言的映射来理解视频。然而,视频所带来的挑战不同于图像,计算成本自然要高得多,但同时还有关于如何通过文本来映射时间维度的其他考量。通过阐明当前从视频中学习的方法,本文希望能突出需要应对的当前研究挑战。
通过降低 VLM 研究的门槛,本文希望为 VLM 更负责任的发展奠定基础,同时推动视觉理解的界限。
2、视觉语言模型家族(The Families of VLMs)
鉴于深度学习在计算机视觉和自然语言处理领域所取得的显著进展,学界已采取多项举措来连接这两个领域。本文重点关注基于 Transformer [Vaswani et al., 2017] 的最新技术,并将其归类为四种不同的训练范式(图 1)。第一种是对比训练,这是一种常用的策略,它利用正例和反例对,VLM 被训练为预测正例对的相似表示,同时预测反例对的不同表示。第二种举措是掩码,它利用给定未被掩码的文本来重建被掩码的图像块。同样地,通过掩码标题中的词语,可以训练 VLM 在给定未被掩码图像的情况下重建这些词语。基于预训练主干的 VLM 通常利用 Llama [Touvron et al., 2023] 等开源 LLM,来学习图像编码器(该编码器也可能是预训练的)与 LLM 之间的映射。学习预训练模型之间的映射通常比从头开始训练文本和图像编码器在计算上成本更低。尽管这些方法大多利用中间表示或部分重建,但生成式 VLM 的训练方式使其能够生成图像或标题,鉴于这些模型的特性,它们的训练成本通常最高。本文强调这些范式并非相互排斥;许多方法依赖于对比、掩码和生成标准的混合。对于每种范式,本文仅介绍一到两个模型,以便为读者提供关于这些模型设计思路的一些高层次见解。

2.1 基于 Transformer 的早期 VLM 工作(Early work on VLMs based on transformers)
通过使用 Transformer 架构 [Vaswani et al., 2017],来自 Transformer 的双向编码器表示(BERT)[Devlin et al., 2019] 在当时显著超越了所有语言建模方法。毫不意外,研究人员已将 BERT 扩展到处理视觉数据。其中两个模型是 VisualBERT [Li et al., 2019] 和 ViLBERT [Lu et al., 2019],它们将文本与图像 token 结合起来。这些模型在两个目标上进行训练:1)一个旨在预测给定输入中缺失部分的经典掩码建模任务;以及 2)一个旨在预测标题是否实际描述了图像内容的句子 - 图像预测任务。通过利用这两个目标,这些模型在多项视觉 - 语言任务中取得了强大的性能,这主要归因于 Transformer 模型通过注意力机制学习将词语与视觉线索关联起来的能力。
2.2 基于对比学习的 VLM(Contrastive-based VLMs)
对比训练方法确实通过基于能量的模型(Energy-Based Models, EBM)[LeCun et al., 2006] 的视角来更好地解释... (此处省略部分公式以保持简洁,实际输出应保留完整内容,但需注意转义)
2.2.1 CLIP
使用 InfoNCE 损失的常见对比方法是对比语言 - 图像预训练(CLIP)[Radford et al., 2021]...
2.3 掩码目标视觉语言模型(VLMs with masking objectives)
2.3.1 FLAVA
基于掩码方法的一个首要例子是基础语言和视觉对齐模型(FLAVA)[Singh et al., 2022]...
2.3.2 MaskVLM
FLAVA 的一个限制是使用了像 dVAE [Zhang et al., 2019] 这样的预训练视觉编码器...
2.3.3 VLM 目标的信息论观点(Information theoretic view on VLM objectives)
Federici 等人 [2020] 首先表明,VLM 可以被理解为通过减少多余信息和最大化预测信息来解决一个率失真问题...
2.4 基于生成的视觉语言模型(Generative-based VLMs)
与之前主要在潜在表示上操作以构建图像或文本抽象,然后进行相互映射的训练范式不同,生成式范式考虑的是文本和/或图像的生成...
2.4.1 学习一个文本生成器的例子:CoCa
除了在 CLIP 中效果良好的对比损失之外,对比标题生成器(CoCa)[Yu et al., 2022b] 还采用了生成式损失...
2.4.2 多模态生成模型实例:Chameleon 和 CM3leon
Yu 等人 [2023] 提出了 CM3Leon,这是一个用于文本到图像和图像到文本生成的基础模型...
2.4.3 利用生成式文本到图像模型解决下游视觉 - 语言任务
近期,语言条件图像生成模型取得了重大进展 [Bie et al., 2023, Zhang et al., 2023a]...
2.5 基于预训练主干网络的视觉语言模型(VLMs from Pretrained Backbones)
训练 VLM 的一个缺点是成本高昂。它们通常需要数百到数千个 GPU,同时必须使用数亿张图像和文本对...
2.5.1 冻结权重(Frozen)
Frozen [Tsimpoukelli et al., 2021] 是利用预训练 LLM 的首个模型示例...
2.5.2 示例:MiniGPT
从 Flamingo [Alayrac et al., 2022] 等模型开始,最近的趋势是训练多模态语言模型...
2.5.3 基于预训练主干网络的其他主流模型
Qwen。与 MiniGPT-4 类似,Qwen-VL 和 Qwen-VL-Chat [Bai et al., 2023b] 模型依赖于一个 LLM...
BLIP-2。Li 等人 [2023e] 引入了 BLIP-2,这是一个以图像作为输入并生成文本输出的视觉 - 语言模型...
3、视觉语言模型训练指导(A Guide to VLM Training)
多项研究(Henighan 等,2020b,a)揭示了扩展规模对于提升深度神经网络性能的重要性...
3.1 训练数据(Training data)
为评估预训练数据集的质量,DataComp(Gadre 等,2023)提出了一个基准...
3.1.1 用合成数据改善训练数据
一系列研究致力于通过过滤与合成数据生成来提升 VLM 训练数据中标题的质量...
3.1.2 使用数据增强技术
我们能否像自监督视觉模型一样利用数据增强?SLIP(Mu 等,2022)通过在视觉编码器上加入一个辅助自监督损失项来回答这一问题...
3.1.3 交织式数据筛选
像 Flamingo(Alayrac 等,2022)和 MM1(McKinzie 等,2024)这样的自回归语言模型表明,在训练过程中包含交织的文本和图像数据能够提升模型的少样本性能...
3.1.4 多模态数据质量评估
在 VLM 研究中,一个非常活跃的方向是识别用于训练模型的底层数据质量...
3.1.5 利用人类专业知识:数据标注的力量
近年来,利用人类数据标注在推进视觉 - 语言建模领域的重要性日益凸显...
3.2 软件(Software)
在本节中,我们讨论一些现有的软件工具,这些工具可用于评估和训练 VLM...
3.2.1 使用现有的公共软件库
3.2.2 我需要多少 GPU?
关于所需计算资源的问题非常重要,因为它在很大程度上决定了训练此类模型所需的预算...
3.2.3 加速训练
最近出现了一些软件开发进展,例如 PyTorch 团队引入的 torch.compile...
3.2.4 其他超参数的重要性
McKinzie 等(2024)研究了训练 VLM 的关键设计选择...
3.3 使用哪种模型?(Which model to use?)
正如本引言前部分所强调的,训练 VLM 存在多种方法...
3.3.1 何时使用类似 CLIP 的对比模型?
类似 CLIP 的对比模型通过在表示空间中使文本与图像表示匹配...
3.3.2 何时使用掩码?
3.3.3 何时使用生成模型?
基于扩散或自回归准则的生成模型在根据文本提示生成逼真图像方面展示了令人印象深刻的能力...
3.3.4 何时在预训练骨干上使用大型语言模型?
在计算资源有限的情况下,使用已预训练的文本或视觉编码器是一种不错的替代方案...
3.4 提升定位能力(Improving grounding)
定位能力是 VLM 和生成模型领域中的一个重要挑战...
3.4.1 使用边界框标注
像 X-VLM(Zeng 等,2022)这样的模型利用边界框标注...
3.4.2 负样本标注
在对比目标中,负样本已被广泛用于防止模型坍塌...
3.5 提升对齐能力(Improving alignment)
受语言领域指令调优成功的启发(Chung 等,2024),视觉 - 语言模型也开始在模型中引入指令微调和来自人类反馈的强化学习(RLHF)...
3.5.1 LLaVA 案例
受语言领域指令微调成功的启发,LLaVA(Liu 等,2023d)是最早在视觉 - 语言模型中引入指令微调以提升多模态聊天能力的模型之一...
3.5.2 多模态上下文学习
Otter(Li 等,2023c)表明多模态上下文学习是可行的...
3.6 提升富文本图像理解(Improving text-rich image understanding)
使用细粒度富文本数据进行指令微调:LLaVAR(Zhang 等,2023c)...
处理高分辨率图像中的细粒度文本:Monkey(Li 等,2023h)...
解耦的场景文本识别模块与多模态 LLM:Lumos(Shenoy 等,2024)...
3.7 参数高效微调(Parameter-Efficient Fine-Tuning)
训练 VLM 在跨领域视觉和语言任务中表现出极大的有效性...
基于 LoRA 的方法(LoRA-based methods)...
基于提示词的方法(Prompt-based methods)...
基于适配器的方法(Adapter-based methods)...
基于映射的方法(Mapping-based methods)...
4、负责任的 VLM 评估方法(Approaches for Responsible VLM Evaluation)
由于 VLM 的主要能力是将文本与图像进行映射,因此测量视觉 - 语言能力至关重要...
4.1 视觉 - 语言能力基准评估(Benchmarking visio-linguistic abilities)
评估 VLM 的一种方法是利用视觉 - 语言基准测试...
4.1.1 图像描述(Image captioning)
由 Chen 等人 [2015] 提出,COCO 描述数据集及挑战用于评估给定 VLM 生成的描述质量...
4.1.2 文本到图像一致性(Text-to-image consistency)
除了评估模型为给定图像生成描述的能力外,还可以评估其根据描述生成图像的能力...
4.1.3 视觉问答(Visual question answering)
视觉问答(VQA)是针对图像回答自然语言问题的任务...
4.1.4 以文本为中心的视觉问答(Text-centric Visual Question Answering)
以文本为基础的 VQA 是一项任务,涉及对图像中的文本内容相关的自然语言问题提供回答...
4.1.5 零样本图像分类(Zero-shot image classification)
零样本分类是指在模型未经过专门训练的分类任务上评估模型性能...
4.1.6 视觉 - 语言组合推理(Visio-linguistic compositional reasoning)
最近的一些基准测试引入了人为创建的、带有歧义的图像描述,用于挑战模型...
4.1.7 密集标题与裁剪 - 标题匹配(Dense captioning and crop-caption matching)
当前一代视觉语言模型通常由于文本分词器的限制,仅能处理简短的文本描述作为输入...
4.1.8 基于合成数据的视觉语言评估(Synthetic data based visio-linguistic evaluations)
使用真实数据时遇到的一个挑战是,很难找到一张能够与负面标题关联的图像...
4.2 视觉语言模型中的偏差与差异基准评估(Benchmarking Bias and disparities in VLMs)
近年来,机器学习系统中的偏差问题受到了广泛关注...
4.2.1 通过分类基准评估偏差(Benchmarking bias via classifications)
评估分类模型偏差的最常用方法之一是通过分类结果...
4.2.2 通过嵌入评估偏差(Benchmarking bias via embeddings)
另一种评估偏差的方法侧重于 VLM 的嵌入空间...
4.2.3 语言偏差可能影响你的基准!(Language biases might impact your benchmark!)
随着 VLM 领域的发展,解决多模态基准数据集策划中经常被忽视但至关重要的挑战变得尤为重要...
4.2.4 评估训练数据中特定概念如何影响下游性能
最近,Udandarao 等 [2024] 表明,训练数据中频繁出现的概念能够在下游任务中取得良好的表现...
4.3 幻觉评估(Benchmarking hallucinations)
幻觉是大型语言模型(LLMs)中的一个主要问题 [Huang 等,2023]...
4.4 记忆能力评估(Benchmarking memorization)
训练数据的潜在记忆问题已在单模态模型中得到广泛研究...
Jayaraman 等 [2024] 研究了视觉语言模型(VLM)在被其对应的图像说明查询时记忆训练图像中对象的能力...
4.5 红队测试(Red Teaming)
在基础模型的语境下指的是尝试利用模型的公共接口,使其生成一些不良输出 [Perez 等,2022]...
为了具体说明,考虑一个 VLM 被提示处理一张敏感图像...
在完成红队评估后,可以通过后处理方法或模型微调方法来缓解某些风险...
5、将 VLM 扩展到视频(Extending VLMs to Videos)
到目前为止,本论文关注的是在静态视觉数据(即图像)上训练和评估的 VLMs...
5.1 基于 BERT 的早期视频工作(Early work on Videos based on BERT)
尽管最初的视频 - 语言方法高度依赖于其设计解决的特定任务...
5.2 使用早期融合的 VLM 实现文本生成(Enabling text generation using an early-fusion VLM)
VideoOFA [Chen 等,2023c] 是一个用于视频到文本生成的早期融合 VLM...
5.3 使用预训练 VLM(Using a pretrained LLM)
图像 - 语言模型逐步趋向于利用现有大语言模型(LLM)的能力来理解文本...
5.4 评估中的机遇(Opportunities in evaluations)
虽然视频基准测试在很多方面类似于图像基准测试...
5.5 利用视频数据的挑战(Challenges in leveraging video data)
视频 - 文本预训练面临的一个挑战是当前时间维度上的(弱)监督稀缺...
6、结论(Conclusion)
将视觉映射到语言仍然是一个活跃的研究领域。从对比学习方法到生成方法,有多种方式可以训练视觉语言模型(VLM)...
VLM 的研究仍然非常活跃,因为仍有许多缺失的组成部分需要解决,以使这些模型更加可靠。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online