视觉语言模型（VLM）综述：An Introduction to VLM

综述了视觉语言模型（VLM）的发展现状与关键技术。内容涵盖 VLM 的四种训练范式：基于对比学习、掩码目标、生成式及预训练主干网络。文章详细指导了 VLM 的训练数据筛选、软件工具选择及参数微调策略，并探讨了提升定位与对齐能力的方法。此外，还介绍了负责任评估 VLM 能力的基准测试，包括偏差、幻觉及视频扩展应用的挑战与机遇。旨在为研究者提供清晰的入门指南与实践参考。

剑仙发布于 2026/4/6更新于 2026/7/2753 浏览

前言

题目：An Introduction to Vision-Language Modeling 单位：Meta 相关

论文摘要：随着大型语言模型（LLM）近期备受瞩目，学界已出现多种尝试将其扩展至视觉领域。从能够引导人们穿越陌生环境的视觉助手，到仅凭高级文本描述即可生成图像的生成式模型，视觉语言模型（VLM）的应用将深远地影响人类与技术的交互方式。然而，要提高这些模型的可靠性，仍需克服诸多挑战，因为语言本质上是离散的，而视觉则演变于维度极高的空间中，其中的概念往往难以被简单地离散化。为了深入理解视觉到语言映射背后的机制，本文对 VLM 进行了介绍，旨在为有意涉足该领域的研究者提供参考。本文首先介绍了 VLM 的定义、工作原理及其训练方法，随后提出并探讨了 VLM 的评估方法，尽管本文主要关注从图像到语言的映射，但也探讨了将 VLM 扩展至视频领域的可能性。

在这里插入图片描述

1、介绍（Introduction）

近年来，语言建模领域取得了令人瞩目的进展。许多大型语言模型（LLM）（如 Llama 或 ChatGPT）如今已能解决种类繁多的任务，其应用正日益普及。这些原本主要局限于文本输入的模型，现已扩展至具备视觉输入能力。将视觉与语言相连将解锁众多应用，而这些应用正是当前基于人工智能的技术革命之关键。尽管已有若干工作将大型语言模型扩展至视觉领域，但语言与视觉的连接问题尚未得到彻底解决。例如，若无依赖额外数据标注的复杂工程辅助，大多数模型在理解空间关系或计数方面仍显吃力。许多视觉语言模型（VLM）也缺乏对属性和顺序的理解。它们往往会忽略输入提示词的某些部分，导致需投入大量精力进行提示词工程以获取预期结果。部分模型甚至会产生幻觉，生成非必需且不相关的内容。因此，开发可靠的模型仍是当前一个非常活跃的研究领域。

本文对视觉语言模型（VLM）进行了介绍，阐释了 VLM 的定义、训练方法，以及如何依据不同的研究目标对其进行有效评估。需要说明的是，本文不应被视为关于 VLM 的综述或详尽指南，因此并未旨在引用该研究领域的所有文献，亦未囊括该领域内的所有最佳实践。相反，本文旨在为 VLM 研究提供一个清晰易懂的入门介绍，并着重指出该领域研究的有效实践方法，这对于希望涉足该领域的学生或其他领域的研究人员将尤为有益。

本文首先介绍了不同的 VLM 训练范式，探讨了对比学习方法如何改变了这一领域，随后介绍了利用掩码策略或生成组件的方法，最后介绍了使用预训练主干网络（如 LLM）的 VLM。尽管将 VLM 归类并非易事，因为大多数模型都包含重叠的组件，但本文希望这种分类能帮助新研究人员在该领域探索，并阐明 VLM 背后的内部机制。

接下来，本文将介绍训练 VLM 的典型方法。例如，本文涵盖了以下问题：针对不同的研究目标，哪些数据集是合适的？应采用哪种数据管理策略？是否需要训练文本编码器，或可否利用预训练的 LLM？以及对比损失对于视觉理解是否足够，或者生成组件是否是关键？本文还介绍了用于提升模型性能，以及增强接地和更好对齐的常用技术。

尽管提供模型训练方法是更好地理解 VLM 需求的关键一步，但提供对这些模型的稳健可靠评估同样重要。近期已引入许多用于评估 VLM 的基准，然而，其中一些基准存在研究人员必须注意到的固有局限性。通过讨论 VLM 基准的优势和劣势，本文希望能够阐明未来的挑战，以加深我们对 VLM 的理解。本文首先讨论评估 VLM 视觉 - 语言能力的基准，然后介绍如何衡量模型偏差。

下一代 VLM 将能够通过实现视频到语言的映射来理解视频。然而，视频所带来的挑战不同于图像，计算成本自然要高得多，但同时还有关于如何通过文本来映射时间维度的其他考量。通过阐明当前从视频中学习的方法，本文希望能突出需要应对的当前研究挑战。

通过降低 VLM 研究的门槛，本文希望为 VLM 更负责任的发展奠定基础，同时推动视觉理解的界限。

2、视觉语言模型家族（The Families of VLMs）

鉴于深度学习在计算机视觉和自然语言处理领域所取得的显著进展，学界已采取多项举措来连接这两个领域。本文重点关注基于 Transformer [Vaswani et al., 2017] 的最新技术，并将其归类为四种不同的训练范式（图 1）。第一种是对比训练，这是一种常用的策略，它利用正例和反例对，VLM 被训练为预测正例对的相似表示，同时预测反例对的不同表示。第二种举措是掩码，它利用给定未被掩码的文本来重建被掩码的图像块。同样地，通过掩码标题中的词语，可以训练 VLM 在给定未被掩码图像的情况下重建这些词语。基于预训练主干的 VLM 通常利用 Llama [Touvron et al., 2023] 等开源 LLM，来学习图像编码器（该编码器也可能是预训练的）与 LLM 之间的映射。学习预训练模型之间的映射通常比从头开始训练文本和图像编码器在计算上成本更低。尽管这些方法大多利用中间表示或部分重建，但生成式 VLM 的训练方式使其能够生成图像或标题，鉴于这些模型的特性，它们的训练成本通常最高。本文强调这些范式并非相互排斥；许多方法依赖于对比、掩码和生成标准的混合。对于每种范式，本文仅介绍一到两个模型，以便为读者提供关于这些模型设计思路的一些高层次见解。

在这里插入图片描述

前言

题目：An Introduction to Vision-Language Modeling 单位：Meta 相关

在这里插入图片描述

1、介绍（Introduction）

通过降低 VLM 研究的门槛，本文希望为 VLM 更负责任的发展奠定基础，同时推动视觉理解的界限。

2、视觉语言模型家族（The Families of VLMs）

在这里插入图片描述

视觉语言模型（VLM）综述：An Introduction to VLM

前言

1、介绍（Introduction）

2、视觉语言模型家族（The Families of VLMs）

视觉语言模型（VLM）综述：An Introduction to VLM

前言

1、介绍（Introduction）

2、视觉语言模型家族（The Families of VLMs）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1 基于 Transformer 的早期 VLM 工作（Early work on VLMs based on transformers）

2.2 基于对比学习的 VLM（Contrastive-based VLMs）

2.2.1 CLIP

2.3 掩码目标视觉语言模型（VLMs with masking objectives）

2.3.1 FLAVA

2.3.2 MaskVLM

2.3.3 VLM 目标的信息论观点（Information theoretic view on VLM objectives）

2.4 基于生成的视觉语言模型（Generative-based VLMs）

2.4.1 学习一个文本生成器的例子：CoCa

2.4.2 多模态生成模型实例：Chameleon 和 CM3leon

2.4.3 利用生成式文本到图像模型解决下游视觉 - 语言任务

2.5 基于预训练主干网络的视觉语言模型（VLMs from Pretrained Backbones）

2.5.1 冻结权重（Frozen）

2.5.2 示例：MiniGPT

2.5.3 基于预训练主干网络的其他主流模型

3、视觉语言模型训练指导（A Guide to VLM Training）

3.1 训练数据（Training data）

3.1.1 用合成数据改善训练数据

3.1.2 使用数据增强技术

3.1.3 交织式数据筛选

3.1.4 多模态数据质量评估

3.1.5 利用人类专业知识：数据标注的力量

3.2 软件（Software）

3.2.1 使用现有的公共软件库

3.2.2 我需要多少 GPU？

3.2.3 加速训练

3.2.4 其他超参数的重要性

3.3 使用哪种模型？（Which model to use?）

3.3.1 何时使用类似 CLIP 的对比模型？

3.3.2 何时使用掩码？

3.3.3 何时使用生成模型？

3.3.4 何时在预训练骨干上使用大型语言模型？

3.4 提升定位能力（Improving grounding）

3.4.1 使用边界框标注

3.4.2 负样本标注

3.5 提升对齐能力（Improving alignment）

3.5.1 LLaVA 案例

3.5.2 多模态上下文学习

3.6 提升富文本图像理解（Improving text-rich image understanding）

3.7 参数高效微调（Parameter-Efficient Fine-Tuning）

4、负责任的 VLM 评估方法（Approaches for Responsible VLM Evaluation）

4.1 视觉 - 语言能力基准评估（Benchmarking visio-linguistic abilities）

4.1.1 图像描述（Image captioning）

4.1.2 文本到图像一致性（Text-to-image consistency）

4.1.3 视觉问答（Visual question answering）

4.1.4 以文本为中心的视觉问答（Text-centric Visual Question Answering）

4.1.5 零样本图像分类（Zero-shot image classification）

4.1.6 视觉 - 语言组合推理（Visio-linguistic compositional reasoning）

4.1.7 密集标题与裁剪 - 标题匹配（Dense captioning and crop-caption matching）

4.1.8 基于合成数据的视觉语言评估（Synthetic data based visio-linguistic evaluations）

4.2 视觉语言模型中的偏差与差异基准评估（Benchmarking Bias and disparities in VLMs）

4.2.1 通过分类基准评估偏差（Benchmarking bias via classifications）

4.2.2 通过嵌入评估偏差（Benchmarking bias via embeddings）

4.2.3 语言偏差可能影响你的基准！（Language biases might impact your benchmark!）

4.2.4 评估训练数据中特定概念如何影响下游性能

4.3 幻觉评估（Benchmarking hallucinations）

4.4 记忆能力评估（Benchmarking memorization）

4.5 红队测试（Red Teaming）

5、将 VLM 扩展到视频（Extending VLMs to Videos）

5.1 基于 BERT 的早期视频工作（Early work on Videos based on BERT）

5.2 使用早期融合的 VLM 实现文本生成（Enabling text generation using an early-fusion VLM）

5.3 使用预训练 VLM（Using a pretrained LLM）

5.4 评估中的机遇（Opportunities in evaluations）

5.5 利用视频数据的挑战（Challenges in leveraging video data）

6、结论（Conclusion）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具