VLM 经典论文综述：An Introduction to Vision-Language Modeling

综述由AI生成是一篇关于视觉语言模型（VLM）的经典论文综述。文章首先介绍了 VLM 的定义、工作原理及训练方法，随后探讨了 VLM 的评估方法。内容涵盖了 VLM 的四大训练范式：基于 Transformer 的早期工作、基于对比学习、基于掩码目标以及基于生成的模型，并详细分析了基于预训练主干网络的 VLM 如 MiniGPT 和 Qwen。此外，文章提供了详细的训练指导，包括数据筛选、软件工具、模型选择、定位与对齐能力提升技巧。在评估方面，讨论了负责任评估方法，涵盖视觉 - 语言能力基准、偏差与差异评估、幻觉及记忆能力评估。最后，文章还探讨了将 VLM 扩展到视频领域的挑战与机遇。

活在当下发布于 2026/4/6更新于 2026/5/2230 浏览

前言

本文对视觉语言模型（VLM）进行了介绍，阐释了 VLM 的定义、训练方法，以及如何依据不同的研究目标对其进行有效评估。随着大型语言模型（LLM）近期备受瞩目，学界已出现多种尝试将其扩展至视觉领域。从能够引导人们穿越陌生环境的视觉助手，到仅凭高级文本描述即可生成图像的生成式模型，视觉语言模型（VLM）的应用将深远地影响人类与技术的交互方式。

在这里插入图片描述

1、介绍（Introduction）

近年来，语言建模领域取得了令人瞩目的进展。许多大型语言模型（LLM）如今已能解决种类繁多的任务，其应用正日益普及。这些原本主要局限于文本输入的模型，现已扩展至具备视觉输入能力。将视觉与语言相连将解锁众多应用，而这些应用正是当前基于人工智能的技术革命之关键。尽管已有若干工作将大型语言模型扩展至视觉领域，但语言与视觉的连接问题尚未得到彻底解决。

本文对视觉语言模型（VLM）进行了介绍，阐释了 VLM 的定义、训练方法，以及如何依据不同的研究目标对其进行有效评估。需要说明的是，本文不应被视为关于 VLM 的综述或详尽指南，因此并未旨在引用该研究领域的所有文献，亦未囊括该领域内的所有最佳实践。相反，本文旨在为 VLM 研究提供一个清晰易懂的入门介绍，并着重指出该领域研究的有效实践方法。

2、视觉语言模型家族（The Families of VLMs）

鉴于深度学习在计算机视觉和自然语言处理领域所取得的显著进展，学界已采取多项举措来连接这两个领域。本文重点关注基于 Transformer 的最新技术，并将其归类为四种不同的训练范式。

图 1：VLM 的家族。 对比训练是一种常用的策略，它利用正例和反例对，VLM 被训练为预测正例对的相似表示，同时预测反例对的不同表示。掩码是另一种可用于训练 VLM 的策略，它通过给定未被掩码的文本标题来重建缺失的图像块。生成式 VLM 的训练方式使其能够生成完整的图像或非常长的标题，鉴于这些模型的特性，它们的训练成本通常最高。

2.1 基于 Transformer 的早期 VLM 工作

通过使用 Transformer 架构，来自 Transformer 的双向编码器表示（BERT）在当时显著超越了所有语言建模方法。研究人员已将 BERT 扩展到处理视觉数据。其中两个模型是 VisualBERT 和 ViLBERT，它们将文本与图像 token 结合起来。

2.2 基于对比学习的 VLM

对比训练方法确实通过基于能量的模型的视角来更好地解释。InfoNCE 损失并未预测一个二元值，而是利用在模型表示空间中计算的距离度量。对于诸如 SimCLR 等自监督学习方法，正样本对被定义为一个图像及其对应的手工数据增强版本。

2.2.1 CLIP

使用 InfoNCE 损失的常见对比方法是对比语言 - 图像预训练（CLIP）。原始 CLIP 模型在从网络收集的 4 亿个标题 - 图像对上进行训练，展示了卓越的零样本分类迁移能力。

SigLIP 与 CLIP 相似，不同之处在于它使用基于二元交叉熵的原始 NCE 损失，而非使用基于 InfoNCE 的 CLIP 多类别目标函数。

2.3 掩码目标视觉语言模型

掩码是深度学习研究中常用的一种技术。它可以被视为去噪自编码器的一种特定形式。最近，BERT 在训练期间使用了掩码语言建模来预测句子中缺失的 token。

2.3.1 FLAVA

基于掩码方法的一个首要例子是基础语言和视觉对齐模型（FLAVA）。它的架构包括三个核心组件，每个组件均基于 Transformer 框架并针对特定的模态进行定制。

2.3.2 MaskVLM

Kwon 等人引入了 MaskVLM，它直接在像素空间和文本 token 空间应用掩码。

2.3.3 VLM 目标的信息论观点

Federici 等人首先表明，VLM 可以被理解为通过减少多余信息和最大化预测信息来解决一个率失真问题。

2.4 基于生成的视觉语言模型

与之前主要在潜在表示上操作以构建图像或文本抽象，然后进行相互映射的训练范式不同，生成式范式考虑的是文本和/或图像的生成。

2.4.1 学习一个文本生成器的例子：CoCa

前言

在这里插入图片描述

1、介绍（Introduction）

2、视觉语言模型家族（The Families of VLMs）

2.1 基于 Transformer 的早期 VLM 工作

2.2 基于对比学习的 VLM

2.2.1 CLIP

SigLIP 与 CLIP 相似，不同之处在于它使用基于二元交叉熵的原始 NCE 损失，而非使用基于 InfoNCE 的 CLIP 多类别目标函数。

2.3 掩码目标视觉语言模型

2.3.1 FLAVA

2.3.2 MaskVLM

Kwon 等人引入了 MaskVLM，它直接在像素空间和文本 token 空间应用掩码。

2.3.3 VLM 目标的信息论观点

Federici 等人首先表明，VLM 可以被理解为通过减少多余信息和最大化预测信息来解决一个率失真问题。

2.4 基于生成的视觉语言模型

与之前主要在潜在表示上操作以构建图像或文本抽象，然后进行相互映射的训练范式不同，生成式范式考虑的是文本和/或图像的生成。

VLM 经典论文综述：An Introduction to Vision-Language Modeling

前言

1、介绍（Introduction）

2、视觉语言模型家族（The Families of VLMs）

2.1 基于 Transformer 的早期 VLM 工作

2.2 基于对比学习的 VLM

2.2.1 CLIP

2.3 掩码目标视觉语言模型

2.3.1 FLAVA

2.3.2 MaskVLM

2.3.3 VLM 目标的信息论观点

2.4 基于生成的视觉语言模型

2.4.1 学习一个文本生成器的例子：CoCa

VLM 经典论文综述：An Introduction to Vision-Language Modeling

前言

1、介绍（Introduction）

2、视觉语言模型家族（The Families of VLMs）

2.1 基于 Transformer 的早期 VLM 工作

2.2 基于对比学习的 VLM

2.2.1 CLIP

2.3 掩码目标视觉语言模型

2.3.1 FLAVA

2.3.2 MaskVLM

2.3.3 VLM 目标的信息论观点

2.4 基于生成的视觉语言模型

2.4.1 学习一个文本生成器的例子：CoCa

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.4.2 多模态生成模型实例：Chameleon 和 CM3leon

2.4.3 利用生成式文本到图像模型解决下游视觉 - 语言任务

2.5 基于预训练主干网络的视觉语言模型

2.5.1 冻结权重

2.5.2 示例：MiniGPT

2.5.3 基于预训练主干网络的其他主流模型

3、视觉语言模型训练指导

3.1 训练数据

3.1.1 用合成数据改善训练数据

3.1.2 使用数据增强技术

3.1.3 交织式数据筛选

3.1.4 多模态数据质量评估

3.1.5 利用人类专业知识：数据标注的力量

3.2 软件

3.2.1 使用现有的公共软件库

3.2.2 我需要多少 GPU？

3.2.3 加速训练

3.2.4 其他超参数的重要性

3.3 使用哪种模型？

3.3.1 何时使用类似 CLIP 的对比模型？

3.3.2 何时使用掩码？

3.3.3 何时使用生成模型？

3.3.4 何时在预训练骨干上使用大型语言模型？

3.4 提升定位能力

3.4.1 使用边界框标注

3.4.2 负样本标注

3.5 提升对齐能力

3.5.1 LLaVA 案例

3.5.2 多模态上下文学习

3.6 提升富文本图像理解

3.7 参数高效微调

4、负责任的 VLM 评估方法

4.1 视觉 - 语言能力基准评估

4.1.1 图像描述

4.1.2 文本到图像一致性

4.1.3 视觉问答

4.1.4 以文本为中心的视觉问答

4.1.5 零样本图像分类

4.1.6 视觉 - 语言组合推理

4.1.7 密集标题与裁剪 - 标题匹配

4.1.8 基于合成数据的视觉语言评估

4.2 视觉语言模型中的偏差与差异基准评估

4.2.1 通过分类基准评估偏差

4.2.2 通过嵌入评估偏差

4.2.3 语言偏差可能影响你的基准！

4.2.4 评估训练数据中特定概念如何影响下游性能

4.3 幻觉评估

4.4 记忆能力评估

4.5 红队测试

5、将 VLM 扩展到视频

5.1 基于 BERT 的早期视频工作