引言
随着大语言模型(LLM)技术的飞速发展,如何将强大的语言理解能力延伸至视觉领域,已成为当前人工智能研究的核心热点之一。多模态大语言模型(Multimodal Large Language Models, MLLMs)通过融合视觉编码器与语言模型,实现了图像描述、视觉问答及复杂推理等任务。本文从训练机制、安全性分析、高效部署及特定场景应用等多个维度,筛选并总结了十篇具有代表性的前沿论文,旨在展示当下多模态大语言模型研究的具体内容与技术趋势。
LAW OF VISION REPRESENTATION IN MLLMS
本文深入研究了多模态大语言模型中模型性能与跨模态对齐和视觉表示相关性之间的内在联系。作者提出了'视觉表示定律'来量化这种关联。为了诠释这种相关性,作者定义了 AC 分数,即 Cross-modal alignment (A) 与 Correspondence of the vision representation (C),并认为模型的最终性能与该 AC 分数存在显著的线性关系。

为了从实验角度证实这种关系的存在,本文首先对 A 分数与 C 分数分别进行了计算。对于 A 分数(跨模态对齐),作者采用 CLIP 视觉嵌入作为参考,并计算了 CLIP 嵌入与目标视觉表示嵌入的余弦相似度作为 A 分数。对于 C 分数(视觉表示相关性),作者从若干对图像中抽取特征,并通过这些特征来预测关键点,这些预测将被用来计算 C 分数。最终,AC 分数被定义为一个多项式关系:

在后续实验中,作者在 4 个视觉相关的 benchmark 上,采用 13 个视觉表征训练了若干个线性回归模型。这些线性回归模型展示出 AC 分数与性能高达 95.72% 的相关程度,验证了其有效性。随后,作者基于 AC 分数设计了一个训练策略,该策略可以有效的预测模型性能,高效训练出最优模型。实验表明基于 AC 分数的训练策略是有效的。

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
本文提出了一个新的评测基准,旨在评测多模态大语言模型对于复杂指令的遵循能力。此前的工作包含了许多在开放场景下对模型能力的评测,如 LLaVA-Bench 与 MM-Vet,但这些评测对指令任务的设置往往相对宽松。MIA-Bench 希望能够评测模型严格执行复杂指令的能力,包括多层的指令与组合指令,通过建立这一更严格的标准,推动模型在实际应用中的精确性和可靠性的边界,确保输出不仅符合指令的一般意图,也能满足更加精确的复杂需求。

MIA-Bench 包含 400 个图像 - 提示对,涵盖了多样的图像内容,包括动物、食物、地标等,以覆盖广泛的现实世界场景。同时,在指令层面,作者设计了大量不同复杂度与组合程度的指令,涵盖了五个指令类别,专门用于评测模型的语言灵活性、语法准确性和描述准确性。作者采用了 GPT-4o 对不同模型生成的回复进行了自动化的评测,并揭示了当前模型在复杂指令遵循方面仍然存在的若干缺陷。













