引言
随着大语言模型(LLM)技术的飞速发展,如何将强大的语言理解能力延伸至视觉领域,已成为当前人工智能研究的核心热点之一。多模态大语言模型(Multimodal Large Language Models, MLLMs)通过融合视觉编码器与语言模型,实现了图像描述、视觉问答及复杂推理等任务。本文从训练机制、安全性分析、高效部署及特定场景应用等多个维度,筛选并总结了十篇具有代表性的前沿论文,旨在展示当下多模态大语言模型研究的具体内容与技术趋势。
梳理了十篇关于多模态大语言模型(MLLM)的前沿研究论文,涵盖视觉表示定律、指令遵循评测基准、安全性分析、高效部署剪枝、长上下文理解及幻觉缓解等关键方向。通过介绍 Mini-Gemini、LongVA、ZipVL 等代表性工作,展示了当前 MLLM 在提升视觉能力、优化推理效率及保障模型安全方面的技术进展与未来趋势。

随着大语言模型(LLM)技术的飞速发展,如何将强大的语言理解能力延伸至视觉领域,已成为当前人工智能研究的核心热点之一。多模态大语言模型(Multimodal Large Language Models, MLLMs)通过融合视觉编码器与语言模型,实现了图像描述、视觉问答及复杂推理等任务。本文从训练机制、安全性分析、高效部署及特定场景应用等多个维度,筛选并总结了十篇具有代表性的前沿论文,旨在展示当下多模态大语言模型研究的具体内容与技术趋势。
本文深入研究了多模态大语言模型中模型性能与跨模态对齐和视觉表示相关性之间的内在联系。作者提出了'视觉表示定律'来量化这种关联。为了诠释这种相关性,作者定义了 AC 分数,即 Cross-modal alignment (A) 与 Correspondence of the vision representation (C),并认为模型的最终性能与该 AC 分数存在显著的线性关系。

为了从实验角度证实这种关系的存在,本文首先对 A 分数与 C 分数分别进行了计算。对于 A 分数(跨模态对齐),作者采用 CLIP 视觉嵌入作为参考,并计算了 CLIP 嵌入与目标视觉表示嵌入的余弦相似度作为 A 分数。对于 C 分数(视觉表示相关性),作者从若干对图像中抽取特征,并通过这些特征来预测关键点,这些预测将被用来计算 C 分数。最终,AC 分数被定义为一个多项式关系:

在后续实验中,作者在 4 个视觉相关的 benchmark 上,采用 13 个视觉表征训练了若干个线性回归模型。这些线性回归模型展示出 AC 分数与性能高达 95.72% 的相关程度,验证了其有效性。随后,作者基于 AC 分数设计了一个训练策略,该策略可以有效的预测模型性能,高效训练出最优模型。实验表明基于 AC 分数的训练策略是有效的。

本文提出了一个新的评测基准,旨在评测多模态大语言模型对于复杂指令的遵循能力。此前的工作包含了许多在开放场景下对模型能力的评测,如 LLaVA-Bench 与 MM-Vet,但这些评测对指令任务的设置往往相对宽松。MIA-Bench 希望能够评测模型严格执行复杂指令的能力,包括多层的指令与组合指令,通过建立这一更严格的标准,推动模型在实际应用中的精确性和可靠性的边界,确保输出不仅符合指令的一般意图,也能满足更加精确的复杂需求。

MIA-Bench 包含 400 个图像 - 提示对,涵盖了多样的图像内容,包括动物、食物、地标等,以覆盖广泛的现实世界场景。同时,在指令层面,作者设计了大量不同复杂度与组合程度的指令,涵盖了五个指令类别,专门用于评测模型的语言灵活性、语法准确性和描述准确性。作者采用了 GPT-4o 对不同模型生成的回复进行了自动化的评测,并揭示了当前模型在复杂指令遵循方面仍然存在的若干缺陷。

本文研究了大模型的视觉适配对于模型安全性的影响。首先,作者设计了一系列实验来研究视觉适配对大语言模型安全性的影响。作者采用 LLaMA-2 Chat 7B 与 Tulu-2 7B 作为语言基座分别进行了视觉指令微调。微调过程中存在三种设定:仅对指令数据进行基于安全性的筛选,进行视觉指令微调与安全性微调,进行视觉指令微调与 RLHF,实验结果如下所示:


实验表明,即使在对训练数据进行精心筛选的情况下,大语言模型也会出现安全性的退化。同样的,基于安全性微调的方法,包括 SFT 与 RLHF 是有效的,但是仍然无法完全保障模型的安全性能。这些发现证明了大语言模型在视觉适配的过程中存在不可避免的安全性退化。
基于这些观察,作者深入的探索了模型安全性的退化原因。此前工作已经发现了语言模型内部存在着安全性相关的层,作者沿用了这些方法,并计算了 LLaMA-2-Chat 7B and LLaMA-2-Chat-VL,进行视觉适配之前与适配之后的模型,在相关层中隐藏状态的相似程度。作者发现,LLM 和 LVLM 早期层之间的余弦相似度接近 1.0,表明这些层的行为几乎完全相同。然而,这种相似度在更深层中急剧下降到大约 0.2,表明出现了显著的分歧。作者观察到从视觉适配的早期到后期,隐藏层状态的相似度出现了逐渐下降。此前的工作将第 6 层到第 14 层识别为主要的安全层,本文的分析显示,这些层的余弦相似度降至大约 0.5,表明在视觉适配训练期间发生了重大变化,并对模型的安全性造成的潜在的负面影响。
基于以上实验结论,作者提出了基于模型参数合并的方法来高效地解决多模态大语言模型的安全性退化问题。通过将安全性微调后的多模态大语言模型与原始的多模态大语言模型的参数进行合并,模型既避免的视觉能力的明显下降,又保持了较高的安全性,有效的解决了模型安全性退化的问题。
本文提出了一个新的多模态大语言模型:Mini-Gemini。尽管现有的开源多模态大语言模型在基本视觉对话和推理方面取得了进展,但与 GPT-4 和 Gemini 等高级模型相比,仍存在性能差距。为了弥补这样的视觉差距,本文希望从三个方面来挖掘 MLLM 的潜力,即高分辨率视觉令牌、高质量数据和由多模态模型指导的生成。
具体来讲,为了增强 MLLM 在不同分辨率上的性能,Mini-Gemini 引入了双视觉编码器。在低分辨率的场景下,模型采用了传统的处理流程,并使用预训练的 CLIP-ViT 编码器来编码视觉嵌入。通过这种方式,可以很好地保留不同视觉令牌之间的长距离关系,以便后续在大型语言模型中进行交互。在高分辨率场景下,作者采用基于 CNN 的编码器来进行自适应且高效的高分辨率图像处理。基于上述的不同分辨率特征,作者提出了块信息挖掘,基于低分辨率视觉令牌检索出最有效的高质量高分辨率视觉令牌,在保证总令牌数不变的情况下,增加输入视觉信息的有效性。同时,由于框架的灵活性,用户可以轻易的进行视觉令牌扩展,通过更多的视觉令牌数获得更好的性能,如下图所示:

在数据侧,Mini-Gemini 同时支持视觉 - 语言生成与语言 - 视觉生成。首先,与此前工作类似,Mini-Gemini 从多个数据源中获得了大量的视觉指令数据,并用于视觉指令微调。除此之外,作者还基于 GPT4 生成了 13K 的指令遵循数据,这些数据可以帮助模型在实际场景中生成有意义的 prompt,并借助 Stable Diffusion 进行图片生成。总的来说,Mini-Gemini 进一步挖掘了 VLMs 的潜力,并同时赋予当前框架图像理解、推理和生成的能力。
基于 Mini-Gemini 框架,作者开发了一系列从 2B 到 34B 的密集型和 MoE 大型语言模型。这些模型在若干个零样本基准测试中取得了领先性能,甚至超过了部分闭源模型。

本文主要研究了多模态大语言模型的高效部署问题。尽管 MLLM 在复杂视觉推理任务中取得了令人满意的表现,但在部署时仍面临高资源消耗的问题。本篇文章提出了一种大型视觉 - 语言模型的自动剪枝方法,用于高效的视觉推理。与传统方法不同,SLIMLLAVA 仅使用少量样本搜索所需的剪枝策略,通过最大化模型在未知数据上的泛化能力,从而获得大型视觉 - 语言模型的最优精度 - 效率权衡。

具体而言,由于可用于剪枝的样本有限,对搜索到的剪枝策略的真实网络目标进行评估非常具有挑战性。因此,作者通过结构风险最小化(SRM)原则来最大化剪枝策略的泛化能力,该原则可以通过经验风险和未见数据分布界定。作者经过一系列推导证明,低权重范数表明模型输出与输入的相关性弱,因此对不同数据分布有高泛化能力。尽管对在有限样本上进行准确度 - 效率的权衡是困难的,依然鼓励剩余的模型部分具有较低的权重范数。这样,最终的剪枝策略能够保证模型适应没有见过的下游任务分布。由于在视觉适配训练中,MLLM 通常采用 Projector 层对视觉特征映射到 LLM 的输入空间,因此,其在融合视觉和语言模态方面扮演着至关重要的角色。因此,作者将 Projector 层的权重视作剪枝策略的搜索空间,该部分权重的优化就被等价于搜索空间的进化。此后,作者提出了一系列方法,基于欧氏距离对搜索空间进行优化,并得到了最终的最优剪枝策略。基于以上剪枝策略,作者在 LLaVA 上进行了广泛的测试,并证明了其在若干个下游任务上的有效性。

本文聚焦于通过视觉理解能力的提升来增强多模态大语言模型。作者提出了一种多模态语言模型 Arcana,并开发了两项关键技术以提升模型性能。首先,作者引入了多模态 LoRA(MM-LoRA),旨在增强解码器在视觉 - 语言理解中的作用。与传统的语言模型解码器不同,MM-LoRA 包含两个并行的 LoRA—一个用于视觉,一个用于语言,并且分别都具备自己独特的参数。这种解耦的参数设计使得每种模态都能进行更专业的学习,并更好地整合多模态信息。其次,作者引入了梯形的查询适配器(QLadder),用于改善视觉编码器。QLadder 采用了一个可学习的'梯形'结构,对来自于预训练好的视觉编码器(如 CLIP)的中间表示进行深度聚合,使得模型能够学习到新的,高度信息密集的视觉特殊特征,同时保留了视觉编码器原有的强大能力。这些技术很好的增强了 Arcana 在多模态场景下的视觉感知能力,提高了在不同下游任务的性能。

本文主要聚焦于长视频理解任务,这些任务提供了宝贵的时序信息,但现有的多模态大语言模型在理解长视频时依然存在不足。此前的主要方法是,通过使用视觉重采样器,减少视觉令牌的数量来解决这一问题。本文从一个新的视角,即语言模型的角度来探讨这一问题。作者发现,仅仅通过简单地扩展语言骨干的上下文长度,多模态大语言模型能够在没有任何视频数据训练的情况下理解数量更多的视觉令牌,作者将这一现象称作上下文转移。为了进一步的衡量多模态模型在视觉模态中对长上下文的泛化能力,作者开发了 V-NIAH(Visual Needle-In-A-Haystack),一个受语言模型中 NIAH 基准而启发的长视频理解基准。本文提出了长视频助手(LongVA)可以处理 2000 帧,或超过 200K 的视觉令牌,而不需要额外的复杂设计。通过这种简易的上下文拓展方法,LongVA 在 Video-MME 和 MLVU 基准上实现了 7B 模型中的最先进性能。
本文主要研究了大型视觉语言模型(LVLMs)的效率问题。LVLM 的效率受到预填充阶段注意力机制的计算瓶颈以及解码阶段获取键值(KV)缓存的内存瓶颈的限制,特别是在涉及高分辨率图像或视频的场景中。视觉内容通常显示出大量的冗余,导致 LVLMs 中的注意力图显著稀疏。在以往的工作中,这种稀疏性可以通过加速注意力计算或压缩 KV 缓存的各种方法来解决。然而,大多数研究只关注解决其中一个瓶颈,并且不能支持针对不同层以及不同任务稀疏性的动态调整。本文提出了一个为 LVLMs 设计的高效推理框架 ZipVL,通过动态调整重要令牌比例来解决计算和内存瓶颈。此处的令牌比例是基于不同层的特定注意力分布自适应确定的,而不是固定的超参数,从而为较简单的任务提高效率,同时为更具挑战性的任务保持高性能。随后,这些归一化注意力得分被用于选择重要令牌,并仅对这些重要令牌执行注意力计算以加速预填充阶段。为了缓解解码阶段的内存瓶颈,作者对 KV 缓存采用混合精度量化,对重要令牌的缓存使用高位量化,而对不那么重要的令牌的缓存应用低位量化。实验表明,ZipVL 可以将预填充阶段加速 2.6 倍,并将 GPU 内存使用量减少 50.0%,在 Video-MME 基准上仅使 LongVA-7B 模型的准确度降低了 0.2%,有效提高了 LVLMs 的生成效率。


本文主要研究了多模态大语言模型(MLLMs)在多模态数学推理上的应用。大型语言模型在数学推理方面展示了显著的能力,特别是在处理基于文本的数学问题时。然而,当前的 MLLMs,特别是那些专注于数学推理的模型,主要集中在解决几何问题上,却忽视了数学其他领域可用的多样性视觉信息。此外,这些专门的数学 MLLMs 所依赖的几何信息通常来源于几个公共数据集,这些数据集在多样性和复杂性上通常是有限的。为了解决这些限制,作者构建了一个名为 MathVL 的微调数据集,并通过在 MathVL 上进行有监督的微调(SFT),开发了一系列专门的,使用不同参数规模的数学推理 MLLMs,称为 MathGLM-Vision。为了全面评估 MathGLM-Vision 的有效性,作者在几个公共基准测试和精心设计的包含 2000 个问题的 MathVL-test 基准测试上进行实验。实验结果表明,与一些现有模型(包括骨干模型和开源数学推理 MLLMs)相比,MathGLM-Vision 取得了显著的改进。这些发现表明,多样化数据集在提升 MLLMs 的数学推理能力方面具有显著的重要性。


本文主要研究了大型视觉语言模型(LVLMs)中的幻觉问题。为了缓解这一问题,此前的一些工作通过人为干扰原始视觉或指令输入来诱发幻觉,然后通过对比原始和干扰后的 LVLMs 输出来生成正负样本对,通过一些对齐训练的方法来减轻幻觉。然而,这种基于全面输入干扰的方式有时会引入潜在的噪声,并且还会使推理成本翻倍。为了解决这些问题,作者提出了一种简单而有效的方法,名为自反省解码(Self-Introspective Decoding,SID)。作者通过一系列经验性实验证明,预训练的 LVLMs 能够自反省地评估视觉令牌的重要性,这种评估是基于先前的视觉和文本令牌来进行的。基于这一发现,作者开发了一种基于文本和上下文感知的令牌选择策略(Context and Text-aware Token Selection,CT2S),该策略仅保留早期解码层后最不重要的视觉令牌,从而在自回归解码过程中适应性地放大视觉与文本关联的幻觉。这种策略确保模型在早期解码层接受的多模态知识能够诱导幻觉的产生,这种幻觉无目的的,并显著减少计算负担。随后,通过在原始令牌中削减这类幻觉相关的令牌,可以有效地缓解幻觉问题,同时不影响 LVLMs 的一般能力。广泛的实验表明,基于 SID 方法推理,模型生成的文本幻觉较少,质量更高,且不产生明显的额外计算成本。
通过对上述十篇论文的梳理,我们可以清晰地看到多模态大语言模型领域的几个关键发展趋势:
总体而言,多模态大语言模型正处于快速演进期,如何在保持高性能的同时降低资源消耗、提升安全性与可靠性,将是未来研究的核心挑战。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online