中科大等研究发现:大模型不看图也能回答视觉问题
中科大等团队发现现有大模型在视觉基准测试中表现优异可能源于数据泄露或题目本身无需看图。研究指出评估样本缺乏视觉依赖性及训练数据泄露是两大主因。为此团队提出 MMStar 新基准,包含 1500 个高视觉依赖性样本,并引入多模态增益与泄露指标。实测显示 GPT-4V 等新模型在精细感知、逻辑推理等维度仍未及格,揭示了当前多模态评估的不足及改进方向。

中科大等团队发现现有大模型在视觉基准测试中表现优异可能源于数据泄露或题目本身无需看图。研究指出评估样本缺乏视觉依赖性及训练数据泄露是两大主因。为此团队提出 MMStar 新基准,包含 1500 个高视觉依赖性样本,并引入多模态增益与泄露指标。实测显示 GPT-4V 等新模型在精细感知、逻辑推理等维度仍未及格,揭示了当前多模态评估的不足及改进方向。

近日,中国科学技术大学、香港中文大学及上海人工智能实验室的研究团队意外发现了一个值得关注的现象。在多项多模态基准测试中,包括 GPT-4V、Gemini Pro、Qwen1.5-72B、Yi-VL-34B 以及 LLaVA-Next-34B 在内的大模型,无论是闭源还是开源,无论是纯语言模型还是多模态模型,仅根据问题和选项的文本信息,就能获得相当不错的成绩。
这一发现引发了业界的广泛讨论:我们评估多模态模型的方法是否真的正确?现有的评估体系是否存在漏洞?
针对现有的评估样本和评估过程,研究团队认为造成上述现象的主要原因集中在两个方面:评估样本缺乏视觉依赖性以及训练数据泄露。
这一问题反映了当前主流 Benchmark(基准测试)设计中的不合理之处,具体表现为两种情况:
这种设计缺陷使得多模态模型与纯语言模型之间的性能差距被人为缩小,无法真实反映模型的多模态理解能力。
现有的多模态大模型(LVLMs)通常由视觉编码器(Vision Encoder)、语言模型基座(Language Model Base)以及视觉 - 语言连接件(Connector)组成。然而,现有的多模态 Benchmark 中有大量的评估样本是从单模态的文本语料中转化而来的(例如将考试题目转化为图文形式)。
如果大语言模型的预训练数据中无意间泄露了这些多模态 Benchmark 中转化不充分的评估样本,就会严重影响 LVLMs 之间公平比较的准确性。当模型在训练阶段已经'见过'测试题时,其在测试集上的高分并不能代表真正的泛化能力。
为了定量观察大语言模型中广泛存在的泄露现象,研究团队采用了 22 个大语言模型在 6 个公开 Benchmark 上进行评估。这些模型涵盖了 2 个闭源模型(GPT-4 Turbo 以及 Gemini Pro)和 20 个大小、架构各异的开源模型(如 Qwen 系列、LLaMA2 系列、Baichuan 系列、Mixtral-8x7B 等),并使用了 2-shot 推理策略来减少拒绝回答的情况以及对齐回答格式。
结果显示,闭源模型 Gemini Pro 和开源模型 Qwen1.5-72B 在极具挑战性的 MMMU 基准上可以分别取得 42.7 和 42.4 的成绩,一度逼近 Gemini Pro-Vision (44.4)、LLaVA-Next-34B (47.0) 和 Yi-VL-34B (43.2) 等多模态模型在能看到图片情况下的表现。
进一步的实验还定量观察了多模态大模型在训练过程中的数据泄露情况:屏蔽了 LVLM 的图片输入从而只根据文本问题和选项来进行评估(标记为 LVLM-text)。实验表明,像 Sphinx-X-MoE 和 Monkey-Chat 经过多模态训练后在不看图的情况下相比原始大模型在 MMMU 基准上可以分别提升惊人的 17.9 和 12.6 分,而它们即使进一步在看到图片的情况下也只能获得 1.2 和 4.7 的性能提升。这说明大部分性能增益实际上来自于文本信息的记忆而非视觉能力的增强。
为了解决上述问题从而进行更公平和准确的评估,研究者们设计了一个新的多模态评估基准——MMStar。
MMStar 包含了 1,500 个具有严格视觉依赖性的高质量评估样本。这些样本经过了人工筛选和验证,确保答案必须依赖图片内容才能得出。基准涵盖了样本均衡的六个核心能力维度:粗略感知、精细感知、实例推理、逻辑推理、科学技术和数学,共计 18 个详细的能力维度。
伴随着 MMStar benchmark,作者们还提出了两个关键评估指标:
为了检验所提出的 MMStar 质量,研究团队进行了三项关键评估。
用 22 个大语言模型只根据 MMStar 中的问题和选项进行了评估。结果显示,它们的平均表现接近于随机选择水平。这表明 MMStar 在现有大模型训练语料中有着很少的数据泄露,有效保证了评估的公正性。
评估了 16 个多模态模型在 MMStar 上的性能。在高分辨率设置下,GPT-4V 取得了 57.1 的最高平均性能,但仍未达到及格线(通常指 60 分以上)。开源模型中 InternLM-Xcomposer2 取得了平均性能为 55.4 的好成绩,LLaVA-Next 在数学维度上的表现要略优于 GPT-4V 和 Gemini Pro-Vision。
值得注意的是,没有多模态大模型能够在精细感知(Fine Perception)、逻辑推理(Logic Reasoning)、科学技术(Science & Technology)以及数学(Mathematics)这四个高难度维度上及格。这揭示了当前多模态大模型在处理复杂视觉任务时的局限性。
用 16 个 LVLMs 在 6 个公开 Benchmark 以及所提的 MMStar 上对 MG 和 ML 指标进行了广泛评估。结果显示,MMStar 展示出了最少的平均数据泄漏程度。研究团队相信,这种跨模型间的 ML 指标对社区之后检验新开发的多模态 Benchmarks 也是有益的。
本次研究揭示了当前多模态大模型评估体系中存在的严重隐患。现有的高分可能掩盖了模型在真实视觉理解能力上的不足。MMStar 的提出为行业提供了一个更严谨的评估标准,强调了视觉依赖性和数据纯净度的重要性。
未来,随着多模态技术的进一步发展,评估标准需要更加精细化,不仅要关注模型能否回答问题,更要关注模型是否真正'看懂'了图片。对于开发者而言,这意味着在构建和应用多模态系统时,需要更加重视数据的清洗和去重,避免训练数据污染导致的虚假繁荣。同时,这也提醒研究人员,单纯追求基准测试分数的提升可能并非技术突破的正确方向,解决数据泄露和提升真实视觉推理能力才是关键。
通过 MMStar 及其相关指标,社区有望建立起更健康、更透明的多模态模型评估生态,推动 AI 技术向更深层次的认知智能迈进。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online