大模型不看图,竟也能正确回答视觉问题?
近日,中国科学技术大学、香港中文大学及上海人工智能实验室的研究团队意外发现了一个值得关注的现象。在多项多模态基准测试中,包括 GPT-4V、Gemini Pro、Qwen1.5-72B、Yi-VL-34B 以及 LLaVA-Next-34B 在内的大模型,无论是闭源还是开源,无论是纯语言模型还是多模态模型,仅根据问题和选项的文本信息,就能获得相当不错的成绩。
这一发现引发了业界的广泛讨论:我们评估多模态模型的方法是否真的正确?现有的评估体系是否存在漏洞?
现有评估体系的两大核心问题
针对现有的评估样本和评估过程,研究团队认为造成上述现象的主要原因集中在两个方面:评估样本缺乏视觉依赖性以及训练数据泄露。
1. 评估样本缺少对视觉内容的依赖性
这一问题反映了当前主流 Benchmark(基准测试)设计中的不合理之处,具体表现为两种情况:
- 答案蕴含于题目文本中:部分评估样本的答案可以直接从题目和选项中推断出来,无需查看图片。例如,某些几何形状识别问题,其描述本身已包含了解题所需的全部信息,导致模型即使不看图也能答对。
- 依赖语言模型的先验知识:部分问题可以直接被语言大模型利用嵌入的丰富世界知识进行解答,而无需依赖图片内容。例如询问地理常识或历史事实的问题,图片往往只是装饰,模型依靠内部知识库即可作答。
这种设计缺陷使得多模态模型与纯语言模型之间的性能差距被人为缩小,无法真实反映模型的多模态理解能力。
2. 训练过程中的数据泄露问题
现有的多模态大模型(LVLMs)通常由视觉编码器(Vision Encoder)、语言模型基座(Language Model Base)以及视觉 - 语言连接件(Connector)组成。然而,现有的多模态 Benchmark 中有大量的评估样本是从单模态的文本语料中转化而来的(例如将考试题目转化为图文形式)。
如果大语言模型的预训练数据中无意间泄露了这些多模态 Benchmark 中转化不充分的评估样本,就会严重影响 LVLMs 之间公平比较的准确性。当模型在训练阶段已经'见过'测试题时,其在测试集上的高分并不能代表真正的泛化能力。
为了定量观察大语言模型中广泛存在的泄露现象,研究团队采用了 22 个大语言模型在 6 个公开 Benchmark 上进行评估。这些模型涵盖了 2 个闭源模型(GPT-4 Turbo 以及 Gemini Pro)和 20 个大小、架构各异的开源模型(如 Qwen 系列、LLaMA2 系列、Baichuan 系列、Mixtral-8x7B 等),并使用了 2-shot 推理策略来减少拒绝回答的情况以及对齐回答格式。
结果显示,闭源模型 Gemini Pro 和开源模型 Qwen1.5-72B 在极具挑战性的 MMMU 基准上可以分别取得 42.7 和 42.4 的成绩,一度逼近 Gemini Pro-Vision (44.4)、LLaVA-Next-34B (47.0) 和 Yi-VL-34B (43.2) 等多模态模型在能看到图片情况下的表现。
进一步的实验还定量观察了多模态大模型在训练过程中的数据泄露情况:屏蔽了 LVLM 的图片输入从而只根据文本问题和选项来进行评估(标记为 LVLM-text)。实验表明,像 Sphinx-X-MoE 和 Monkey-Chat 经过多模态训练后在不看图的情况下相比原始大模型在 MMMU 基准上可以分别提升惊人的 17.9 和 12.6 分,而它们即使进一步在看到图片的情况下也只能获得 1.2 和 4.7 的性能提升。这说明大部分性能增益实际上来自于文本信息的记忆而非视觉能力的增强。
MMStar:更公平准确的新基准
为了解决上述问题从而进行更公平和准确的评估,研究者们设计了一个新的多模态评估基准——MMStar。
基准设计特点
MMStar 包含了 1,500 个具有严格视觉依赖性的高质量评估样本。这些样本经过了人工筛选和验证,确保答案必须依赖图片内容才能得出。基准涵盖了样本均衡的六个核心能力维度:粗略感知、精细感知、实例推理、逻辑推理、科学技术和数学,共计 18 个详细的能力维度。
评估指标创新
伴随着 MMStar benchmark,作者们还提出了两个关键评估指标:
- Multi-modal Gain (MG):多模态增益。用于衡量引入视觉输入后模型性能的提升幅度,反映模型真实的视觉理解能力。
- Multi-modal Leakage (ML):多模态泄露。用于量化评估样本在训练数据中的泄露程度,帮助社区识别潜在的作弊风险。
实验结果与分析
为了检验所提出的 MMStar 质量,研究团队进行了三项关键评估。
1. 数据泄露检测
用 22 个大语言模型只根据 MMStar 中的问题和选项进行了评估。结果显示,它们的平均表现接近于随机选择水平。这表明 MMStar 在现有大模型训练语料中有着很少的数据泄露,有效保证了评估的公正性。


