AI
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities论文解读(大模型评估方法)
提示:MM-Vet是一个大模型评估方法,想深入了解大模型评估可参考此文章 文章目录 * * * * * 前言 我们提出了MM-Vet,这是一个评估基准,旨在检验大型多模态模型(LMMs)在复杂多模态任务上的表现。最近的LMMs展示了各种有趣的能力,比如解决写在黑板上的数学问题,推理新闻图片中的事件和名人,以及解释视觉笑话。快速的模型进展给评估基准的开发带来了挑战。问题包括:(1)如何系统地构建和评估复杂的多模态任务;(2)如何设计能够适用于不同问题和答案类型的评估指标;以及(3)如何提供超越简单性能排名的模型洞见。为此,我们提出了MM-Vet,其设计基于这样一个见解,即解决复杂任务的有趣能力通常是通过通用模型能够整合不同核心视觉-语言(VL)能力实现的。MM-Vet定义了6种核心VL能力,并检查了从能力组合中衍生出的16种感兴趣的整合方式。对于评估指标,我们提出了一个基于LLM的评估器,用于开放式输出。该评估器使得能够跨不同问题类型和答案风格进行评估,从而产生统一的评分指标。我们在MM-Vet上评估了代表性的LMMs,从而深入了解不同LMM系统范式和模型的