前言
随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
在这个快速迭代的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要。为解决这一问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。
自 2024 年 3 月发布以来,LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得大量 Stars,包含 80 多个数据集和 10 多个模型,并且还在持续增加中。
- 代码仓库:https://github.com/EvolvingLMMs-Lab/lmms-eval
- 官方主页:https://lmms-lab.github.io/
- 论文地址:https://arxiv.org/abs/2407.12772
- 榜单地址:https://huggingface.co/spaces/lmms-lab/LiveBench
标准化测评框架
为了提供一个标准化的测评平台,LMMs-Eval 包含了以下核心特性:
统一接口
LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展,通过定义模型、数据集和评估指标的统一接口,方便了使用者自行添加新的多模态模型和数据集。这种设计降低了集成新模型的门槛,使得研究者可以专注于模型本身的创新而非评测基础设施的重建。
一键式启动
LMMs-Eval 在 HuggingFace 上托管了 80 多个(且数量不断增加)数据集,这些数据集精心从原始来源转换而来,包括所有变体、版本和分割。用户无需进行任何准备,只需一条命令,多个数据集和模型将被自动下载并测试,等待几分钟时间即可获得结果。这极大地简化了大规模基准测试的流程。
透明可复现
LMMs-Eval 内置了统一的 logging 工具,模型回答的每一题以及正确与否都会被记录下来,保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。这种详细的日志记录对于调试模型错误和理解模型行为边界至关重要。
LMMs-Eval 的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下,这种做法既不现实,测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval,模型训练者可以将更多精力集中在模型本身的改进和优化上,而不是在评测和对齐结果上耗费时间。
评测的「不可能三角」
LMMs-Eval 的最终目标是找到一种覆盖广、成本低、零数据泄露的方法来评估 LMMs。然而,即使有了 LMMs-Eval,作者团队发现想同时做到这三点困难重重,甚至是不可能的。
当将评估数据集扩展到 50 多个时,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此,LMMs-Eval 提出了两种互补的方案来应对这一挑战:LMMs-Eval-Lite 来兼顾广覆盖和低成本,以及 LiveBench 来做到低成本和零数据泄露。
LMMs-Eval-Lite: 广覆盖轻量级评估
在评测大模型时,往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升,因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而,有限的评测往往会使得对于模型能力的理解有所缺失。为了同时兼顾评测的多样性和评测的成本,LMMs-Eval 推出了 LMMs-Eval-Lite。
LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以在模型开发过程中提供有用且快速的信号,从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集,在这上面的模型之间的绝对分数和相对排名与全集保持相似,那么我们可以认为修剪这些数据集是安全的。
为了找到数据集中的数据显著点,LMMs-Eval 首先使用 CLIP 和 BGE 模型将多模态评测数据集转换为向量嵌入的形式并使用 k-greedy 聚类的方法找到了数据显著点。在测试中,这些规模较小的数据集仍然展现出与全集相似的评测能力。随后 LMMs-Eval 使用了相同的方法制作了涵盖更多数据集的 Lite 版本,这些数据集旨在帮助人们节省开发中的评测成本,以便快速判断模型性能。


