陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

关注前沿科技  2024年06月28日 19:09 上海

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。

针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。

新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

该数据集名为CharXiv,内容全部选自arXiv论文中的真实图表,共计2323张。

相比此前的FigureQA等测试基准,CharXiv涵盖的任务类型更加广泛,而且不按套路出牌,难度大幅增加。

为了宣传这套新Benchmark,研究团队还写出了一首洗脑神曲,并制作了视频宣传片。

,时长01:17

这段魔性的宣传片,让有些网友表示已经被成功“洗脑”,脑海中充满了(歌词中的)“2323张图表”。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

导师陈丹琦也感到印象十分深刻,直言这是自己见过最fancy的视频。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

那么,CharXiv究竟新在哪,又难在哪呢?

来自学术论文的图表测试集

团队指出,过去的表格测试标准太过简单,而且不能反映模型的真实水平。

比如FigureQA、DVQA 和ChartQA的子集,只要稍作简单修改,模型的成绩就能下降超过1/3。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

究其原因,作者认为是之前的数据集中图表都是由程序合成,问答也高度模板化。

于是,研究团队提出了CharXiv,由人类专家从arXiv论文中精心选择了2323个真实图表。

图表的类型也更加丰富,提出的问题也避免了套路化的问题。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

根据重点考察能力的不同,作者将测试题目分成了两类——描述性问题推理性问题

两类问题的比例为4:1,即每张图表配有4个描述性问题和1个推理性问题。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

其中描述性问题包括信息提取(Information extraction)、列举(Enumeration)、计数(Counting)、模式识别(Pattern recognition)等等。

这当中,模式识别指的是要求模型识别图表中数据的趋势和分布模式,如线条是否相交、数据是递增还是递减等。

另外还有较难的组合型(Compositionality)任务,模型需要综合多个视觉元素的信息回答问题,体现图表信息的组合理解。

比如这道题目就是一道组合型的描述类问题,它需要在识别清楚坐标轴的同时,完成计数的任务:

在当前的图表中,所有坐标轴中一共有多少明确标记的刻度?(这里问的是标记的数量,不是求和)
www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

推理性问题则根据答案出现的方式又分为了四个子类:

Text-in-chart:问题的答案是图表中出现的文本,如图例标签、离散刻度标签等。

Text-in-general:问题的答案是一个易于验证的文本短语,但不一定显式出现在图表中。

Number-in-chart:问题的答案是图表中给出的一个数值,,如坐标轴刻度值。

Number-in-general:问题的答案是一个精确到特定小数位数的数值,但可能需要通过阅读和推理才能得出,而不一定直接出现在图表中。

举个例子,下面的问题要求模型对表格中各列的数值进行求和,然后比较后给出和最小的一列对应的标签,这就是一项推理型任务。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

利用这套数据集,作者在零样本的条件下评估了一些知名的开源和闭源模型。

模型依然不擅长推理

在推理类问题上,作者发现所有模型的表现都不是很理想。

表现最好的是真人,模型当中则是Claude 3.5 Sonnet,不过也仅仅及格,和人相比还是差了四分之一,成绩超过40的模型一共也只有三个。

紧随其后的是GPT-4o、Gemini 1.5 Pro和Claude 3家族,有意思的是,Claude 3的“超大杯”Opus,表现还不如小一些的Sonnet和Haiku。

开源模型中,表现最好的是微软的“小”模型Phi-3,参数量一共只有4B,成绩却跻身到了Claude 3家族的中间。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

在描述类任务当中,表现最好的依然是人类,但模型和人类的差距小了,表现最好的GPT-4o和人类只差了不到10%。

不过开源模型的表现就不那么好了,分数最高的Phi-3才刚刚及格。

另外,其中的组合型问题(COMP)任务,对于模型来说也依旧是难点,没有任何一个模型得分超过60,而人类的表现是大于90的。

例如,数出x轴和y轴上的刻度标签数量,对于人来说是十分简单的任务,但测试下来,20个模型在该任务中的准确率无一达到10%。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

而且,随着子图数量的增加,模型的描述能力也会下降。当有6个以上子图时,商业模型的成绩会下降10-30%,开源模型对子图的处理则更加困难,性能下降比例达到了30-50%。

www.zeeklog.com  - 陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

经过综合比对,作者发具备良好描述能力是推理能力的前提——推理能力强的模型一般描述能力也强,但描述强的模型推理能力不一定强。当模型无法准确描述图表时,即使使用思维链(CoT)推理,成绩也不会提升。

论文地址:
https://arxiv.org/abs/2406.18521

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应用365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk