E-EVAL:中文 K-12 教育评测揭示大模型的基础能力短板
随着大型语言模型快速进入教育场景,一个很自然的问题也冒了出来:它们到底能不能真正做对中国中小学题目?
E-EVAL 正是为这个问题准备的评测基准。它由中国科学院深圳先进技术研究院、中国科学技术大学、南方科技大学和联合信息共同完成,覆盖小学、初中和高中阶段,共收录 4351 道选择题,涉及 23 个学科,既包括语文、英语、历史这类文科,也包括数学、物理、化学等理科。
官网:https://eevalbenchmark.com
GitHub:https://github.com/AI-EDU-LAB/E-EVAL
论文:https://arxiv.org/abs/2401.15927
数据集是怎么构建的
为了尽量贴近真实教学场景,E-EVAL 主要收集了来自网络的作业、练习题和模拟考试,来源集中在中国组卷网和学科网这类题库站点。这类题目通常来自学校、教师或教育机构,覆盖面虽然不如全国性大考那样统一,但胜在更贴近日常教学,也更能反映模型在真实学习场景里的表现。
在整理过程中,团队做了不少细致的清洗工作。
- 文科题目多通过脚本自动解析 PDF 和 Word 文档,抽取结构化内容。
- 理科题目往往带有公式和复杂排版,很多时候需要人工介入,把公式统一转成 LaTeX。
- 题目默认保留四选一格式,少于四个选项的会被丢弃;多于四个选项的则会删去一个错误选项。
- 每个学科还额外挑选了 5 道代表性题目并附上解析,用于 few-shot 和 Chain-of-Thought 评测。
为了保证质量,数据集经历了三轮人工检查:先去重,再核对公式完整性,最后确认答案准确性。完成这些步骤后,团队还调整了选项顺序,尽量让 A、B、C、D 的正确答案分布更均衡,减少模型对选项位置的偏好。
最终,这套数据被划分为开发集、验证集和测试集,覆盖 23 个学科。
评测方式
E-EVAL 的测试方法并不复杂,核心是让模型在四个选项中选出正确答案,并通过正则表达式提取输出结果。评测一共采用了三种提示方式:
- zero-shot
- few-shot-answer-only
- few-shot-chain-of-thought(few-shot-cot)
这三种设置分别对应'直接作答''给少量示例再作答'和'带推理过程作答',可以比较清楚地看出模型在不同提示策略下的波动。
测试结果说明了什么
整体来看,中文主导的大模型在 E-EVAL 上表现更好,尤其是训练语料中包含大量中文内容的模型。Qwen-72B-Chat 取得了最高平均准确率,达到 89.05 分;ERNIE-Bot 4.0 紧随其后,达到 86.71 分;Yi-34B-Chat 位列第三,成绩为 81.41 分。
值得注意的是,GPT-4 和 ChatGPT 的排名并不靠前,分别排在第 5 和第 11。这个结果并不算意外——如果一个模型的中文训练数据占比不高,在中国教育场景下就很容易吃亏。
在参数规模较小的模型里,Yi-6B-Chat 的表现最好,甚至接近 GPT-4,但仍然落后于更大的 Yi-34B-Chat。这个结果再次说明,参数规模和中文语料质量,确实会直接影响模型在这类任务上的表现。
从学科分布看,文科题目整体比理科题目更容易,符合大语言模型擅长文本理解、却常常在逻辑推理和数值计算上掉链子的直觉。中文训练语料丰富的模型在文科上优势更明显,而理科,尤其是数学,依然是大多数模型的短板。
一个很反直觉的现象:小学题不一定更简单
这部分是 E-EVAL 最有意思的发现之一。
虽然题目难度从小学一路递增到高中,但不少排名靠前的模型,在初中题上的表现反而比小学题更好。这个结果和人类经验几乎是反着来的——按常识,小学题显然更容易。
论文里举了一个很典型的例子:
四个学生比赛跑步,丁丁用了 106 秒,强强用了 1 分 15 秒,明明用了 92 秒,奇奇用了 1 分 50 秒,最快的是哪位?
正确答案是 B:强强,因为 1 分 15 秒等于 75 秒。但排名前三的模型却都选了 C:明明,也就是把 92 秒当成比 75 秒更快。
更夸张的是,某些模型甚至会生成看起来很'自信'的错误比较结果,比如把 92、106、110、75 这几个数排出一个完全不合理的顺序。这说明它们并不是简单地'不认识数字',而是在最基础的大小比较上也可能出现偏差。


