E-EVAL：中文 K-12 教育评测揭示大模型的基础能力短板

随着大型语言模型快速进入教育场景，一个很自然的问题也冒了出来：它们到底能不能真正做对中国中小学题目？

E-EVAL 正是为这个问题准备的评测基准。它由中国科学院深圳先进技术研究院、中国科学技术大学、南方科技大学和联合信息共同完成，覆盖小学、初中和高中阶段，共收录 4351 道选择题，涉及 23 个学科，既包括语文、英语、历史这类文科，也包括数学、物理、化学等理科。

官网：https://eevalbenchmark.com
GitHub：https://github.com/AI-EDU-LAB/E-EVAL
论文：https://arxiv.org/abs/2401.15927

数据集是怎么构建的

为了尽量贴近真实教学场景，E-EVAL 主要收集了来自网络的作业、练习题和模拟考试，来源集中在中国组卷网和学科网这类题库站点。这类题目通常来自学校、教师或教育机构，覆盖面虽然不如全国性大考那样统一，但胜在更贴近日常教学，也更能反映模型在真实学习场景里的表现。

在整理过程中，团队做了不少细致的清洗工作。

文科题目多通过脚本自动解析 PDF 和 Word 文档，抽取结构化内容。
理科题目往往带有公式和复杂排版，很多时候需要人工介入，把公式统一转成 LaTeX。
题目默认保留四选一格式，少于四个选项的会被丢弃；多于四个选项的则会删去一个错误选项。
每个学科还额外挑选了 5 道代表性题目并附上解析，用于 few-shot 和 Chain-of-Thought 评测。

为了保证质量，数据集经历了三轮人工检查：先去重，再核对公式完整性，最后确认答案准确性。完成这些步骤后，团队还调整了选项顺序，尽量让 A、B、C、D 的正确答案分布更均衡，减少模型对选项位置的偏好。

最终，这套数据被划分为开发集、验证集和测试集，覆盖 23 个学科。

评测方式

E-EVAL 的测试方法并不复杂，核心是让模型在四个选项中选出正确答案，并通过正则表达式提取输出结果。评测一共采用了三种提示方式：

zero-shot
few-shot-answer-only
few-shot-chain-of-thought（few-shot-cot）

这三种设置分别对应'直接作答''给少量示例再作答'和'带推理过程作答'，可以比较清楚地看出模型在不同提示策略下的波动。

测试结果说明了什么

整体来看，中文主导的大模型在 E-EVAL 上表现更好，尤其是训练语料中包含大量中文内容的模型。Qwen-72B-Chat 取得了最高平均准确率，达到 89.05 分；ERNIE-Bot 4.0 紧随其后，达到 86.71 分；Yi-34B-Chat 位列第三，成绩为 81.41 分。

值得注意的是，GPT-4 和 ChatGPT 的排名并不靠前，分别排在第 5 和第 11。这个结果并不算意外——如果一个模型的中文训练数据占比不高，在中国教育场景下就很容易吃亏。

在参数规模较小的模型里，Yi-6B-Chat 的表现最好，甚至接近 GPT-4，但仍然落后于更大的 Yi-34B-Chat。这个结果再次说明，参数规模和中文语料质量，确实会直接影响模型在这类任务上的表现。

从学科分布看，文科题目整体比理科题目更容易，符合大语言模型擅长文本理解、却常常在逻辑推理和数值计算上掉链子的直觉。中文训练语料丰富的模型在文科上优势更明显，而理科，尤其是数学，依然是大多数模型的短板。

一个很反直觉的现象：小学题不一定更简单

这部分是 E-EVAL 最有意思的发现之一。

虽然题目难度从小学一路递增到高中，但不少排名靠前的模型，在初中题上的表现反而比小学题更好。这个结果和人类经验几乎是反着来的——按常识，小学题显然更容易。

论文里举了一个很典型的例子：

四个学生比赛跑步，丁丁用了 106 秒，强强用了 1 分 15 秒，明明用了 92 秒，奇奇用了 1 分 50 秒，最快的是哪位？

正确答案是 B：强强，因为 1 分 15 秒等于 75 秒。但排名前三的模型却都选了 C：明明，也就是把 92 秒当成比 75 秒更快。

E-EVAL：中文 K-12 教育评测揭示大模型的基础能力短板