一、背景
在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称'吊打 LLaMA 3'或'媲美 GPT-4'的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?
实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。
下图展示了我们梳理的一部分常见文本类基准评估指标(图中的不同底色表示数据来源,比如淡绿色表示数据来自 LLaMA 3 官方,淡蓝色表示数据来自 Claude 3 Paper,灰色表示来自 OpenAI 官方,淡紫色表示来自 Mixtral 官方等)。需要说明的是,这仅仅是部分常见指标,也并未涉及多模态基准评估。此外,由于数据比较多,且来源繁杂,难免会有遗漏或错误的地方,欢迎指出和纠正。本文中,我们也会简单介绍在收集这些数据时发现的一些问题,遇到的困惑,以及具体数据的来源,以便大家也能更准确的分辨各种大模型的能力。

二、引言
2.1 评估指标
常见的文本任务评估指标包括如下几个:
- MMLU:通用知识和推理能力。
- MATH:数学解决问题能力。
- GSM8K:小学数学。
- HumanEval:Python 编码任务。
- GPQA:大学生物、物理和化学问答。
- DROP:阅读理解和算术。
- Big-Bench-Hard:综合评估。
- ARC-Challenge:常识推理。
- HellaSwag:常识推理。
- AGIEval:大学入学考试和资格考试。
- MT-Bench:多轮对话基准测试。
- AlpacaEval 2.0:指令跟随能力。
2.2 评估框架
Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard (a Hugging Face Space by open-llm-leaderboard)后端使用的评估框架,在很多论文中被使用。
Helm 是斯坦福大学开发的 LLM 评估框架,对应的论文为:[2211.09110] Holistic Evaluation of Language Models,对应的代码库为:https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力。
simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具(GitHub - openai/simple-evals),也是其 GPT-4o 使用的评估工具。如下图所示为其对应的评估结果:

OpenCompass 是一个国内常用的评估框架,对应的代码库为:OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.。其也提供详细的 Leaderboard:OpenCompass 司南。如下图所示:




























