LLM 评估指标详解：如何客观对比模型性能

一、背景

在过去的一年多里，国内在大模型领域的发展异常迅速，涌现出上百个大模型，许多模型已经迭代了多个版本，并且各种指标不断刷新。与此同时，我们也经常在国内的一些文章中看到声称'吊打 LLaMA 3'或'媲美 GPT-4'的说法。那么，国内的大模型真的已经达到对标 OpenAI 的水平了吗？

实际上，由于大模型的评估指标种类繁多，各种文章中所对比的模型也不尽相同，甚至有时会出现一些误导信息。因此，我们决定系统性梳理一下公认性能较强的大模型的相关指标，以全面了解各种模型的能力。

下图展示了我们梳理的一部分常见文本类基准评估指标（图中的不同底色表示数据来源，比如淡绿色表示数据来自 LLaMA 3 官方，淡蓝色表示数据来自 Claude 3 Paper，灰色表示来自 OpenAI 官方，淡紫色表示来自 Mixtral 官方等）。需要说明的是，这仅仅是部分常见指标，也并未涉及多模态基准评估。此外，由于数据比较多，且来源繁杂，难免会有遗漏或错误的地方，欢迎指出和纠正。本文中，我们也会简单介绍在收集这些数据时发现的一些问题，遇到的困惑，以及具体数据的来源，以便大家也能更准确的分辨各种大模型的能力。

LLM 评估汇总

二、引言

2.1 评估指标

常见的文本任务评估指标包括如下几个：

MMLU：通用知识和推理能力。
MATH：数学解决问题能力。
GSM8K：小学数学。
HumanEval：Python 编码任务。
GPQA：大学生物、物理和化学问答。
DROP：阅读理解和算术。
Big-Bench-Hard：综合评估。
ARC-Challenge：常识推理。
HellaSwag：常识推理。
AGIEval：大学入学考试和资格考试。
MT-Bench：多轮对话基准测试。
AlpacaEval 2.0：指令跟随能力。

2.2 评估框架

Harness 是 EleutherAI 开源的 LLM 评估框架，对应的代码库为：GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard （a Hugging Face Space by open-llm-leaderboard）后端使用的评估框架，在很多论文中被使用。

Helm 是斯坦福大学开发的 LLM 评估框架，对应的论文为：[2211.09110] Holistic Evaluation of Language Models，对应的代码库为：https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力。

simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具（GitHub - openai/simple-evals），也是其 GPT-4o 使用的评估工具。如下图所示为其对应的评估结果：

LLM 评估汇总

OpenCompass 是一个国内常用的评估框架，对应的代码库为：OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.。其也提供详细的 Leaderboard：OpenCompass 司南。如下图所示：

LLM 评估汇总