LLM 评估指标详解：如何客观对比 LLaMA-3 与 GPT-4 能力

一、背景

在过去的一年多里，国内在大模型领域的发展异常迅速，涌现出上百个大模型，许多模型已经迭代了多个版本，并且各种指标不断刷新。与此同时，我们也经常在国内的一些文章中看到声称'吊打 LLaMA 3'或'媲美 GPT-4'的说法。那么，国内的大模型真的已经达到对标 OpenAI 的水平了吗？

实际上，由于大模型的评估指标种类繁多，各种文章中所对比的模型也不尽相同，甚至有时会出现一些误导信息。因此，我们决定系统性梳理一下公认性能较强的大模型的相关指标，以全面了解各种模型的能力。

常见的文本类基准评估指标涵盖了通用知识、推理、数学、编码等多个维度。需要说明的是，这仅仅是部分常见指标，也并未涉及多模态基准评估。此外，由于数据比较多，且来源繁杂，难免会有遗漏或错误的地方。本文中，我们也会简单介绍在收集这些数据时发现的一些问题，遇到的困惑，以及具体数据的来源，以便大家也能更准确的分辨各种大模型的能力。

二、引言

2.1 评估指标

常见的文本任务评估指标包括如下几个，每个指标侧重点不同：

MMLU：衡量通用知识和推理能力，涵盖人文、社科、自然科学等 57 个子任务。
MATH：测试解决复杂数学问题的能力。
GSM8K：专注于小学数学问题的解答能力。
HumanEval：评估 Python 编码任务的完成度。
GPQA：针对大学生物、物理和化学的高难度问答。
DROP：阅读理解能力和算术能力的综合测试。
Big-Bench-Hard：综合评估模型在困难任务上的表现。
ARC-Challenge：常识推理能力的测试。
HellaSwag：另一个常用的常识推理基准。
AGIEval：基于大学入学考试和资格考试的题目。
MT-Bench：多轮对话基准测试，模拟真实交互。
AlpacaEval 2.0：主要评估指令跟随能力和生成质量。

2.2 评估框架

选择合适的评估框架对于获得准确结果至关重要。

Harness 是 EleutherAI 开源的 LLM 评估框架，对应的代码库为 GitHub - EleutherAI/lm-evaluation-harness。它是 Huggingface 官方 Open-LLM-Leaderboard 后端使用的评估框架，在很多论文中被使用。其优势在于支持多种模型和任务配置，社区活跃。

Helm 是斯坦福大学开发的 LLM 评估框架，对应的论文为 Holistic Evaluation of Language Models，对应的代码库为 https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力，强调全面性和一致性。

simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具（GitHub - openai/simple-evals），也是其 GPT-4o 使用的评估工具。使用官方工具能确保评估环境与发布报告一致。

OpenCompass 是一个国内常用的评估框架，对应的代码库为 OpenCompass is an LLM evaluation platform。其也提供详细的 Leaderboard，支持广泛的模型和数据集，适合中文场景下的评估需求。

2.3 Few-shot & CoT

在评估中经常会使用 few-shot 和 CoT 方法，这对结果影响巨大。

Few-shot：表示 Prompt 中会提供一些示例，没有示例表示为 0-shot，5 个示例为 5-shot。增加示例通常能提升模型表现，但会增加 Token 消耗。

LLM 评估指标详解：如何客观对比 LLaMA-3 与 GPT-4 能力