LLM 评估指标详解:如何客观对比 LLaMA-3 与 GPT-4 能力
一、背景
在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称'吊打 LLaMA 3'或'媲美 GPT-4'的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?
实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。
常见的文本类基准评估指标涵盖了通用知识、推理、数学、编码等多个维度。需要说明的是,这仅仅是部分常见指标,也并未涉及多模态基准评估。此外,由于数据比较多,且来源繁杂,难免会有遗漏或错误的地方。本文中,我们也会简单介绍在收集这些数据时发现的一些问题,遇到的困惑,以及具体数据的来源,以便大家也能更准确的分辨各种大模型的能力。
二、引言
2.1 评估指标
常见的文本任务评估指标包括如下几个,每个指标侧重点不同:
- MMLU:衡量通用知识和推理能力,涵盖人文、社科、自然科学等 57 个子任务。
- MATH:测试解决复杂数学问题的能力。
- GSM8K:专注于小学数学问题的解答能力。
- HumanEval:评估 Python 编码任务的完成度。
- GPQA:针对大学生物、物理和化学的高难度问答。
- DROP:阅读理解能力和算术能力的综合测试。
- Big-Bench-Hard:综合评估模型在困难任务上的表现。
- ARC-Challenge:常识推理能力的测试。
- HellaSwag:另一个常用的常识推理基准。
- AGIEval:基于大学入学考试和资格考试的题目。
- MT-Bench:多轮对话基准测试,模拟真实交互。
- AlpacaEval 2.0:主要评估指令跟随能力和生成质量。
2.2 评估框架
选择合适的评估框架对于获得准确结果至关重要。
Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为 GitHub - EleutherAI/lm-evaluation-harness。它是 Huggingface 官方 Open-LLM-Leaderboard 后端使用的评估框架,在很多论文中被使用。其优势在于支持多种模型和任务配置,社区活跃。
Helm 是斯坦福大学开发的 LLM 评估框架,对应的论文为 Holistic Evaluation of Language Models,对应的代码库为 https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力,强调全面性和一致性。
simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具(GitHub - openai/simple-evals),也是其 GPT-4o 使用的评估工具。使用官方工具能确保评估环境与发布报告一致。
OpenCompass 是一个国内常用的评估框架,对应的代码库为 OpenCompass is an LLM evaluation platform。其也提供详细的 Leaderboard,支持广泛的模型和数据集,适合中文场景下的评估需求。
2.3 Few-shot & CoT
在评估中经常会使用 few-shot 和 CoT 方法,这对结果影响巨大。
- Few-shot:表示 Prompt 中会提供一些示例,没有示例表示为 0-shot,5 个示例为 5-shot。增加示例通常能提升模型表现,但会增加 Token 消耗。


