跳到主要内容LLM 评估指标详解:如何客观对比 LLaMA-3 与 GPT-4 能力 | 极客日志编程语言AI算法
LLM 评估指标详解:如何客观对比 LLaMA-3 与 GPT-4 能力
本文系统梳理了主流大模型的评估指标与框架,深入分析了 MMLU、GSM-8K、MATH、GPQA 等核心基准测试的细节。文章指出了当前评估中存在的配置不统一(如 shot 数、CoT 使用)、Base 与 Instruction 模型混淆、数据污染以及评估工具差异等问题。通过对 LLaMA-3、GPT-4、Qwen、Yi 等知名模型的指标对比分析,揭示了部分厂商宣传数据背后的潜在偏差。最后提出了统一评估环境、关注配置细节、警惕数据污染等最佳实践建议,帮助读者更客观地评估和选择大模型。
LLM 评估指标详解:如何客观对比 LLaMA-3 与 GPT-4 能力
一、背景
在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称'吊打 LLaMA 3'或'媲美 GPT-4'的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?
实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。
常见的文本类基准评估指标涵盖了通用知识、推理、数学、编码等多个维度。需要说明的是,这仅仅是部分常见指标,也并未涉及多模态基准评估。此外,由于数据比较多,且来源繁杂,难免会有遗漏或错误的地方。本文中,我们也会简单介绍在收集这些数据时发现的一些问题,遇到的困惑,以及具体数据的来源,以便大家也能更准确的分辨各种大模型的能力。
二、引言
2.1 评估指标
常见的文本任务评估指标包括如下几个,每个指标侧重点不同:
- MMLU:衡量通用知识和推理能力,涵盖人文、社科、自然科学等 57 个子任务。
- MATH:测试解决复杂数学问题的能力。
- GSM8K:专注于小学数学问题的解答能力。
- HumanEval:评估 Python 编码任务的完成度。
- GPQA:针对大学生物、物理和化学的高难度问答。
- DROP:阅读理解能力和算术能力的综合测试。
- Big-Bench-Hard:综合评估模型在困难任务上的表现。
- ARC-Challenge:常识推理能力的测试。
- HellaSwag:另一个常用的常识推理基准。
- AGIEval:基于大学入学考试和资格考试的题目。
- MT-Bench:多轮对话基准测试,模拟真实交互。
- AlpacaEval 2.0:主要评估指令跟随能力和生成质量。
2.2 评估框架
Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为 GitHub - EleutherAI/lm-evaluation-harness。它是 Huggingface 官方 Open-LLM-Leaderboard 后端使用的评估框架,在很多论文中被使用。其优势在于支持多种模型和任务配置,社区活跃。
simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具(GitHub - openai/simple-evals),也是其 GPT-4o 使用的评估工具。使用官方工具能确保评估环境与发布报告一致。
OpenCompass 是一个国内常用的评估框架,对应的代码库为 OpenCompass is an LLM evaluation platform。其也提供详细的 Leaderboard,支持广泛的模型和数据集,适合中文场景下的评估需求。
2.3 Few-shot & CoT
在评估中经常会使用 few-shot 和 CoT 方法,这对结果影响巨大。
- Few-shot:表示 Prompt 中会提供一些示例,没有示例表示为 0-shot,5 个示例为 5-shot。增加示例通常能提升模型表现,但会增加 Token 消耗。
- CoT (Chain of Thought):就是在 Prompt 中会提供推理过程,例如经典的 'Let's think step by step.'。CoT 能显著提升模型在逻辑推理和数学任务上的表现。
在基准评估中,为了公平对比,必须使用相同的配置才有参考价值。然而部分评估中并未清晰的列出对应的配置,导致部分指标无法对齐。例如 Qwen1.5 和 Yi-1.5 模型的各种指标展示中,很多都没有明确指出对应的 shot 数或是否包含 CoT,这使得横向对比变得困难。
2.4 Base 模型 & Instruction 模型
现在有很多开源的 LLM 都会提供 Base 模型和 Instruction 模型,两者的评估指标可能会有比较大的区别:
- Base 模型:是在大量未标注的通用文本数据上进行无监督训练,适用于需要广泛自然语言理解和生成的场景。
- Instruction 模型:通常是在 Base 模型基础上,使用经过人工标注或筛选的指令数据通过有监督微调训练而来,更适合需要特定指令进行操作的场景。
我们在收集数据的时候发现很多地方会混淆两个模型的指标。例如 LMSys Chatbot Arena Leaderboard 中就混淆了 Qwen1.5-110B 以及 Qwen1.5-72B 的 Base 模型和 Instruction 模型。参考 Qwen-1.5 的官方博客,MT-bench 指标确实是 Chat 模型,但 MMLU 对应的是 Base 模型。这种混用会导致对模型能力的误判。
2.5 不同模型版本
早期的 LLM 通常都会发布详细的技术报告,包括具体版本和性能指标的说明。然而,最近的很多 LLM 仅以简单的博客页面形式发布,甚至缺乏对模型及其评估指标的详细介绍,特别是一些闭源模型。这种变化为不同模型之间的横向对比带来了很大的挑战。例如 LMSys Chatbot Arena Leaderboard 榜单中,排名前 12 的模型中,GPT-4 就有 4 个版本,Gemini-1.5 也有三个版本,区分这些细微差别非常关键。
2.6 评估工具差异
很多公司都有自己的评估工具,其有些时候不会和开源社区的评估方式完全对齐,导致评估指标的差异。比如在 DeepSeek-V2 中,作者使用了内部评估工具,导致有些结果和我们从 Qwen1.5 72B、Mixtral 8x22B 和 LLaMA3 70B 官方报告中看到的结果不太一致。在浪潮的源 2.0-M32 中,作者也提供了 Qwen1.5-72B Chat 的结果,但是看着是直接引用了其他模型的结果,并没有说明自己使用的评估工具。这提醒我们在阅读技术报告时,需关注其评估环境的透明度。
2.7 数据污染
数据污染问题在大模型训练中非常常见,没有经过仔细的数据清理过程,很可能会在训练集中混入部分基准评估数据。比如,OpenAI 的 GPT-4 Paper 中提到,其发现训练集中不小心混入了 BIG-Bench 数据,所以 GPT-4 Paper 中并未提供 BIG-Bench Hard 的评估结果。
最近 Scale AI 的研究员研究了 GSM-8K 数据泄漏问题。作者通过人工标注方式构建了 GSM-1K 数据集,其难度与 GSM-8K 类似。作者使用该数据集对一些开源和闭源 LLM 进行了基准测试,发现部分模型在 GSM-1K 上的性能甚至比 GSM-8K 低 10% 以上,比如 math-shepherd-mistral-7b-rl 指标低了将近 13%;而 Claude 3 和 GPT-4 模型指标没有下降。这说明头部模型可能具备更强的泛化能力,或者其训练数据清洗更为严格。
三、MMLU 深度解析
MMLU 评估集是为了衡量文本模型的多任务准确性,其涵盖人文科学、社会科学、自然科学等领域的 57 个子任务,比如小学数学、美国历史、计算机科学、法律等。题目都是多项选择题,通过测试语言模型在不同领域的知识和推理能力来评估其综合性能。
与其他语言理解评估集(如 GLUE、SuperGLUE 等)相比,MMLU 的任务种类更多,覆盖面更广,能够更加全面地评估大规模语言模型的能力。这使得 MMLU 成为当前评估大规模预训练语言模型的一个重要工具。几乎每个 LLM 都会评估并对比其在 MMLU 基准上的能力,而且绝大部分都是评估 5-shot 能力,少量模型会评估 5-shot+CoT 能力。
MMLU 指标相对比较统一,基本不会有太多歧义。然而,在 Massive Multitask Language Understanding on HELM 中,作者发现很多模型声称的 MMLU 指标和 Helm 中评估出来的有较大差距。这可能是因为不同的预处理方式、温度设置或采样策略导致的。在进行模型选型时,建议优先参考 Helm 或 Harness 等第三方权威机构的复现结果。
四、GSM-8K 评估陷阱
各种模型基本都会提供 GSM-8K 评估结果,但对应的评估结果比较混乱。比如,有些是 0-shot+CoT 结果,有些是 8-shot+CoT,有些是 5-shot+CoT,甚至有些是 11-shot。Google Gemini 之前被吐槽的一个点就是拿 GSM-8K 11-shot 的结果和其他模型 8-shot,5-shot 的结果对比,这在学术上是不公平的。
GPT-4 Technical Report 中的关键结果显示,其 GSM-8K 的 92.0 为 5-shot+CoT 的结果,而 GPT-3.5 的 57.1 为 5-shot 的结果。阿里的通义千问 Qwen1.5 介绍中的官方评估结果,其并没有具体介绍 GSM8K 是 5-shot 还是 8-shot,不过从其开源的评估工具可以看出是 8-shot+CoT 的结果。但是对应的结果中 GPT-4 的 92.0 为 5-shot+CoT 结果,Mixtral-8x7B 的 74.4 确实为 8-shot+CoT 结果。这种配置的不一致直接影响了排名的可信度。
实际上 Mixtral 官方提供了相应 5-shot 和 8-shot 的结果,其 Mixtral 8x7B 的 5-shot 结果只有 58.4,远低于 8-shot 的结果。零一万物的 Yi 模型也存在同样的情况,论文中介绍的是 GSM-8K 的 8-shot 结果,但是 GPT-3.5 和 GPT-4 的是 5-shot 的结果。此外 Mistral 7B 的 GSM-8K 和 MATH 结果也比官方结果要低。在浪潮的源 2.0-M32 中作者同样将 8-shot 的 GSM-8K 结果与 5-shot 的 Mixtral-8x7B 进行比较,实际上两个模型对应的 8-shot 应该为 74.4 和 88.4。这再次强调了配置对齐的重要性。
五、MATH 与 GPQA
MATH 的评估相对比较统一,基本上都是 4-shot 的结果,但是 GPT-4o,GPT-4T 相关结果都是 0-shot 的。Claude 3 同时提供了 0-shot 和 4-shot 结果,这显示了不同模型在提示词工程上的差异。
GPQA 是一个比较新的评估集,是由生物、物理和化学领域的专家编写的多项选择题,问题的质量高且难度大。其全集 full(extended) 包含 546 个问题,main 和 diamond 是对应的两个子集。Meta 的 LLaMA-3 中,作者并未特别说明使用的哪个集合,只介绍其为 GPQA(0-shot),不过在 llama3/eval_details.md 中提到是 Main 集合,并且没有说明使用 CoT。在 The Claude 3 Model Family 中,作者给出了 Claude 3 在 3 个集合上详细的评估结果。在 Gemini Pro 中,Google Gemini 提供了 main 集合下的评估结果。在阿里的通义千问 Qwen1.5-110B 中同样没有介绍 GPQA 对应的集合,甚至未介绍是否是 0-shot。这种信息的缺失使得跨模型对比变得极具挑战性。
六、其他常用指标
如下的几个指标相对比较统一,各个模型基本也都有相应的结果:
- HumanEval:通常都是采用 0-shot 评估,主要看代码能否通过测试用例。
- BIG-Bench Hard(BBH):通常采用 3-shot+CoT 评估,涵盖逻辑推理、字符串操作等。
- HellaSwag:通常采用 10-shot 评估,侧重常识补全。
- ARC-C:通常采用 25-shot 评估,侧重科学常识。
- DROP:通常采用 3-shot 评估,侧重阅读理解。
七、AlpacaEval 2.0 与人类偏好
AlpacaEval 2.0 是一个指令遵循评估,它利用 LLM 来评估生成质量。在 AlpacaEval 中,会倾向于生成较长输出的模型。因此,在 AlpacaEval 2.0 中,作者引入了长度控制(Length-Controlled AlpacaEval),来缓解这种偏好。这反映了自动评估工具可能存在偏差,需要结合人类反馈。
八、LMSYS Chatbot Arena
国外社区经常会使用 Chatbot Arena 来评估 LLM 的能力。其相当于大模型的竞技场,都是通过真实用户打分结果来评估人类对模型的偏好,其更接近真实用户场景,也更加客观。这也是'零一万物 Yi-Large 在 LMSYS 中文榜单排名第一'的来源。按照 Arena Elo 排序的结果更能反映模型在实际对话中的体验。在 Chatbot Arena 中也提供了 MT-bench 和 MMLU 的相关指标,可以作为辅助参考。
九、最佳实践建议
为了更准确地评估和选择大模型,建议遵循以下最佳实践:
- 统一评估环境:尽量使用开源的评估框架(如 lm-eval-harness)在本地复现关键指标,确保硬件、软件版本和参数配置一致。
- 关注配置细节:在阅读技术报告时,务必确认 Shot 数量、是否开启 CoT、Temperature 设置等关键参数,避免被'最优配置'误导。
- 警惕数据污染:对于数学和科学类任务,优先参考去重后的数据集(如 GSM-1K)结果,防止过拟合。
- 综合多维度指标:不要只看单一分数,应结合 MMLU(知识)、HumanEval(代码)、MT-Bench(对话)等多维度指标综合判断。
- 参考第三方榜单:关注 Helm、OpenCompass 等独立机构发布的榜单,减少厂商自证带来的偏差。
十、总结
大模型的评估是一个复杂且动态的过程。虽然现有的基准测试提供了一定的量化标准,但由于配置不透明、数据污染、评估工具差异等原因,直接对比不同厂商的公开数据往往存在偏差。国内大模型虽然在某些特定指标上取得了显著进步,但在通用推理、长上下文处理及复杂指令遵循方面,与顶级闭源模型仍存在一定差距。开发者在选型时应保持理性,结合业务场景进行实际测试,而非单纯依赖宣传数据。随着评估体系的不断完善,未来我们将能看到更客观、更透明的模型能力对比。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online