自 2017 年 Transformer 模型提出以来,自然语言处理研究逐步转向基于该框架的预训练模型,如 BERT、GPT、BART 和 T5 等。这些预训练模型与下游任务适配后,持续刷新最优结果。然而,现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此,需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。
本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。需要说明的是,本文所指的大语言模型并非严格限定规模,而是指以预训练为基础、具有通用能力的语言模型。
1 自然语言处理的评测范式
自然语言处理的发展得益于自然语言处理评测。评测通常依赖于一系列评测基准,模型在这些基准数据集上运行并产生输出结果,评测系统据此返回一个代表模型能力的值。最简单的评测基准由单一任务上的单一数据集构成,这也是常见的自然语言处理基本评测模式。为了全面评估大语言模型,可以将多个数据集聚合和重新组织,形成一个更通用的评测基准。本章针对大语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式。表 1 列出了一些典型的评测基准。下面将分别介绍经典评测范式,以及面向多种能力的新型评测范式与现有评测的不足。
1.1 经典的自然语言处理评测
自然语言处理分为自然语言理解(NLU)和自然语言生成(NLG)两大类,但在经典评测范式下主要关注模型最终输出结果与参考答案的匹配程度。经典评测结构如图 1 所示。
1.1.1 自然语言理解能力评测
自然语言理解能力评测是指对模型在理解自然语言方面的能力进行评估。常见的自然语言理解任务有情感分析、文本匹配、文本分类和阅读理解等。针对具体的任务已有大量的相关评测基准。例如,GLUE 是一个包含 9 个自然语言理解任务的评测基准,包括情感分析、文本蕴含、句子相似性等。XTREME 是一个大规模、多任务、多语言的模型评测基准,涉及 40 种不同的语言,共 9 个任务。在中文信息处理方面,CLUE 是一个大规模的中文理解评测基准,包含文本分类、阅读理解、自然语言推理等多个中文自然语言理解任务和一个诊断评估数据集。
1.1.2 自然语言生成能力评测
自然语言生成能力评测是指对模型在生成自然语言方面的能力进行评估。常见的自然语言生成任务包括机器翻译、生成式文本摘要、自动对话等。针对这些任务,已有大量的相关评测基准。例如,BLEU 是评测机器翻译任务中译文质量的一个重要指标,通过衡量模型生成译文与参考译文之间的 N-gram 匹配程度来计算得分。此外,还有 METEOR、ROUGE 等指标用于评估生成式文本摘要和问题生成等任务的生成质量。
1.1.3 同时考虑理解和生成的能力评测
针对大语言模型的迅速发展及其在下游任务上的广泛应用,仅评估模型某一种能力的评测基准无法满足评测需求。因此,许多新的更为全面的评测基准不断推出,这些基准通常聚合多个数据集、多个任务以及多个评测指标来对模型进行更全面的能力评测。例如,北京大学、清华大学和北京智源人工智能研究院等研究机构联合提出了一个评估汉语理解和生成能力的评测基准 CUGE,涵盖了 7 种重要的语言功能,包括字句级别的语言理解能力、语篇级别的语言理解能力、信息获取和问答能力、语言生成能力、对话式交互能力、多语言能力和数学推理能力,进一步细分到 18 个主流 NLP 任务。
1.2 面向多种能力的新型评测范式
新型评测范式注重大型语言模型在理解和生成能力的基础上,还考量模型是否符合社会道德准则。这种范式为研究者提供了更多维度和深层次的评估方法,有助于推动自然语言处理技术的持续进步和完善。
1.2.1 多种属性的能力评测
为了追踪大语言模型的规模对模型表现的影响,研究者们提出了多种属性的能力评测,包括知识运用能力、数学推理能力、幻觉检测能力等。这些评测基准既包含最初为人类设计的模拟考试,也包含在传统自然语言处理任务上用来评估语言模型的评测基准。例如,TriviaQA 和 OpenBookQA 用于评估大语言模型的知识运用能力,GSM8K 用于评估大语言模型的数学推理能力,HaluEval 用于评估大语言模型的幻觉检测能力。这些评测基准有助于更全面地评估大语言模型的性能。
1.2.2 模型评测实例———GPT-4 的评测
OpenAI 使用一系列评测基准评估 GPT-4 的表现,包括为人类设计的模拟考试和传统自然语言处理任务上的评测基准。模拟考试包括 SAT Math 和 LeetCode,主要考察数学问题和综合代码能力。传统自然语言处理任务上的评测基准包括 MMLU、HellaSwag、HumanEval 和 DROP,分别考察大语言模型将知识运用于问题解决的能力、常识性推理能力、代码生成能力和阅读理解与数值推理能力。评测结果表明,GPT-4 在大多数专业类考试和学术类考试中表现与人类相当,在多个传统的自然语言处理评测基准上达到最先进效果,并展现出处理低资源语言的能力。
微软研究人员以人类级别认知能力与现实世界紧密联系为原则,提出了以人为中心的评测基准 AGIEval,并在其上评测了 GPT-4 和 ChatGPT 等大语言模型的表现。AGIEval 的评测数据来自高标准化、官方的人类考试题,如 GRE、SAT、中国高考、LSAT、AMC 和中国公务员考试等。与文献不同,AGIEval 只保留客观题(多项选择和填空),以更标准和自动地评测大语言模型。评测包括零样本学习、小样本学习、零样本思维链和小样本思维链四种设置。结果显示,GPT-4 在 LSAT、SAT 和数学竞赛中超越人类平均表现,SAT 数学考试准确率达 95%。然而,大语言模型在需要复杂推理或特定领域知识的任务上表现不佳。此外,与 GPT-3 系列模型相比,GPT-4 等大语言模型的零样本学习能力逐渐接近小样本学习能力。


