大语言模型评测对应用和后续发展至关重要,其评测范式包括经典和新型两种。经典评测范式涵盖自然语言理解和生成任务,本文介绍了流行的经典评测基准及新型评测范式下的代表性基准和实例,并总结了现有评测的不足。随后,文章提出了全面的大语言模型评测思想、相关指标和方法,并探讨了新的研究问题、挑战和未来方向。
1 自然语言处理的评测范式
自然语言处理的进步得益于有效的评估方法,这些评估方法常常依赖于一系列的基准数据集,模型在这些数据集上运行,通过其输出结果,评估系统会对模型能力给出评分。最初的评估基准通常只涉及单一任务与单一数据集,这是自然语言处理的基本评估模式。然而,为了全面评估大型语言模型,我们可能需要将多个数据集进行整合和重组,以形成更通用的评估基准。本文将这些评估模式划分为经典评测范式和新型评测范式,表 1 展示了一些典型的评测基准。接下来,我们将详细介绍这两种评估范式,并指出当前评估方法的不足之处。
表 1 一些典型的评测基准

1.1 经典的自然语言处理评测
自然语言处理涵盖两大核心领域:自然语言理解(NLU)与自然语言生成(NLG)。在传统的评估框架中,主要聚焦于模型输出与参考答案之间的一致性。这一经典评估模式的结构如图 1 所示。

1.1.1 自然语言理解能力评测
自然语言理解能力评测用于评估模型在理解自然语言方面的能力,常见任务有情感分析、文本匹配、文本分类和阅读理解等。已有 GLUE、XTREME 和 CLUE 等评测基准。GLUE 包含 9 个任务,XTREME 涉及 40 种语言、9 个任务,CLUE 则是大规模的中文理解评测基准。
1.1.2 自然语言生成能力评测
自然语言生成能力评测针对模型生成自然语言的能力,常见任务有机器翻译、生成式文本摘要、自动对话等。评测指标有 BLEU、METEOR、ROUGE 等。BLEU 通过衡量模型生成译文与参考译文之间的 N-gram 匹配程度来计算得分。
1.1.3 同时考虑理解和生成的能力评测
随着大语言模型的发展,单一的评测基准已无法满足需求。新的评测基准如 CUGE,涵盖了 7 种语言功能、18 个主流 NLP 任务,全面评估汉语理解和生成能力。
1.2 面向多种能力的新型评测范式
新型评测范式不仅关注大型语言模型在理解和生成方面的能力,还关注模型本身所表现出的更多重要属性,如模型生成的内容是否符合社会道德准则。这种评测范式有助于从更多维度和更深层次去理解和评估自然语言处理模型的性能,推动自然语言处理技术的进一步发展和完善。同时,它也强调了模型的社会道德责任,要求模型生成的内容符合社会道德准则,以避免潜在的负面影响。
1.2.1 多种属性能力评测
研究者们为评估大语言模型表现,提出知识运用、数学推理、幻觉检测等能力评测。如 TriviaQA、OpenBookQA 评估知识运用,GSM 8 k 评估数学推理,HaluEval 评估幻觉检测。这些基准全面评估模型性能。
1.2.2 GPT-4 模型评测
OpenAI 用模拟考试(如 SAT Math、Leetcode)和自然语言处理任务(MMLU、HellaSwag4、HumanEval1、DROP)评估 GPT-4。结果显示,GPT-4 在多数专业和学术考试中与人类相当,且在多个 NLP 基准上达到先进效果。微软提出的以人为中心的评测基准 AGIEval,包括 GRE、SAT 等客观题,GPT-4 在 LSAT、SAT 数学等超越人类平均表现,SAT 数学准确率 95%。然而,在复杂推理或特定领域知识任务上表现不佳。GPT-4 的零样本学习能力接近小样本学习。
1.3 现有评测的不足
1.3.1 新生任务缺乏评测基准
通用大语言模型的发展需要更多应用场景和任务来评估其效果,但一些新生任务缺乏评测基准,这限制了该领域的发展。评测基准对于模型性能和不同模型之间的比较至关重要。缺乏它会使研究人员难以准确评估模型性能,并难以有效评估和比较新生算法和模型。因此,建立评测基准对于模型在新生任务上的应用研究至关重要。
1.3.2 评测任务缺乏区分度




