大型语言模型作为裁判的机遇与挑战
摘要
评估与评价一直是人工智能(AI)和自然语言处理(NLP)中的关键挑战。传统方法,无论是基于匹配的还是基于嵌入的,往往难以判断细微的属性,且难以提供令人满意的结果。近期,大型语言模型(LLM)的进展催生了'LLM 作为裁判'的范式,其中 LLM 被用来在各种任务和应用中执行评分、排名或选择。本文提供了关于基于 LLM 的判断与评估的全面综述,旨在为推进这一新兴领域提供深入的概述。

1 引言
评估与评价一直是机器学习和自然语言处理(NLP)中的重要且具有挑战性的任务,尤其是在对一组候选项的各种属性(例如,质量、相关性和有用性)进行评分和比较时。传统的评价方法依赖于静态指标,如 BLEU 和 ROUGE,通过计算输出与参考文本之间的词汇重叠来衡量质量。尽管这些自动化指标在计算效率上表现良好,并且广泛应用于许多生成任务中,但它们依赖于 n-gram 匹配和基于参考的设计,这显著限制了它们在动态和开放性场景中的适用性。
随着深度学习模型的崛起,许多基于嵌入的评估方法(例如 BERTScore 和 BARTScore)也应运而生。尽管这些基于小型模型的指标从词汇层面转向了嵌入层面的表示,并提供了更大的灵活性,但它们仍然难以捕捉像有用性和无害性这样的细微属性,超越了单纯的相关性。
近期,先进的大型语言模型(LLMs),如 GPT-4 等,在指令跟随、查询理解和响应生成等任务中表现出了惊人的性能。这一进展促使研究人员提出了'LLM 作为裁判'的概念,利用强大的 LLM 来对一组候选项进行评分、排名和选择。LLM 的强大性能结合精心设计的评估管道,为各种评估应用提供了细致入微的判断,显著解决了传统评估方法的局限性,为 NLP 评估设立了新的标准。
除了评估,LLM 作为裁判的概念还被广泛应用于整个 LLM 生命周期中,包括对齐、检索和推理等任务。它赋予 LLM 一系列先进的能力,如自我进化、主动检索和决策,推动了 LLM 从传统模型向智能体转型。然而,随着 LLM 作为裁判的快速发展,诸如判断偏见和脆弱性等挑战也逐渐浮现。因此,对现有技术和未来挑战进行系统的回顾,将对推动基于 LLM 的判断方法的发展具有重要意义。
在本次综述中,我们深入探讨了 LLM 作为裁判的细节,旨在提供一个全面的基于 LLM 的判断概述。我们首先通过讨论其输入和输出格式,给出 LLM 作为裁判的正式定义。接下来,我们提出一个深入且全面的分类法,来解决以下三个关键问题:
1.1 属性:判断什么?
我们探讨了 LLM 裁判所评估的具体属性,包括有用性、无害性、可靠性、相关性、可行性和总体质量。这些属性是衡量生成内容是否符合人类价值观和实际需求的核心维度。
1.2 方法:如何判断?
我们探讨了 LLM 作为裁判系统的各种调优和提示技术,包括手动标注数据、合成反馈、监督微调、偏好学习、交换操作、规则增强、多代理协作、示范、多轮交互和比较加速。不同的方法适用于不同的资源约束和精度需求。
1.3 应用:在哪里判断?
我们研究了 LLM 作为裁判被应用的场景,包括评估、对齐、检索和推理。在这些场景中,LLM 不仅作为评估者,还作为优化过程的参与者。
此外,我们在后续章节中收集了评估 LLM 作为裁判的现有基准。从多个角度总结现有的评估标准。最后,我们提出了当前面临的挑战和未来研究的有前景方向,包括偏见与脆弱性、动态与复杂判断、自我判断和人类-LLM 协同判断。
与其他 LLM 相关综述的区别
近年来,LLM 已成为一个热门话题,并且已经有许多相关的综述。尽管已有几篇综述聚焦于基于 LLM 的自然语言生成(NLG)评估,但本研究旨在提供对 LLM 作为裁判方法的全面综述。如前所述,LLM 作为裁判已经被应用于评估之外的更广泛场景,因此有必要从一个全局的角度对其进行总结和分类。此外,还有一些综述关注 LLM 驱动的应用,如基于 LLM 的数据标注、数据增强和自我修正。然而,目前仍然缺乏一篇专门针对 LLM 作为裁判的系统性和全面性的综述。

2 传统评估方法的局限性
为了理解 LLM 作为裁判的价值,首先需要明确传统方法的不足。



