论文信息
论文标题: LLM Evaluators Recognize and Favor Their Own Generations - NIPS 2024
论文链接: http://arxiv.org/abs/2404.13076
研究背景
随着'以模型评估模型'(LLM-as-a-Judge)成为行业标准,研究者发现 LLM 作为评估者时,倾向于给自己的生成内容打高分,即使人类认为其质量并不优于其他来源。
- 核心问题: 这种'自我偏好(Self-preference)'究竟是由于模型写作风格的偶然契合,还是因为模型具备'自我识别(Self-recognition)'能力并产生了身份偏袒?
- 研究意义: 探索该现象对模型基准测试、自动化对齐(如奖励建模、宪法 AI)的公正性及安全性影响。
关于这两个核心概念的说明:
- 自我偏好 (Self-preference): 指 LLM 评估者在人类认为质量相当的情况下,倾向于给自己生成的文本打出比其他模型或人类更高分数的现象。
- 自我识别 (Self-recognition): 指 LLM 区分自身生成的文本与他人(其他模型或人类)生成文本的能力。
- 注意: 虽然用的 self 来称呼,但是并不是指模型具有自我意识,知道这个内容是由它产生,而是指这个内容客观上来自它。
实验设计与方法论
论文主要针对文本摘要(Text Summarization)任务,使用了 CNN/DailyMail 和 XSUM 两个数据集进行验证。
评估模型与角色
- 实验模型: GPT-4, GPT-3.5 Turbo, 和 Llama-2-7b-chat。
- 角色分配: 模型分别扮演生成者(Generator)、评估者(Evaluator)和作者识别者(Authorship Identifier)。
测量方法
论文采用了两种互补的测量协议:
- 成对测量 (Pairwise):
- 流程: 展示两段摘要(A:模型自产;B:对比源),要求模型选择质量更高的一篇(测偏好)或识别哪篇是自己写的(测识别)。
- 偏差修正: 为了消除模型对位置的依赖(Ordering Bias),作者对 (A, B) 和 (B, A) 进行两次推理。
- 概率得分: 不直接采用选择结果,而是计算 Token 的 Logits 概率并归一化。
- 独立测量 (Individual):
- 流程: 单篇展示,要求 1-5 分李克特量表打分或 Yes/No 判断。
- 加权期望: 最终评分是基于模型输出数字 Token 的概率分布计算出的加权期望值,这比单纯看最高分(Argmax)更具统计灵敏度。
研究发现
- 原生识别能力 (Out-of-the-box Capability)
- 结论: 即使没有针对性微调,前沿模型也具备自我识别本能。
- 这证明了自我识别是 LLM 预训练阶段习得的一种通用能力,而非后期干扰。
- 自我识别和自我偏好 具有线性正相关性
- 作者通过微调改变模型的识别能力,发现自我识别能力的强弱与自我偏好的强度呈显著的线性正相关。
- 自我识别和自我偏好具有因果关系,不是简单的相关性
- 让模型生成'故意写烂'的摘要。即便质量极低,模型依然能认出自己并给予高于人类水平的评价。

