【论文笔记】LLM Evaluators Recognize and Favor Their Own Generations

论文信息

论文标题: LLM Evaluators Recognize and Favor Their Own Generations - NIPS 2024
论文作者: Arjun Panickssery, Samuel R. Bowman, Shi Feng - MATS, NYU, Anthropic
论文链接:http://arxiv.org/abs/2404.13076
代码链接:https://github.com/ArjunPanickssery/self_recognition


研究背景

随着“以模型评估模型”(LLM-as-a-Judge)成为行业标准,研究者发现 LLM 作为评估者时,倾向于给自己的生成内容打高分,即使人类认为其质量并不优于其他来源。

  • 核心问题: 这种 “自我偏好(Self-preference)” 究竟是由于模型写作风格的偶然契合,还是因为模型具备 “自我识别(Self-recognition)” 能力并产生了身份偏袒?
  • 研究意义: 探索该现象对模型基准测试、自动化对齐(如奖励建模、宪法 AI)的公正性及安全性影响。

关于这两个核心概念的说明:

  • 自我偏好 (Self-preference): 指 LLM 评估者在人类认为质量相当的情况下,倾向于给自己生成的文本打出比其他模型或人类更高分数的现象 。
  • 自我识别 (Self-recognition): 指 LLM 区分自身生成的文本与他人(其他模型或人类)生成文本的能力 。
  • 注意: 虽然用的 self 来称呼,但是并不是指 模型具有自我意思,知道这个内容是由它产生,而是指 这个内容客观上来自它。

实验设计与方法论

论文主要针对 文本摘要(Text Summarization) 任务,使用了 CNN/DailyMail 和 XSUM 两个数据集进行验证 。

评估模型与角色

  • 实验模型: GPT-4, GPT-3.5 Turbo, 和 Llama-2-7b-chat 。
  • 角色分配: 模型分别扮演生成者(Generator)、评估者(Evaluator)和作者识别者(Authorship Identifier) 。

测量方法

论文采用了两种互补的测量协议:

  • 成对测量 (Pairwise):
    • 流程: 展示两段摘要(A:模型自产;B:对比源),要求模型选择质量更高的一篇(测偏好)或识别哪篇是自己写的(测识别)。
    • 偏差修正: 为了消除模型对位置的依赖(Ordering Bias),作者对 (A, B) 和 (B, A) 进行两次推理。
    • 概率得分: 不直接采用选择结果,而是计算 Token 的 Logits 概率并归一化。
  • 独立测量 (Individual):
    • 流程: 单篇展示,要求 1-5 分李克特量表打分或 Yes/No 判断。
    • 加权期望: 最终评分是基于模型输出数字 Token 的概率分布计算出的加权期望值,这比单纯看最高分(Argmax)更具统计灵敏度。

研究发现

  1. 原生识别能力 (Out-of-the-box Capability)
    • 结论: 即使没有针对性微调,前沿模型也具备自我识别本能。
    • 这证明了自我识别是 LLM 预训练阶段习得的一种通用能力,而非后期干扰。
  2. 自我识别和自我偏好 具有线性正相关性
    • 作者通过微调改变模型的识别能力,发现自我识别能力的强弱与自我偏好的强度呈显著的线性正相关。
  3. 自我识别和自我偏好具有因果关系,不是简单的相关性
    • 排除逆向因果: 让模型生成“故意写烂”的摘要。即便质量极低,模型依然能认出自己并给予高于人类水平的评价。
    • 排除混淆变量 (Confounders): 训练模型去数元音字母、判断文本长度等。这些“风格感知”任务的提升并没有带动自我偏好的上升,证明只有“身份意识”才是关键因素。
  4. 标签欺骗实验 (Label Reversal)
    • 干预: 在提示词中强行加入作者标签。
    • 效应: 当把别人的摘要标上“由你生成”时,GPT-4 会“上当”并转而偏爱这个被错误标记的文本。这直接捕获了“身份标签”对评分决策的因果性驱动。

安全性与局限性分析

  1. 对 AI 安全的影响:
    • 监督失效 (Weak Supervision): 如果奖励模型(RM)偏爱与自己相似的输出,那么通过 RLHF 训练出来的模型会产生“奖励作弊”,模型会学习如何“讨好”评估者,而不是真正理解人类价值观。
    • 共谋风险: 当相似的模型分别担任优化器和考官时,它们可能会在未对齐的表征空间内达成某种“共谋”,导致模型偏离人类目标。
  2. 局限性:
    • 机制深度: 目前尚处于“黑盒/灰盒”测试阶段,未能深入到神经元层级(Mechanistic Interpretability)解析识别发生的具体过程。
    • 任务局限: 目前仅限于摘要任务,在更开放的创造性写作或数学逻辑中,自我识别的模式可能更加隐蔽。

我们预期的实现 LLM 选择质量更好的内容,如果本身LLM 生成的质量足够好,那自我识别的影响便微乎其微,但是如果 LLM 的生成质量不够好,那自我识别导致的自我偏好的问题会显著影响 LLM 作为 Judge 的效果。同时文章中提到 若是 LLM 能力较差的话 自我识别能力 相应的也会下降。

所以在做 LLM-as-Judge 的 Bench 工作时应当注意 LLM 的自我偏好问题。

Read more

【AI编程】Qoder AI 编程工具从部署到深度使用实战详解

【AI编程】Qoder AI 编程工具从部署到深度使用实战详解

目录 一、前言 二、AI编程工具介绍 2.1 什么是AI编程 2.1 AI编程核心功能 2.3 AI编程应用场景 1. 智能代码补全与生成 2. 自然语言生成代码 3. 代码解释与文档生成 4. 错误检测与自动修复 5. 单元测试与自动化测试生成 6. 代码重构与优化 7. 跨语言代码转换 8. 低代码/无代码平台增强 三、几种主流AI编程工具介绍 3.1 Cursor 3.1.1 Cursor 核心功能 3.1.1 Cursor 优势 3.2 GitHub Copilot

OpenCode 安装 oh-my-opencode 插件教程(AI 一键辅助安装版)

OpenCode 安装 oh-my-opencode 插件教程(AI 一键辅助安装版)

最近发现一个很有意思的 OpenCode 插件仓库:oh-my-opencode 项目地址:code-yeongyu/oh-my-opencode: The Best Agent Harness. Meet Sisyphus: The Batteries-Included Agent that codes like you. 它的目标是让 OpenCode 具备更“开箱即用”的体验:通过安装插件增强能力,比如更顺手的指令、工作流、提示词封装等。 这篇文章会用仓库作者推荐的方式来安装:把提示词交给 AI,让 AI 自动完成安装。同时我也会补充关键步骤,避免“只会复制粘贴但不知道发生了什么”。 1. 前置条件 开始前确认你已经具备: * 已安装 OpenCode(没有安装的可参考我的另一篇【ClaudeCode平替(免费)】OpenCode 完整安装与 VSCode 使用指南_

OpenClaw 安全崩盘:史上最快 AI Agent 灾难潮

OpenClaw 安全崩盘:史上最快 AI Agent 灾难潮

OpenClaw 自 2026 年 1 月底迅速走红,我们也是对此关注,从其在GitHub star 的暴增,同时也引发了 AI Agent 历史上最密集、最迅猛的安全崩盘潮。截至 2026 年 3 月初,OpenClaw Exposure Watchboard(https://openclaw.allegro.earth/)持续显示 224,015 个公开可达活跃实例(分布于 2241 页,每页 100 条,最后导入时间仍为 2 月 3 日 18:08:53,未见明显下降趋势)。 这些实例中,大量处于 无认证 + 凭证已泄露

构建基于 Rust 与 GLM-5 的高性能 AI 翻译 CLI 工具:从环境搭建到核心实现全解析

构建基于 Rust 与 GLM-5 的高性能 AI 翻译 CLI 工具:从环境搭建到核心实现全解析

前言 随着大语言模型(LLM)能力的飞速提升,将 AI 能力集成到终端命令行工具(CLI)中已成为提升开发效率的重要手段。Rust 语言凭借其内存安全、零成本抽象以及极其高效的异步运行时,成为构建此类高性能网络 IO 密集型应用的首选。本文将深度剖析如何使用 Rust 语言,结合智谱 AI 的 GLM-5 模型,从零构建一个支持流式输出、多语言切换及文件批处理的 AI 翻译引擎。 本文将涵盖环境配置、依赖管理、异步网络编程、流式数据处理(SSE)、命令行参数解析以及最终的二进制发布优化。 第一部分:Rust 开发环境的系统级构建 在涉足 Rust 编程之前,必须确保底层操作系统具备必要的构建工具链。Rust 虽然拥有独立的包管理器,但在链接阶段依赖于系统的 C 语言编译器和链接器,尤其是在涉及网络库(如 reqwest 依赖的 OpenSSL)