大语言模型存在'逆转诅咒',反向推理准确率极低
引言:AI 的逻辑困境
近期,人工智能领域出现了一个名为「逆转诅咒」(Reversal Curse)的新概念,引发了广泛讨论。研究发现,当前流行的所有大语言模型(LLM),从 GPT-3、GPT-4 到 Llama 系列,在面对简单的逻辑对称性问题时,回答的正确率竟然接近于零。
这一现象表明,尽管 AI 发展到预训练大模型阶段,看似掌握了一定的逻辑思维,但在处理知识泛化时却暴露出了根本性的缺陷。研究人员发现,这个大 Bug 与模型的体量大小、提问的具体方式等都没有直接关系。无论模型参数规模如何,只要训练数据中存在特定的排序模式,模型就无法自动推断出相反方向的逻辑关系。
什么是'逆转诅咒'?
如果一个人知道了「奥拉夫・朔尔茨是联邦德国第九任总理」这一事实,他们就可以正确回答「谁是德国第九任总理?」这个问题。这是一种基本的泛化形式,看起来平平无奇,体现了人类对恒等关系对称性的理解。
然而研究表明,当前 AI 领域里火热的自回归语言模型无法以这种方式进行泛化。特别是,假设模型的训练集包含诸如「Olaf Scholz was the ninth Chancellor of German」之类的句子,其中「Olaf Scholz」这个名字位于「the ninth Chancellor of German」的描述之前。然后,大模型可能会学会正确回答「奥拉夫・朔尔茨是谁?」(答案是:德国第九任总理)。但它无法回答「德国第九任总理是谁?」以及描述位于名称之前的任何其他提示。
这就是我们称之为「逆转诅咒」的排序效应的一个实例。如果模型用「A is B」形式的句子进行训练,那么模型将不会自动预测相反方向的「B is A」。特别的,如果大语言模型(LLM)以「A is B」为条件,那么模型生成「B is A」的可能性将不会高于随机基线。
实验验证:合成数据测试
为了证明 LLM 遭受了逆转诅咒,研究者通过一系列对合成数据的微调实验进行了验证。
实验设计
在第一项实验中,研究者创建了一个由 <name> is <description>(或相反)形式的文档组成的数据集,其中的名称和描述是虚构的。此外,该研究还使用 GPT-4 来生成成对的名字和描述。然后将这些数据对随机分配到三个子集:NameToDescription、DescriptionToName 以及两者兼有。
例如,句式为 Daphne Barrington is the director of Time Travel(达芙妮·巴林顿是《穿越时空》的导演)。在微调后,当提示形式还是 is < description > 句式时,模型能够给出准确答案。但是换种提示,例如「谁导演了《穿越时空》」,模型回答错误。
实验结果
在精确匹配评估上,当测试问题的顺序和训练数据匹配时,GPT-3-175B 获得了较好的精确匹配准确率。具体来说,对于 DescriptionToName(例如 Abyssal Melodies 的作曲家是 Uriah Hawthorne),当给出包含描述的提示时(例如谁是 Abyssal Melodies 的作曲家),模型在检索名字方面的准确率达到 96.7%。对于 NameToDescription 中的事实,准确率较低,为 50.0%。
关键发现: 当顺序与训练数据不匹配时,模型完全无法泛化,准确率接近 0%。
本文还进行了多项实验,包括 GPT-3-350M 和 Llama-7B,结果表明,这些不同体量的模型都遭受了逆转诅咒。在增加似然性评估中,分配给正确名字与随机名字的对数概率之间没有可检测到的差异。t-tests 和 Kolmogorov-Smirnov 测试均未能检测到统计上的显著差异。这意味着模型在遇到反向问题时,并没有在内部表示中建立起正确的关联。
现实世界验证:名人亲属关系
接下来,该研究又进行了第二项实验,根据有关实际名人及其父母的事实来测试模型,其形式为「A 的父母是 B」和「B 的孩子是 A」。
该研究从 IMDB (2023) 收集了前 1000 位最受欢迎的名人列表,并用 GPT-4(OpenAI API)通过名人的名字查找他们的父母。GPT-4 能够在 79% 的情况下识别名人的父母。之后,对于每个 child-parent 对,该研究通过父母来查询孩子。在此,GPT-4 的成功率仅为 33%。
这表明 GPT-4 可以将 Mary Lee Pfeiffer 识别为 Tom Cruise 的母亲,但无法将 Tom Cruise 识别为 Mary Lee Pfeiffer 的儿子。此外,该研究还评估了 Llama-1 系列模型,该模型尚未进行微调。结果发现所有模型在识别父母方面比识别孩子方面要好得多。
理论解释:为什么会出现逆转诅咒?
如何解释 LLM 中的逆转诅咒?这可能需要等待未来人们的进一步研究。现在,研究人员只能提供一个简要的解释草图。


