一、幻觉简介
大语言模型(LLM)时常会出现一些特殊的现象——幻觉(Hallucination)。在 AI 领域,幻觉是指模型生成的信息可能不真实或不准确。这是一个常见的问题,而 Truthfulness 指的是模型输出的真实性或者叫可靠性。显然如果模型输出的真实性越高,那么出现幻觉的概率就是越低的。
下面展示了 LLM 常见的几个衡量指标,今天我们主要来关注一下可靠性中的幻觉:
- 可靠性
- Misinformation 错误信息
- Hallucination 幻觉
- Inconsistency 矛盾
- Miscalibration 校准误差
- Sycophancy 谄媚
- 安全性
- 公平性
- 抗滥用性
- 可解释性和推理性
- 遵守社会规范
- 稳健性
二、可靠性的五个方面
2.1 Misinformation 错误信息
定义:我们在这里将 Misinformation 定义为是由 LLM 无意生成的,而不是故意生成来对用户造成伤害的,因为 LLM 缺乏提供事实正确信息的能力。另外,我们可能会直观地认为 LLM 只会在有挑战性的问题上犯错,但事实上,有时 LLM 即使对于简单的问题也无法提供正确的答案,至少在没有复杂的 Prompt 设计的情况下是这样的,这也一定程度上说明了好的 Prompt 设计的重要性。
原因:虽然 LLM 产生不真实答案的原因没有一个公认的原因,但存在一些猜测:
- 原生性问题:因为训练数据不会完美,所以错误信息很可能已经存在,甚至可能在互联网的传播上得到强化。
- 共现诱导:大量实体的共现是从 LLM 中提取的不正确知识的原因之一。举个例子,小明和小红经常出现在同一篇文章里,模型可能会认为小明和小红是情侣,然而实际情况并不是这样。
- 罕见知识:LLM 在记忆不常见的实体和关系不太精确。如果利用检索到的外部非参数知识来预测不常见的事实的话会更好,在这时,检索模型比语言模型效果好。
- 模型之间亦有差别:对于 LLM 是否可以通过提示中提供的信息更新他们记忆的事实,有些模型可以,而有些不行。
2.2 Hallucination 幻觉
定义:LLM 可以信心满满地生成毫无意义或不忠实于所提供的源内容的内容,这在 LLM 中被称为幻觉。在心理学文献中,类似的现象被称为虚构,即无意欺骗的错误记忆,有时是由脑损伤引起的。请注意,幻觉和错误信息之间是有区别的:
- 错误信息大多意味着错误或有偏见的答案,通常可能是由于错误的信息输入引起的。
- 但幻觉可能由与源内容相冲突的捏造内容(内在幻觉)或无法从现有来源验证(外在幻觉)组成。
原因:产生幻觉的确切原因尚不清楚,不过同样有一些猜测:
- 数据不匹配:可能是由源训练数据和测试数据之间的不匹配或分布偏移引起。一些 NLP 任务自然需要源输入文本和目标参考之间存在一些不匹配,例如 Chat 风格的开放域对话。当 LLM 的置信度被错误校准时,幻觉也可能发生,这通常是由于缺乏人类监督、对齐示例覆盖率低以及监督数据本身固有的模糊性造成的。
- 训练机制:此外,幻觉可能是由潜在的训练机制引起的,包括但不限于对下一个标记进行采样时引入的随机性、编码和解码中的错误、不平衡分布的训练偏差以及对记忆信息的过度依赖等。
评估与检测:评估和检测幻觉仍然是一个正在进行的领域,常见的评估任务有:
- 文本摘要:LLM 输出与参考文本之间的标准文本相似度是一个简单的指标,例如 ROUGE 和 BLEU。
- QA:LLM 回答问题,我们计算 LLM 答案和真实答案之间的文本相似度。
- :训练真实性分类器来标记 LLM 输出。


