2023 年,一位美国律师用 ChatGPT 帮忙写诉状,AI 在里面引用了六个判例——法官一查,六个全是编的,案件名、法院、日期全是捏造的。律师因此被罚款。这不是段子,是真实发生的事。AI 这种"一本正经地胡说八道"的行为,有个专业名字:幻觉(Hallucination)。
一、什么是 AI 幻觉?
AI 幻觉,指的是大语言模型生成了听起来流畅合理、但实际上不准确、无中生有或自相矛盾的内容。
注意几个关键词:
- 听起来流畅合理:幻觉不是乱码,是"看起来像真的"的错误
- 不准确:与已知事实不符
- 无中生有:编造了不存在的人、事、物
- 自相矛盾:前后说法不一致
学术界对幻觉有更精确的分类(来源:Zhang et al., 2023,《Siren's Song in the AI Ocean》综述):
| 类型 | 定义 | 例子 |
|---|---|---|
| 事实冲突幻觉 | 与已知世界知识不符 | 把错误的历史日期说成正确的 |
| 输入冲突幻觉 | 与用户提供的信息矛盾 | 用户说"我有两个孩子",AI 后来说"你的三个孩子" |
| 上下文冲突幻觉 | 与自己之前说的话矛盾 | 同一段对话里前后给出不同答案 |
以上为简化分类,学术论文中有更细致的划分(如 Zhang et al. 原文将幻觉分为 Factuality Hallucination 和 Faithfulness Hallucination 两大类,后者再细分为多个子类)。
💡 幻觉 ≠ 撒谎:AI 没有"故意欺骗"的意图,它只是在做概率预测。幻觉是模型机制的副产品,不是道德问题,但危害是真实的。
二、幻觉是怎么产生的?
要理解幻觉,先要理解大模型的工作原理。
大语言模型的本质是:给定前面的文字,预测下一个最可能出现的词。它不是在"查找事实",而是在"生成听起来合理的文字序列"。
这个机制天然导致了幻觉,具体来说有这么几个原因:
数据源头就不干净
互联网上的文本并非全部正确。模型从万亿级别的网页文本中学习,其中包含大量错误信息、过时内容、甚至故意造假的内容。这些错误被模型"学进去"了。
知识有截止日期
模型的训练数据有截止时间。截止日期之后发生的事,模型一无所知。但当你问它最新的事情时,它不会说"我不知道",而是会根据已有知识"推断"一个听起来合理的答案。
最根本的问题:模型不知道自己不知道
人类知道自己的知识边界——"这个我不确定,你去查一下"。但大模型对自己的知识边界感知很模糊,经常对不确定的内容表现出过度自信,用肯定的语气说出错误的答案。
自回归生成的"滚雪球"效应
大模型是逐词生成的,一旦生成了一个错误的词,后续的词都会基于这个错误继续生成,错误越滚越大。就像写文章写错了一个前提,后面的推论全都跑偏。
对齐训练的副作用
为了让模型更"有用",训练时会鼓励它给出完整、流畅的回答。这个目标和"诚实承认不知道"有时候是冲突的——模型学会了"给出一个答案"比"说我不知道"更受人类评分者青睐,于是倾向于编造而不是承认无知。
这五个原因里,最难解决的是第三个。其他四个都可以通过工程手段缓解——清洗数据、更新知识、调整训练策略。但"模型不知道自己不知道"这件事,是当前架构的固有限制,目前没有根治方案。


