人类智能有四个基本特征:推理、计划、持久记忆和理解物理世界,这些是当前 AI 系统无法做到的。没有这些能力,AI 应用会受到限制并且容易出错。
1. 什么是 LLM?
LLM(大语言模型)是一种生成式 AI,它基于大量数据(以 PB 计)进行训练,可以对任何类型的问题生成新颖的回答,这就是'生成式'名称的由来。
这些模型基于 Transformer 架构,需要非常大的 GPU 数据中心。训练 ChatGPT 花费了大约 1 亿美元。这些模型非常庞大,无法安装在任何一台服务器上;它们的参数数量以万亿计。
认识这些模型的方式是将它们视为一个创意生成机器。它们可以生成或给出任何文本查询的近似答案,即使它们在之前没有见过类似的东西。鉴于模型数据的规模,这些模型在某种程度上捕捉到了语言的本质,在某些情况下,它们甚至学习了训练数据中没有的语言。这被称为'突现行为'。研究表明,随着模型规模的增加,这些模型可能会发展出全新的能力和功能。
2. 如何看待 LLM 和生成式 AI?
众所周知,神经网络是通用函数逼近器。所以,我们知道这些函数确实在尝试对世界建模(假设真实世界有某种函数)。但如果真实世界不仅仅是一个无法建模的函数呢?有很多事情是人类会做但无法解释的。
几年前,我说过,只有当我们能够完美地写下它们时,当前的 AI 系统才能捕获流程或智能行为的细节。但有很多事情是人类会做但无法描述的;所有这些都是我们世界模型的一部分,而 AI 对此一无所知。语言只是我们思考的一部分,它无法捕捉到我们头脑中世界模型的许多细微之处。
例如,我为什么爱我的狗?我真的没有理由。或者为什么我希望看到贫困消除?所有这些都只是感觉,没有逻辑。即使是我们喜欢的一件好的艺术品,大多数艺术家也无法描述他们是如何创作出来的。
当前的 AI 在某种程度上正在尝试学习不同的数据分布,有些容易,有些复杂。现在有时它可以弄清楚智能任务或活动背后的基本规则。例如,机制可解释性研究揭示了模型可以学习数学算法,但即使是最好的 LLM 也无法进行基本的乘法运算,在这方面它们都失败了。
[图:GPT-4o 在做基本乘法时失败]
如前所述,这些 LLM 可以学习一些基本规则和结构,但有时它们只是通过记忆来回答问题。在深度学习中有一个概念叫'Grokking',它指的是网络从记住一切到泛化的过程。测试准确率的突然跳跃是模型'grok'的标志。当你训练一个网络时,训练损失会不断减少,但测试损失却不会。但在某个时刻,测试损失会成指数级下降,这时模型就从记忆转向了泛化。
Grokking 表明 LLM 实际上可以学习算法,但我们无法预测模型会记住数据的哪些部分,泛化哪些部分。对此我们无法控制。LLM 部分是记忆,部分是泛化。现在,对于那些简单且具有明确数据分布的概念,LLM 可能会选择这些结构并创建它们的内部模型,但我们并不确定。
问题仍然存在,我们如何控制这种行为,目前我们没有一个好的答案。我们最接近的是 Bhargava 的 LLM 控制理论。
目前,我们还不能确定 LLM 的内部世界模型足够好,以至于可以创建出类人智能。LLM 最大的问题在于评估它们,它们甚至非常擅长欺骗研究人员,表现得好像它们很聪明。
这些模型往往看起来一切都正确,甚至表现出泛化能力,但当从不同视角提问时,它们会完全失败,这在一篇名为《LLM 反转诅咒》的论文中有介绍。
我们将总结:我用一个类比来思考 LLM。生物学家可以解释花的细胞和结构,但无法描述它的美丽,但诗人可以描述。很多人类的体验是如此直观,它们不仅仅是一个映射问题。大多数神经网络只是将一组信息映射到另一组信息,这就是为什么它们从根本上缺乏智能的原因。
我们不知道 LLM 记住了什么,泛化了什么。目前,没有办法控制这种行为。它们非常善于表现得好像很聪明。使用大量数据,它们可以模仿智能行为,但没有任何真正的计划或推理能力。
3. 神经扩展定律的信奉者
支持 LLM 将变得真正智能的论点基于神经扩展定律。
简单来说,该定律基本上表明,随着我们不断增加计算量、数据并增加模型的规模,系统的智能能力将无限增加,并最终超越人类极限。
乍一看,确实如此,但深入挖掘我们可以发现这个定律及其支持论点中存在许多缺陷。该定律认为更大的模型会自动变得具有突现性,这意味着它们会突然发展出新的能力,这些是研究人员未预见或计划的。
就 LLM 而言,它们可能对一些具有良好数据分布的概念有世界模型。但谁说这些世界模型是正确的呢?我们不知道。
目前,大多数 LLM 的行为似乎更像是某种奇怪的记忆形式而非泛化。即使它们有这些世界模型,它们仍然不知道两个内部世界模型如何相互作用。
如果世界模型呈现出两个完全相反的观点,它们有能力解决这个问题吗?它们是否具有引导智能深入分析并找到正确答案的意愿或意识体验?它们能否使用 system 2 intelligence 来辩论自己的知识?我认为不会。因此,扩展肯定有帮助,但不会到 LLM 成为 AGI 或超智能的地步。
这些更大的模型可以存储大量信息,因此总是显得更智能,但实际上它们可能只是通过记忆而不是泛化来回答。
乍一看,神经扩展定律似乎表明这些模型变得更聪明了,因为它们的基准数量不断增加,但更多时候,它只是模型在基准测试中的行为记忆,它有一个更大的样本分布来形成答案。
不仅如此,甚至基准测试数据也被泄露并被大型 LLM 公司使用,这使得评估泛化与记忆的问题更加困难。
简而言之,LLM 没有任何机制来知道该问什么问题以及何时问。这通过下图得到了很好的表达。当前的 LLM 系统只有在提示者已经了解响应正确性时才似乎能进行推理和计划。


