LLM 的核心能力与局限性分析：推理、规划及世界模型

大语言模型（LLM）虽在生成式 AI 领域表现突出，但在推理、计划、持久记忆及理解物理世界方面存在显著局限。文章批判了神经扩展定律的盲目信奉，指出 LLM 更多是基于记忆而非泛化，缺乏真正的世界模型和常识。通过多个实例展示了 LLM 在基础数学、物理法则理解、规划任务及 ARC-AGI 挑战上的失败，揭示了其本质是统计模式匹配而非智能。同时批评了行业内的炒作、虚假概念验证及数据污染问题，强调 RAG 和 Agent 仅是模仿智能而非真正推理。结论认为 LLM 并非 AI 的终点，未来需超越单纯的数据建模，建立包含真理与美的范式以实现真正的智能。

月光旅人发布于 2025/2/6更新于 2026/4/201 浏览

人类智能有四个基本特征：推理、计划、持久记忆和理解物理世界，这些是当前 AI 系统无法做到的。没有这些能力，AI 应用会受到限制并且容易出错。

1. 什么是 LLM？

LLM（大语言模型）是一种生成式 AI，它基于大量数据（以 PB 计）进行训练，可以对任何类型的问题生成新颖的回答，这就是'生成式'名称的由来。

这些模型基于 Transformer 架构，需要非常大的 GPU 数据中心。训练 ChatGPT 花费了大约 1 亿美元。这些模型非常庞大，无法安装在任何一台服务器上；它们的参数数量以万亿计。

认识这些模型的方式是将它们视为一个创意生成机器。它们可以生成或给出任何文本查询的近似答案，即使它们在之前没有见过类似的东西。鉴于模型数据的规模，这些模型在某种程度上捕捉到了语言的本质，在某些情况下，它们甚至学习了训练数据中没有的语言。这被称为'突现行为'。研究表明，随着模型规模的增加，这些模型可能会发展出全新的能力和功能。

2. 如何看待 LLM 和生成式 AI？

众所周知，神经网络是通用函数逼近器。所以，我们知道这些函数确实在尝试对世界建模（假设真实世界有某种函数）。但如果真实世界不仅仅是一个无法建模的函数呢？有很多事情是人类会做但无法解释的。

几年前，我说过，只有当我们能够完美地写下它们时，当前的 AI 系统才能捕获流程或智能行为的细节。但有很多事情是人类会做但无法描述的；所有这些都是我们世界模型的一部分，而 AI 对此一无所知。语言只是我们思考的一部分，它无法捕捉到我们头脑中世界模型的许多细微之处。

例如，我为什么爱我的狗？我真的没有理由。或者为什么我希望看到贫困消除？所有这些都只是感觉，没有逻辑。即使是我们喜欢的一件好的艺术品，大多数艺术家也无法描述他们是如何创作出来的。

当前的 AI 在某种程度上正在尝试学习不同的数据分布，有些容易，有些复杂。现在有时它可以弄清楚智能任务或活动背后的基本规则。例如，机制可解释性研究揭示了模型可以学习数学算法，但即使是最好的 LLM 也无法进行基本的乘法运算，在这方面它们都失败了。

[图：GPT-4o 在做基本乘法时失败]

如前所述，这些 LLM 可以学习一些基本规则和结构，但有时它们只是通过记忆来回答问题。在深度学习中有一个概念叫'Grokking'，它指的是网络从记住一切到泛化的过程。测试准确率的突然跳跃是模型'grok'的标志。当你训练一个网络时，训练损失会不断减少，但测试损失却不会。但在某个时刻，测试损失会成指数级下降，这时模型就从记忆转向了泛化。

Grokking 表明 LLM 实际上可以学习算法，但我们无法预测模型会记住数据的哪些部分，泛化哪些部分。对此我们无法控制。LLM 部分是记忆，部分是泛化。现在，对于那些简单且具有明确数据分布的概念，LLM 可能会选择这些结构并创建它们的内部模型，但我们并不确定。

问题仍然存在，我们如何控制这种行为，目前我们没有一个好的答案。我们最接近的是 Bhargava 的 LLM 控制理论。

目前，我们还不能确定 LLM 的内部世界模型足够好，以至于可以创建出类人智能。LLM 最大的问题在于评估它们，它们甚至非常擅长欺骗研究人员，表现得好像它们很聪明。

这些模型往往看起来一切都正确，甚至表现出泛化能力，但当从不同视角提问时，它们会完全失败，这在一篇名为《LLM 反转诅咒》的论文中有介绍。

我们将总结：我用一个类比来思考 LLM。生物学家可以解释花的细胞和结构，但无法描述它的美丽，但诗人可以描述。很多人类的体验是如此直观，它们不仅仅是一个映射问题。大多数神经网络只是将一组信息映射到另一组信息，这就是为什么它们从根本上缺乏智能的原因。

我们不知道 LLM 记住了什么，泛化了什么。目前，没有办法控制这种行为。它们非常善于表现得好像很聪明。使用大量数据，它们可以模仿智能行为，但没有任何真正的计划或推理能力。

3. 神经扩展定律的信奉者

支持 LLM 将变得真正智能的论点基于神经扩展定律。

简单来说，该定律基本上表明，随着我们不断增加计算量、数据并增加模型的规模，系统的智能能力将无限增加，并最终超越人类极限。

乍一看，确实如此，但深入挖掘我们可以发现这个定律及其支持论点中存在许多缺陷。该定律认为更大的模型会自动变得具有突现性，这意味着它们会突然发展出新的能力，这些是研究人员未预见或计划的。

就 LLM 而言，它们可能对一些具有良好数据分布的概念有世界模型。但谁说这些世界模型是正确的呢？我们不知道。

目前，大多数 LLM 的行为似乎更像是某种奇怪的记忆形式而非泛化。即使它们有这些世界模型，它们仍然不知道两个内部世界模型如何相互作用。

如果世界模型呈现出两个完全相反的观点，它们有能力解决这个问题吗？它们是否具有引导智能深入分析并找到正确答案的意愿或意识体验？它们能否使用 system 2 intelligence 来辩论自己的知识？我认为不会。因此，扩展肯定有帮助，但不会到 LLM 成为 AGI 或超智能的地步。

这些更大的模型可以存储大量信息，因此总是显得更智能，但实际上它们可能只是通过记忆而不是泛化来回答。

乍一看，神经扩展定律似乎表明这些模型变得更聪明了，因为它们的基准数量不断增加，但更多时候，它只是模型在基准测试中的行为记忆，它有一个更大的样本分布来形成答案。

不仅如此，甚至基准测试数据也被泄露并被大型 LLM 公司使用，这使得评估泛化与记忆的问题更加困难。

简而言之，LLM 没有任何机制来知道该问什么问题以及何时问。这通过下图得到了很好的表达。当前的 LLM 系统只有在提示者已经了解响应正确性时才似乎能进行推理和计划。

LLM 的核心能力与局限性分析：推理、规划及世界模型

1. 什么是 LLM？

2. 如何看待 LLM 和生成式 AI？

3. 神经扩展定律的信奉者

更多推荐文章

相关免费在线工具

4. LLM 无法做到的事

5. 大公司谎言和 AI 社区的问题

6. LLM 的更大问题

7. 我对 LLM 能力的看法

LLM 的核心能力与局限性分析：推理、规划及世界模型

1. 什么是 LLM？

2. 如何看待 LLM 和生成式 AI？

3. 神经扩展定律的信奉者

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. LLM 无法做到的事

5. 大公司谎言和 AI 社区的问题

6. LLM 的更大问题

7. 我对 LLM 能力的看法