向大模型学习：优化人类思维模式与认知结构

本文探讨大语言模型（LLM）的工作原理及其对人类学习的启示。通过分析词向量、注意力机制、神经网络层级及反向传播算法，阐述了大模型如何通过海量数据训练形成智能。文章指出，真正的智能源于全面的信息掌握与深度的语境理解，类比人类学习应追求通才知识体系，通过反复思考与反馈调整来深化认知。建议读者借鉴大模型的训练逻辑，建立广泛的知识连接，利用迭代反思提升个人能力，而非局限于单一技能。同时强调了跨学科学习和直觉培养的重要性，旨在帮助读者在 AI 时代构建更强大的个人认知体系。

热情发布于 2025/2/7更新于 2026/4/201 浏览

从大模型原理看人类思维模式的优化与学习

前段时间学习了大模型的工作原理，学完之后，我决定改变自己的大脑思维模式，向大模型学习。

大模型的智能，显然还不是人类的智能，但它的结构和训练过程，非常值得学习。正是这独特的模型和方法，让它产生了令人震惊的效果。

大模型本身是受人脑启发的，所以，它做得好的地方，我们人脑完全可以学习。

本文所称大模型，是指大语言模型（LLM），主要基于 Transformer 结构。如果举例，本文主要以 GPT-3 为例进行说明。

特征向量：概念的数字化表达

你知道吗，在大模型里，每个字都有一串不同的数值，就像是这个字的密码一样，神秘而不可名状。这些神奇的数值被送入大模型神奇的注意力机制和神经网络，就出现了神奇的效果。

举个例子，我们看看'变形金刚'这四个字在大模型中是怎么表示的吧：

'变'：[-0.09, 0.06, -0.78, 0.25, -0.00, …, 1.41, 0.76, -0.75, 1.13, -0.92]

'形'：[-0.30, 0.23, -0.09, -0.67, -0.57, …, 0.72, 0.20, -0.58, 0.21, 0.08]

'金'：[-1.15, -0.46, -0.02, 1.10, -0.43, …, 0.42, -0.41, -0.62, 0.44, 1.21]

'刚'：[1.20, -0.91, -0.19, -0.40, -0.88, …, -0.38, 0.09, -0.81, 0.61, 0.93]

注意，省略号代表省略了一堆数值。从术语上讲，可以把这些数值称为一个字的**'特征向量'**，数值的个数就是向量的维度。

对于 GPT-3，其维度高达 12288，就是说，每个字由 12288 个数值来表达！

这些数值代表了什么呢？打个比方，我们说'狗'是动物、是哺乳类、有毛发、会叫、有一定智能、比较忠诚、有一定攻击性、杂食、需要适度运动，可以用 9 个数值来表达，但是 GPT-3 却用了 12288 个数值！

没人能说清，这么多维度中的每个数值表达了什么含义，只有大模型自己知道。这是一种高维空间的语义映射。

这些数值如何得来？当然不是人赋的，而是训练出来的。大模型在学习大量语料的过程中，不断调整对每个字的认识，直至整个模型令人满意时，训练结束，这些值也就定下来了。

大模型的这个特点，让我觉得，对每个字、每个概念，应做细致的考察和理解，要尽可能全面地抓住它的意思，这样，才能更好理解和掌握文字。

越全面，智能越强。

曾有哲人说过，'你想要了解一个事物，就需要了解一切'。现在看来，他不仅是对的，而且是太对了。

想要成为经济学家？单啃经济学的书可不行，你还得懂政治、懂社会、懂人性、懂历史，懂哲学。想成为军事家？准备好跨界吧！你需要知道的不止是行军打仗，还得懂农业生产、武器制造、工程建设、金融资助、物资运输、信息科技，当然，你更要懂人性、懂文化。想成为人工智能专家？这可不是敲敲键盘那么简单，你得懂语言学、逻辑学、数学、心理学、脑科学、工程学，还得懂哲学！

真正的天才，事实上都是通才。

大模型就是个通才。

ChatGPT 之所以惊艳世界，是因为它几乎无所不知。而这背后，是它啃了 45TB 语料的结果。45TB，相当于数百万本书的信息量！

正是通过对这些语料的刻苦训练，大模型学会了给每个字合适的特征向量，学会了建立靠谱的神经网络条件反射，学会了算出最适合的下一个字。

大模型并不记录任何知识，比如，它并不记录'中国的首都是北京'，但你问他中国首都是哪里，它肯定能回答出来是北京。所有的信息都在神经元连接的权重参数之中，他看到'中国'和'首都'，就能下意识反应说'北京'。

这些用于构成条件反射的权重参数，数量庞大（对 GPT-3 而言，有 1750 亿个），没人知道这些权重都是什么含义，人们只是知道它们能呈现出惊人的效果。

这些权重并不是人工赋值的，它们也是训练出来的，计算机逼着大模型学习海量语料中的任意一段文字，逼其调整权重，使之能够预测任意一段文字的下一个字，而且误差要让人满意。

一旦做到这点，就意味着，它知道人怎么说话，人怎么想问题，人怎么看世界，大模型以它的结构和它的参数，拟合了数百万本图书量的高质量文字，它相当掌握人类的知识。

相比之下，每个人学的东西太少了，每个人懂的也太少了。高人和一般人的区别就在于，高人掌握更多高质量的信息，高人拥有更多靠谱的神经连接。

虽然机器和人学习的方式并不一样，但有一点是肯定的，博览群书、见多识广，总比不读书、闭塞要好。

向大模型学习，看得更多，懂得更多。

注意力机制：语境的动态构建

大模型只是在不断输出下一个字，但每一个字的输出，都是经过反复锤炼的。

我们知道，一个字，在不同的句子中，有不同的含义，比如'我喜欢黄金首饰'和'这是一个变形金刚'，虽然里面都有'金'字，但'金'的含义大不相同。

大模型是靠注意力计算和前馈神经网络来识别语义、形成语境的。

所谓注意力计算，就是对一段文本中求得其中每一个字对其他每一个字的关系（本质上是字和字的特征向量间的点积计算），然后用这个关系对每个字的特征向量进行调整。

向大模型学习：优化人类思维模式与认知结构

从大模型原理看人类思维模式的优化与学习

特征向量：概念的数字化表达

注意力机制：语境的动态构建

更多推荐文章

相关免费在线工具

反向传播：迭代优化的核心逻辑

深度理解：Groking 与直觉

实践建议：构建个人认知体系

向大模型学习：优化人类思维模式与认知结构

从大模型原理看人类思维模式的优化与学习

特征向量：概念的数字化表达

注意力机制：语境的动态构建

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

反向传播：迭代优化的核心逻辑

深度理解：Groking 与直觉

实践建议：构建个人认知体系