从大模型原理看人类思维模式的优化与学习
前段时间学习了大模型的工作原理,学完之后,我决定改变自己的大脑思维模式,向大模型学习。
大模型的智能,显然还不是人类的智能,但它的结构和训练过程,非常值得学习。正是这独特的模型和方法,让它产生了令人震惊的效果。
大模型本身是受人脑启发的,所以,它做得好的地方,我们人脑完全可以学习。
本文所称大模型,是指大语言模型(LLM),主要基于 Transformer 结构。如果举例,本文主要以 GPT-3 为例进行说明。
特征向量:概念的数字化表达
你知道吗,在大模型里,每个字都有一串不同的数值,就像是这个字的密码一样,神秘而不可名状。这些神奇的数值被送入大模型神奇的注意力机制和神经网络,就出现了神奇的效果。
举个例子,我们看看'变形金刚'这四个字在大模型中是怎么表示的吧:
'变':[-0.09, 0.06, -0.78, 0.25, -0.00, …, 1.41, 0.76, -0.75, 1.13, -0.92]
'形':[-0.30, 0.23, -0.09, -0.67, -0.57, …, 0.72, 0.20, -0.58, 0.21, 0.08]
'金':[-1.15, -0.46, -0.02, 1.10, -0.43, …, 0.42, -0.41, -0.62, 0.44, 1.21]
'刚':[1.20, -0.91, -0.19, -0.40, -0.88, …, -0.38, 0.09, -0.81, 0.61, 0.93]
注意,省略号代表省略了一堆数值。从术语上讲,可以把这些数值称为一个字的**'特征向量'**,数值的个数就是向量的维度。
对于 GPT-3,其维度高达 12288,就是说,每个字由 12288 个数值来表达!
这些数值代表了什么呢?打个比方,我们说'狗'是动物、是哺乳类、有毛发、会叫、有一定智能、比较忠诚、有一定攻击性、杂食、需要适度运动,可以用 9 个数值来表达,但是 GPT-3 却用了 12288 个数值!
没人能说清,这么多维度中的每个数值表达了什么含义,只有大模型自己知道。这是一种高维空间的语义映射。
这些数值如何得来?当然不是人赋的,而是训练出来的。大模型在学习大量语料的过程中,不断调整对每个字的认识,直至整个模型令人满意时,训练结束,这些值也就定下来了。
大模型的这个特点,让我觉得,对每个字、每个概念,应做细致的考察和理解,要尽可能全面地抓住它的意思,这样,才能更好理解和掌握文字。
越全面,智能越强。
曾有哲人说过,'你想要了解一个事物,就需要了解一切'。现在看来,他不仅是对的,而且是太对了。
想要成为经济学家?单啃经济学的书可不行,你还得懂政治、懂社会、懂人性、懂历史,懂哲学。 想成为军事家?准备好跨界吧!你需要知道的不止是行军打仗,还得懂农业生产、武器制造、工程建设、金融资助、物资运输、信息科技,当然,你更要懂人性、懂文化。 想成为人工智能专家?这可不是敲敲键盘那么简单,你得懂语言学、逻辑学、数学、心理学、脑科学、工程学,还得懂哲学!
真正的天才,事实上都是通才。
大模型就是个通才。
ChatGPT 之所以惊艳世界,是因为它几乎无所不知。而这背后,是它啃了 45TB 语料的结果。45TB,相当于数百万本书的信息量!
正是通过对这些语料的刻苦训练,大模型学会了给每个字合适的特征向量,学会了建立靠谱的神经网络条件反射,学会了算出最适合的下一个字。
大模型并不记录任何知识,比如,它并不记录'中国的首都是北京',但你问他中国首都是哪里,它肯定能回答出来是北京。所有的信息都在神经元连接的权重参数之中,他看到'中国'和'首都',就能下意识反应说'北京'。
这些用于构成条件反射的权重参数,数量庞大(对 GPT-3 而言,有 1750 亿个),没人知道这些权重都是什么含义,人们只是知道它们能呈现出惊人的效果。
这些权重并不是人工赋值的,它们也是训练出来的,计算机逼着大模型学习海量语料中的任意一段文字,逼其调整权重,使之能够预测任意一段文字的下一个字,而且误差要让人满意。
一旦做到这点,就意味着,它知道人怎么说话,人怎么想问题,人怎么看世界,大模型以它的结构和它的参数,拟合了数百万本图书量的高质量文字,它相当掌握人类的知识。
相比之下,每个人学的东西太少了,每个人懂的也太少了。高人和一般人的区别就在于,高人掌握更多高质量的信息,高人拥有更多靠谱的神经连接。
虽然机器和人学习的方式并不一样,但有一点是肯定的,博览群书、见多识广,总比不读书、闭塞要好。
向大模型学习,看得更多,懂得更多。
注意力机制:语境的动态构建
大模型只是在不断输出下一个字,但每一个字的输出,都是经过反复锤炼的。
我们知道,一个字,在不同的句子中,有不同的含义,比如'我喜欢黄金首饰'和'这是一个变形金刚',虽然里面都有'金'字,但'金'的含义大不相同。
大模型是靠注意力计算和前馈神经网络来识别语义、形成语境的。
所谓注意力计算,就是对一段文本中求得其中每一个字对其他每一个字的关系(本质上是字和字的特征向量间的点积计算),然后用这个关系对每个字的特征向量进行调整。


