小白科普:大语言模型 LLM 的工作原理
最近关于人工智能的所有讨论——它的影响、它引发的道德困境、采用它的利弊——非技术背景的朋友之间的讨论很少涉及这些东西是如何工作的。从表面上看,这些概念似乎令人畏惧,掌握大型语言模型 (LLMs) 功能的想法似乎难以逾越。
但事实并非如此,这个原理其实任何人都可以理解。因为推动人工智能浪潮的基本原理相当简单。
多年来,在运营相关平台以及撰写技术内容的同时,我必须找到为非技术受众提炼复杂技术概念的方法。因此,我将在没有任何晦涩技术术语或数学方程的情况下解释 LLMs 的实际工作原理。为此,我将使用一个我们都熟悉的主题:食物。与 LLM 类比,'菜肴'是大语言模型要生成的单词,而'三餐'是大语言模型要生成的句子。让我们深入了解一下。

菜单
想象一下:您正在做一顿晚餐,您准备的食物还不够,所以我们需要在晚餐中添加一个菜。
但这说起来容易做起来难。我们选择的食物需要与晚餐搭配。如果饭菜很美味,我们的配菜也应该很美味。如果已经有沙拉,我们就不应该再做。如果这顿饭的淀粉含量很高,也许我们想加入烤蔬菜。
如果有一个应用程序能够告诉我们要做什么就好了。这个应用程序能考虑你已经在做什么,并想出一个最佳的配菜。这个程序适用于任何餐点、任意菜肴和口味组合,无论是供 4 人还是 40 人享用。

我们将制作这个应用程序。只需两个简单的步骤。
首先,我们将开发一种对食物进行分类的方法。毕竟,计算机没有味蕾,也不能直观地理解食物或口味如何组合在一起,它们需要能够接受食物的新概念,并将其编码为某种数据。
其次,我们将让应用程序学习,如何在获取现有一组菜肴的基础上,并生成新的菜。它不仅仅是记住以前见过的东西,而是需要适用于任何菜肴组合,甚至是从未见过的菜肴组合。所以我们不仅仅是要对系统进行编程,我们要教它如何生成合适的菜。
第一步:模拟三餐
我们将首先教计算机将三餐纳入为数据。我们不会通过向其提供有关三餐的定性细节来做到这一点(例如它的味道或搭配)。这是旧类型的机器学习——限制太多且容易出错。相反,我们将向其提供大量有关人们过去搭配的菜肴类型的数据。
让我们考虑两种类型的菜肴:凯撒沙拉和卡普雷塞沙拉。作为人类,我们知道这两道菜很相似。它们都是意大利菜,都是沙拉,都含有蔬菜和奶酪……但是机器不需要知道以上任何内容就可以了解这两道菜有多么相似。
在我们海量的数据中,凯撒沙拉很可能经常与其他意大利菜肴搭配。而且凯撒沙拉的存在也很可能意味着膳食中不会再有沙拉。卡普雷塞沙拉也是如此。它们通常不会与其他沙拉一起出现,但会与意大利菜肴一起出现。

因为这两种菜肴经常与相同类型的菜肴同时出现,所以我们可以将它们归类为相似的。它们往往存在于相同的食物中。你可能会说'一道菜的特点是与它伴随的其他菜。'
请注意,我们没有去寻找凯撒沙拉和卡普雷塞沙拉同时出现的情况,我们并不是通过一餐当中同时出现这两种沙拉来判断它们相似的,而是通过它们在一餐当中伴随的其他相同菜肴来判断的。
这里提供另一种解释方式,想象一下在这张图表上绘制所有的菜肴:








