花园种花之模型版
有首爆火的儿歌《花园种花》,里面唱到:
在小小的花园里面,挖呀挖呀挖,种小小的种子,开小小的花。
在大大的花园里面,挖呀挖呀挖,种大大的种子,开大大的花。
在特别大的花园里面,挖呀挖呀挖,种特别大的种子,开特别大的花。

把这首歌改编成人工智能中模型和数据的关系,也非常应景:
在小小的数据里面,挖呀挖呀挖,用小小的模型,开小小的花。
在大大的数据里面,挖呀挖呀挖,用大大的模型,开大大的花。
在特别大的数据里面,挖呀挖呀挖,用特别大的模型,开特别大的花。

这段话描述了在不同规模的数据集,以及相应的模型规模下,数据挖掘和模型训练的关系。在小数据集中,使用小模型可能更灵活、更容易泛化,而在大规模数据集中,使用大模型可能更有助于捕捉更复杂的模式。
今天我们就聊聊特别大的模型,开特别大的花。
什么是大模型
机器学习是一种让计算机从数据中学习规律和知识的方法,它是人工智能的一个重要分支。
机器学习的目的是让计算机能够自动地完成一些人类的智能任务,比如识别图像,理解语言,推荐商品等等。
要实现这些任务,计算机需要有一个模型,来描述数据之间的关系和逻辑。模型是一种对现实世界的简化和抽象,它可以用数学公式、图形、代码等方式来表示某些复杂的逻辑。
大家如果需要了解模型的基础知识,欢迎阅读之前的文章『机器学习与人工智能中的模型有形状吗?』。
我们通常所说的大模型,完整的名字应该是大语言模型(Large Language Model,LLM)。大模型是具有大量参数和层数的复杂 AI 模型,这些模型在处理和生成文本等复杂任务时更具出色表现。
我们解释一下模型的参数和层数这两个概念。
模型的参数是模型在训练过程中学到的关键信息,是模型的权重和偏差等数值的集合。在神经网络中,权重决定了神经元之间的连接强度,从而影响信息在网络中的传递和处理。因此模型的权重可以看作是对不同输入特征重要性的度量。
例如,下面的图展示了多种神经网络的架构,其中两个神经元通过一条线连接起来,每一条线表示一个权重。

Image Source: https://tikz.net/wp-content/uploads/2021/12/neural_networks.gif
大模型训练的数据量很大、也更复杂,所以需要学习和存储的内容也就更多。大模型通常包含数百万到数十亿的参数,这使得它们能够更有效地学习复杂的模式和数据表示,从而提升其对数据的理解和适应能力。
就像我们上面看到的,神经网络是一个分层的结构,通常包括输入层、隐藏层(可以有多层)、输出层,数据从输入层经过隐藏层最终到达输出层。每一层都执行特定的转换和特征提取。
模型的层数是指模型中堆叠的神经网络层的数量。具有多层结构的神经网络通常被称为深度神经网络。深度学习通过增加网络的深度,能够更有效地学习数据的抽象表示。这些模型的层数可以从几十到几百不等。
因此,大模型不仅具有巨大的参数量,而且模型的层数也相对较多。
为了便于大家理解,我们做个形象的比喻。
如果将一个模型看成一座建筑的话,层数可以表示建筑的高度,因为层数越多,建筑就越高,也就越能高瞻远瞩,看到远处的风景。
参数可以表示建筑的面积,因为参数越多,建筑就越大,也就越能容纳更多的功能和内容。









