学习是一个从宏观到微观,再从微观回归宏观的过程
学习大模型技术需要经历几个阶段。之前的学习往往是碎片化的,虽然对大模型技术有了初步认识,但缺乏整体框架。因此,今天来整体梳理一下大模型技术的框架,争取从理论、技术、应用等多个方面进行系统总结。
01. 大模型技术梳理
这次梳理不仅仅是大模型本身的技术,而是以大模型为核心,涉及多个方面的理论、技术和应用实践。
首先,大家应该明白一件事,大模型技术是人工智能技术的一个分支,是目前主流的研究方向,但并不是唯一的方向。

人工智能技术是通过某种技术手段人为创建一个具有类人智能的系统(软件或硬件)。大模型技术是一种仿造人类学习进化的一种方式,使用深度学习(机器学习)算法模仿人类大脑神经元,来实现智能的一种方式,其主要载体是神经网络。
神经网络之所以得到发展的原因是因为,基于神经网络架构进行预训练之后,神经网络会产生一种无法解释的涌现能力,而这个涌现能力特别像是具有了智能一样。
神经网络模型架构
既然是模仿神经网络,那么就需要一种深度学习模型来模仿人类大脑神经系统,比如 CNN(卷积神经网络),RNN(循环神经网络),以及目前主流的 Transformer 模型,还有 LSTM,ResNet,GANs 等。
神经网络的主要结构为一个输入层,一个输出层,以及隐藏层(一个或多个层组成),不同网络层之间使用全连接的方式进行连接,每一个圆都代表着一个神经元,如下图所示:

在神经网络中,除了输入/输出层之外,每一个神经元都有其参数,神经网络的效果就是由这些参数值决定的。
神经网络模型通过一种叫正向传播,损失计算和反向传播的方式来调整神经网络模型中每个神经元的参数。
通过把大量的训练数据输入到神经网络中,让神经网络进行学习(不断的调整参数),来达到类智能的能力。
不同神经网络的架构和实现有所不同,但其核心点都是基于此模型实现的,对想学习神经网络的朋友来说,先学会基础的神经网络架构,然后再针对不同的神经网络模型进行深化是最好的选择。
目前的大模型主要采用的是预训练的方式来实现智能的,简单来说就是给神经网络模型一堆资料,让它自己学,自己看,自己总结;其中给答案的叫做监督学习,没答案的叫无监督学习。
然后根据不同的任务需求,又设计出用来解决不同类型任务的神经网络,比如分类任务,图片处理任务,自然语言处理任务等。
至于大模型技术细节方面的东西,就不详细描述了,感兴趣的可以自己学习,比如编码器,损失计算和反向传播怎么实现等。
再有,设计并训练一个完整可用的神经网络模型是一个复杂的工程,比如模型的设计,训练数据的收集与处理,损失函数与反向传播算法的设计,模型过拟合,欠拟合等问题。

而且随着模型规模的增大,模型的训练难度成几何式增长,比如分布式训练,并行计算等问题;以及为了提升大模型的学习效率,节约成本而设计的强化学习,迁移学习等。
最后,为了使得大模型更像人,也为了实现真正的 AGI(通用人工智能),现在多模态大模型大行其道,而多模态大模型技术比传统大模型的技术复杂度又上升了不止一个台阶。
基于知识库的向量检索——RAG
大模型技术虽然很强大,但其有几个明显的缺点。第一就是知识是有限制的,因为采用的是预训练方式,因此大模型的知识最多只能到训练开始的时间节点,之后产生的新的知识大模型无法获取。
其次,由于训练大模型的成本问题,导致很多企业无法承担大模型的训练成本,因此只能使用第三方的大模型,但第三方大模型没有在特定领域的数据上进行训练或微调,因此,其表现能力一般。




