LLM 大模型基础篇(一):大模型核心概念与原理介绍
本文将系统介绍大语言模型(Large Language Model, LLM)的基础概念、工作原理及训练流程,帮助读者建立对人工智能大模型的初步认知。
ChatGPT 是什么?
从 OpenAI 的官方资料来看,2022 年发布时,OpenAI 将 ChatGPT 定义为一种模型。然而随着发展,目前我们所熟知的 ChatGPT 已逐渐演变成一种兼容多种 GPT 模型的聊天应用服务。
我们可以这样理解:ChatGPT 是对话产品,而 GPT-3.5、GPT-4 是底层的模型。同理,国内的智谱清言也是对话产品,其背后的模型是 ChatGLM。
大模型的定义与特征
所谓的大模型,简而言之,就是那些拥有庞大参数数量的模型。它们通过处理和理解海量数据,能够胜任一系列复杂的任务。
为何称为'大'?
原因在于它们的规模之大,通常包含从数十亿到数千亿的参数。这些庞大的参数集合赋予了模型强大的学习和记忆能力。
- 参数量级:大模型之所以强大,一个重要原因在于其庞大的参数数量。参数(权重)是模型在学习过程中不断调整的核心。例如 GPT-3 的参数规模约为 175B(1B = 10^9),即 1750 亿个参数,属于千亿级;GPT-4 参数规模更为庞大,据推测达到万亿级别。
- 数据规模:大模型的训练离不开大量的数据。无论是文本、图像还是音频数据,都是大模型学习的基础。通过对这些数据的深入学习,模型能够掌握丰富的知识和技能。
大模型的分类
大型模型主要分为两类:
- 大型语言模型(LLM):专注于处理和生成文本信息。
- 大型多模态模型:这类模型能够处理包括文本、图片、音频等多种类型的信息。
大模型的工作原理
当你给大模型一段输入,大模型内部主要执行以下步骤:
- 文本编码:模型首先将输入的文本串分词(Tokenization),然后将文字转换为向量(Embedding)。向量可以简单理解为一串数字,例如
"apple" → [0.4, 0.1, 0.7]。 - 预测下一个词:基于当前用户的输入以及所有前面的上下文,模型会计算接下来每一个可能的单词或标记的概率。这个概率表明了在当前上下文中每一个单词接下来出现的可能性。
- 选择单词:从概率最高的单词中选择一个作为输出(或通过采样策略选择)。
- 重复过程:接着,模型会将新生成的单词加入到已有的文本序列中,并基于这个更新后的序列重复上述预测和生成过程,直到达到某个停止条件。
一个通俗的描述:大模型本质上是根据上文,预测下一个词的概率分布。
GPT 与预训练机制
GPT 这个名字全称是 Generative Pre-trained Transformer(生成式预训练转换器)。
- Generative(生成式):表示该 AI 模型是用来生成内容的。
- Pre-trained(预训练):这是大模型的核心概念。
什么是预训练?
预训练是一种无监督学习方法,其目的是在特定任务之前,使用大规模的无标签数据训练模型,使模型能够捕捉到语言的基本规律和特征。这一过程帮助模型建立一个丰富的知识表示,从而提高其在后续任务中的泛化能力。
为了理解预训练,我们需要先了解传统机器学习中的'训练'。
传统训练示例
假设我们要训练一个模型,用来根据西瓜的外型判断西瓜是否熟。我们关注三个特征:色泽、根蒂、敲声。结果只有两种:熟或不熟。我们从数据中学得模型的过程称为'训练'。形式化表达为 Y = f(x1) + f(x2) + f(x3)。这就是传统机器学习中处理分类任务的判别式模型。
有监督与无监督
- 有监督学习:数据集中有明确的标签(如每个瓜都切开看是否熟),算法学习特征与结果的映射关系。
- 无监督学习:数据集中没有标签,算法需要从数据本身中发现结构或模式(如聚类)。


