LLM 大模型基础篇(一):大模型核心概念与原理介绍
本文将系统介绍大语言模型(Large Language Model, LLM)的基础概念、工作原理及训练流程,帮助读者建立对人工智能大模型的初步认知。
ChatGPT 是什么?
从 OpenAI 的官方资料来看,2022 年发布时,OpenAI 将 ChatGPT 定义为一种模型。然而随着发展,目前我们所熟知的 ChatGPT 已逐渐演变成一种兼容多种 GPT 模型的聊天应用服务。
我们可以这样理解:ChatGPT 是对话产品,而 GPT-3.5、GPT-4 是底层的模型。同理,国内的智谱清言也是对话产品,其背后的模型是 ChatGLM。
大模型的定义与特征
所谓的大模型,简而言之,就是那些拥有庞大参数数量的模型。它们通过处理和理解海量数据,能够胜任一系列复杂的任务。
为何称为'大'?
原因在于它们的规模之大,通常包含从数十亿到数千亿的参数。这些庞大的参数集合赋予了模型强大的学习和记忆能力。
- 参数量级:大模型之所以强大,一个重要原因在于其庞大的参数数量。参数(权重)是模型在学习过程中不断调整的核心。例如 GPT-3 的参数规模约为 175B(1B = 10^9),即 1750 亿个参数,属于千亿级;GPT-4 参数规模更为庞大,据推测达到万亿级别。
- 数据规模:大模型的训练离不开大量的数据。无论是文本、图像还是音频数据,都是大模型学习的基础。通过对这些数据的深入学习,模型能够掌握丰富的知识和技能。
大模型的分类
大型模型主要分为两类:
- 大型语言模型(LLM):专注于处理和生成文本信息。
- 大型多模态模型:这类模型能够处理包括文本、图片、音频等多种类型的信息。
大模型的工作原理
当你给大模型一段输入,大模型内部主要执行以下步骤:
- 文本编码:模型首先将输入的文本串分词(Tokenization),然后将文字转换为向量(Embedding)。向量可以简单理解为一串数字,例如
"apple" → [0.4, 0.1, 0.7]。
- 预测下一个词:基于当前用户的输入以及所有前面的上下文,模型会计算接下来每一个可能的单词或标记的概率。这个概率表明了在当前上下文中每一个单词接下来出现的可能性。
- 选择单词:从概率最高的单词中选择一个作为输出(或通过采样策略选择)。
- 重复过程:接着,模型会将新生成的单词加入到已有的文本序列中,并基于这个更新后的序列重复上述预测和生成过程,直到达到某个停止条件。
一个通俗的描述:大模型本质上是根据上文,预测下一个词的概率分布。
GPT 与预训练机制
GPT 这个名字全称是 Generative Pre-trained Transformer(生成式预训练转换器)。
- Generative(生成式):表示该 AI 模型是用来生成内容的。
- Pre-trained(预训练):这是大模型的核心概念。
什么是预训练?
预训练是一种无监督学习方法,其目的是在特定任务之前,使用大规模的无标签数据训练模型,使模型能够捕捉到语言的基本规律和特征。这一过程帮助模型建立一个丰富的知识表示,从而提高其在后续任务中的泛化能力。
为了理解预训练,我们需要先了解传统机器学习中的'训练'。
传统训练示例
假设我们要训练一个模型,用来根据西瓜的外型判断西瓜是否熟。我们关注三个特征:色泽、根蒂、敲声。结果只有两种:熟或不熟。我们从数据中学得模型的过程称为'训练'。形式化表达为 Y = f(x1) + f(x2) + f(x3)。这就是传统机器学习中处理分类任务的判别式模型。
有监督与无监督
- 有监督学习:数据集中有明确的标签(如每个瓜都切开看是否熟),算法学习特征与结果的映射关系。
- 无监督学习:数据集中没有标签,算法需要从数据本身中发现结构或模式(如聚类)。
在 ChatGPT 等模型中,预训练阶段不涉及带有标签的训练,而是直接把互联网大量的资讯、文章等丢给模型,让模型学习词汇、语法、语义以及上下文信息。通过这个过程,模型能够学习到丰富的语言知识和表示能力。
微调(Fine-tuning)
在预训练完成后,这些模型可以进一步进行有监督的微调或特定任务的训练。通过微调,模型可以根据特定任务的数据进行具体的训练和调整,使其更适应特定任务,提高性能。这种两阶段训练的方式使得预训练模型相比传统 NLP 自然语言处理任务中取得了更显著的突破。
为什么大模型会算错小学数学题?
大型语言模型有时候会算错小学数学题,主要原因如下:
- 设计目标不同:它们主要是基于语言理解和生成,而不是专门设计来进行数学计算的。语言模型是通过大量的文本数据进行训练的,这些数据主要是自然语言,而不是数学公式和计算。
- 模式识别依赖:在处理数学问题时,大模型更多地依赖于模式识别和文本生成,而不是实际的数学逻辑运算。它可能只是模仿了数学题的文本格式,而非真正理解了数值逻辑。
Transformer 架构简述
现代大模型大多基于 Transformer 架构。Transformer 引入了自注意力机制(Self-Attention),这使得模型能够并行处理序列数据,并捕捉长距离依赖关系。
- Encoder-Decoder 结构:早期 Transformer 采用编码器 - 解码器结构,而 GPT 系列主要使用 Decoder-only 结构,专注于自回归生成。
- 多头注意力:允许模型在不同的表示子空间中同时关注来自不同位置的信息,增强了模型对复杂语境的理解能力。
训练流程进阶:SFT 与 RLHF
除了基础的预训练,大模型的实际落地还涉及两个关键步骤:
- 监督微调(Supervised Fine-Tuning, SFT):使用高质量的指令数据集对预训练模型进行微调,使其学会遵循人类指令,而不仅仅是续写文本。
- 基于人类反馈的强化学习(RLHF):引入人类偏好数据,通过奖励模型优化策略,使模型输出的内容更符合人类的价值观和安全标准。
挑战与未来展望
尽管大模型表现卓越,但仍面临诸多挑战:
- 幻觉问题:模型可能会生成看似合理但事实错误的内容。
- 算力成本:训练和推理需要巨大的 GPU 资源。
- 数据安全与隐私:如何在利用数据的同时保护用户隐私。
未来,随着模型效率的提升和多模态能力的增强,大模型将在医疗、教育、科研等领域发挥更大的作用。理解其基本原理,有助于开发者更好地利用这一技术解决实际问题。
本文旨在普及大模型基础知识,不涉及具体商业推广。