大语言模型主流架构与训练技术详解

本文全面介绍大型语言模型（LLMs）的构建流程，涵盖从架构选择到训练优化的关键步骤。文章首先探讨 LLMs 的模型架构，然后详细阐述数据准备过程，包括数据的收集、清洗和去重，接着是关于如何进行有效标记化的讨论。在模型构建方面，博客详细解释了采用自监督学习方法的预训练过程，以及对模型进行指令微调和对齐的重要性。

训练流程示意：

图：宏观数据精炼的后续阶段剔除了最初在 CommonCrawl 中的近 90% 文档。

1. 主流的 LLM 架构

常见架构类型：最广泛使用的 LLM 架构包括仅编码器、仅解码器和编码器 - 解码器。

基础架构：大多数 LLM 架构都基于 Transformer 作为构建模块。

Transformer

开创性工作：Vaswani 等人提出 Transformer 框架，具有里程碑的意义，最初设计用于使用 GPU 进行有效的并行计算。

核心机制：Transformer 的核心是（自）注意力机制，相比递归和卷积机制，它能够更有效地利用 GPU 捕捉长期上下文信息。

Transformer 语言模型架构：最初为机器翻译提出的 Transformer 语言模型架构，包括一个编码器和一个解码器。编码器由 N=6 个相同的 Transformer 层堆叠组成。每层有两个子层：第一个是多头自注意力层，另一个是简单的逐位置全连接前馈网络。解码器由 6 个相同的层堆叠组成。除了编码器层中的两个子层外，解码器还有第三个子层，它对编码器堆栈的输出执行多头注意力。注意力函数可以描述为将查询和一组键值对映射到一个输出，其中查询、键、值和输出都是向量。输出计算为值的加权和，其中每个值的权重由查询与相应键的兼容性函数计算得出。与执行一个具有 dmodel 维键、值和查询的单一注意力函数不同，发现将查询、键和值 h 通过不同的学习线性投影分别映射到 dk、dk 和 dv 维是有益的。位置编码被加入以融合有关序列中标记的相对或绝对位置的信息。

仅编码器架构

注意力层特点：在这个家族的模型中，每个阶段的注意力层都能访问初始句子中的所有词语。

预训练方法：这些模型的预训练通常包括以某种方式破坏给定句子（例如，通过掩盖句子中随机的单词），然后让模型找出或重构初始句子。

适用任务：编码器模型非常适合需要理解整个序列的任务，如句子分类、命名实体识别和抽取式问答。

代表模型：一个突出的仅编码器模型是 BERT（Bidirectional Encoder Representations from Transformers）。

仅解码器架构

注意力层特点：对于这些模型，每个阶段的注意力层只能访问句子中该词之前的词语。这些模型有时也被称为自回归模型。

预训练方法：这些模型的预训练通常被构建为预测序列中的下一个词（或标记）。

适用任务：仅解码器模型最适合涉及文本生成的任务。GPT 模型是这一类别的突出例子。

编码器 - 解码器架构

架构特点：这些模型使用编码器和解码器，有时被称为序列到序列模型。在每个阶段，编码器的注意力层可以访问初始句子中的所有词语，而解码器的注意力层只访问输入中给定词之前的词语。

预训练目标：这些模型通常使用编码器或解码器模型的目标进行预训练，但通常涉及更复杂的内容。例如，一些模型通过用单个掩码特殊词替换文本中的随机文本跨度（可能包含几个词）进行预训练，目标是预测这个掩码词替换的文本。

适用任务：编码器 - 解码器模型最适合涉及基于给定输入生成新句子的任务，如摘要、翻译或生成式问答。

2. 数据清理

数据清理的重要性：数据质量对于基于其训练的语言模型的性能至关重要。数据清理技术，如过滤和去重，已被证明对模型性能有很大影响。

实例研究：作为一个例子，在 Falcon40B 中，Penedo 等人展示了经过适当过滤和去重的网络数据单独可以构建强大的模型，甚至在性能上显著超过在 The Pile 上训练的最先进模型。尽管进行了广泛过滤，他们仍然从 CommonCrawl 获取了五万亿个标记。他们还发布了来自 REFINEDWEB 数据集的 6000 亿标记的提取物，以及在此基础上训练的 1.3/7.5B 参数语言模型。