大语言模型综述
本文基于 2023 年 6 月人大和蒙特利尔大学的论文《A Survey of Large Language Models》进行整理。自上世纪 50 年代图灵测试提出以来,人类就开始探索机器对语言智能的掌握。语言本质上是一种由语法规则支配复杂、精密的人类表达系统,开发能够理解和掌握语言的人工智能算法是一项重大挑战。
背景与定义
语言建模作为语言理解和生成的一种主要方法,在过去的二十年里得到了广泛的研究,从统计语言模型发展到神经语言模型。最近,通过在大规模语料上预训练 Transformer 模型,提出了预训练语言模型 (PLM),在解决各种自然语言处理 (NLP) 任务中表现出强大的能力。由于研究者发现模型规模化可以提升模型容量,他们进一步通过将参数规模增加到更大来研究规模化效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显著的性能提升,而且还表现出一些小规模语言模型(例如 BERT)所不具备的特殊能力(例如,上下文学习)。为了区分不同参数规模的语言模型,研究界为具有相当规模(例如,包含数百亿或数千亿个参数)的语言模型创造了一个术语'大语言模型'(LLM)。
LLM 是基于神经网络大规模、预训练的统计语言模型。LLMs 最近的成功是语言模型研究和开发积累的结果,可以分为四个历史浪潮:统计语言模型(SLM),神经语言模型(NLM),预训练语言模型(PLM)和 LLM。
研究人员发现,扩展 PLM(例如扩展模型大小或数据大小)通常会导致下游任务的模型能力提高(即遵循规模化定律)。许多研究通过训练更大的 PLM(例如 175B 参数的 GPT-3 和 540B 参数的 PaLM)探索了性能极限。尽管扩展主要在模型大小上进行(具有相似的架构和预训练任务),但这些大型 PLM 表现出与较小 PLM(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为,并在解决一系列复杂任务中表现出令人惊讶的能力(称为涌现能力)。例如,GPT-3 可以通过上下文学习解决少样本任务,而 GPT-2 则表现不佳。因此,研究界为这些大型 PLM 创造了'大语言模型 (LLM)'一词,它们引起了越来越多的研究关注。

LLM 的规模化定律
目前,LLM 主要建立在 Transformer 架构之上,其中多头注意层堆叠在非常深的神经网络中。现有的 LLM 采用与小型语言模型类似的 Transformer 架构和预训练目标(例如语言建模)。然而,LLM 显著扩展了模型大小、数据大小和总计算量(放大几个数量级)。大量研究表明,规模化可以大大提高 LLM 的模型能力。因此,建立一种定量方法来表征规模化效果是很有用的。
KM 规模化定律
2020 年,Kaplan(OpenAI 团队)首次提出针对神经语言模型,建立模型性能与模型大小(N)、数据集大小(D)和训练计算量(C)三个主要因素的幂律关系模型。
Chinchilla 规模化定律
另一项代表性研究是 Hoffmann(谷歌 DeepMind 团队)提出了一种替代定律,用于指导 LLM 的计算优化训练。他们通过改变更大范围的模型大小(70M 到 16B)和数据大小(5B 到 500B 个 token)进行了严格的实验,并拟合了类似的规模化定律,但系数不同。
LLM 的涌现能力
在文献中,LLM 的涌现能力被正式定义为'小模型中不存在但在大模型中出现的能力',这是 LLM 与以前的 PLM 最显著的区别之一。它进一步介绍了涌现能力出现时的显著特征:当规模达到一定水平时,性能会显著高于随机水平。类似地,这种涌现模式与物理学中的相变现象有着密切的联系。原则上,可以针对一些复杂任务来定义涌现能力,而关心的是应用于解决各种任务的一般能力。
- 上下文学习:上下文学习 (ICL) 能力是由 GPT-3 正式引入的:假设语言模型已经提供了自然语言指令和/或几个任务演示,它可以通过完成输入文本的单词序列为测试实例生成预期的输出,而无需额外的训练或梯度更新。在 GPT 系列模型中,175B GPT-3 模型总体上表现出很强的 ICL 能力,但 GPT-1 和 GPT-2 模型则不然。这种能力还取决于特定的下游任务。
- 指令跟随:通过使用自然语言描述格式化的多任务数据集进行微调(称为指令调优),LLM 在以指令形式描述的未见过的任务上表现出色。通过指令调优,LLM 能够在不使用明确示例的情况下遵循新任务的任务指令,从而提高泛化能力。
- 逐步推理:对于小型语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学应用题。相比之下,通过思维链 (CoT) 提示策略,LLM 可以通过利用涉及中间推理步骤的提示机制来得出最终答案,从而解决此类任务。据推测,这种能力可能是通过对代码进行训练获得的。
LLM 的关键技术
- 扩大规模:如前几部分所述,Transformer 语言模型存在明显的规模效应:更大的模型/数据大小和更多的训练计算通常会导致模型能力提高。作为两个代表性模型,GPT-3 和 PaLM 分别通过将模型大小增加到 175B 和 540B 来探索扩展极限。由于计算预算通常有限,可以进一步采用规模化定律来对计算资源进行更高效的计算分配。此外,数据规模话应经过仔细的清理过程,因为预训练数据的质量对模型能力起着关键作用。







