大语言模型综述：背景、技术与资源

综述由AI生成综述了大语言模型（LLM）的发展历程、核心技术与资源生态。文章从语言建模的历史演变出发，定义了 LLM 的概念，并分析了基于 Transformer 架构的规模化定律（KM 与 Chinchilla）。重点探讨了 LLM 的涌现能力，包括上下文学习、指令跟随和逐步推理。关键技术方面涵盖了扩大规模、分布式训练、能力引出、对齐调整及工具操纵。此外，梳理了百亿至千亿参数级别的公开模型（如 LLaMA、GPT 系列）、公共 API 以及主流开发资源库（Transformers、DeepSpeed 等）。最后总结了 LLM 面临的效率、安全、多模态及垂直领域应用等未来挑战与方向。

灭霸发布于 2025/2/7更新于 2026/6/221 浏览

大语言模型综述

本文基于 2023 年 6 月人大和蒙特利尔大学的论文《A Survey of Large Language Models》进行整理。自上世纪 50 年代图灵测试提出以来，人类就开始探索机器对语言智能的掌握。语言本质上是一种由语法规则支配复杂、精密的人类表达系统，开发能够理解和掌握语言的人工智能算法是一项重大挑战。

背景与定义

语言建模作为语言理解和生成的一种主要方法，在过去的二十年里得到了广泛的研究，从统计语言模型发展到神经语言模型。最近，通过在大规模语料上预训练 Transformer 模型，提出了预训练语言模型 (PLM)，在解决各种自然语言处理 (NLP) 任务中表现出强大的能力。由于研究者发现模型规模化可以提升模型容量，他们进一步通过将参数规模增加到更大来研究规模化效果。有趣的是，当参数规模超过一定水平时，这些扩大的语言模型不仅实现了显著的性能提升，而且还表现出一些小规模语言模型（例如 BERT）所不具备的特殊能力（例如，上下文学习）。为了区分不同参数规模的语言模型，研究界为具有相当规模（例如，包含数百亿或数千亿个参数）的语言模型创造了一个术语'大语言模型'（LLM）。

LLM 是基于神经网络大规模、预训练的统计语言模型。LLMs 最近的成功是语言模型研究和开发积累的结果，可以分为四个历史浪潮：统计语言模型（SLM），神经语言模型（NLM），预训练语言模型（PLM）和 LLM。

研究人员发现，扩展 PLM（例如扩展模型大小或数据大小）通常会导致下游任务的模型能力提高（即遵循规模化定律）。许多研究通过训练更大的 PLM（例如 175B 参数的 GPT-3 和 540B 参数的 PaLM）探索了性能极限。尽管扩展主要在模型大小上进行（具有相似的架构和预训练任务），但这些大型 PLM 表现出与较小 PLM（例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2）不同的行为，并在解决一系列复杂任务中表现出令人惊讶的能力（称为涌现能力）。例如，GPT-3 可以通过上下文学习解决少样本任务，而 GPT-2 则表现不佳。因此，研究界为这些大型 PLM 创造了'大语言模型 (LLM)'一词，它们引起了越来越多的研究关注。

图 1

LLM 的规模化定律

目前，LLM 主要建立在 Transformer 架构之上，其中多头注意层堆叠在非常深的神经网络中。现有的 LLM 采用与小型语言模型类似的 Transformer 架构和预训练目标（例如语言建模）。然而，LLM 显著扩展了模型大小、数据大小和总计算量（放大几个数量级）。大量研究表明，规模化可以大大提高 LLM 的模型能力。因此，建立一种定量方法来表征规模化效果是很有用的。

KM 规模化定律

2020 年，Kaplan（OpenAI 团队）首次提出针对神经语言模型，建立模型性能与模型大小（N）、数据集大小（D）和训练计算量（C）三个主要因素的幂律关系模型。

Chinchilla 规模化定律

另一项代表性研究是 Hoffmann（谷歌 DeepMind 团队）提出了一种替代定律，用于指导 LLM 的计算优化训练。他们通过改变更大范围的模型大小（70M 到 16B）和数据大小（5B 到 500B 个 token）进行了严格的实验，并拟合了类似的规模化定律，但系数不同。

LLM 的涌现能力

在文献中，LLM 的涌现能力被正式定义为'小模型中不存在但在大模型中出现的能力'，这是 LLM 与以前的 PLM 最显著的区别之一。它进一步介绍了涌现能力出现时的显著特征：当规模达到一定水平时，性能会显著高于随机水平。类似地，这种涌现模式与物理学中的相变现象有着密切的联系。原则上，可以针对一些复杂任务来定义涌现能力，而关心的是应用于解决各种任务的一般能力。

上下文学习：上下文学习 (ICL) 能力是由 GPT-3 正式引入的：假设语言模型已经提供了自然语言指令和/或几个任务演示，它可以通过完成输入文本的单词序列为测试实例生成预期的输出，而无需额外的训练或梯度更新。在 GPT 系列模型中，175B GPT-3 模型总体上表现出很强的 ICL 能力，但 GPT-1 和 GPT-2 模型则不然。这种能力还取决于特定的下游任务。
指令跟随：通过使用自然语言描述格式化的多任务数据集进行微调（称为指令调优），LLM 在以指令形式描述的未见过的任务上表现出色。通过指令调优，LLM 能够在不使用明确示例的情况下遵循新任务的任务指令，从而提高泛化能力。
逐步推理：对于小型语言模型，通常很难解决涉及多个推理步骤的复杂任务，例如数学应用题。相比之下，通过思维链 (CoT) 提示策略，LLM 可以通过利用涉及中间推理步骤的提示机制来得出最终答案，从而解决此类任务。据推测，这种能力可能是通过对代码进行训练获得的。

LLM 的关键技术

扩大规模：如前几部分所述，Transformer 语言模型存在明显的规模效应：更大的模型/数据大小和更多的训练计算通常会导致模型能力提高。作为两个代表性模型，GPT-3 和 PaLM 分别通过将模型大小增加到 175B 和 540B 来探索扩展极限。由于计算预算通常有限，可以进一步采用规模化定律来对计算资源进行更高效的计算分配。此外，数据规模话应经过仔细的清理过程，因为预训练数据的质量对模型能力起着关键作用。