大型语言模型基础
引言
大型语言模型(Large Language Models, LLMs)的起源可以追溯到自然语言处理领域,但近年来,它们无疑已成为人工智能领域最具革命性的技术进步之一。大型语言模型带来的重要洞见在于,通过大规模的语言建模任务,可以获得对世界知识和语言的理解,从而构建一个能够处理多种问题的通用模型。这一发现深刻地影响了自然语言处理及众多相关学科的研究方法。研究范式已从利用大量标注数据从零开始训练专门系统,转向通过大规模预训练获取基础模型,然后对其进行微调、对齐和提示的新模式。
本书旨在概述大型语言模型的基本概念并介绍相关技术。全书内容涵盖预训练基础、生成式模型架构、提示方法及对齐技术四个核心部分,旨在帮助读者建立对 LLM 技术的系统性认知。
第 1 章:预训练基础
神经序列模型(如 Transformer [Vaswani et al., 2017])的开发以及大规模自监督学习的改进,开启了通用语言理解与生成的新篇章。这一成就主要得益于预训练的推动:我们将许多基于神经网络的系统中的通用组件分离出来,并利用自监督方法在海量无标注数据上进行训练。这些预训练模型成为了基础模型,可以通过微调或提示轻松适应不同任务。因此,自然语言处理(NLP)的研究范式发生了巨大的变化。
Transformer 架构与注意力机制
Transformer 模型彻底改变了序列建模的方式。其核心是自注意力机制(Self-Attention),允许模型在处理序列时直接关注任意两个位置之间的关系,而不受距离限制。通过计算 Query(查询)、Key(键)和 Value(值)之间的交互,模型能够捕捉长距离依赖关系。多头注意力机制进一步增强了模型从不同子空间表示信息的能力。
预训练任务类型
尽管预训练在近年来的 NLP 研究中备受关注,这一概念实际上可以追溯到深度学习的早期阶段。在现代深度学习时代,预训练经历了复兴,这部分归因于各种词嵌入模型的大规模无监督学习。在 NLP 领域,基于自监督学习的语言模型的开发标志着大规模预训练研究的开始。这类模型包括多个广为人知的实例,如 BERT [Devlin et al., 2019] 和 GPT [Brown et al., 2020]。
- 掩码语言建模(Masked Language Modeling, MLM):以 BERT 为代表,随机掩盖输入序列中的部分 token,要求模型根据上下文预测被掩盖的内容。这种方法适合双向编码,常用于理解类任务。
- 因果语言建模(Causal Language Modeling, CLM):以 GPT 系列为代表,仅允许模型根据前面的 token 预测下一个 token。这种单向性使其更适合生成类任务。
预训练任务的通用性使得这些系统在各种 NLP 问题上表现出强大的性能,甚至超越了许多先前开发的监督系统。近年来,预训练的大型语言模型取得了更大的成功,展示了通用人工智能的广阔前景。
第 2 章:生成式模型
近年来,自然语言处理(NLP)领域的一个最重要的进步可能就是大型语言模型(LLMs)的发展。这一进步催生了能够像人类一样理解和生成自然语言的系统。这些系统甚至展现出一定的推理能力,而推理被认为是人工智能领域的一个极具挑战性的问题。
语言建模的历史演变
语言建模或概率语言建模的概念可以追溯到香农 [Shannon, 1951] 的早期实验。在他的研究中,设计了一种语言模型来估计英语的可预测性。在相当长的一段时间里,特别是在 2010 年之前,语言建模的主流方法是 n-gram 方法。虽然这种方法简单直接,但在 NLP 中得到了广泛应用。例如,现代统计语音识别和机器翻译系统的成功在很大程度上依赖于 n-gram 语言模型。
将神经网络应用于语言建模长期以来一直吸引研究者关注,但真正的突破出现在深度学习技术取得进展之后。Bengio 等人 [2003] 的研究被广泛引用,他们通过一个前馈神经网络对 n-gram 概率进行建模。这种神经语言模型的副产品是单词的分布式表示,也称为词嵌入(word embeddings)。与将单词表示为离散变量不同,词嵌入将单词映射到低维实值向量,使得可以在连续表示空间中计算单词及其 n-gram 的语义。
随着 Transformer 的提出,序列表示的研究和兴趣迅速爆发。随着 Transformer 的兴起,语言建模的概念被泛化,以涵盖通过多种方式学习预测单词的模型。许多强大的基于 Transformer 的模型通过这些单词预测任务进行预训练,并成功应用于多种下游任务。
扩展与长文本处理
本章探讨生成式大型语言模型(LLMs)的基本概念。我们首先概述大型语言模型,包括构建这些模型的关键步骤。随后讨论大型语言模型的两个扩展问题:如何进行大规模训练,以及如何改进模型以处理超长文本。
- 大规模训练:随着数据量和参数量的增加,模型性能呈现幂律增长。这需要高效的分布式训练策略,如模型并行、数据并行和流水线并行。
- 长文本处理:标准 Transformer 的注意力机制复杂度为 O(N^2),限制了处理长序列的能力。为此,研究者提出了稀疏注意力、线性注意力以及旋转位置编码(RoPE)等技术,以支持更长的上下文窗口。


