从零开始构建大型语言模型：理解基础与架构

综述由AI生成大型语言模型（LLM）是基于深度学习和 Transformer 架构的神经网络，能够理解和生成人类文本。其核心在于通过大规模无标签数据进行预训练，捕捉语言规律，再通过微调适应特定任务。GPT 系列采用仅解码器架构，基于下一个词预测任务实现自回归生成，展现出翻译、摘要等涌现能力。构建 LLM 涉及数据预处理、注意力机制实现及预训练流程，虽计算成本高，但开源模型降低了入门门槛。掌握 LLM 原理有助于开发定制化应用并优化隐私与延迟。

Qiny01发布于 2025/2/7更新于 2026/6/221 浏览

引言

本章内容包括：

对大型语言模型（LLM）背后基本概念的高层次解释
对 LLM 所基于的 Transformer 架构的深入见解
从零开始构建 LLM 的计划

大型语言模型（LLM），例如 OpenAI 的 ChatGPT，属于近年来开发的深度神经网络模型，开启了自然语言处理（NLP）的新时代。在 LLM 出现之前，传统方法在诸如电子邮件垃圾分类和简单模式识别等分类任务上表现出色，这些任务通常可以通过手工设计的规则或简单模型捕捉到。然而，它们在需要复杂理解和生成能力的语言任务上往往表现不佳，如解析详细指令、进行上下文分析以及创建连贯且符合上下文的原创文本。例如，早期的语言模型无法从关键词列表中撰写电子邮件，而这是当代 LLM 的一个简单任务。

LLM 具备出色的理解、生成和解释人类语言的能力。然而，值得澄清的是，当我们说语言模型'理解'时，我们的意思是它们能够以连贯且符合上下文的方式处理和生成文本，而并非它们具有人类般的意识或理解力。

在深度学习的推动下，LLM 得以实现。深度学习是机器学习和人工智能（AI）的一个子领域，专注于神经网络。LLM 通过大规模的文本数据进行训练，这种大规模的训练使 LLM 能够捕捉到比以往方法更深层次的上下文信息和语言微妙之处。因此，LLM 在广泛的 NLP 任务中表现出了显著的性能提升，包括文本翻译、情感分析、问答等。

现代 LLM 与早期 NLP 模型的另一个重要区别在于，早期的 NLP 模型通常是为特定任务设计的，如文本分类、语言翻译等。虽然那些早期的 NLP 模型在其狭窄的应用范围内表现出色，LLM 则展示了其在广泛的 NLP 任务中的广泛能力。

LLM 成功的原因可归功于其背后的 Transformer 架构以及 LLM 训练所使用的大量数据，这使得它们能够捕捉到丰富的语言细微差别、上下文和模式，而这些是手工编码难以实现的。

向基于 Transformer 架构的模型转变，并使用大规模训练数据训练 LLM，已经从根本上改变了 NLP，提供了更强大的工具来理解和处理人类语言。

以下讨论将奠定基础，实现本书的主要目标：通过代码逐步实现一个基于 Transformer 架构的类似 ChatGPT 的 LLM，从而理解 LLM。

什么是大型语言模型（LLM）？

大型语言模型（LLM）是一种设计用来理解、生成和回应类似人类文本的神经网络。这些模型是深度神经网络，通过大规模的文本数据进行训练，有时训练数据覆盖了互联网上公开可用的绝大部分文本。

'大型语言模型'中的'大型'既指模型在参数规模上的庞大，也指其训练所使用的巨大数据集。这样的模型通常包含数百亿甚至数千亿个参数，这些参数是网络中的可调权重，在训练过程中被优化，用于预测序列中的下一个词。通过预测下一个词来训练模型是合理的，因为这利用了语言的内在顺序特性，帮助模型学习文本中的上下文、结构和关系。尽管这是一个非常简单的任务，但它能够产生如此强大的模型，这让许多研究人员感到惊讶。在后续章节中，我们将逐步讨论并实现下一个词的训练过程。

LLM 使用一种称为 Transformer 的架构，该架构使模型在进行预测时能够有选择地关注输入的不同部分，从而特别擅长处理人类语言的细微差别和复杂性。

由于 LLM 能够生成文本，它们也常被称为生成型人工智能的一种形式，通常缩写为生成型 AI 或 GenAI。如图 1.1 所示，人工智能（AI）涵盖了创建可以执行需要类似人类智能的任务（包括理解语言、识别模式和做出决策）的更广泛领域，并且包括机器学习和深度学习等子领域。

图 1.1 人工智能层级结构

用于实现人工智能的算法是机器学习领域的核心。具体来说，机器学习涉及开发能够从数据中学习并基于数据做出预测或决策的算法，而不需要显式编程。为说明这一点，可以想象垃圾邮件过滤器是机器学习的一个实际应用。与其手动编写规则来识别垃圾邮件，不如使用机器学习算法，向其提供标记为垃圾邮件和正常邮件的示例。通过最小化其在训练数据集上的预测误差，模型可以学习识别垃圾邮件的模式和特征，从而能够将新的邮件分类为垃圾邮件或非垃圾邮件。

如图 1.1 所示，深度学习是机器学习的一个子集，专注于利用具有三层或更多层（也称为深度神经网络）的神经网络来建模数据中的复杂模式和抽象。与深度学习相比，传统的机器学习需要手动提取特征。这意味着人类专家需要识别并选择模型最相关的特征。

尽管如今人工智能领域以机器学习和深度学习为主导，但它还包括其他方法，例如基于规则的系统、遗传算法、专家系统、模糊逻辑或符号推理。

回到垃圾邮件分类的例子中，在传统机器学习中，人类专家可能会从电子邮件文本中手动提取特征，例如某些触发词的频率（例如'奖品'、'赢取'、'免费'）、感叹号的数量、全大写单词的使用或是否存在可疑链接。基于这些专家定义特征创建的数据集将用于训练模型。与传统机器学习不同，深度学习不需要手动特征提取，这意味着人类专家不需要为深度学习模型识别和选择最相关的特征。（然而，无论是传统机器学习还是深度学习用于垃圾邮件分类，都仍然需要收集垃圾邮件或非垃圾邮件的标签，这些标签需要由专家或用户收集。）

接下来，我们将探讨 LLM 今天可以解决的一些问题、LLM 所应对的挑战以及我们将在后面实现的通用 LLM 架构。

数据集名称	数据集描述	词元数量	训练数据中的比例
CommonCrawl（过滤）	网络抓取数据	4100 亿词元	60%
WebText2	网络抓取数据	190 亿词元	22%
Books1	基于互联网的书籍语料库	120 亿词元	8%
Books2	基于互联网的书籍语料库	550 亿词元	8%
Wikipedia	高质量文本	30 亿词元	3%

从零开始构建大型语言模型：理解基础与架构

引言

什么是大型语言模型（LLM）？

更多推荐文章

相关免费在线工具

LLM 的应用

构建和使用 LLM 的阶段

介绍 Transformer 架构

使用大规模数据集

深入了解 GPT 架构

构建大型语言模型

总结

更多推荐文章

相关免费在线工具

从零开始构建大型语言模型：理解基础与架构

引言

什么是大型语言模型（LLM）？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

LLM 的应用

构建和使用 LLM 的阶段

介绍 Transformer 架构

使用大规模数据集

深入了解 GPT 架构

构建大型语言模型

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具