《构建与理解大型语言模型》:从原理到实战的大模型入门
书籍简介
本书由新加坡科技研究局人工智能高级研究员黄佳编写,旨在帮助读者系统地理解大型语言模型(LLM)的构建与核心原理。不同于市面上百科全书式的知识罗列,本书采用一问一答的方式,结合趣味图解,梳理生成式语言模型的发展脉络,带领读者从 0 到 1 搭建语言模型。
作者黄佳深耕数据科学领域多年,拥有 NLP 大模型研发、持续学习及 AI 在金融科技等领域的应用实战经验。书中不仅涵盖理论模型,更包含详尽的代码和实例数据集,适合 NLP 领域学生、研究人员、AI 初学者及从业者阅读。
自然语言处理技术演进
历史背景
人工智能的概念萌芽于 20 世纪 40 年代和 50 年代,直到 1956 年的达特茅斯会议才成为独立学科。AI 技术发展经历了多次兴衰,前期突破多与计算机视觉(CV)相关(如 CNN、AlexNet),后期突破则多与自然语言处理(NLP)相关(如 Transformer、ChatGPT)。
NLP 定义与阶段
自然语言处理是人工智能的子领域,关注计算机如何理解、解释和生成人类语言。其核心任务是为人类的语言编码并解码,充当人类与计算机沟通的桥梁。黄佳老师将 NLP 技术的演进过程分为四个阶段:
- 起源:早期规则系统的尝试。
- 基于规则:利用语言学规则进行文本处理。
- 基于统计:引入概率模型,提升泛化能力。
- 深度学习和大数据驱动:利用神经网络处理海量数据,实现语义理解的质的飞跃。
核心技术详解
本书循着技术演进路线,详细讲解了以下关键技术点:
1. N-Gram 与简单文本表示
作为语言模型的雏形,N-Gram 通过统计词序列出现的概率来预测下一个词。Bag-of-Words(词袋模型)则是另一种基础表示方法,忽略词序仅关注词频。这是理解后续复杂模型的基础。
2. 词的向量表示 (Word2Vec & Embedding)
为了解决稀疏性问题,Word2Vec 将单词映射到低维稠密向量空间。Embedding 层进一步提升了模型对语义关系的捕捉能力,使得相似含义的词在向量空间中距离更近。
3. 循环神经网络 (RNN) 与 Seq2Seq
RNN 及其变体(LSTM、GRU)能够处理序列数据,解决了传统模型无法保留上下文信息的问题。Seq2Seq(Sequence-to-Sequence)架构引入了编码器 - 解码器模式,广泛应用于机器翻译等任务。
4. 注意力机制 (Attention Mechanism)
注意力机制允许模型在处理当前词时关注输入序列中的其他部分,极大地缓解了长序列训练中的梯度消失问题,是 Transformer 架构的核心组件之一。
5. Transformer 架构
Transformer 摒弃了 RNN 和 CNN,完全依赖注意力机制。其并行计算能力强,表达能力更强,是现代大语言模型的基石。书中详细解析了 Self-Attention、Multi-Head Attention 等核心组件。
6. GPT 系列模型
GPT(Generative Pre-trained Transformer)系列采用自回归方式生成文本。从 GPT 到 GPT-4,模型规模不断扩大,能力显著增强。书中还介绍了基于人类反馈的强化学习(RLHF)在 ChatGPT 中的应用,以及如何使用强大的 GPT API。
实战项目指南
本书提供了多个实战项目,帮助读者动手实践:
- N-Gram 构建:实现基础的 n-gram 语言模型。
- Word2Vec 构建:训练词向量模型。
- NPLM 构建:实现神经概率语言模型。
- Seq2Seq 架构:搭建序列到序列转换模型。
- 注意力机制:可视化并实现注意力权重。
- Transformer 架构:从零搭建 Transformer 核心模块。


