大模型应用开发极简入门
推荐书目
《大模型应用开发极简入门:基于 GPT-4 和 ChatGPT》
- 作者:奥利维·耶卡埃朗、玛丽·艾丽斯·布莱特
- 译者:何文斯
- 出版社:人民邮电出版社
- 简介:适合入门,概念清晰,篇幅适中,建议反复阅读。
《BERT 基础教程:Transformer 大模型实战》
- 作者:苏达哈尔桑·拉维昌迪兰
- 译者:周参
- 出版社:人民邮电出版社
- 简介:Transformer 原理讲解通俗易懂,适合深入理解底层机制。
1. 什么是大模型
大模型通常指大语言模型(Large Language Model, LLM)。我们可以将其拆解为三个部分理解:
- 大:指规模巨大。通过海量数据训练,包含数十亿甚至万亿级别的参数和网络层数。
- 语言:能够理解和生成自然语言(Natural Language),处理文本输入与输出。
- 模型:本质上是深度学习模型,基于神经网络架构构建。
常见的 ChatGPT 就是一种大语言模型。GPT 代表 Generative Pre-trained Transformer(生成式预训练 Transformer),核心在于其基于 Transformer 架构。
Transformer 架构详解
Transformer 是一种神经网络架构,专为处理时序任务设计,如自然语言处理(NLP)和语音识别。它解决了传统循环神经网络(RNN)的局限性:
- 长期依赖问题:RNN 在序列变长时,信息传递容易丢失,导致梯度消失或爆炸,难以捕捉远距离元素关系。
- 并行化困难:RNN 必须按顺序处理序列元素,限制了训练速度和效率。
2017 年,谷歌在论文《Attention is All You Need》中提出 Transformer,迅速成为 NLP 领域的主流架构,推动了 BERT、GPT 等模型的发展。
编码器与解码器
标准 Transformer 由编码器和解码器组成:
- 编码器(Encoder):将输入句子转换为特征向量表示。
- 解码器(Decoder):根据特征向量生成输出语句。
以文本补全为例,编码器处理输入文本,解码器逐词生成结果。
自注意力机制(Self-Attention)
注意力机制允许模型在处理输入序列时关注重要部分。自注意力机制计算序列内每个元素与其他元素的相关性。
核心概念包括三个向量:
- 查询向量 Q (Query):当前要关注的信息点。
- 键向量 K (Key):衡量其他位置信息与当前查询的相关性。
- 值向量 V (Value):通过与 Q、K 相关性加权组合形成最终输出。
计算公式如下: $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$
其中 $d_k$ 是键向量的维度。多头注意力(Multi-Head Attention)使用多个注意力头并行计算,捕捉不同层面的语义信息。
位置编码(Positional Encoding)
由于 Transformer 不处理序列顺序(无 RNN 结构),需引入位置编码来标记词在句子中的位置。通常使用正弦和余弦函数计算位置编码矩阵,并与输入嵌入相加后送入编码器。


