前言
ChatGPT 等生成式 AI 产品展现了强大的自然语言处理能力,类似的产品如文心一言、通义千问、Kimi Chat 等层出不穷。AI 应用已逐渐渗入工作和生活的诸多场景。面对这一技术浪潮,深入理解其原理与机制至关重要。
什么是大语言模型
定义
大语言模型(Large Language Model, LLM)是一种用于处理自然语言的机器学习模型,采用神经网络架构,属于生成式 AI。它通过预训练与微调相结合的方法,利用大规模无监督语料库学习丰富的语言知识,从而能够生成自然流畅的语言。简单来说,该模型能像人脑一样学习知识,并根据所学生成类人内容。
特点
相比传统自然语言模型,大语言模型的创新主要体现在'大'和'新'。
大
参数大
参数可类比大脑中的神经元。神经元越多,理论上越可能出现高级智慧。例如 GPT-3 参数高达 1750 亿,马斯克开源的 Grok-1 有 3140 亿参数,Meta 开源的 Llama 3 70B 也有 700 亿参数。榜单上评分较高的模型通常参数较大,尤其在逻辑或数学方面得分越高,参数规模往往越大。
学习内容多
GPT-3 的预训练数据量高达 45TB,涵盖维基百科、书籍、期刊及代码等多种类型数据。
资源需求大
训练大语言模型需要大量显卡。Google 拥有的 H100 显卡数量高达 2.6 万块,显存总量巨大。运行这些资源需要深厚的硬件支撑。
新
新架构:Transformer
Transformer 模型由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它采用了自注意力机制(Self-Attention)、多头注意力机制和位置编码等关键技术,极大增强了模型的处理能力和学习效率,是当下最流行的架构。
Transformer 是如何工作的
基于 Transformer 架构的生成式 AI 主要目标是生成文本。生成时根据输入内容和已生成的文本一起预测下一个字(Token),直到结束符号出现。当前生成的字将作为生成新字的输入,实现一字一字的生成。
例如输入'我',模型可能生成'我是',再根据'我是'生成'我是 AI'。这取决于训练数据。如果更换训练数据,模型可能生成'我是大熊猫'。
Transformer 的结构
Transformer 由一个编码器(Encoder)和一个解码器(Decoder)组成。每个部分通常包含 6 层编码层和解码层。
![Transformer 架构图]
每个编码层包含一个自注意力层(self-attention)和一个前馈神经网络层(Feed Forward)。多头注意力(Multi-Head Attention)初始化了多组平行的自注意力层,以获得对输入序列更丰富的理解。
解码层结构类似,由掩码自注意力层(masked multi-head attention)、编码 - 解码注意力层(Encoder-Decoder)和前馈神经网络层组成。掩码自注意力层遮盖当前词后面的词,确保训练时只关注当前词。编码 - 解码注意力层接收编码器输出与上层自注意力层输出作为参考。
最后,通过 Linear 层和 Softmax 层将输出转为文字概率,选择概率较高的文字输出,重复此过程直到结束。
Transformer 的运行机制
- 输入序列:用户输入一句话。
- Embedding:向量化输入序列。
- 位置信息:加入位置编码形成新向量。
- 编码器计算:输入编码器生成新向量。
- 注意力向量:转换为 K/V 向量供解码器使用。
- 解码器生成:根据 K/V 向量生成第一个输出,后续结合之前输出生成。
- 打分:Linear 层对输出文字打分。
- 归一化:Softmax 生成文字概率。
- 输出:选择最大概率文字,持续执行直到结束符号。


