大模型常用架构及优缺点分析
不同的架构,适合不同的任务。
很多人对人工智能以及大模型都有一定的误解,弄不明白其中各种专业名词及其关系。甚至有人认为大模型就是人工智能,人工智能就是大模型。也有人认为只有 Transformer 架构的才是大模型,因此,有必要深入了解模型的架构。
大模型的架构及优缺点
首先,人工智能 (AI) 有多种实现方式,而机器学习是其中的一种;基于机器学习又延伸出了深度学习,深度学习的思想是分层的,通过多个层的叠加实现对数据的分级表达。
神经网络是深度学习的一种表现形式,由模仿人脑神经元的机制而得名。由于多层的神经网络具有庞大的参数,因此被称为大模型(庞大参数量的机器学习/神经网络模型)。
所以,大模型的核心是层次堆叠;为了实现这种效果就有了多种神经网络的大模型架构。
大模型的常用架构主要包括 Transformer、BERT、GPT、T5 等;每种架构都有其独特的设计理念和应用场景。以下是对这些架构的详细介绍以及它们的优缺点分析。

Transformer 架构
简介 Transformer 是目前大模型的主流架构,由 Vaswani 等人于 2017 年提出。它使用了注意力机制替代了传统的 RNN 和 LSTM,能够更好地捕捉长距离依赖关系。
关键组件
- 自注意力机制:计算序列中各元素之间的相关性,生成每个元素的加权表示。
- 多头注意力机制:将注意力机制并行化处理,提高模型的表示能力。
- 位置编码:由于模型本身不具备顺序信息,位置编码用于为序列添加位置信息。

应用 Transformer 本身用于各种自然语言处理任务,如机器翻译、文本分类等。
优点:模型可以并行处理序列,训练效率高,能够很好地捕捉长距离依赖。 缺点:在处理长序列时,计算复杂度高,内存占用大。
BERT (Bidirectional Encoder Representations from Transformers)
简介 BERT 是一种双向 Transformer 架构,擅长处理自然语言理解任务。它通过遮盖语言模型和下一句预测进行训练。
特点 双向性允许 BERT 同时考虑左侧和右侧的上下文,增强了理解能力。
应用 情感分析、问答系统、文本分类、命名实体识别等。
优缺点
- 优点:双向编码器能够更好地理解上下文,尤其适合理解复杂的语言现象。
- 缺点:生成能力较弱,主要适用于理解任务;模型计算成本较高。
GPT (Generative Pretrained Transformer)
简介 GPT 是一种基于 Transformer 的自回归模型,专注于文本生成任务。与 BERT 不同,GPT 是单向的,即只使用过去的上下文来预测当前的单词。
关键特点


