Transformer 模型源自论文《Attention Is All You Need》,旨在解决传统 RNN 在文本生成任务中的局限性。RNN 存在两个主要缺点:一是计算顺序进行,无法并行化;二是长距离依赖问题,信息容易衰减。Transformer 通过多头注意力机制、位置编码、层归一化和残差连接等组件,实现了高效的并行计算和长序列建模。
Transformer 整体架构
Transformer 由 Encoder(编码器)和 Decoder(解码器)两大部分组成。Encoder 负责处理输入序列,Decoder 负责生成输出序列。两者均由多层堆叠的模块构成,主要包含多头自注意力机制和前馈神经网络。


