Transformer 框架详解：原理与架构解析

Transformer 是由谷歌大脑在 2017 年论文《Attention is All You Need》中提出的一种序列到序列（Seq2Seq）模型。自提出伊始，该模型便在 NLP 和 CV 领域取得显著效果，多次达到 SOTA 水平。NLP 领域中，BERT 和 GPT 等预训练语言模型均衍生自 Transformer。

Transformer 框架详解：原理与架构解析

1. 什么是 Transformer？

2. Transformer 架构

2.1. 宏观层面

2.2. 微观层面

2.2.1. Encoder

2.2.1.1. 输入嵌入 (Input Embedding)

2.2.1.2. 位置编码 (Positional Encoding)

2.2.1.2.1. 构造位置编码

2.2.1.3. Transformer 位置编码

2.2.1.4. 可视化

2.2.2. 自注意力机制 (Self Attention Mechanism)

2.2.2.1. 运行步骤

2.2.2.2. 多头注意力（Multi-Head Attention）

2.2.2.3. 残差连接（Residual Connections）和层归一化（Layer Normalization）

2.2.2.4. Add&Norm

2.2.2.5. Feed Forward

2.2.3. Decoder

2.2.3.1. 第一个 Multi-Head Attention

2.2.3.2. 第二个 Multi-Head Attention

2.2.3.3. Softmax 预测输出单词

总结

更多推荐文章

相关免费在线工具

Transformer 框架详解：原理与架构解析

1. 什么是 Transformer？

2. Transformer 架构

2.1. 宏观层面

2.2. 微观层面

2.2.1. Encoder

2.2.1.1. 输入嵌入 (Input Embedding)

2.2.1.2. 位置编码 (Positional Encoding)

2.2.1.2.1. 构造位置编码

2.2.1.3. Transformer 位置编码

2.2.1.4. 可视化

2.2.2. 自注意力机制 (Self Attention Mechanism)

2.2.2.1. 运行步骤

2.2.2.2. 多头注意力（Multi-Head Attention）

2.2.2.3. 残差连接（Residual Connections）和层归一化（Layer Normalization）

2.2.2.4. Add&Norm

2.2.2.5. Feed Forward

2.2.3. Decoder

2.2.3.1. 第一个 Multi-Head Attention

2.2.3.2. 第二个 Multi-Head Attention

2.2.3.3. Softmax 预测输出单词

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具