大语言模型架构：Attention 机制详解

1. Attention 机制基础

1.1 讲讲对 Attention 的理解？

Attention 机制是一种在处理时序相关问题时常用的技术，主要用于处理序列数据。

核心思想是在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分。它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。

在序列建模任务中，比如机器翻译、文本摘要、语言理解等，输入序列的不同部分可能具有不同的重要性。传统的循环神经网络（RNN）或卷积神经网络（CNN）在处理整个序列时，难以捕捉到序列中不同位置的重要程度，可能导致信息传递不够高效，特别是在处理长序列时表现更明显。

Attention 机制的关键是引入一种机制来动态地计算输入序列中各个位置的权重，从而在每个时间步上，对输入序列的不同部分进行加权求和，得到当前时间步的输出。这样就实现了模型对输入中不同部分的关注度的自适应调整。

1.2 Attention 的计算步骤是什么？

具体的计算步骤如下：

计算查询（Query）：查询是当前时间步的输入，用于和序列中其他位置的信息进行比较。
计算键（Key）和值（Value）：键表示序列中其他位置的信息，值是对应位置的表示。键和值用来和查询进行比较。
计算注意力权重：通过将查询和键进行内积运算，然后应用 softmax 函数，得到注意力权重。这些权重表示了在当前时间步，模型应该关注序列中其他位置的重要程度。
加权求和：根据注意力权重将值进行加权求和，得到当前时间步的输出。

在 Transformer 中，Self-Attention 被称为"Scaled Dot-Product Attention"，其计算过程如下：

对于输入序列中的每个位置，通过计算其与所有其他位置之间的相似度得分（通常通过点积计算）。
对得分进行缩放处理，以防止梯度爆炸。
将得分用 softmax 函数转换为注意力权重，以便计算每个位置的加权和。
使用注意力权重对输入序列中的所有位置进行加权求和，得到每个位置的自注意输出。

公式表达为： $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

1.3 Attention 机制和传统的 Seq2Seq 模型有什么区别？

Seq2Seq 模型是一种基于编码器 - 解码器结构的模型，主要用于处理序列到序列的任务，例如机器翻译、语音识别等。

传统的 Seq2Seq 模型只使用编码器来捕捉输入序列的信息，而解码器只从编码器的最后状态中获取信息，并将其用于生成输出序列。

而 Attention 机制则允许解码器在生成每个输出时，根据输入序列的不同部分给予不同的注意力，从而使得模型更好地关注到输入序列中的重要信息。

1.4 Self-Attention 和 Target-Attention 的区别？

Self-Attention 是指在序列数据中，将当前位置与其他位置之间的关系建模。它通过计算每个位置与其他所有位置之间的相关性得分，从而为每个位置分配一个权重。这使得模型能够根据输入序列的不同部分的重要性，自适应地选择要关注的信息。

Target-Attention 则是指将注意力机制应用于目标（或查询）和一组相关对象之间的关系。它用于将目标与其他相关对象进行比较，并将注意力分配给与目标最相关的对象。这种类型的注意力通常用于任务如机器翻译中的编码 - 解码模型，其中需要将源语言的信息对齐到目标语言。

因此，自注意力主要关注序列内部的关系，而目标注意力则关注目标与其他对象之间的关系。这两种注意力机制在不同的上下文中起着重要的作用，帮助模型有效地处理序列数据和相关任务。

1.5 在常规 Attention 中，一般有 k=v，那 Self-Attention 可以吗？

Self-Attention 实际只是 Attention 中的一种特殊情况，因此 k=v 是没有问题的，也即 K，V 参数矩阵相同。实际上，在 Transformer 模型中，Self-Attention 的典型实现就是 k 等于 v 的情况。Transformer 中的 Self-Attention 被称为"Scaled Dot-Product Attention"，其中通过将词向量进行线性变换来得到 Q、K、V，并且这三者是相等的。

大语言模型架构：Attention 机制详解

1. Attention 机制基础

1.1 讲讲对 Attention 的理解？

1.2 Attention 的计算步骤是什么？

1.3 Attention 机制和传统的 Seq2Seq 模型有什么区别？

1.4 Self-Attention 和 Target-Attention 的区别？

1.5 在常规 Attention 中，一般有 k=v，那 Self-Attention 可以吗？

1.6 目前主流的 Attention 方法有哪些？

更多推荐文章

相关免费在线工具

1.7 Self-Attention 在计算的过程中，如何对 Padding 位做 Mask？

1.8 深度学习中 Attention 与全连接层的区别何在？

2. Transformer 架构解析

2.1 Transformer 中 Multi-Head Attention 中每个 Head 为什么要进行降维？

2.2 Transformer 在哪里做了权重共享，为什么可以做权重共享？

2.3 Transformer 的点积模型做缩放的原因是什么？

3. BERT 模型详解

3.1 BERT 用字粒度和词粒度的优缺点有哪些？

3.2 BERT 的 Encoder 与 Decoder 掩码有什么区别？

3.3 BERT 用的是 Transformer 里面的 Encoder 还是 Decoder？

3.4 为什么 BERT 选择 mask 掉 15% 这个比例的词，可以是其他的比例吗？

3.5 为什么 BERT 在第一句前会加一个 [CLS] 标志？

3.6 BERT 非线性的来源在哪里？

3.7 BERT 训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做？

3.8 在 BERT 应用中，如何解决长文本问题？

4. MHA & MQA & GQA 对比

（1）MHA

（2）MQA

（3）总结

5. Transformer 常见问题

5.1 Transformer 和 RNN

5.2 一些细节

更多推荐文章

相关免费在线工具

大语言模型架构：Attention 机制详解

1. Attention 机制基础

1.1 讲讲对 Attention 的理解？

1.2 Attention 的计算步骤是什么？

1.3 Attention 机制和传统的 Seq2Seq 模型有什么区别？

1.4 Self-Attention 和 Target-Attention 的区别？

1.5 在常规 Attention 中，一般有 k=v，那 Self-Attention 可以吗？

1.6 目前主流的 Attention 方法有哪些？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.7 Self-Attention 在计算的过程中，如何对 Padding 位做 Mask？

1.8 深度学习中 Attention 与全连接层的区别何在？

2. Transformer 架构解析

2.1 Transformer 中 Multi-Head Attention 中每个 Head 为什么要进行降维？

2.2 Transformer 在哪里做了权重共享，为什么可以做权重共享？

2.3 Transformer 的点积模型做缩放的原因是什么？

3. BERT 模型详解

3.1 BERT 用字粒度和词粒度的优缺点有哪些？

3.2 BERT 的 Encoder 与 Decoder 掩码有什么区别？

3.3 BERT 用的是 Transformer 里面的 Encoder 还是 Decoder？

3.4 为什么 BERT 选择 mask 掉 15% 这个比例的词，可以是其他的比例吗？

3.5 为什么 BERT 在第一句前会加一个 [CLS] 标志？

3.6 BERT 非线性的来源在哪里？

3.7 BERT 训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做？

3.8 在 BERT 应用中，如何解决长文本问题？

4. MHA & MQA & GQA 对比

（1）MHA

（2）MQA

（3）总结

5. Transformer 常见问题

5.1 Transformer 和 RNN

5.2 一些细节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具