大模型核心面试题与 Transformer 原理详解

本文整理了大模型面试中的高频问题，涵盖 Transformer 架构细节、注意力机制优化、位置编码方案、训练策略及推理加速技术。内容涉及缩放点积注意力、MQA/GQA 对比、RoPE 外推方法、LoRA 微调显存优化、KV Cache 原理以及 RLHF 流程等核心知识点。

1、在 Transformer 模型中，为什么 scaled dot-product attention 在计算 QK 内积之后要除以根号 d？

简单来说，这是为了压缩 softmax 的输入值，防止输入值过大进入 softmax 的饱和区。当输入值过大时，softmax 的输出会趋近于 one-hot 分布，导致梯度值极小，从而难以进行有效的反向传播训练。

如果不进行 scaling，理论上可以通过在参数初始化时将方差除以根号 d 来预防 softmax 饱和的效果，但直接对 QK 内积结果进行 scaling 是更通用且标准的做法。这有助于保持梯度的稳定性，确保模型能够正常收敛。

2、Transformer 自注意力计算中，为什么 Q 和 K 要使用不同的权重矩阵进行线性变换投影，为什么不使用同一个变换矩阵，或者不进行变换？

对称性限制：如果 Q 和 K 使用相同的权重矩阵，矩阵乘积的结果将是一个对称矩阵。这会减弱模型的表达能力，因为对称矩阵限制了特征空间的自由度。
对角线关注：如果 Q 和 K 相同，乘积结果的对称矩阵中，对角线的值通常会比较大，导致每个位置过分关注自己（Self-attention），而忽略了其他 token 的信息。
参数容量：使用不同的投影矩阵增加了可训练参数的数量，从而增强了模型的表达能力，使其能够学习到更复杂的特征映射关系。

3、Transformer 模型中，注意力计算后面使用了两个 FFN 层，为什么第一个 FFN 层先把维提升，第二个 FFN 层再把维度降回原大小？

特征升维：类似于 SVM 中的核技巧，通过提升维度可以将低维空间中不可线性分离的特征映射到高维空间，从而识别出在低维无法识别的特征模式。
增加容量：提升维度意味着拥有更大的可训练参数量，提升了模型的容量，使其能够拟合更复杂的函数。
维度对齐：降回原维度是为了方便多层注意力层和残差模块进行拼接，无需进行额外的维度转换处理，保持了网络结构的连贯性。

4、MQA(Multi-Query Attention) 和 GQA(Grouped-Query Attention) 相比 MHA(Multi-Head Attention)，计算量变化如何，主要带来了什么优化？

参数量与计算量：MQA 和 GQA 的可训练参数量比 MHA 少，但是计算量和 MHA 相比变化不大，主要在生成 KV 时有少量降低。
KV 缓存优化：Decoder-only 的大模型由于 causal attention 的存在，使用了 KV 缓存加速推理。MQA 和 GQA 能减少 KV 头的数量，节省了显存缓存空间，使得在输入长度较长时也能把 KV 放进缓存，显著降低了推理延迟。

5、为什么现在主流的 LLM 模型基本都是 Decoder-only 的结构？单向注意力模型为什么效果比双向注意力效果好？

秩与建模能力：双向 Attention 在多层模型训练中容易退化成低秩矩阵，限制了模型容量；而 Decoder-only 模型使用了下三角注意力矩阵，使得训练过程中矩阵是满秩，建模能力更强。
训练难度：单向注意力模型相比双向注意力模型在训练的时候难度更大，这迫使模型学到更多信息，从而泛化能力更强。
位置编码功能：Causal Attention 天然具有位置编码的功能，而双向 Attention 即使交换两个 token 的位置也基本不影响表示，对语序区分能力较弱。
工程效率：工程上，单向模型支持 KV Cache 等机制，对于对话场景的效率更加友好。
：轨迹依赖，基模型训练成本高，业界倾向于沿着已经成功的模型继续开发。

大模型核心面试题与 Transformer 原理详解

大模型核心面试题与 Transformer 原理详解

1、在 Transformer 模型中，为什么 scaled dot-product attention 在计算 QK 内积之后要除以根号 d？

2、Transformer 自注意力计算中，为什么 Q 和 K 要使用不同的权重矩阵进行线性变换投影，为什么不使用同一个变换矩阵，或者不进行变换？

3、Transformer 模型中，注意力计算后面使用了两个 FFN 层，为什么第一个 FFN 层先把维提升，第二个 FFN 层再把维度降回原大小？

4、MQA(Multi-Query Attention) 和 GQA(Grouped-Query Attention) 相比 MHA(Multi-Head Attention)，计算量变化如何，主要带来了什么优化？

5、为什么现在主流的 LLM 模型基本都是 Decoder-only 的结构？单向注意力模型为什么效果比双向注意力效果好？

更多推荐文章

相关免费在线工具

6、在 BERT 中，词向量 token embedding 和 (绝对) 位置编码 position encoding 为什么可以直接相加？

7、LoRA 和全参数训练在计算量和显存上相比如何？为什么 LoRA 能提升大模型训练效率？

8、为什么模型需要 normalization（batchnorm/layernorm 等）？

9、Transformer 中 pre-norm 和 post-norm 各有什么优缺点？

10、对于使用 Multi-Head Attention 的模型，假设 hidden size=D，注意力头数量为 h，每个头维度为 d（假设有 D=d×h），输入上下文长度为 s，batch size=1，计算 self-attention 模块各个部分的计算量（Float Operations）。

11、旋转位置编码 RoPE 有什么优缺点？

12、batchnorm 中的 momentum 怎么影响训练效果

13、多头注意力相比单头有什么好处？

14、kv cache 为什么能加速推理？

15、ReLU 有什么优缺点？

16、为什么 Transformer 用 layernorm 而不是 batchnorm

17、transformer 中，encoder 和 decoder 是怎么进行交互的？

18、PyTorch 中，Tensor 的 view() 和 reshape() 两个方法有什么区别？

19、RLHF 中，PPO 需要哪几个模型，分别是什么作用？

20、GPT 类模型训练过程中，消耗显存的主要有哪些部分？分别是多少？哪部分占用最多？

21、使用半精度训练时，bf16 和 fp16 格式有什么异同？

22、支持模型长上下文的方案「NTK-aware interpolation」的思路是什么？

23、LLM 长度外推方案 NTK-by-parts 的思路是什么？

24、LLM 长度外推方案 YaRN 是怎做的？

25、对于使用 Group-Query Attention 的模型，假设 hidden size=D，Q 的注意力头数量为 h，每个头维度为 d（假设有 D=d×h），kv 组数为 n，输入上下文长度为 s，batch size=b，模型层数为 L，计算推理时 kv cache 所需的空间。

总结

更多推荐文章

相关免费在线工具

大模型核心面试题与 Transformer 原理详解

大模型核心面试题与 Transformer 原理详解

1、在 Transformer 模型中，为什么 scaled dot-product attention 在计算 QK 内积之后要除以根号 d？

2、Transformer 自注意力计算中，为什么 Q 和 K 要使用不同的权重矩阵进行线性变换投影，为什么不使用同一个变换矩阵，或者不进行变换？

3、Transformer 模型中，注意力计算后面使用了两个 FFN 层，为什么第一个 FFN 层先把维提升，第二个 FFN 层再把维度降回原大小？

4、MQA(Multi-Query Attention) 和 GQA(Grouped-Query Attention) 相比 MHA(Multi-Head Attention)，计算量变化如何，主要带来了什么优化？

5、为什么现在主流的 LLM 模型基本都是 Decoder-only 的结构？单向注意力模型为什么效果比双向注意力效果好？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6、在 BERT 中，词向量 token embedding 和 (绝对) 位置编码 position encoding 为什么可以直接相加？

7、LoRA 和全参数训练在计算量和显存上相比如何？为什么 LoRA 能提升大模型训练效率？

8、为什么模型需要 normalization（batchnorm/layernorm 等）？

9、Transformer 中 pre-norm 和 post-norm 各有什么优缺点？

10、对于使用 Multi-Head Attention 的模型，假设 hidden size=D，注意力头数量为 h，每个头维度为 d（假设有 D=d×h），输入上下文长度为 s，batch size=1，计算 self-attention 模块各个部分的计算量（Float Operations）。

11、旋转位置编码 RoPE 有什么优缺点？

12、batchnorm 中的 momentum 怎么影响训练效果

13、多头注意力相比单头有什么好处？

14、kv cache 为什么能加速推理？

15、ReLU 有什么优缺点？

16、为什么 Transformer 用 layernorm 而不是 batchnorm

17、transformer 中，encoder 和 decoder 是怎么进行交互的？

18、PyTorch 中，Tensor 的 view() 和 reshape() 两个方法有什么区别？

19、RLHF 中，PPO 需要哪几个模型，分别是什么作用？

20、GPT 类模型训练过程中，消耗显存的主要有哪些部分？分别是多少？哪部分占用最多？

21、使用半精度训练时，bf16 和 fp16 格式有什么异同？

22、支持模型长上下文的方案「NTK-aware interpolation」的思路是什么？

23、LLM 长度外推方案 NTK-by-parts 的思路是什么？

24、LLM 长度外推方案 YaRN 是怎做的？

25、对于使用 Group-Query Attention 的模型，假设 hidden size=D，Q 的注意力头数量为 h，每个头维度为 d（假设有 D=d×h），kv 组数为 n，输入上下文长度为 s，batch size=b，模型层数为 L，计算推理时 kv cache 所需的空间。

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具