大模型面试题全集
一、大模型基础
- 目前主流的开源模型体系有哪些?
- Prefix Decoder、Causal Decoder 和 Encoder-Decoder 有何区别?
- 大模型 LLM 的训练目标是什么?
- 涌现能力出现的原因?
- 为何现在的大模型大多是 Decoder-only 结构?
- 请简要介绍大模型(LLMs)。
- 大模型后面跟的 175B、60B、540B 等数字代表什么?
- 大模型有哪些优点?
- 大模型有哪些缺点?
- Encoder-only、Decoder-only、Encoder-Decoder 架构的区别?
- BART、Llama、GPT、T5、Palm 等主流模型的异同点?
- Prefix LM 与 Causal LM 的区别?
层归一化方法
- 写出 Layer Norm 的计算公式。
- 写出 RMS Norm 的计算公式。
- RMS Norm 相比 Layer Norm 有什么特点?
- Deep Norm 的思路?
- 写出 Deep Norm 的代码实现。
- Deep Norm 的优点?
层归一化位置
- LN 在 LLMs 中放置在哪些位置,有何区别?
层归一化对比
- 各 LLMs 模型分别用了哪种层归一化?
FFN 块与激活函数
- FFN 块的计算公式是什么?
- GeLU 的计算公式?
- Swish 的计算公式?
- 使用 GLU 线性门控单元的 FFN 块计算公式?
- 使用 GeLU 的 GLU 块计算公式?
- 使用 Swish 的 GLU 块计算公式?
- 各 LLMs 使用哪种激活函数?
- Adam 优化器与 SGD 的区别?
Attention 机制
- 传统 Attention 存在哪些问题?
- Attention 的优化方向有哪些?
- Attention 的变体有哪些?
- Multi-Query Attention
- Multi-head Attention 存在什么问题?
- 什么是 Multi-Query Attention?
- 对比 MHA 与 Multi-Query Attention?
- Multi-Query Attention 的好处是什么?
- 哪些模型使用了 Multi-Query Attention?
- Grouped-query Attention
- 什么是 Grouped-query Attention?
- 哪些大模型使用了 Grouped-query Attention?
- FlashAttention
- 为什么需要 FlashAttention?
- 简要介绍 FlashAttention。
- FlashAttention 的核心是什么?
- FlashAttention 的优点有哪些?
- 使用 FlashAttention 的代表模型?
- 并行
- Attention 的计算复杂度及改进方法?
- Paged Attention
- 简要介绍 Paged Attention。
- 对比 MHA、GQA、MQA 三种注意力机制?区别是什么?
Cross Attention
- 为什么需要跨注意力机制(Cross-Attention)?
- 介绍跨注意力机制(Cross-Attention)。


