LLMs 千面郎君(更新版)
一、大模型(LLMs)基础面
-
- 目前主流的开源模型体系有哪些?
-
- Prefix Decoder 和 Causal Decoder 和 Encoder-Decoder 区别是什么?
-
- 大模型 LLM 的训练目标是什么?
-
- 涌现能力是啥原因?
-
- 为何现在的大模型大部分是 Decoder only 结构?
-
- 简单介绍一下大模型【LLMs】?
-
- 大模型【LLMs】后面跟的 175B、60B、540B 等指什么?
-
- 大模型【LLMs】具有什么优点?
-
- 大模型【LLMs】具有什么缺点?
-
- Encoder-only, Decoder-only, Encoder-Decoder 的区别?
-
- BART、Llama、GPT、T5、Palm 等主流模型异同点?
-
- Prefix LM 和 Causal LM 区别是什么?
Layer Normalization-方法篇
- Layer Norm 的计算公式写一下?
- RMS Norm 的计算公式写一下?
- RMS Norm 相比于 Layer Norm 有什么特点?
- Deep Norm 思路?
- 写一下 Deep Norm 代码实现?
- Deep Norm 有什么优点?
Layer Normalization-位置篇
- LN 在 LLMs 中的不同位置有什么区别么?如果有,能介绍一下区别么?
Layer Normalization 对比篇
- LLMs 各模型分别用了哪种 Layer normalization
FFN 块与激活函数
-
- 介绍一下 FFN 块计算公式?
-
- 介绍一下 GeLU 计算公式?
-
- 介绍一下 Swish 计算公式?
-
- 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式?
-
- 介绍一下使用 GeLU 的 GLU 块计算公式?
-
- 介绍一下使用 Swish 的 GLU 块计算公式?
-
- 各 LLMs 都使用哪种激活函数?
-
- Adam 优化器和 SGD 的区别?
Attention 机制
-
- 传统 Attention 存在哪些问题?


