LLM 基础知识备忘录

预训练相关

LearningRate 和 BatchSize 之间的关系

在大规模语言模型训练中，学习率（Learning Rate, LR）与批次大小（Batch Size）之间存在密切的权衡关系。假设 batch_size 足够小，等于 1，如果 lr 设得比较大则容易导致 loss 发散；假设 batch_size 足够大，等于全量的数据，如果这个时候 lr 设的小则收敛会很慢。因此，理论上来说，batch_size 和模型参数增大时，较小的 lr 并不是说不收敛，而是可能需要更多的 steps 才能收敛。为了保持训练效率，通常需要根据 batch_size 的变化适当线性或平方根缩放 learning rate，以确保梯度更新的稳定性。

关于位置编码

Transformer 架构本身不具备处理序列顺序的能力，因此需要引入位置编码（Positional Encoding）来注入位置信息。

sinusoidal 位置编码 考虑两个位置 i 和 j，由于正弦和余弦函数的性质，位置编码的差值 PE(i) - PE(j) 将与 i 和 j 之间的差值有关。这意味着通过比较不同位置编码之间的差值，模型可以推断出它们之间的相对位置，从而具备外推能力。

Lesson-sinusoidal

ROPE 相对位置编码 旋转位置编码（Rotary Positional Embeddings）通过将向量进行旋转操作来融合位置信息。它允许模型在处理长序列时更好地捕捉相对距离，且不需要额外的插值即可支持更长的上下文窗口。

Lesson-rope

Lesson-rope-detail

ALiBi 位置编码 Attention with Linear Biases (ALiBi) 不直接添加位置嵌入，而是在 Attention Score 上加上一个偏置项，该偏置项与 token 之间的距离成比例。这种方法使得模型能够泛化到比训练时更长的序列长度。

Lesson-alibi

Pre-Norm 和 Post-Norm 的差异和优劣

Pre-Norm：在残差连接之前进行归一化。这种结构有助于梯度的稳定传播，防止深层网络中的梯度消失或爆炸问题，通常训练过程更加稳定。
Post-Norm：在残差连接之后进行归一化。虽然早期研究认为其性能略逊于 Pre-Norm，但在某些特定场景下，Post-Norm 能带来更好的最终收敛效果，尤其是在浅层网络中。目前主流的大模型多采用 Pre-Norm 结构以保证训练稳定性。

DeepSeek 要点

：DeepSeek 采用了复杂的学习率调度策略。warmup 阶段为 2000 个 steps 之后达到最大值，在 80% 的 tokens 之后学习率下降到最大值的 31.6%，90% 的 tokens 之后下降到最大值的 10%。最终模型表现上，和基本保持一致；而的优势是，在保持模型大小固定调整训练规模时，可以重用第一阶段训练的结果，这比较方便后续的继续训练。

LLM 基础知识备忘录

预训练相关

LearningRate 和 BatchSize 之间的关系

关于位置编码

Pre-Norm 和 Post-Norm 的差异和优劣

DeepSeek 要点

更多推荐文章

相关免费在线工具

关于 MoE

Mixtral 要点

DeepSeekMoE 要点

对齐

Reward 模型的损失函数

Reward 模型的输入和输出

分布式相关

DeepSpeed 和 Megatron 之间的差异

部署相关

常用的部署方式有哪些

vLLM

SGLang

总结

更多推荐文章

相关免费在线工具

LLM 基础知识备忘录

预训练相关

LearningRate 和 BatchSize 之间的关系

关于位置编码

Pre-Norm 和 Post-Norm 的差异和优劣

DeepSeek 要点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关于 MoE

Mixtral 要点

DeepSeekMoE 要点

对齐

Reward 模型的损失函数

Reward 模型的输入和输出

分布式相关

DeepSpeed 和 Megatron 之间的差异

部署相关

常用的部署方式有哪些

vLLM

SGLang

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具