Llama-Factory 微调：Warmup 步数设置与线性增长策略

在大模型微调实践中，你是否遇到过训练刚开始 loss 就飙升到 NaN 的情况？或者前几个 epoch 损失剧烈震荡，导致最终性能不稳定？这类问题往往不是数据或模型结构的问题，而是学习率调度中一个关键细节被忽略了——warmup 步数的合理设置。

尤其在使用像 Llama-Factory 这样支持全参数微调、LoRA 和 QLoRA 的通用框架时，虽然上手门槛低，但如果对底层优化机制缺乏理解，很容易因为默认配置'跑不动'而误判工具本身的能力。其中，warmup 阶段的设计直接决定了模型能否平稳度过最脆弱的初始训练期。

为什么 warmup 如此重要？

现代大语言模型（LLM）通常拥有数十亿甚至上百亿参数，初始化权重是随机的。训练初期，梯度可能非常大且方向不稳定。如果此时直接使用较高的学习率进行更新，会导致参数跳跃幅度过大，破坏初始学习动态，甚至引发梯度爆炸。

Warmup 机制就是为了解决这个问题：它让学习率从接近零开始，在前若干步中逐步上升至预设的基础学习率。这个'预热'过程相当于给优化器一个缓冲期，使其逐渐适应数据分布和梯度特性，从而显著提升训练稳定性。

Llama-Factory 基于 Hugging Face Transformers 构建，天然继承了其强大的学习率调度能力。你可以通过 warmup_steps 或 warmup_ratio 精确控制这一阶段，并结合不同的调度策略（如线性、余弦等）实现精细化调优。

Warmup 是怎么工作的？

简单来说，warmup 分三个阶段：

第 0 步：学习率初始化为极小值（通常是 0）；
第 1 步到第 N_warmup 步：学习率按设定策略（比如线性）逐步上升；
第 N_warmup+1 步之后：进入常规衰减阶段，例如线性下降或余弦退火。

以最常见的线性增长策略为例，当前步数 $ t $ 对应的学习率为：

$$ \text{lr}t = \begin{cases} \text{base_lr} \times \frac{t}{T{\text{warmup}}}, & t < T_{\text{warmup}} \ \text{base_lr} \times f(t), & t \geq T_{\text{warmup}} \end{cases} $$

这里的 $ f(t) $ 可以是线性衰减、余弦函数或其他调度方式。整个过程平滑连续，避免突变带来的冲击。

相比不使用 warmup 的训练方式，启用后最直观的变化就是 loss 曲线从一开始就能保持稳定下降趋势，而不是出现剧烈 spike 或波动。

对比项	无 Warmup	含 Warmup
训练稳定性	差，易出现 loss spike	高，loss 曲线更平滑
收敛速度	较慢，需反复试错	更快，初期适应良好
最终性能	可能偏低	通常更高且更一致

尤其是在使用 AdamW 这类自适应优化器时，warmup 能有效缓解动量和方差估计在早期不准的问题，极大增强鲁棒性。

在 Llama-Factory 中如何配置？

Llama-Factory 提供了多种方式来设置 warmup 参数，适配不同使用习惯的用户。

核心参数一览

参数名	类型	含义	推荐范围
`warmup_steps`	int	显式指定 warmup 步数	100 ~ 2000

问题现象	可能原因	解决方案
初始 loss 从 5.0 直接跳到 NaN	学习率过高 + 无 warmup	启用 `warmup_steps=300` + 梯度裁剪
多卡训练 loss 波动大	分布式同步梯度不稳定	增加 warmup 步数至 500 以上
小样本微调很快过拟合	前期更新太激进	使用 warmup 控制早期学习强度

Llama-Factory 微调：Warmup 步数设置与线性增长策略