Llama-Factory如何设置warmup步数？线性增长策略推荐

Ne0inhk

23 Mar 2026 — 8 min read

Llama-Factory如何设置warmup步数？线性增长策略推荐

在大模型微调实践中，你是否遇到过训练刚开始 loss 就飙升到 NaN 的情况？或者前几个 epoch 损失剧烈震荡，导致最终性能不稳定？这类问题往往不是数据或模型结构的问题，而是学习率调度中一个关键细节被忽略了——warmup 步数的合理设置。

尤其在使用像 Llama-Factory 这样支持全参数微调、LoRA 和 QLoRA 的通用框架时，虽然上手门槛低，但如果对底层优化机制缺乏理解，很容易因为默认配置“跑不动”而误判工具本身的能力。其中，warmup 阶段的设计直接决定了模型能否平稳度过最脆弱的初始训练期。

为什么 warmup 如此重要？

现代大语言模型（LLM）通常拥有数十亿甚至上百亿参数，初始化权重是随机的。训练初期，梯度可能非常大且方向不稳定。如果此时直接使用较高的学习率进行更新，会导致参数跳跃幅度过大，破坏初始学习动态，甚至引发梯度爆炸。

Warmup 机制就是为了解决这个问题：它让学习率从接近零开始，在前若干步中逐步上升至预设的基础学习率。这个“预热”过程相当于给优化器一个缓冲期，使其逐渐适应数据分布和梯度特性，从而显著提升训练稳定性。

Llama-Factory 基于 Hugging Face Transformers 构建，天然继承了其强大的学习率调度能力。你可以通过 warmup_steps 或 warmup_ratio 精确控制这一阶段，并结合不同的调度策略（如线性、余弦等）实现精细化调优。

Warmup 是怎么工作的？

简单来说，warmup 分三个阶段：

第0步：学习率初始化为极小值（通常是 0）；
第1步到第 N_warmup 步：学习率按设定策略（比如线性）逐步上升；
第 N_warmup+1 步之后：进入常规衰减阶段，例如线性下降或余弦退火。

以最常见的线性增长策略为例，当前步数 $ t $ 对应的学习率为：

$$
\text{lr}t =
\begin{cases}
\text{base_lr} \times \frac{t}{T{\text{warmup}}}, & t < T_{\text{warmup}} \
\text{base_lr} \times f(t), & t \geq T_{\text{warmup}}
\end{cases}
$$

这里的 $ f(t) $ 可以是线性衰减、余弦函数或其他调度方式。整个过程平滑连续，避免突变带来的冲击。

相比不使用 warmup 的训练方式，启用后最直观的变化就是 loss 曲线从一开始就能保持稳定下降趋势，而不是出现剧烈 spike 或波动。

对比项	无 Warmup	含 Warmup
训练稳定性	差，易出现 loss spike	高，loss 曲线更平滑
收敛速度	较慢，需反复试错	更快，初期适应良好
最终性能	可能偏低	通常更高且更一致

尤其是在使用 AdamW 这类自适应优化器时，warmup 能有效缓解动量和方差估计在早期不准的问题，极大增强鲁棒性。

在 Llama-Factory 中如何配置？

Llama-Factory 提供了多种方式来设置 warmup 参数，适配不同使用习惯的用户。

核心参数一览

参数名	类型	含义	推荐范围
`warmup_steps`	int	显式指定 warmup 步数	100 ~ 2000
`warmup_ratio`	float	warmup 占总训练步数比例	0.05 ~ 0.1
`learning_rate`	float	基础学习率（warmup 结束时达到的值）	1e-5 ~ 5e-4
`lr_scheduler_type`	str	学习率调度类型	`"linear"`, `"cosine"` 等

注意：warmup_steps 和 warmup_ratio 互斥，优先使用前者。若两者都未设置，某些调度器会采用默认行为（如 transformers 默认 warmup_ratio=0.0），可能导致无 warmup。

推荐组合：线性增长 + 固定步数

尽管 Llama-Factory 支持多种 warmup 增长模式（线性、余弦、常量等），但在大多数场景下，我们强烈推荐使用 线性增长策略，理由如下：

实证效果好：多项研究和工业实践表明，线性 warmup 配合后续线性或余弦衰减，在 NLP 微调任务中表现最为稳健。
调试成本低：无需额外调参，只需确定 warmup_steps 即可。
兼容性强：与 LoRA、QLoRA、全参数微调等各种方法都能良好配合。
计算开销几乎为零：算法逻辑清晰，不影响训练效率。

更重要的是，它的行为可预测——每一步的学习率增量恒定：
$$
\Delta \text{lr} = \frac{\text{base_learning_rate}}{T_{\text{warmup}}}
$$

这使得你在查看 TensorBoard 或 WandB 日志时，能清楚看到 learning rate 是否按预期上升，便于快速定位问题。

实际配置示例

方式一：YAML 配置文件（适合复现与团队协作）

# train_config.yaml model_name_or_path: qwen/Qwen-7B adapter_name_or_path: null output_dir: ./output/qwen-7b-lora overwrite_output_dir: true per_device_train_batch_size: 4 gradient_accumulation_steps: 8 learning_rate: 3e-4 num_train_epochs: 3 lr_scheduler_type: linear warmup_steps: 200 max_grad_norm: 1.0 logging_steps: 10 save_steps: 500 eval_steps: 500 evaluation_strategy: steps

说明：这是一个典型的 LoRA 微调配置。设置 warmup_steps=200 表示前 200 步执行线性预热，之后进入线性衰减。结合梯度裁剪（max_grad_norm=1.0）和批量累积（gradient_accumulation_steps=8），可在消费级多卡环境下实现稳定训练。

方式二：命令行启动（适合快速实验）

CUDA_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train \ --model_name_or_path qwen/Qwen-7B \ --adapter_name_or_path null \ --output_dir ./output/qwen-7b-full \ --do_train \ --do_eval \ --per_device_train_batch_size 2 \ --per_device_eval_batch_size 2 \ --gradient_accumulation_steps 16 \ --learning_rate 2e-5 \ --num_train_epochs 3 \ --lr_scheduler_type linear \ --warmup_steps 500 \ --eval_steps 100 \ --save_steps 500 \ --logging_steps 10 \ --max_grad_norm 1.0 \ --fp16 true \ --torch_dtype bfloat16 \ --dataloader_num_workers 4

说明：该命令用于全参数微调，batch size 较大（effective batch = 2×16×4=128），因此设置了更大的 warmup_steps=500，确保前期更新足够温和。同时启用 bfloat16 加速训练。

方式三：WebUI 图形界面（适合新手入门）

在 Llama-Factory 的 WebUI 中：

进入「Training Arguments」标签页；
将 “LR Scheduler Type” 设置为 linear；
在 “Warmup Steps” 输入框填写具体数值（如 200）；
若留空，则启用 “Warmup Ratio” 并设为 0.05~0.1，系统将根据总训练步数自动计算。

提示：WebUI 会将这些配置转换为内部脚本参数，效果等同于上述两种方式。对于不想写代码的新手来说，这是最快上手的方式。

如何选择合适的 warmup 步数？

这不是一个可以“一刀切”的问题。合理的设置需要结合以下因素综合判断：

1. 数据集大小与总训练步数

如果总训练步数较少（< 1000），建议使用 warmup_ratio=0.1，即前 10% 的 step 用于预热；
如果训练较长（> 5000 步），可固定 warmup_steps=500~1000，避免 warmup 时间过长影响收敛速度。

2. Batch Size 与 Gradient Accumulation

大 effective batch size（如 > 128）意味着每次更新更稳定，可适当减少 warmup 步数；
小 batch 容易受噪声干扰，应增加 warmup 步数以增强鲁棒性。

3. 微调方式差异

全参数微调：所有参数都在更新，变化剧烈，建议 warmup_steps ≥ 500；
LoRA / QLoRA：仅更新少量可训练参数，整体更稳定，100~300 即可。

4. 学习率水平

高学习率（如 >1e-4）必须搭配足够长的 warmup，否则极易发散；
低学习率（如 <5e-5）本身更新幅度小，可适度缩短 warmup。

典型问题与解决方案

下面是一些真实项目中的案例：

问题现象	可能原因	解决方案
初始 loss 从 5.0 直接跳到 NaN	学习率过高 + 无 warmup	启用 `warmup_steps=300` + 梯度裁剪
多卡训练 loss 波动大	分布式同步梯度不稳定	增加 warmup 步数至 500 以上
小样本微调很快过拟合	前期更新太激进	使用 warmup 控制早期学习强度

例如，在医疗领域微调 Baichuan-13B 时，原始配置未启用 warmup，结果前几十步 loss 就变为 NaN；加入 warmup_steps=300 后，loss 顺利从 5.0 平稳降至 3.2，最终准确率提升近 8%。

最佳实践建议

基于大量实验和工程经验，我们总结出以下几点实用建议：

新任务起步推荐：lr_scheduler_type=linear + warmup_steps=200~500
观察 TensorBoard 中 learning rate 和 loss 曲线是否平滑
若出现 early divergence（早期发散），优先尝试增加 warmup 步数，而非一味降低 learning rate
将成功配置保存为模板，形成团队内部的标准训练流程

Llama-Factory 的强大之处不仅在于“开箱即用”，更在于它允许高级用户深入到底层超参进行精细调控。掌握 warmup 的正确用法，是迈向高效、稳定微调的关键一步。

这种高度集成又不失灵活性的设计思路，正在推动大模型技术从实验室走向真实业务场景。当你下次再遇到训练不稳定的问题时，不妨先检查一下：你的 warmup 设置到位了吗？

Llama-Factory如何设置warmup步数？线性增长策略推荐

Ne0inhk