Mini Qwen 1B 大模型从头训练全流程经验总结
本文总结了 Mini Qwen 1B 大模型的从头训练经验,涵盖预训练、SFT 微调和 DPO 偏好对齐三个阶段。实验基于 6 张 H800 显卡,使用 Accelerate、DeepSpeed 和 TRL 等工具。预训练阶段发现数据多样性不足会导致复读现象,Instruct 版本相对较好。SFT 阶段通过增加 System Prompt 提升了角色扮演泛化能力。DPO 阶段因数据规模和质量限制,性能提升不明显。文章提供了详细的超参数配置表及针对常见问题的排查建议,为小模型训练提供参考。


