从零开始训练大模型的技术实践与讨论
基于行业交流探讨了从零训练大模型的关键要素。内容涵盖样本构成与质量清洗策略,包括中英混合比例、逻辑推理数据及合成数据生成。分析了预训练不同阶段(快速收敛、稳定、退火)的样本配比方案,以及小模型训练的极限评估方法。在训练参数方面,讨论了分词器选择、Batch Size 权衡、学习率调度器与优化器的协同机制,特别是 W-S-D 调度策略。此外,还涉及了 Scaling Law 的指导意义变化及“和面”技巧在提升特定领域效果中的应用。核心结论强调数据质量对模型性能的影响往往超过单纯增加参数量,且高质量数据的引入时机对泛化能力至关重要。


