大模型 LLM 合成训练样本的数据分布问题
本文探讨了大模型 LLM 训练中合成训练样本的数据分布问题。通过统计字符串字母个数的实验案例,发现初始均匀随机采样生成的训练数据与实际测试分布存在偏差,导致模型在处理短单词和重复序列时准确率大幅下降。文章分析了分布偏移的原因,提出了通过加权短单词频率和增加重复序列概率的改进方案。实验结果表明,调整后的数据分布使模型成功解决了边缘案例的预测错误。最后总结了合成数据构建的最佳实践,强调训练数据分布应与实际应用场景保持一致,并需主动覆盖边缘情况以提升模型鲁棒性。


