如何从零开始训练大模型
1. 背景
根据 Scaling Law,模型越大、高质量数据越多,效果通常越好。但实际观察发现,随着预训练样本质量的提升和训练手段的优化,新模型往往能轻松反超参数量两倍于它的旧模型。
例如 MiniCPM 在内部评测中表现优异,相比规模接近的 2B、7B 模型,得分高于 Qwen-2B,部分指标甚至超越 Qwen-7B。这说明在现有参数量下,即使是 2B 尺度,也并未得到充分训练。基于近期行业内的技术分享与公开信息,本文总结了从零训练大模型的关键经验。
2. 样本策略
2.1 样本构成
业界已达成基础共识:
- 中英混合比例:大致相当,根据目标市场调整。
- 逻辑推理数据:如代码、数学等强逻辑样本,模型越大,混合比例可越高。这与 SFT(监督微调)类似,越大的模型需要的 SFT 数据越少,复杂样本混合比例可更高。
2.2 样本质量
2.2.1 基本清洗
导致 Perplexity (PPL) 崩坏的样本必须清洗。流程包括政治敏感数据过滤、去重等,这是一个长 Pipeline。天工开源的预训练数据被视为满足基础清洗要求的较好参考。
2.2.2 进阶清洗
通过产出各种 Label 来刻画数据质量。随着优化深入,Label 的投入产出比评估难度增加,需平衡成本与收益。
2.2.3 合成数据 (Synthetic Data)
对于开源团队或小公司,搭建清洗 Pipeline 成本较高。建议基于开源数据聚类 Topic,利用更大模型生成高质量数据,这是一种低成本方案。
2.2.4 购买数据
除特定案例外,专业数据公司在本次大模型浪潮中获益显著。
2.3 不同训练阶段的样本配比
经过讨论,主要存在三种方案:
- 末期高质量样本 (MiniCPM 方式):快速收敛和平稳阶段使用普通样本,退火阶段混入高质量样本进行教科书式学习。
- 初期高质量样本:快速收敛阶段以高质量样本为主,平稳阶段逐步增加普通样本,退火阶段同平稳期。
- 全程高质量样本 (PHIL 方式):全程使用高质量样本。
讨论焦点:
- 过拟合风险:初期加入高质量样本收敛快,但小模型重复学习是否导致过拟合?反方认为人类本质是复读机,小模型重复学习问题不大。
- 泛化能力:初期高质量样本是否会局限初始化区域?反方认为末期加入反而可能导致泛化受损,集中在特定领域。
- PHIL 定位:适合探索小模型在特定领域的 SOTA,但泛化能力较差,不适合做通用世界模型。
2.4 小模型训练的极限
到底喂多少 Tokens 才算充分训练?YI-9B 曾尝试通过计算每层输入输出的 Cosine 相似度来评估,但该方法存在遗漏点。若模型深度足够,部分层区分度降低;若小模型每层 Cosine 都小,可能意味着各层在做不同事或关注新信息。目前仍需更完善的评估方式。
3. 训练细节
3.1 Tokenizer
小模型使用过大的 Tokenizer 是浪费。常见情况是作者人力不足直接复用大模型的 Tokenizer,建议根据小模型语料重新训练或精简。
3.2 训练阶段划分
预训练通常分为三个阶段:快速收敛阶段、稳定阶段、退火阶段(MiniCPM 显式提出)。
3.2.1 分阶段原因
基于 Loss 曲线观察,不同阶段针对性调整样本和参数能带来更好效果。
3.2.2 阶段学习重点
- 涌现现象:从指标观测看是突然出现的,细化后可见渐变过程。可用物理学相变理论解释,即物质状态转变伴随性质突变。
- :尽管指标平滑,但在尺寸、数据量、计算量变化后,大模型表现差异巨大,这是相变的结果。


