大模型与小模型的协同关系
在当前的开源社区中,Qwen2 系列模型因其丰富的生态支持而备受关注。然而,对于 LLM(Large Language Model)研究者而言,单纯关注超大参数量的模型往往忽略了其背后的实验方法论。相比于 DeepSeek、Llama 或 MiniCPM 等详尽的技术报告,Qwen2 的技术文档在某些细节上可能显得简略,但其提供的'全家桶'方案为研究提供了便利。实际上,使用相同的 Tokenizer 和相同的预训练数据(Pretrain Data)得到的'一簇小 LLM',其研究价值往往超过 Qwen2-72B 本身。
基本概念定义
为了深入讨论,我们需要明确两个核心概念:
- 同源小模型(Homologous Small Models):指在相同的 Tokenizer 和相同的训练数据分布下,通过调整参数量得到的较小规模的 LLM。这类模型与大模型具有高度的一致性。
- 通用小模型(General Small Models):重点在于'小',旨在实现快速推理或特定分类任务。其训练方式不限,可以是 BERT、RoBERTa、XGBoost、LR 等传统机器学习模型,也可以是小型的 Transformer 架构。
同源小模型是大模型的实验场
Scaling Law(缩放定律)告诉我们,小模型的性能表现可以用来预测大模型的性能表现。这意味着,大部分情况下,我们完全可以通过在同源小模型上进行低成本实验,来推断大模型的效果,从而避免高昂的训练成本。
预训练阶段的实验优化
在 Pretrain(预训练)或 Post-Pretrain(后预训练)阶段,存在大量需要通过实验验证的问题:
- 什么样的数据配比最合理?
- 课程学习中哪种学习顺序效果最好?
- 数据的质量是否达标?去重程度是否足够?
- 先训 4k 上下文再扩展到 32k,与直接训 32k 的效果差异如何?
- Post-pretrain 时怎样调整学习率和数据分布以防止模型能力断崖式遗忘?
直接启动大模型的成本极高,可能需要训练数周,Loss 曲线才会表现出细微差异。相比之下,在小模型上可以大胆尝试,每天训练 100B Token,两天即可得到实验结果。通过观察 TensorBoard 的 Loss 曲线、刷 Benchmark 榜单或进行 SFT(监督微调)测试,小模型能帮助我们快速敲定预训练阶段的数据配置。
对齐阶段的指导意义
在 Alignment(对齐)阶段,同样可以利用小模型和 Scaling Law 指导工作。例如,若要强化模型的某个能力并准备了 N 条训练数据,可以通过观察该数据在小模型上的提升幅度,绘制曲线预估大模型的表现。
通俗来说,如果 100B Token 能让 0.5B 模型下降 0.2 Loss,那么理论上能让 72B 模型下降约 0.1 Loss。同理,若 Alignment 数据能让 0.5B 模型提升 x% 的任务能力,大概率也能让 72B 模型提升 0.5x% 的能力。
虽然在实际工作中,由于 Alignment 数据量通常不大,我们往往可以直接对目标大模型进行训练验证。但在需要海量数据强化特定能力(如代码生成、创作能力增强)时,小模型的实验指导意义尤为显著。
注意事项
- 学习率差异:小模型通常需要使用较大的学习率,而大模型因学习能力强、特征空间稀疏,往往需要使用较小的学习率。
- MOE 模型的局限性:强如 Meta 也曾出现千亿级别参数的 MOE(Mixture of Experts)模型训练不稳定的情况。这说明 MOE 的 Scaling Law 可能尚未成熟,或者缺乏像 Llama 那样稳定的标准结构,导致其在小模型上的优异表现无法复现到大模型上。
大模型是同源小模型的良师
大模型不仅是最终目标,也是同源小模型提升能力的源泉。大模型的效果代表了同源小模型不可达到的上限(Ceiling),了解这一上限对实际工作极具意义。
模型蒸馏(Model Distillation)
'蒸馏'技术在 BERT 时代非常流行,但在 LLM 方向提及较少,主要原因是其对'同源 Tokenizer'的要求过于严格。不过,对于同源小模型而言,蒸馏技术几乎是量身定制的方案。
目前论文中常将'利用 GPT-4 造数据喂给小模型'称为蒸馏,这更准确的叫法应是'知识蒸馏'。传统的'模型蒸馏'指的是不再让模型学习 Hard Label,而是 Soft Label:
- Hard Label:'台湾属于',预测下一个 Token 时,'中国'的概率是 1,其他所有 Token 的概率是 0。
- Soft Label:'台湾属于',预测下一个 Token 时,'中国'的概率是 0.3,'中华'的概率是 0.2,'大陆'的概率是 0.1……


