大模型与小模型的协同关系
在当前的开源社区中,Qwen2 系列模型因其丰富的生态支持而备受关注。然而,对于 LLM(Large Language Model)研究者而言,单纯关注超大参数量的模型往往忽略了其背后的实验方法论。相比于 DeepSeek、Llama 或 MiniCPM 等详尽的技术报告,Qwen2 的技术文档在某些细节上可能显得简略,但其提供的'全家桶'方案为研究提供了便利。实际上,
探讨了大模型与小模型在训练与部署中的协同关系。同源小模型利用 Scaling Law 预测大模型性能,降低实验成本;大模型通过知识蒸馏和 Reward Model 提升小模型能力。在生产环境中,小模型负责数据清洗、路由判断及检索增强,弥补大模型在特征抽取和过拟合方面的不足。文章强调根据场景合理选择模型规模,而非盲目追求大参数,并提出未来 AI 系统将是大小模型协同的架构。

在当前的开源社区中,Qwen2 系列模型因其丰富的生态支持而备受关注。然而,对于 LLM(Large Language Model)研究者而言,单纯关注超大参数量的模型往往忽略了其背后的实验方法论。相比于 DeepSeek、Llama 或 MiniCPM 等详尽的技术报告,Qwen2 的技术文档在某些细节上可能显得简略,但其提供的'全家桶'方案为研究提供了便利。实际上,
为了深入讨论,我们需要明确两个核心概念:
Scaling Law(缩放定律)告诉我们,小模型的性能表现可以用来预测大模型的性能表现。这意味着,大部分情况下,我们完全可以通过在同源小模型上进行低成本实验,来推断大模型的效果,从而避免高昂的训练成本。
在 Pretrain(预训练)或 Post-Pretrain(后预训练)阶段,存在大量需要通过实验验证的问题:
直接启动大模型的成本极高,可能需要训练数周,Loss 曲线才会表现出细微差异。相比之下,在小模型上可以大胆尝试,每天训练 100B Token,两天即可得到实验结果。通过观察 TensorBoard 的 Loss 曲线、刷 Benchmark 榜单或进行 SFT(监督微调)测试,小模型能帮助我们快速敲定预训练阶段的数据配置。
在 Alignment(对齐)阶段,同样可以利用小模型和 Scaling Law 指导工作。例如,若要强化模型的某个能力并准备了 N 条训练数据,可以通过观察该数据在小模型上的提升幅度,绘制曲线预估大模型的表现。
通俗来说,如果 100B Token 能让 0.5B 模型下降 0.2 Loss,那么理论上能让 72B 模型下降约 0.1 Loss。同理,若 Alignment 数据能让 0.5B 模型提升 x% 的任务能力,大概率也能让 72B 模型提升 0.5x% 的能力。
虽然在实际工作中,由于 Alignment 数据量通常不大,我们往往可以直接对目标大模型进行训练验证。但在需要海量数据强化特定能力(如代码生成、创作能力增强)时,小模型的实验指导意义尤为显著。
大模型不仅是最终目标,也是同源小模型提升能力的源泉。大模型的效果代表了同源小模型不可达到的上限(Ceiling),了解这一上限对实际工作极具意义。
'蒸馏'技术在 BERT 时代非常流行,但在 LLM 方向提及较少,主要原因是其对'同源 Tokenizer'的要求过于严格。不过,对于同源小模型而言,蒸馏技术几乎是量身定制的方案。
目前论文中常将'利用 GPT-4 造数据喂给小模型'称为蒸馏,这更准确的叫法应是'知识蒸馏'。传统的'模型蒸馏'指的是不再让模型学习 Hard Label,而是 Soft Label:
从信息论角度考虑,Soft Label 蕴含了更多的可学习信息。因此,利用大模型对同源小模型进行蒸馏,很可能得到一个能力远高于同等规模的小模型。Google 的 Gemma 小模型就应用了此项技术方案。
值得注意的是,LLM 方向蒸馏做得少,部分原因是算力与收益不成正比。正常训练学习的是 Seq_Len 个 One_Hot Label,而蒸馏学习的是 Seq_Len * Vocab_Size 的 Logits。一个现实的方案是做 Clip,只取最大的 N 个 Token Logits 标签进行学习,其余概率视为 0。
用大模型充当小模型的 Reward Model 是目前流行的做法,而同源大模型做 Reward Model 则是锦上添花。
与蒸馏不同,蒸馏看重'Tokenizer 同源',Reward Model 看重'Pretrain 数据同源'。这意味着 Reward Model 和 Policy Model 具有同等的知识储备,只是掌握程度不同。Reward Model 会判断:'我学过且掌握了,你学过但没掌握,所以我给你打低分是合理的。'
虽然在实际工作中,同源 Reward Model 可能不如 GPT-4 这种'天才 Reward Model'效果好,但它能给出更公允的打分,进而减少幻觉产生。这也是 Alignment 的一大痛点:模型到底是过拟合才答错,还是压根没学过?交给同源大模型来判断更为准确。
除了同源模型,优秀的大模型在训练和部署背后,还默默依赖着无数专用小模型。
Llama3 和 Qwen2 均提到其预训练数据经过打分筛选。开源数据集 Fineweb 也进行了类似的数据打分工作。Good data makes good model performance!李沐教授曾指出,Llama3 的数据打分器使用了 RoBERTa,这是非常合理的选择,因为 BERT 家族模型效果好且推理快。
垂直领域模型的后预训练工作需要精准的数据配比。我们需要一个分类器从海量数据中提取 Domain 数据,并能将低质量的 Domain 数据视为非 Domain 数据。通常承担此工作的也是 BERT 家族模型。
RAG(检索增强生成)模块已是 LLM 标配,但我们不能让模型自己判断是否该做检索。额外生成'是否 RAG'等 Token 会降低响应速度,并可能降低通用能力(模型学得越多,忘得越快)。因此,线上模型往往前置一个小模型,用于判别是否需要 RAG、是否触发安全机制、是否触发工具链等。
这是重量级组件,即传统的信息检索模型,负责从海量文档中选出最相关的 Doc。BGE 是该领域较为常用的模型。
公式'小模型 + SFT > GPT-4 + Zero-Shot'几乎是数据生产阶段最常用的策略。在生产多轮对话数据时,GPT-4 并非百分之百按指定格式输出,且成本高昂。最佳方案是用一个小模型学习目标 Task 的高精数据,让其过拟合,变成标准的 Task 数据生产器。
以 Role Play 为例,许多场景需人工与 GPT-4 聊天生产高质量数据。我们可以训练一个聊天模型,让它扮演'多事儿的用户'与 GPT-4 聊天,自动化生产大量数据。
学会变通,生成模型也可以当判别模型使用。如果我们懒得找 BERT 代码训练分类器,可以直接训练一个 Qwen2-0.5B,让它只输出 0 和 1。当模型完全过拟合到 0 和 1 时,所有 Token 中只有 0 和 1 有概率。此时,用 1 对应的 Token Probability,即为分类器的打分。更优雅的做法是将 Pretrain Model 的 LM Head 替换成 Reward Model 的 LM Head。
一个优秀的大模型,无论是在训练阶段还是线上部署阶段,其背后默默付出的小模型都数不胜数。我在训练 Domain 分类器时发现,Qwen2-1.5B 的准确率和召回率都不如 Qwen2-0.5B 高。分析表明:模型越大,学习能力越强,但也更容易过拟合。
传统机器学习模型主要做特征抽取,提取输入中看不到的特征,XGBoost 还会计算特征重要程度。但由于 LLM 参数量巨大,加上 Decoder-Only 结构,它真的可以做到记住所有输入特征。Decoder-Only 是纯信息检索结构,不压缩任何 Token 信息,这与 BERT 的 CLS 位压缩信息完全不同。
因此,较大的模型虽然上限更高,但所依赖的数据质量也更高。如果训练数据有失偏颇、分布不均衡,大模型完全可以记住这些数据的 Pattern,而不是从中抽取共同特征。我的 0.5B 模型效果好于 1.5B 模型,正是因为使用了 4 个数据源作为训练集,但测试集来自 10 个数据源,小模型泛化能力反而更强。
诚然,大模型的出现解决了 NLP 多年的指代消解、多轮理解、对话人设等瓶颈,但小模型的信息压缩、特征抽取能力依然非常有意义。我们在工作中,应多考虑能否用小模型解决问题,回归老朋友 BERT,而不是二话不说就打开 GPT-4 写 Prompt。
未来的 AI 系统将是大小模型协同的架构:大模型负责复杂推理与生成,小模型负责预处理、路由、过滤及特定任务的高效执行。这种混合架构既能保证性能上限,又能控制成本与延迟,是工业落地的最优解。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online