大模型蒸馏有多普遍:一项量化研究的发现
Claude、豆包、Gemini 这类模型看起来还算'各有各的味道',但一篇新论文给出的结论没那么乐观:不少知名闭源和开源 LLM,都带着很重的蒸馏痕迹。这个判断来自中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者。
先说结论,再说方法。作者怀疑,顶级模型未必真的都在从零训练;更现实的情况可能是,某些更强的模型先被内部使用,再通过蒸馏去喂给对外发布的小模型。这个想法本身只能算推测,但论文里拿到的数据,确实把'蒸馏很普遍'这件事往前推了一步。
他们测了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等模型。结果里最扎眼的一点,是不少模型在回答身份问题时会自相矛盾,比如说自己来自 OpenAI,或者把自己归到 Anthropic 下面。论文作者把这类现象当成蒸馏痕迹的一部分,而不是简单的幻觉。

蒸馏本身不是坏事,它能让小模型更快接近大模型的能力,但问题也很直接:一旦大家都在复用少数几个强模型的输出,模型之间会越来越像。长期看,这种同质化会削弱多样性,也会让模型在陌生任务上的鲁棒性变差。作者想做的,就是把这种'像不像'尽量量化出来。

论文标题: Distillation Quantification for Large Language Models
项目链接: https://github.com/Aegis1863/LLMs-Distillation-Quantification
他们为什么要专门测蒸馏
蒸馏这几年热得很快,原因也不复杂:它省算力,省标注,效果还常常不差。对很多团队来说,这几乎是最现实的一条路。问题在于,便宜的收益拿得太顺手,代价就容易被忽略——尤其是数据来源不透明、模型边界越来越模糊的时候。
作者列了三个难点。第一,蒸馏过程本身不透明,很难直接比出学生模型和源模型的差异。第二,缺少标准基准,只能靠间接证据去推断。第三,LLM 的内部表征太抽象,很多蒸馏痕迹不会老老实实地出现在表面输出里。
这也是为什么这类研究总会卡在'看起来像'而不是'证明确实是'的层面。模型太大,链路太长,训练数据又混得太深,想把蒸馏这件事说死并不容易。
作者怎么量化蒸馏
论文里用了两个指标:响应相似度评估(RSE)和身份一致性评估(ICE)。一个看模型回答得像不像,另一个看模型连自己是谁都说不说得清楚。

响应相似度评估(RSE)
RSE 的思路比较直白:把测试模型的回答和参考模型的回答放在一起比,观察它们在风格、逻辑结构和内容细节上的相似程度。论文里把测试模型集合写成 LLM_test = {LLM_t1, LLM_t2, …, LLM_tk},参考模型则记作 LLM_ref,这里用的是 GPT。
作者选了 ArenaHard、Numina 和 ShareGPT 作为提示集,分别覆盖通用推理、数学和指令遵循。然后由 LLM-as-a-judge 给每个模型打一个整体相似度分数。图里把评分分成五档,基本就是从'明显不像'到'几乎一模一样'。









