跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

大模型蒸馏有多普遍：一项量化研究的发现 | 极客日志

编程语言AI

大模型蒸馏有多普遍：一项量化研究的发现

一项研究用响应相似度评估（RSE）和身份一致性评估（ICE）量化大模型蒸馏程度，测试了 Claude、豆包、Gemini、Llama、Qwen、DeepSeek 等模型。结果显示，多数闭源和开源模型都存在较高蒸馏痕迹，部分模型在身份问题上会出现来源混淆。研究还发现，基础模型通常比监督微调模型更容易暴露蒸馏特征。论文指出，过度依赖蒸馏会带来模型同质化、鲁棒性下降和数据治理风险，RSE 与 ICE 可作为后续自动化检测的起点。

GitMaster发布于 2026/6/300 浏览

大模型蒸馏有多普遍：一项量化研究的发现

大模型蒸馏有多普遍：一项量化研究的发现

Claude、豆包、Gemini 这类模型看起来还算'各有各的味道'，但一篇新论文给出的结论没那么乐观：不少知名闭源和开源 LLM，都带着很重的蒸馏痕迹。这个判断来自中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者。

先说结论，再说方法。作者怀疑，顶级模型未必真的都在从零训练；更现实的情况可能是，某些更强的模型先被内部使用，再通过蒸馏去喂给对外发布的小模型。这个想法本身只能算推测，但论文里拿到的数据，确实把'蒸馏很普遍'这件事往前推了一步。

他们测了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等模型。结果里最扎眼的一点，是不少模型在回答身份问题时会自相矛盾，比如说自己来自 OpenAI，或者把自己归到 Anthropic 下面。论文作者把这类现象当成蒸馏痕迹的一部分，而不是简单的幻觉。

研究示意图

蒸馏本身不是坏事，它能让小模型更快接近大模型的能力，但问题也很直接：一旦大家都在复用少数几个强模型的输出，模型之间会越来越像。长期看，这种同质化会削弱多样性，也会让模型在陌生任务上的鲁棒性变差。作者想做的，就是把这种'像不像'尽量量化出来。

实验结果概览

论文标题： Distillation Quantification for Large Language Models

项目链接： https://github.com/Aegis1863/LLMs-Distillation-Quantification

他们为什么要专门测蒸馏

蒸馏这几年热得很快，原因也不复杂：它省算力，省标注，效果还常常不差。对很多团队来说，这几乎是最现实的一条路。问题在于，便宜的收益拿得太顺手，代价就容易被忽略——尤其是数据来源不透明、模型边界越来越模糊的时候。

作者列了三个难点。第一，蒸馏过程本身不透明，很难直接比出学生模型和源模型的差异。第二，缺少标准基准，只能靠间接证据去推断。第三，LLM 的内部表征太抽象，很多蒸馏痕迹不会老老实实地出现在表面输出里。

这也是为什么这类研究总会卡在'看起来像'而不是'证明确实是'的层面。模型太大，链路太长，训练数据又混得太深，想把蒸馏这件事说死并不容易。

作者怎么量化蒸馏

论文里用了两个指标：响应相似度评估（RSE）和身份一致性评估（ICE）。一个看模型回答得像不像，另一个看模型连自己是谁都说不说得清楚。

方法对比图

响应相似度评估（RSE）

RSE 的思路比较直白：把测试模型的回答和参考模型的回答放在一起比，观察它们在风格、逻辑结构和内容细节上的相似程度。论文里把测试模型集合写成 LLM_test = {LLM_t1, LLM_t2, …, LLM_tk}，参考模型则记作 LLM_ref，这里用的是 GPT。

作者选了 ArenaHard、Numina 和 ShareGPT 作为提示集，分别覆盖通用推理、数学和指令遵循。然后由 LLM-as-a-judge 给每个模型打一个整体相似度分数。图里把评分分成五档，基本就是从'明显不像'到'几乎一模一样'。

RSE 评分分布

身份一致性评估（ICE）

ICE 更像是在试探模型的训练记忆。作者通过迭代构造提示，去绕开模型的自我认知，逼它说出一些和身份有关的信息，比如名称、国家、位置、团队这些细节。这里的源 LLM 设为 GPT4o-0806。

他们用 GPTFuzz 做身份不一致性检测。先把源模型的身份信息整理成事实集 F，比如'我是 Claude，一个由 Anthropic 开发的 AI 助手。Anthropic 是一家总部位于美国的公司。'这一类句子会作为对照。

身份事实集示例

接着再用带身份提示的 P_id 去生成攻击样本，问测试模型'你是谁''谁开发了你'这类问题。GPTFuzz 会把回答和事实集 F 做比对，发现冲突就继续迭代，最后形成一个更强的提示集合 F^G。

GPTFuzz 攻击流程

越狱攻击示例

作者把结果拆成两种分数：

宽松分数：只要出现身份矛盾，就算攻击成功；
严格分数：只有错误识别成 Claude 或 GPT 的情况，才算成功。

实验结果怎么看

ICE 的结果里，GLM-4-Plus、Qwen-Max 和 Deepseek-V3 的可疑响应最多，这通常意味着它们更接近源模型的行为模式。相反，Claude-3.5-Sonnet 和 Doubao-Pro-32k 的可疑响应几乎没有，蒸馏痕迹就弱得多。作者也提醒过，宽松分数会带来一些假阳性，所以更值得看严格分数。

ICE 实验结果

作者还把越狱提示分成了团队、合作、行业、技术和地理五类。统计下来，团队、行业和技术类问题更容易把模型问出破绽。这个结果不算意外，这些信息在训练语料里往往更杂，清洗也更难彻底。

攻击类型统计

表 1 还给了一个挺有意思的对比：相比监督微调（SFT）模型，基础模型通常表现出更高的蒸馏程度。这个现象很好理解。没经过专门任务调校的模型，暴露出训练痕迹的机会更多，很多漏洞也更容易被测试出来。

基础模型 vs 微调模型

另一个比较刺眼的点，是闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列更像蒸馏产物。作者在不少答案里看到了和 Claude 3.5-Sonnet 相关的痕迹，而 2.5 系列更偏向出现 GPT 相关内容。附录 D 里给了具体例子。

RSE 的结果也比较一致。以 GPT4o-0806 为参考时，GPT 系列模型的响应相似度最高，GPT4o-0513 的平均相似度达到 4.240。Llama3.1-70B-Instruct 和 Doubao-Pro-32k 的分数明显低一些，说明它们和参考模型的输出距离更大。DeepSeek-V3 和 Qwen-Max-0919 的分数则更接近 GPT 参考模型。

RSE 相似度对比

作者还做了额外验证：把不同模型轮流放到参考模型和测试模型的位置上，每组从三个数据集里抽 100 个样本。附录 F 的结果基本稳定，Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 作为测试模型时都表现出较低蒸馏程度；Qwen 系列和 DeepSeek-V3 则更容易显示出蒸馏痕迹。

这项研究真正提示了什么

我更愿意把这篇论文看成一次'可疑痕迹排查'，而不是给每个模型盖章定性。它最有价值的地方，不在于证明某个模型到底抄了谁，而在于把原本很模糊的讨论拉到了可测量的层面。

蒸馏的副作用不是只会出现在精度上

蒸馏能让模型更强，这件事大家都知道。但如果一整个生态都依赖少数源模型的输出，最后很可能不是'谁更强'，而是'谁更像'。这种同质化会让模型在一些边角任务上越来越脆，也会让风险沿着同一条链条扩散。

身份混淆往往是数据清洗没做干净

像'Llama 说自己是 OpenAI 开发的'这种回答，最合理的解释通常不是模型真的信了自己，而是训练数据里混进了带来源痕迹的文本，后处理又没有剥干净。它看起来像一个小错误，背后其实是数据治理和来源标注的问题。

开源社区也没法完全躲开这个问题

开源不等于'干净'。如果模型本身就是蒸馏链条上的一环，那开源项目也会继承这种路径依赖。以后做开源模型，单靠'我们也复现了一个差不多的效果'已经不够了，数据来源、训练过程和可追溯性都得更硬一点。

RSE 和 ICE 更像一个起点

这两个框架未必是最终答案，但够用了。至少它们给了后续研究一个明确方向：怎么自动化检测蒸馏，怎么把来源链条做得更清楚，怎么减少蒸馏痕迹把模型行为带偏。比起空泛地谈'透明度'，这种量化方法更接近工程上能落地的东西。

最后

这篇研究的结论并不轻松：主流大模型里，蒸馏痕迹可能比外界想得更普遍。它不只是一个训练技巧，也开始变成整个行业的默认路径。问题是，当大家都走这条路的时候，模型看起来更强了，但差异也更难辨认了。对开发者来说，知道模型是怎么来的，往往和知道它能做什么一样重要。

目录

大模型蒸馏有多普遍：一项量化研究的发现
他们为什么要专门测蒸馏
作者怎么量化蒸馏
响应相似度评估（RSE）
身份一致性评估（ICE）
实验结果怎么看
这项研究真正提示了什么
蒸馏的副作用不是只会出现在精度上
身份混淆往往是数据清洗没做干净
开源社区也没法完全躲开这个问题
RSE 和 ICE 更像一个起点
最后

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Stable Diffusion 完整训练与推理流程详解
数据结构：二叉树基础与 C 语言实现
灵感画廊 AI 绘画工具体验：比 Midjourney 更简单
Neo4j 图数据库使用入门
AI 大模型学习路线：从基础到实战的完整指南
URDF与RVIZ2：机器人建模技术指南
webdav-server 轻量级 WebDAV 服务器部署与配置指南
Dify 与 MySQL 融合：基于 MCP 协议的数据交互实践
MySQL 环境配置实战：CentOS 7 与 Ubuntu 双系统部署指南
YOLOv8 旋转框角度回归优化：CSL 与 DCL 编码实战
Android 应用稳定性优化实战指南
SpringCloud 注册中心与服务注册发现 Eureka 详解
Python 爬虫爬取小说并保存为 TXT 文件教程
掌握 C++ 模板与内存管理，消除代码冗余与内存泄漏
树莓派智能家居毕设：AI 辅助开发与边缘推理实战
【Spring Boot开发实战手册】掌握Springboot开发技巧和窍门（十三）前端匹配界面、后端匹配WebSocket
旋转位置编码 RoPE：从 2D 到 nD 的扩展与外推机制解析
Python 面向对象编程实战：构建智能家居系统
二叉树常见节点操作与统计
数据结构：堆及堆的应用

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online