跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

顶级大模型普遍经过知识蒸馏:研究揭示量化方法与影响

综述由AI生成中国科学院深圳先进技术研究院等机构的研究指出,除 Claude、豆包和 Gemini 外,多数知名闭源及开源大语言模型(如 Llama 3.1、Qwen-Max)存在高度知识蒸馏现象。研究通过响应相似度评估(RSE)和身份一致性评估(ICE)量化了蒸馏程度,发现过度蒸馏会导致模型同质化并损害处理复杂任务的能力。实验显示闭源模型及基础模型往往表现出更高程度的蒸馏痕迹,揭示了当前大模型训练生态中数据依赖的透明度问题。

GitMaster发布于 2025/2/6更新于 2026/6/223 浏览
顶级大模型普遍经过知识蒸馏:研究揭示量化方法与影响

顶级大模型普遍经过知识蒸馏:研究揭示量化方法与影响

除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。

背景与猜想

前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。但由于运营成本太高等原因,他们将其应用在了内部,通过蒸馏等方法来改进小模型的能力,然后依靠这些小模型来盈利。

当然,这只是他的个人猜测。不过,从新论文的结论来看,「蒸馏」在顶级模型中的应用范围确实比我们想象中要广。

具体来说,研究者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现这些模型大多存在很高程度的蒸馏(Claude、豆包和 Gemini 除外)。比较明显的证据是:很多模型会在声明自己身份等问题时出现矛盾,比如 llama 3.1 会说自己是 OpenAI 开发的,Qwen-Max 说自己由 Anthropic 创造。

研究示意图

蒸馏固然是一种提升模型能力的有效方法,但作者也指出,过度蒸馏会导致模型同质化,减少模型之间的多样性,并损害它们稳健处理复杂或新颖任务的能力。所以他们希望通过自己提出的方法系统地量化蒸馏过程及其影响,从而提供一个系统性方法来提高 LLM 数据蒸馏的透明度。

实验结果概览

论文标题: Distillation Quantification for Large Language Models

项目链接: https://github.com/Aegis1863/LLMs-Distillation-Quantification

为什么要测试 LLM 的蒸馏情况?

最近,模型蒸馏作为一种更有效利用先进大语言模型能力的方法,引起了越来越多的关注。通过将知识从更大更强的 LLM 迁移到更小的模型中,数据蒸馏成为了一个显著的后发优势,能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。

然而,这种后发优势也是一把双刃剑,它阻止了学术机构的研究人员和欠发达的 LLM 团队自主探索新技术,并促使他们直接从最先进的 LLM 中蒸馏数据。此外,现有的研究工作已经揭示了数据蒸馏导致的鲁棒性下降。

量化 LLM 的蒸馏面临几个关键挑战:

  1. 蒸馏过程的不透明性:使得难以量化学生模型和原始模型之间的差异;
  2. 基准数据的缺乏:使得需要采用间接方法(如与原始 LLM 输出的比较)来确定蒸馏的存在;
  3. 表征冗余:LLM 的表征可能包含大量冗余或抽象信息,这使得蒸馏的知识难以直接反映为可解释的输出。

最重要的是,数据蒸馏在学术界的广泛使用和高收益导致许多研究人员避免批判性地检查与其使用相关的问题,导致该领域缺乏明确的定义。

研究者使用了什么方法?

作者在论文中提出了两种方法来量化 LLM 的蒸馏程度,分别是响应相似度评估(RSE)和身份一致性评估(ICE)。

方法对比图

1. 响应相似度评估(RSE)

RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较,从而衡量模型的同质化程度。

他们将待评估的特定大语言模型集合定义为 LLM_test = {LLM_t1, LLM_t2, …, LLM_tk},其中 k 表示待评估的 LLM 集合的大小。

RSE 从 LLM_test 和参考 LLM(在本文中即 GPT,记为 LLM_ref)获取响应。作者随后从三个方面评估 LLM_test 和 LLM_ref 的响应之间的相似度:响应风格、逻辑结构和内容细节。评估者为每个测试 LLM 生成一个它与参考模型的整体相似度分数。

作者将 RSE 作为对 LLM 蒸馏程度的细粒度分析。在本文中,他们手动选择 ArenaHard、Numina 和 ShareGPT 作为提示集,以获取响应并评估 LLM_test 在通用推理、数学和指令遵循领域的相关蒸馏程度。如图 3 所示,LLM-as-a-judge 的评分分为五个等级,每个等级代表不同程度的相似度。

RSE 评分分布

2. 身份一致性评估(ICE)

ICE 通过迭代构造提示来绕过 LLM 的自我认知,旨在揭示嵌入其训练数据中的信息,如与蒸馏数据源 LLM 相关的名称、国家、位置或团队。在本文中,源 LLM 指的是 GPT4o-0806。

作者在 ICE 中采用 GPTFuzz 进行身份不一致性检测。首先,他们将源 LLM 的身份信息定义为事实集 F,F 中的每个 f_i 都清楚地说明了 LLM_ti 的身份相关事实,例如「我是 Claude,一个由 Anthropic 开发的 AI 助手。Anthropic 是一家总部位于美国的公司。」

身份事实集示例

同时,他们使用带有身份相关提示的 P_id 来准备 GPTFuzz 的攻击样本库,用于查询 LLM_test 中的 LLM 关于其身份的信息,详见附录 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比较提示的响应与事实集 F。具有逻辑冲突的响应会被识别出来,并相应地合并到 F^G 的下一次迭代中。

GPTFuzz 攻击流程

越狱攻击示例

作者基于 GPTFuzz 分数定义两个指标:

  • 宽松分数:将任何身份矛盾的错误示例视为成功攻击;
  • 严格分数:仅将错误识别为 Claude 或 GPT 的示例视为成功攻击。

实验结果如何?

ICE 的实验结果如图 4 所示,宽松分数和严格分数都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑响应数量最多的三个 LLM,这表明它们具有更高的蒸馏程度。相比之下,Claude-3.5-Sonnet 和 Doubao-Pro-32k 几乎没有显示可疑响应,表明这些 LLM 的蒸馏可能性较低。宽松分数指标包含一些假阳性实例,而严格分数提供了更准确的衡量。

ICE 实验结果

作者将所有越狱攻击提示分为五类,包括团队、合作、行业、技术和地理。图 5 统计了每种类型问题的成功越狱次数。这个结果证明 LLM 在团队、行业、技术方面的感知更容易受到攻击,可能是因为这些方面存在更多未经清理的蒸馏数据。

攻击类型统计

如表 1 所示,作者发现相比于监督微调(SFT)的 LLM,基础 LLM 通常表现出更高程度的蒸馏。这表明基础 LLM 更容易表现出可识别的蒸馏模式,可能是由于它们缺乏特定任务的微调,使它们更容易受到评估中利用的漏洞类型的影响。

基础模型 vs 微调模型

另一个有趣的发现是,实验结果显示闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列具有更高的蒸馏程度。作者发现了大量与 Claude 3.5-Sonnet 相关的答案,而 2.5 系列 LLM 的可疑答案仅与 GPT 有关。这些示例在附录 D 中有所展示。

RSE 结果在表 3 中展示,以 GPT4o-0806 作为参考 LLM,结果表明 GPT 系列的 LLM(如 GPT4o-0513)表现出最高的响应相似度(平均相似度为 4.240)。相比之下,像 Llama3.1-70B-Instruct(3.628)和 Doubao-Pro-32k(3.720)显示出较低的相似度,表明蒸馏程度较低。而 DeepSeek-V3(4.102)和 Qwen-Max-0919(4.174)则表现出更高的蒸馏程度,与 GPT4o-0806 相近。

RSE 相似度对比

为了进一步验证观察结果,作者进行了额外的实验。在这个设置中,他们选择各种模型同时作为参考模型和测试模型。对于每种配置,从三个数据集中选择 100 个样本进行评估。附录 F 中的结果表明,当作为测试模型时,Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始终表现出较低的蒸馏程度。相比之下,Qwen 系列和 DeepSeek-V3 模型倾向于显示更高程度的蒸馏。这些发现进一步支持了本文所提框架在检测蒸馏程度方面的稳健性。

深度分析与行业启示

1. 蒸馏带来的同质化风险

虽然蒸馏能够显著提升小模型的性能,但本研究揭示了一个严峻的问题:过度依赖蒸馏可能导致整个生态系统的模型趋同。如果大多数商业模型都源自少数几个顶级基座模型的蒸馏,那么所谓的'多样性'将不复存在。一旦基座模型出现偏差或安全漏洞,所有下游模型都将继承这些问题。

2. 身份泄露的技术根源

实验中观察到的身份不一致现象(如 Llama 声称由 OpenAI 开发),反映了训练数据清洗的不彻底。在大规模预训练或微调过程中,来自其他模型的输出被混入训练数据,且未完全剥离来源标识。这不仅是隐私问题,更是知识产权和数据治理的隐患。

3. 对开源社区的影响

对于开源社区而言,这一发现意味着简单的'复现'策略可能失效。如果开源模型本身也是蒸馏产物,那么其创新价值将大打折扣。未来的开源工作应更加注重原始数据的收集和独立训练,而非单纯依赖闭源模型的输出进行知识迁移。

4. 未来研究方向

本研究提出的 RSE 和 ICE 框架为后续工作奠定了基础。未来的研究可以进一步探索自动化蒸馏检测工具,建立行业标准的数据溯源协议,以及开发能够抵抗蒸馏痕迹注入的防御性训练方法。只有提高透明度,才能确保大模型技术的健康可持续发展。

结语

随着大模型技术的快速发展,知识蒸馏已成为提升模型效率的关键手段。然而,本研究表明,当前主流模型中普遍存在高程度的蒸馏现象,且部分模型存在身份混淆等严重问题。通过系统性的量化评估,我们不仅能够识别这些模型的真实来源,还能推动行业建立更规范的数据使用和模型发布标准。对于开发者而言,理解模型的蒸馏背景有助于更好地评估其适用性和潜在风险。

目录

  1. 顶级大模型普遍经过知识蒸馏:研究揭示量化方法与影响
  2. 背景与猜想
  3. 为什么要测试 LLM 的蒸馏情况?
  4. 研究者使用了什么方法?
  5. 1. 响应相似度评估(RSE)
  6. 2. 身份一致性评估(ICE)
  7. 实验结果如何?
  8. 深度分析与行业启示
  9. 1. 蒸馏带来的同质化风险
  10. 2. 身份泄露的技术根源
  11. 3. 对开源社区的影响
  12. 4. 未来研究方向
  13. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • RoboBrain 2.0 具身大脑模型复现指南:统一感知、推理与规划
  • ICCV 2023 CleanCLIP:消除多模态对比学习中的数据中毒攻击
  • Uncaught TypeError: Cannot read properties of undefined 报错排查与根治方案
  • Mac 本地大模型部署实战:Ollama 与 ChatBox 配置指南
  • OpenClaw 构建飞书 AI 办公机器人:本地 Ollama 接入与 Skills 自动化
  • Sentry 前端监控配置:AI 应用错误上报与隐私保护
  • Android 手机端 Python 开发指南:Termux 环境搭建与实战
  • 网络安全自学指南:从基础入门到进阶实战的核心路径
  • 二分算法实战:查找元素首尾位置与区间计数
  • 大厂程序员职业现状与成长路径深度解析
  • Java 虚拟线程:协程概念与性能提升详解
  • Z-Image-Turbo 孙珍妮模型使用指南
  • Spring Boot RESTful API 开发与测试实战
  • 宇树 G1 机器人开发:有线与无线连接配置实战
  • Vivado FPGA 开发工具安装指南
  • 用双栈模拟队列:LIFO 到 FIFO 的转换艺术与实现
  • Qwen2.5-7B 与 Stable Diffusion 多模态协同部署实战
  • C++ 类与对象的内在机制:构造函数与析构函数
  • Python 实现 MCP 客户端调用高德地图天气查询示例
  • JavaScript filter 方法详解与实战应用

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online