Diff-eRank：基于有效秩的大模型去噪能力评估新指标

Diff-eRank 是一种基于模型表征有效秩的新评估指标，用于量化大语言模型在训练过程中剔除冗余信息的能力。该指标通过分析训练前后模型隐藏层表征的秩变化来衡量“去噪”效果，不依赖输出结果。研究团队将其应用于 OPT、Cerebras-GPT 等模型，发现其与准确率趋势一致。此外，该指标可扩展至多模态模型，通过比较视觉与文本表征的有效秩匹配程度来评估模态对齐性能，为理解大模型内部机制及模型压缩提供了新视角。

接口猎人发布于 2025/2/6更新于 2026/7/2337 浏览

Diff-eRank 大模型评估新指标，精准衡量 LLM 去噪实力

自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来，大语言模型的发展十分迅速，并已经从单模态大语言模型扩展到了多模态大模型，例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。

如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现，例如准确率 (Accuracy)、交叉熵损失 (Cross-Entropy Loss) 等指标。但这些方法只关注模型的预测结果与标注标签之间的比较，无法深入探究模型内部的信息处理过程。

此外，对于多模态大语言模型，现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此，现阶段对于纯语言大模型和多模态大模型的评估方法仍然存在较大的局限性，需要更加多元化、精细化的评价方法。

为了解决这些挑战，来自上海交通大学和清华大学等科研团队的研究者提出了一种全新的大模型评估指标 Diff-eRank。这是一种基于模型表征的「有效秩」的评估指标，从信息论和几何学的角度分析并量化大语言模型在训练前后如何剔除冗余信息，并以此衡量模型性能。

与传统的评估指标（如交叉熵损失和测试集准确率）不同，Diff-eRank 并不依赖于模型的输出结果，而是通过分析模型的隐藏表征来评估模型的性能。对于多模态大模型，研究团队也设计了基于有效秩的评估方法，通过比较不同模态表征之间的有效秩匹配程度来评估模态对齐性能，证实了主流多模态大模型具有出色的对齐能力。

本工作已被 NeurIPS 2024 (机器学习三大顶会之一，CCF-A 类) 会议接收。论文共同第一作者为上海交通大学 MIFA 实验室的博士生魏来和清华大学的博士生谭智泉，通讯作者为上海交通大学 MIFA 实验室的黄维然副教授，共同作者包括来自 William and Mary 的王晋东助理教授。

为什么引入 Diff-eRank？

在介绍 Diff-eRank 之前，我们不妨先思考一个问题：一个语言模型是如何从海量的训练数据中「学习」到知识的？

Ilya Sutskever 在 2023 年的演讲中提到：大语言模型海量数据中训练时，会逐步消除其表征空间中的冗余信息，使得数据的表征变得更加规整、结构化。这个过程类似于「去噪」，即模型逐渐剔除数据中的无用信息，同时提取出更重要的模式和特征。然而，之前并没有研究提出可靠的指标来定义和量化这个「去噪」过程。

在此背景下，研究团队引入了有效秩的概念（Effective Rank，后面简写为 eRank），用于反应大模型表征空间的不确定性或混乱程度。大模型在训练时去除数据中的冗余信息，eRank 减小，模型的表征变得更加结构化和紧凑。

因此，研究团队提出了 Diff-eRank，通过分析大语言模型的表征的有效秩在训练前后的变化幅度，来评估大模型的「去噪能力」。Diff-eRank 提供了一个基于模型表征的全新评估方法，并且具有良好的理论基础与可解释性，为理解大模型的工作原理提供了独特的视角。

Diff-eRank 的构造过程

具体而言，大模型在处理一系列输入时，它会为每个 token 生成一个高维表征；这些表征通常可以捕捉输入的语义和句法信息。因此，研究团队考虑分析这些表征来评估大模型的性能。

具体而言，团队选择从几何和信息论的角度研究这些表征的秩。秩可以衡量它们这些表征的线性相关程度，对应于表征空间的有效维度（即几何结构）。此外，秩还与这些表征所包含的信息量有关：较低的秩代表信息已被结构化或压缩。因此，作者通过分析大模型表征的秩来进行模型评估。

协方差矩阵的构建

给定一个句子中 tokens 的表集体 $X$，协方差矩阵 $\Sigma$ 构建如下：

$$ \Sigma = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)(x_i - \mu)^T $$

其中 $\mu$ 是表征的均值。

有效秩 (eRank)

由于秩对异常值非常敏感，因此研究团队使用秩的一种连续形式，称为有效秩 (eRank)。给定任何非零矩阵 $M$，其有效秩定义为：

$$ \text{eRank}(M) = \exp(H(p)) $$

其中 $p_i = \sigma_i / \sum_j \sigma_j$，$\sigma_i$ 是矩阵 $M$ 的奇异值。

值得注意的是，eRank 与信息论中的熵的概念有着紧密的联系。上面构造的协方差实际上就是一个标准的「概率密度矩阵」。这里面的有效秩可以从信息论的角度理解为表征空间中的不确定性（具体解释详见原论文）。

Diff-eRank 的定义

给定一个句子 $S$，一个未训练的语言模型 $M_0$ 和一个训练完毕的语言模型 $M_T$，我们可以得到这两个模型的表征 $X_0$ 和 $X_T$。对于句子 $S$，这两个模型之间的有效秩差异 (Diff-eRank) 定义如下：

Diff-eRank：基于有效秩的大模型去噪能力评估新指标