知网 AIGC 检测原理及论文被判定为 AI 生成的原因分析

AIGC 检测原理

AIGC 检测主要有两种方法：一种是传统的统计学方法，另一种是基于深度学习模型（通常是 BERT 模型）的风格分类方法。

先说结论：知网的 AIGC 检测由以前的统计学方法升级为了 BERT 检测模型，这就是为什么之前 AI 率为 0 的论文，在知网升级后再去检测会变为 100%。

接下来我们分别介绍以下两种方法是如何进行检测的，尽量使用通俗易懂的语言来讲解。

主要统计你论文中的一些特征值是否符合 AI 论文特征，例如困惑度、突发性等等。我们以突发性为例，过一遍检测流程。

突发性：输入内容的每个句子的长度分布。

如果你的论文内容有 10 句话，每句话都是 40-50 个字长度，那么你的内容突发性就是很低。

如果每一句长度都一样，那么突发性为 0。

AI 写的论文的一个特征就是，每个句子长度很相近，即突发性很低。

也就是说，如果单纯看这一个特征，当你的输入内容每个句子长度都差不多时，就会被判定为 AI 写作。

然后我们重点介绍深度学习方法，基于 Transformer 架构的 BERT 分类模型：

该方法旨在用大量的人类写作论文数据 + AI 写作论文数据去训练一个模型，让该模型学会区分这两种写作风格，然后用于 AIGC 检测。

简单理解，可以将模型理解为一个人，让他每天都去阅读大量的 AI 论文和人类论文，经过长时间学习，这个人能一眼看出你的论文是不是 AI 写的

总的来说，统计学方法就是单纯的计算表面特征，BERT 方法是深度理解内容然后区分写作风格。

所以在知网升级前（Turnitin 也是如此），用一些指令让 AI 进行改写，或者直接将所有句号改为逗号等等操作，对于降 AI 率非常有效，因为这本质是改变统计方法中统计的那些特征值，如突发性。

但是知网升级后，BERT 模型可不管你逗号句号的，它负责整体理解内容并判断，只要你还是用 AI 改写的，那依旧逃不过检测。

那么，为什么 BERT 对 AI 生成内容检测如此严格？用指令二次改写也无法逃过？