AIGC 检测原理
AIGC 检测主要有两种方法:一种是传统的统计学方法,另一种是基于深度学习模型(通常是 BERT 模型)的风格分类方法。
先说结论:知网的 AIGC 检测由以前的统计学方法升级为了 BERT 检测模型,这就是为什么之前 AI 率为 0 的论文,在知网升级后再去检测会变为 100%。

接下来我们分别介绍以下两种方法是如何进行检测的,尽量使用通俗易懂的语言来讲解。
统计学方法
主要统计你论文中的一些特征值是否符合 AI 论文特征,例如困惑度、突发性等等。我们以突发性为例,过一遍检测流程。
突发性:输入内容的每个句子的长度分布。
如果你的论文内容有 10 句话,每句话都是 40-50 个字长度,那么你的内容突发性就是很低。
如果每一句长度都一样,那么突发性为 0。
AI 写的论文的一个特征就是,每个句子长度很相近,即突发性很低。

也就是说,如果单纯看这一个特征,当你的输入内容每个句子长度都差不多时,就会被判定为 AI 写作。
深度学习方法
然后我们重点介绍深度学习方法,基于 Transformer 架构的 BERT 分类模型:
该方法旨在用大量的人类写作论文数据 + AI 写作论文数据去训练一个模型,让该模型学会区分这两种写作风格,然后用于 AIGC 检测。
简单理解,可以将模型理解为一个人,让他每天都去阅读大量的 AI 论文和人类论文,经过长时间学习,这个人能一眼看出你的论文是不是 AI 写的

总的来说,统计学方法就是单纯的计算表面特征,BERT 方法是深度理解内容然后区分写作风格。
所以在知网升级前(Turnitin 也是如此),用一些指令让 AI 进行改写,或者直接将所有句号改为逗号等等操作,对于降 AI 率非常有效,因为这本质是改变统计方法中统计的那些特征值,如突发性。
但是知网升级后,BERT 模型可不管你逗号句号的,它负责整体理解内容并判断,只要你还是用 AI 改写的,那依旧逃不过检测。

那么,为什么 BERT 对 AI 生成内容检测如此严格?用指令二次改写也无法逃过?







