大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习
www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

论文题目:

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models

收录会议:

ACL 2024, Long Paper, Oral

论文链接:

https://aclanthology.org/2024.acl-long.794/

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

背景


增量学习(IL)一直是计算机视觉和自然语言处理(NLP)领域长期存在的问题。近年来,随着大语言模型(Large Language Model, LLM)在各种 NLP 下游任务中取得了显著进展,将 LLMs 作为骨干网络在 NLP 领域的增量学习研究中已成为一种常见做法。

大多数研究假设灾难性遗忘是实现优越增量学习性能的最大障碍,并提出了各种技术来克服这一问题。然而,我们发现这一假设存在问题。

具体而言,我们回顾了在四个分类任务(文本分类、意图分类、关系抽取和命名实体识别)下的表现,并在两种最流行的增量学习设置(类别增量和任务增量)中进行实验,结果揭示大多数方法严重低估了 LLMs 固有的抗遗忘能力。

这些发现促使我们重新审视基于 LLMs 的增量学习,并鼓励未来的研究更加深入地理解 LLMs 中的灾难性遗忘问题。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

新发现

我们利用探测技术 probing 评估模型 backbone 对目标任务的表示能力,实现如图 1 所示。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

▲ 图1 Probing 实验图

新发现1:大模型在连续学习过程中并没有丢失其知识

我们在实验中使用生成模型进行类别增量意图分类的观察和探测性能。图 2(a)显示,随着更多新任务的学习,观察到的性能显著下降,从约 98% 降至 10%,这一结果符合我们对灾难性遗忘的理解。

然而,图 2(b)描述了一个完全不同的现象。LLMs 在学习第一个任务后就达到了很高的探测性能,并且从第二个任务开始,线性探测性能几乎没有下降。换句话说,即使 LLMs 仅按顺序适应新任务(Sequential fine-tuning,SEQ),它们依然保留了分类所有 15 个任务的知识。这个现象与我们对灾难性遗忘和 SEQ 的理解相矛盾。

实际上,探测性能之所以很高,是因为在训练探测分类器时,所有任务的数据都是可用的,而观察到的性能较差,是因为原始分类器仅在当前任务的数据上进行训练。

因此,经过探测的实验结果表明大模型在连续学习过程中并没有丢失其知识。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(a)观测表现

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(b)线性探测表现

▲ 图2 意图识别任务观测表现和线性探测表现对比

新发现2:Probing 性能:Linear > Cosine Linear ≈ Cosine Prototype > Prototype

我们发现四个探测指标的排序如下:Linear > Cosine Linear ≈ Cosine Prototype > Prototype。如图 3 所示:

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(a)线性探测

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(b)余弦探测

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(c)原型探测

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(d)余弦原型

▲ 图3 四种探测指标情况

首先,我们需要分别理解 LLMs 的特征(即最后的隐藏状态)、词向量和探测分类器中的类别嵌入“是什么样的”。特征、词向量和类别嵌入的 L2 范数和余弦相似度的直方图如图 4。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(a)特征相似度

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(b)特征-词嵌入相似度

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(c)特征范数

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(d)词嵌入范数

▲ 图4 Pythia-410m 的特征和不同嵌入的直方图

图 4a 显示,特征在向量空间中占据一个狭窄的圆锥形区域,而不是在所有方向上均匀分布。更令人惊讶的是,图 4b 显示,学习到的(输出)词向量与特征几乎是正交的。我们推测,交叉熵损失函数鼓励除了真实标签外的所有词向量在预训练过程中远离特征。

换句话说,交叉熵损失鼓励 logits 之间有较大的差异,并且词向量与特征正交,以便更好地区分 logits。因此,考虑到词向量层本质上是一个线性层,线性探测有最佳表现也就不足为奇。

从这个角度来看,原型探测表现较差也就不奇怪,因为原型(类别特征中心)也落在这个狭窄的圆锥空间内,而这对于区分 logits 并不是一个最优的解决方案。

那么,为什么余弦归一化会降低线性探测的性能,但能改善原型探测的性能呢?图 4c 和图 4d 展示了特征和词向量的 L2 范数。我们发现,词向量的范数与特征相比存在较大的差异。这表明,词向量的范数包含了来自预训练阶段的先验知识。

因此,余弦线性探测忽略了特征范数的差异,因此相比于线性探测,其性能较差。对于原型探测,原型位于一个狭窄的圆锥空间中,原型和特征之间的相似度较大,且接近彼此。在这种情况下,余弦归一化可以消除范数的干扰,从而建立 logits 和特征之间余弦相似度的关系。

新发现3:LLMs 抵抗遗忘的关键在于 Transformer 的结构和预训练获取的知识

我们评估了在不同预训练步数的检查点上的线性探测性能:{0, 16, 128, 1k, 10k, 143k(最终)}。我们加载预训练的检查点(或在步数为 0 时随机初始化的检查点),并在使用 SEQ 进行增量学习前后评估它们的线性探测性能。

图 5 展示了预训练中的两个主要阶段:过拟合和泛化。在第一个阶段(步数0 - 步数 128),模型开始记忆预训练语料库,线性探测性能下降。在第二个阶段(步数 1k - 步数 143k),模型逐渐学习预训练知识,线性探测性能上升。

然而,当模型进一步泛化到预训练语料库时(步数 10k - 步数 143k),小型骨干网络(如 Pythia-70m 和 160m)的线性探测性能再次下降,原因是预训练和下游任务之间存在差距。这个差距可以通过适应下游任务来消除。

对于较大的骨干网络(如 Pythia-410m、1b 和 1.4b),模型能够直接适应新任务,而不会受到这种差距的影响。此外,我们还有以下有趣的发现:

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(a)意图识别(Before SEQ)

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(b)意图识别(After SEQ)

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(c)关系抽取(Before SEQ)

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(d)余弦原型关系抽取(After SEQ)

▲ 图5 不同训练步骤的检查点的线性探测性能

1. 预训练确实改善了增量学习中的线性探测性能(见图 5b 和图 5d)。

2. 除了预训练之外,Transformer 的架构也是在 SEQ 过程中获得高线性探测准确率的关键因素。当下游任务相对简单时,例如意图分类,即使是随机初始化的模型也能获得较高的线性探测性能(见图 5b)。而当下游任务较为复杂时,例如关系抽取(见图 5d),预训练则带来了显著的性能提升。

3. 更令人惊讶的是,SEQ 提高了几乎所有预训练步骤的模型的线性探测性能(见图 5a 与 5b;图5c 与 5d)。这表明,Transformer 的架构即使仅在新任务上进行顺序微调,也能够逐步吸收新知识。

新发现4:真正的遗忘发生于分类器中

我们观察到,在 SEQ 模型中,新类别的 logits 远大于旧类别的 logits。由于特征和类别嵌入决定了 logits 的大小,而特征占据一个狭窄的圆锥空间,其范数相对接近,因此我们可以推测,遗忘现象的发生是由以下原因之一引起的:

(1)类别嵌入的范数,或(2)特征与类别嵌入之间的余弦相似度。对于第一种原因(即类别范数),我们在图 6a 和图 6b 中比较了学习的线性分类器和线性探测分类器之间的类别嵌入范数。

令人惊讶的是,在 SEQ 的观察分类器中,新任务的类别嵌入范数并不大于旧任务的类别嵌入范数。这表明,类别范数不是 SEQ 中遗忘现象的主要原因。

对于第二个原因(即余弦相似度),我们在图6c和图6d中比较了观察分类器和探测分类器之间类别嵌入的移动距离。任务t的类别嵌入在任务时的移动距离计算如下:

1. 当模型完成任务 的训练后,我们计算任务 t 的所有类别嵌入与所有任务的类别特征中心之间的余弦距离,并得到一个余弦相似度矩阵 。

2. 当模型完成任务 t+k 的训练后,我们计算任务 t 的所有类别嵌入与所有任务的类别特征中心之间的余弦距离,并得到一个余弦相似度矩阵 。

3. 然后,任务 t 的类别嵌入的移动距离计算为余弦相似度矩阵 和 之间的平均绝对差异。移动距离衡量了自学习以来,类别嵌入相对于所有类别特征中心的移动情况。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(a)观测分类器范数

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(b)探测分类器范数

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(c)观测分类器移动距离

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(d)探测分类器移动距离

▲ 图6 在 SEQ 过程中观察到的线性分类器与线性探测分类器的比较

如果分类器没有遗忘某个类别,那么它的类别嵌入到所有类别特征中心的距离应该保持恒定。换句话说,如果分类器没有遗忘如何使用 LLMs 提取的特征来分类该类别,则其移动距离将为零。

图 6c 和 6d 显示,观察分类器的类别嵌入相对于探测分类器发生了显著变化。这表明,遗忘现象的发生是因为旧的类别嵌入被推离了其初始和最优位置。

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

提出新方法SEQ*


最后,我们根据实验发现设计了 SEQ,提出了以下策略来缩小 SEQ 中探测和观察性能之间的差距:(S1)Warm-up 后冻结 LLMs;(S2)在学习新任务时冻结旧分类器;(S3)只有在 CIL 场景中没有旧数据可用的情况下才使用余弦线性分类器。否则,请使用线性分类器;(S4,可选)预先分配未来的分类器。

我们将使用上述策略的方法称为 SEQ,如图 7 所示。实验结果如图 8 所示。具体实验情况详见论文:

https://aclanthology.org/2024.acl-long.794/

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(S1)Warm-up后冻结LLMs

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(S2)在学习新任务时冻结旧分类器

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(S3)使用正确的分类器

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

(S4)预先分配未来的分类器

▲ 图7 对 SEQ* 的描述

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

▲ 图8 在句子级分类任务上 SOTA 方法和 SEQ* 的比较

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

这是一份网络安全从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习


第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

大模型全套视频教程

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

200本大模型PDF书籍

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

大模型产品经理资源合集

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

大模型项目实战合集

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

www.zeeklog.com  - 大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

Read more

印度统治阶级锁死底层人的5大阳谋

印度统治阶级锁死底层人的5大阳谋

基于社会学和心理学视角: 1. 情感道德: 统治阶级通过塑造道德规范和情感价值观,引导底层人群的行为。例如,宣扬“勤劳致富”“忍耐美德”等观念,让底层人接受现状并自我约束。这种道德框架往往掩盖结构性不平等,使人们将个人困境归咎于自身而非系统。 2. 欲望控制: 通过消费主义和媒体宣传,统治阶级刺激底层人的物质与社会欲望(如名牌、地位),但同时设置经济壁垒,使这些欲望难以实现。底层人被困在追求“更好生活”的循环中,精力被分散,无法聚焦于挑战权力结构。 3. 情绪煽动: 利用恐惧、愤怒或民族主义等情绪,统治阶级可以通过媒体或公共事件转移底层人对社会问题的注意力。例如,制造外部敌人或内部对立(如阶层、种族矛盾),让底层人内耗而非联合反抗。 4. 暴利诱惑: 通过展示少数“成功案例”或快速致富的机会(如赌博、投机),诱导底层人追逐短期暴利。这种机制不仅让底层人陷入经济风险,还强化了对现有经济体系的依赖,削弱长期变革的可能性。 5. 权力震撼: 通过展示统治阶级的权力(

By Ne0inhk