大语言模型在线连续知识学习(OCKL)框架与方法研究
概述
本文提出了一种在线连续知识学习(Online Continual Knowledge Learning, OCKL)框架,旨在管理语言模型中世界知识的动态性,并满足实时约束条件。针对现有连续学习方法在应对 OCKL 独特挑战时的不足,本研究进行了实验验证,揭示了影响知识获取和保留之间权衡的关键因素,推进了对在不断变化的环境中训练语言模型的理解。
核心评估指标
为了全面评估 OCKL 框架下语言模型的性能,提出了两个新指标:
- 知识获取速率(KAR):衡量模型学习新知识的速度。计算公式为
(FWT + BWT) × 总标记数 / 训练时间。其中 FWT 代表新知识的整合程度,BWT 代表知识的保留程度。两者之和表示每次学习迭代的净知识增益。 - 知识差距(KG):利用向量表示和距离度量来衡量语言模型中的知识动态变化。该指标可计算模型知识与世界知识的对齐程度、遗忘程度和更新程度。
关键方法与技术
实验中对比了多种在线继续学习方法,主要包括以下三类:
1. 正则化方法
用于减少知识遗忘现象。例如 RecAdam 方法,通过对模型参数之间的依赖关系进行严格的独立性假设,与传统的 EWC 等方法有所区别。
2. 演绎方法
用于加速模型推理。例如知识蒸馏方法,通过减小两个模型之间的表示差距来加速推理过程。Mix-Review 方法在此类中表现突出。
3. 参数扩展方法
引入新的可训练层来扩展模型参数。包括 K-Adapter(冻结原始 LM 参数并添加适配器层)和 LoRA(在每一层引入可训练的秩分解矩阵)。LoRA 在持续预训练中表现出独特的优势。
实验分析与发现
数据流构建
知识流基于 Wikidata 构建,包含时不变和时变事实,经 SLING 解析结构化。QA 流包含查询、回答和日期等信息。数据分析显示了两者的分布特征及文本长度统计。
冗余数据流处理
在相同时间限制下,研究了核心集选择策略:
- 冗余数据流:K-Center 方法性能最优,擅长分离代表性样本;随机采样相对较差。
- 无冗余数据流:简单的随机采样在训练速度和最终性能上优于其他方法,更适合处理不断演化的数据。
- 比例调整:增加核心集选择比例可提高性能。
时间限制下的表现
在具有时间限制的实际情况中(设置相同计算时间,丢弃超时数据):
- LoRA 和 Mix-Review 表现出色。
- LoRA 在性能上超过了 Mix-Review,归因于其更高的计算效率。
- Mix-Review 在 FWT 能力和 EM 性能上取得显著成功。
- 建议在实际场景中,数据快速流动时选择 LoRA,系统能处理大多数数据时选择 Mix-Review。
模型规模影响
对 T5-large 模型的实验发现:
- 大部分方法(如 T5-Vanilla, T5-Mix-Review)保持较高 FWT 和 KAR。
- T5-LoRA 的表现明显优于 T5-base 实验结果。
- 其他参数扩展方法(如 K-Adapter, Modular)未获得相应改进。
- 这表明 LoRA 的改进不能仅归因于可训练参数数量的增加,与其在每一层引入可训练秩分解矩阵的特性有关。
结论与建议
当前语言模型在在线继续学习中面临知识遗忘和计算效率等局限性。针对这些问题,建议如下:
- 方法选择:根据具体环境需求选择 CL 方法。面对大量冗余数据,K-Center 有效;无冗余数据时,随机采样更佳。
- 效率优化:在时间受限场景下,优先选择 LoRA 或 Mix-Review 以提高计算效率。
- 适应动态流:传统离线方法无法迅速适应动态数据流,应选用支持不断更新和保留知识的在线方法。


