Transformer2 发布:大语言模型自适应能力新突破
在人工智能领域,大语言模型(LLMs)的发展可谓日新月异。从最初的简单语言处理,到如今在各种复杂任务中崭露头角,LLMs 已经深刻改变了我们与技术交互的方式。然而,传统的 LLMs 训练和优化方法存在诸多局限,在此背景下,Transformer2 横空出世,为 LLMs 的自适应能力提升带来了全新的解决方案,有望开启一个大语言模型自适应的新时代。
一、传统 LLMs 训练方法的困境
传统的 LLMs 训练方法通常在一个大规模的训练过程中,试图让模型具备广泛的能力。这种'一次性'微调框架从简单性角度看较为理想,但在实际应用中困难重重。一方面,训练过程资源消耗巨大,需要大量的计算成本和漫长的训练时间。另一方面,当引入更多样的数据以拓宽模型能力时,往往会出现过拟合和任务干扰的问题,难以同时克服这两个挑战。
以一些试图在多种领域都表现出色的语言模型为例,为了让模型能够处理不同类型的任务,比如文本生成、问答系统和机器翻译,训练数据的规模和多样性不断增加。然而,这导致模型在特定任务上的表现反而受到影响,例如在处理专业领域的问答时,模型可能会因为学习了大量不相关的数据而给出不准确的答案,这就是过拟合和任务干扰的典型表现。
此外,随着模型规模的扩大,全参数微调(Full Fine-tuning)所需的显存和算力呈指数级增长,使得许多中小型研究机构和企业难以负担。虽然参数高效微调(PEFT)技术如 LoRA 在一定程度上缓解了这一问题,但在面对多任务动态适应场景时,其静态权重更新机制仍显不足。
二、自适应模型的优势与挑战
自适应模型为解决上述问题提供了新的思路。它允许模型根据当前任务动态调整自身行为,而无需持续重新调整参数。这种方法类似于大脑在处理不同任务时激活特定区域的机制,具有高度的灵活性和效率。
自适应模型通过开发离线的专家模块,并根据需求将其添加到基础 LLMs 中,使模型能够根据任务的变化动态调整行为。这种模块化的设计不仅支持持续学习,让模型能够不断添加新技能,还能避免灾难性遗忘,即模型在学习新任务时不会忘记之前学到的知识。
然而,要实现自适应模型的可扩展性和组合性,还面临诸多挑战。创建多个专家模块会显著增加需要训练的参数数量,即使采用像低秩适应(LoRA)这样的参数高效方法,这些模块的累积大小仍可能迅速增加,导致存储和计算需求大幅上升。这些专家模块容易出现过拟合现象,特别是在较小的数据集或狭窄的任务领域进行训练时。如何灵活组合这些专家模块,也是尚未解决的研究难题。
三、Transformer2 框架:核心组件与创新点
Transformer2 框架旨在克服上述挑战,为 LLMs 的自适应能力提升提供了一个通用蓝图。该框架主要包含两个核心组件:奇异值微调(SVF)和三种自适应策略。
3.1 奇异值微调(SVF)
SVF 是 Transformer2 的关键创新点之一。它基于线性代数中的奇异值分解(SVD)理论,通过提取和调整模型权重矩阵中的奇异值,学习一组紧凑且具有组合性的专家向量。与传统的微调方法相比,SVF 具有诸多优势。
在数学原理上,Transformer2 将权重矩阵 $W$ 分解为 $U \Sigma V^T$ 的形式,其中 $\Sigma$ 包含奇异值。SVF 并不直接修改整个权重矩阵,而是专注于调整 $\Sigma$ 中的关键分量。这使得它所需的优化参数数量极少,每个权重矩阵只需学习一个向量,相比 LoRA 等方法,参数数量大幅减少。这不仅降低了计算成本,还提高了训练效率。
SVF 具有高度的组合性。将权重分解为独立的奇异分量,使得学习到的向量具有良好的组合性和可解释性,为自适应提供了更多可能性。SVF 还具有正则化的特性,通过仅修改现有奇异分量的大小,为微调提供了一种有效的正则化形式,能够在仅有数百个数据点的情况下进行微调,而不会出现严重的过拟合问题。
在训练 SVF 向量时,Transformer2 采用强化学习(RL)方法,直接优化任务性能。通过使用 REINFORCE 算法,并添加 KL 散度惩罚项来约束模型与原始模型行为的偏差,有效地避免了传统参数化方法中可能出现的不稳定问题。与 LoRA 相比,SVF 对训练数据集的要求更低,具有更强的通用性和有效性。
3.2 三种自适应策略
除了 SVF,Transformer2 还提出了三种自适应策略,在推理阶段,根据输入任务的特点,将 SVF 训练得到的专家向量进行组合,以提供针对性的响应。
- Prompt Engineering:这是最基本的方法,通过构建一个'适应'提示,让 LLM 对输入提示进行分类,然后根据分类结果选择相应的专家向量。这种方法实现简单,但依赖模型的内在理解能力。
- Classification Expert:则是使用一个专门的系统来处理任务识别,通过 SVF 微调基础 LLM 来实现更准确的任务分类,从而选择更合适的专家向量。这种方法提高了任务匹配的准确性。
- Few-shot Adaptation:方法则利用额外的任务信息,通过交叉熵方法(CEM)对多个专家向量进行线性插值,生成一个新的向量,以适应不同的任务需求。这种方法灵活性最高,能够应对未见过的任务分布。


