面向文本图的大语言模型高效微调与推理
1. 引言
文本图(Textual Graphs)是一类兼具丰富文本信息与复杂拓扑结构的数据形式,广泛存在于学术网络、电子商务、社交网络等现实场景中。在传统的图数据分析中,节点通常仅包含属性信息或简单的标签,而现代应用场景下,节点往往附带大量的非结构化文本描述(如论文摘要、商品详情、用户评论)。如何有效融合这些文本语义与图结构信息,成为提升下游任务性能的关键。
早期研究多采用静态浅层嵌入方法,将文本映射为固定维度的向量后结合图神经网络(GNN)进行处理。然而,静态嵌入难以捕捉上下文依赖和复杂的语义关系,导致在复杂图任务中表现受限。随着大型语言模型(LLMs)的兴起,其强大的文本编码能力为文本图处理带来了新机遇。现有的尝试通常通过级联或迭代结构将 LLM 与 GNN 结合,但这类方法存在协同建模不足的问题:LLM 负责文本编码,GNN 负责结构编码,两者缺乏深度的特征交互。若对 LLM 进行全量联合训练,虽然能实现特征融合,但会带来巨大的内存和时间开销,难以在实际应用中部署。
针对上述挑战,本文提出了一种名为 ENGINE 的高效参数与内存节约型微调方法。该方法利用 LLM 作为核心编码器,通过引入可调的侧结构(Side Structure)实现 LLM 与 GNN 的深度融合,在显著降低训练复杂度的同时,保持了联合模型的强大表达能力。
2. 研究背景与挑战
2.1 文本图的局限性
在现实世界的知识图谱或推荐系统中,数据往往以图的形式组织。例如,在学术引用网络中,节点代表论文,边代表引用关系,而文本则是论文的标题和摘要。传统的图神经网络(如 GCN、GAT)主要依赖邻域聚合来更新节点表示,对于节点自身的文本内容,通常预先使用 BERT 等模型提取特征并冻结。这种'静态嵌入 + GNN'的模式存在明显缺陷:
- 语义丢失:预训练的文本嵌入无法根据具体的图结构任务进行微调,导致特定领域的语义信息未被充分利用。
- 上下文割裂:文本编码与结构编码分离,忽略了文本内容与邻居节点之间的相互影响。
- 泛化能力弱:面对分布外(OOD)的图数据,静态嵌入难以适应新的语义模式。
2.2 大模型集成的效率瓶颈
近年来,研究人员尝试直接将 LLM 集成到图学习中,以提升语义理解能力。主流方案包括:
- 级联结构:先由 LLM 生成节点表示,再输入 GNN。这种方式简单但无法反向传播梯度至 LLM,限制了端到端优化。
- 迭代结构:交替更新 LLM 和 GNN 的参数。这种方式虽然实现了联合训练,但计算开销极大,且容易陷入局部最优。
- 全量微调:直接对 LLM 的所有参数进行更新。这会导致显存占用激增,训练时间成倍增加,且容易引发灾难性遗忘。
因此,如何在保持 LLM 强大语义能力的同时,实现高效的图结构融合,是当前的核心难题。
3. 方法设计:ENGINE 框架
为解决上述问题,本文提出了 ENGINE(Efficient Node Graph Integration with Encoder)框架。该框架的核心思想是在冻结 LLM 主干参数的前提下,通过轻量级的侧结构注入图结构信息,并利用缓存机制加速训练过程。
3.1 G-Ladder 侧结构
ENGINE 在 LLM 的每一层旁边引入了一个基于 GNN 的侧结构,称为 G-Ladder。具体设计如下:
- 并行处理:LLM 的主干路径负责提取深层的文本语义特征,而 G-Ladder 并行运行消息传递机制,聚合邻居节点的结构信息。
- 特征融合:在每个层级,G-Ladder 输出的结构增强表示会与 LLM 的隐藏状态进行融合(如拼接或相加),随后输入下一层 LLM。这种设计允许结构信息逐层渗透进文本表示中。
- 参数高效:类似于 LoRA(Low-Rank Adaptation)技术,G-Ladder 仅包含少量可训练参数。大部分 LLM 参数被冻结,从而大幅减少了需要优化的参数量。
3.2 缓存与预计算机制
由于 LLM 参数被冻结,节点的文本嵌入在训练过程中保持不变。ENGINE 利用这一特性设计了缓存机制:
- 预计算嵌入:在训练开始前,一次性计算所有节点的 LLM 文本嵌入,并将其存储在高速缓存中。
- 避免重复计算:在每次前向传播时,直接从缓存读取文本特征,无需再次经过 LLM 的前向计算。这显著降低了训练过程中的时间复杂度。
- 动态更新:仅 G-Ladder 中的参数参与梯度更新,进一步减少了反向传播的计算量。
3.3 动态提前退出机制
为了进一步提升推理效率,ENGINE 还引入了动态提前退出(Early Exit)策略。该机制根据样本的复杂性动态决定计算深度:
- 简单样本:对于分类置信度较高的样本,模型可以在较浅的层级提前输出结果,跳过后续层的计算。
- 复杂样本:对于困难样本,则继续深入计算以保证精度。
这种自适应计算策略在保证整体性能的同时,平均减少了推理时的计算开销。
4. 实验设置与结果分析
4.1 数据集
为了全面评估 ENGINE 的有效性,我们在七个常用的文本图数据集上进行了实验。这些数据集涵盖了不同的领域和规模:
- Cora & CiteSeer:经典的学术引用网络,用于论文分类任务。
- WikiCS:基于维基百科计算机科学领域文章的引用网络。
- OGBN-ArXiv:大规模 arXiv 论文引用图。
- ArXiv-2023:最新的 arXiv 论文子集。
- OGBN-Products:电商产品购买图(子集)。
- ElePhoto:电子产品图片与属性图。
4.2 基线对比
我们选择了 17 个基线方法进行对比,分为五类:
- 传统 GNN 模型:GCN, SAGE, GAT 等,仅利用图结构和浅层文本特征。
- 图 Transformer:利用自注意力机制处理图结构的方法。
- 基于 LLM 的全微调:对 LLM 所有参数进行更新的方法。
- 文本图最新方法:近期提出的专门针对文本图的 SOTA 方法。
- 参数高效微调方法:如 LoRA 等在图上的变体。
实验主要在 LLaMA2-7B 上进行,所有结果均为五个不同随机种子的平均精度及标准差。
4.3 性能表现
实验结果表明:
- 优于静态嵌入:结合 LLM 与 GNN 的方法普遍优于传统 GNN,证明了动态文本编码的重要性。
- 优于纯 LLM:LM+GNN 组合优于纯 LLM 方法,说明图结构信息对于节点分类至关重要。
- SOTA 性能:ENGINE 在多个数据集上取得了最佳性能。特别是在 Cora 和 WikiCS 数据集上,分别实现了 2% 和 3% 的绝对精度提升,显著超越了其他参数高效微调方法。
- Early Exit 优势:ENGINE (Early) 变体在保持性能相近的情况下,推理速度显著提升。
5. 效率分析
5.1 训练效率
ENGINE 通过侧结构将额外可训练参数与冻结的 LLM 集成,使得节点嵌入可以预计算并缓存。表 3 数据显示,相较于 SimTeG 等方法,ENGINE 结合缓存机制后实现了 12 倍的训练加速(从 4 小时 23 分钟缩短至 21 分钟)。这主要得益于避免了每轮迭代中对 LLM 的重复合前向计算。
5.2 推理效率
在推理阶段,ENGINE 引入的动态提前退出机制可根据样本复杂性动态调整计算深度。实验显示,该方法实现了 5 倍的推理速度提升。这意味着在处理大规模图数据时,ENGINE 能够更快地响应查询请求,更适合实时应用场景。
6. 结论与展望
本文提出了一种高效且有效的框架,用于将大型语言模型(LLMs)集成至文本图中。其核心创新在于在 LLM 的每一层旁边引入了一个轻量且可调的基于 GNN 的侧结构(G-Ladder),以显式建模文本图的结构信息。核心思想在于 ENGINE 的参数更新不依赖于 LLM 的梯度计算,因此相比于当前的方法具有极高的训练效率。在此基础上,还引入了两种变体:缓存机制和动态提前退出,以进一步提升训练和推理速度。实证研究表明,ENGINE 在多个真实文本图数据集上,在性能、训练效率和推理效率方面均优于现有最先进的方法。
未来工作将集中在以下几个方面:
- 扩展至异构图:探索 ENGINE 在异构信息网络中的应用,处理不同类型的节点和边。
- 更大规模模型:验证该方法在千亿参数级别 LLM 上的可行性与效果。
- 多模态融合:结合图像、音频等多模态信息,构建更全面的图学习框架。
通过持续优化,ENGINE 有望成为文本图深度学习领域的通用基础架构,推动 AI 在复杂关系数据理解方面的进一步发展。