面向文本图的大语言模型高效微调与推理
1. 引言
文本图(Textual Graphs)是一类兼具丰富文本信息与复杂拓扑结构的数据形式,广泛存在于学术网络、电子商务、社交网络等现实场景中。在传统的图数据分析中,节点通常仅包含属性信息或简单的标签,而现代应用场景下,节点往往附带大量的非结构化文本描述(如论文摘要、商品详情、用户评论)。如何有效融合这些文本语义与图结构信息,成为提升下游任务性能的关键。
早期研究多采用静态浅层嵌入方法,将文本映射为固定维度的向量后结合图神经网络(GNN)进行处理。然而,静态嵌入难以捕捉上下文依赖和复杂的语义关系,导致在复杂图任务中表现受限。随着大型语言模型(LLMs)的兴起,其强大的文本编码能力为文本图处理带来了新机遇。现有的尝试通常通过级联或迭代结构将 LLM 与 GNN 结合,但这类方法存在协同建模不足的问题:LLM 负责文本编码,GNN 负责结构编码,两者缺乏深度的特征交互。若对 LLM 进行全量联合训练,虽然能实现特征融合,但会带来巨大的内存和时间开销,难以在实际应用中部署。
针对上述挑战,本文提出了一种名为 ENGINE 的高效参数与内存节约型微调方法。该方法利用 LLM 作为核心编码器,通过引入可调的侧结构(Side Structure)实现 LLM 与 GNN 的深度融合,在显著降低训练复杂度的同时,保持了联合模型的强大表达能力。
2. 研究背景与挑战
2.1 文本图的局限性
在现实世界的知识图谱或推荐系统中,数据往往以图的形式组织。例如,在学术引用网络中,节点代表论文,边代表引用关系,而文本则是论文的标题和摘要。传统的图神经网络(如 GCN、GAT)主要依赖邻域聚合来更新节点表示,对于节点自身的文本内容,通常预先使用 BERT 等模型提取特征并冻结。这种'静态嵌入 + GNN'的模式存在明显缺陷:
- 语义丢失:预训练的文本嵌入无法根据具体的图结构任务进行微调,导致特定领域的语义信息未被充分利用。
- 上下文割裂:文本编码与结构编码分离,忽略了文本内容与邻居节点之间的相互影响。
- 泛化能力弱:面对分布外(OOD)的图数据,静态嵌入难以适应新的语义模式。
2.2 大模型集成的效率瓶颈
近年来,研究人员尝试直接将 LLM 集成到图学习中,以提升语义理解能力。主流方案包括:
- 级联结构:先由 LLM 生成节点表示,再输入 GNN。这种方式简单但无法反向传播梯度至 LLM,限制了端到端优化。
- 迭代结构:交替更新 LLM 和 GNN 的参数。这种方式虽然实现了联合训练,但计算开销极大,且容易陷入局部最优。
- 全量微调:直接对 LLM 的所有参数进行更新。这会导致显存占用激增,训练时间成倍增加,且容易引发灾难性遗忘。
因此,如何在保持 LLM 强大语义能力的同时,实现高效的图结构融合,是当前的核心难题。
3. 方法设计:ENGINE 框架
为解决上述问题,本文提出了 ENGINE(Efficient Node Graph Integration with Encoder)框架。该框架的核心思想是在冻结 LLM 主干参数的前提下,通过轻量级的侧结构注入图结构信息,并利用缓存机制加速训练过程。
3.1 G-Ladder 侧结构
ENGINE 在 LLM 的每一层旁边引入了一个基于 GNN 的侧结构,称为 G-Ladder。具体设计如下:
- 并行处理:LLM 的主干路径负责提取深层的文本语义特征,而 G-Ladder 并行运行消息传递机制,聚合邻居节点的结构信息。
- 特征融合:在每个层级,G-Ladder 输出的结构增强表示会与 LLM 的隐藏状态进行融合(如拼接或相加),随后输入下一层 LLM。这种设计允许结构信息逐层渗透进文本表示中。
- 参数高效:类似于 LoRA(Low-Rank Adaptation)技术,G-Ladder 仅包含少量可训练参数。大部分 LLM 参数被冻结,从而大幅减少了需要优化的参数量。
3.2 缓存与预计算机制
由于 LLM 参数被冻结,节点的文本嵌入在训练过程中保持不变。ENGINE 利用这一特性设计了缓存机制:
- 预计算嵌入:在训练开始前,一次性计算所有节点的 LLM 文本嵌入,并将其存储在高速缓存中。
- 避免重复计算:在每次前向传播时,直接从缓存读取文本特征,无需再次经过 LLM 的前向计算。这显著降低了训练过程中的时间复杂度。


