1. 前言
现有推荐系统主要还是依赖 ID Embedding,这导致在长尾内容和冷启动场景中效果欠佳。随着近年来 LLM 的突破性进展,利用 LLM 强大的内容理解能力辅助推荐被认为是缓解该问题的一个有效途径。

现阶段很多文献都是基于'Rec-to-LLM'的思路来实现的,这种方法通常将推荐域(目标域)的 User-Item 交互数据转换成 LLM 开放世界(源域)的文本格式,并设计特定任务的提示,将推荐数据转换为会话格式,以兼容 LLM 的处理模式。但是,这种方法存在比较多的缺点:
计算效率太低: 推荐场景下用户的行为序列是非常长的,LLM 在处理这么长的用户行为序列非常低效,无法满足业务落地应用的性能要求。
灾难性遗忘: 推荐系统是 User-Item 的协同数据主导的,而 LLM 学习的是开放世界知识,这两类知识信息存在非常大的差异,这样基于用户行为数据去微调 LLM 常会导致灾难性遗忘开放世界知识。
性能下降: LLM 的预训练目标是下一词元预测,而推荐系统依赖 User-Item 的协同,这种训练目标上的不一致性,使得 LLM 不能很好的适应推荐任务。
为了克服这些问题,作者提出了基于'LLM-to-Rec'的思路的 LEARN 方法(Llm-driven knowlEdge Adaptive RecommeNdation)。这种方法使用 LLM 做特征抽取,让抽取出来的信息去适应推荐系统本身的训练目标,更好的兼容推荐系统并满足实际业务落地的性能要求。
2. 方法
作者所提 LEARN 方法的整体框架如下图所示,它是一个双塔结构的模型。

可以看到,这里会将用户历史行为序列将时间排序后再截断成两部分,前面部分称为历史交互序列,作为用户塔的输入,后面部分作者把它称为 target 交互序列,会作为 Item 塔的输入。
2.1 User 塔
用户塔由两个模块组成,分别是内容抽取模块和偏好对齐模块,如下图所示:

2.1.1 内容抽取模块 (简称 CEX)
对于用户行为序列中的每个 Item,先按下图的提示组织其文本描述 (包括标题、类别、品牌、价格、关键词和属性):

然后,将这些 Item 描述输入到参数冻结的预训练 LLM(论文使用了 Baichuan2-7B) 中,然后再将最后一层的隐含向量做 AvgPooling 后得到该 Item 最后的内容表征。
2.1.2 偏好对齐模块 (简称 PAL)
使用前面处理的用户历史行为内容表征序列为输入,先通过内容映射层做维度变换,再将它们输入到类似因果注意力机制的 Transformer 编码器中,最后使用线性映射降维 (至 64 维) 得到 User Embed。
2.2 Item 塔
Item 塔以为输入,同样也是先过前面的内容抽取模块 (CEX),只是后面这里有 3 个变种:













