大模型推荐（LLM4Rec）技术调研与进展分析

大模型推荐（LLM4Rec）技术调研与进展分析 | 极客日志

1 LLM4Rec 的基础调研及框架

在多方搜索资料后发现，2023 年存在一篇关于大模型推荐的综述（Survey）。国内也有一些讲解资料参考。这篇文章对近期大模型推荐的研究工作进行分类，大模型结合推荐的应用主要分为 5 个方面：

图 1 大模型结合推荐的主要方式分类

数据采集阶段：线上收集用户真实的行为和记录，得到原始数据。
特征工程阶段：对原始数据进行筛选、加工、增强，得到可供下游深度模型使用的结构化数据（structured data）。
特征编码阶段：对结构化数据进行编码，得到对应的稠密向量表示（embeddings）。
排序阶段：对候选 item 进行打分排序，得到要呈现给用户的 item 排序列表（recommended items）。
推荐流程控制：把控上述推荐系统整体流程，也可细化到对排序阶段的召回/粗排/精排的控制。（pipeline controller）

另外，模型也对模型的发展做了进一步的预测，微调大模型完成推荐、不微调大模型 + 传统推荐大模型将会为未来发展方向。这里就不具体展开，详情可看原文。

图 2 大模型推荐的发展趋势讨论

本文章不再对上文所提调研工作进行详述，而是对今年（2024）以来影响力较大的工作进行汇总，分析各互联网公司的研究进展，期望可以给出一些启示。

2 近期各公司在 LLM4Rec 方面的进展

近两年大模型飞速发展，很多公司也在探索大模型在推荐场景的落地应用。这里对近期的一些进展进行 survey。

华为

CTRL: Connect Collaborative and Language Model for CTR Prediction

背景及问题

仅使用语言模型进行推荐目前效果不理想，需要通过引入推荐场景的数据，结合微调技术，为语言模型注入协同信号。为此，华为提出了一种对齐语言模型和协同模型的框架 CTRL。

华为 CTRL 框架

具体技术方案

Prompt construction：通过 7 个模板把表格数据转换为文本数据。
- 用户和物品特征：特征名 + 连接词 + 特征值。
- 用户历史行为序列：用户的历史类型 + 动作连接词 + 历史 1|历史 2|历史 3。
- 采用','作为特征之间的分隔符；采用'.'作为用户信息和物品信息的分隔符。
Cross-model Knowledge Alignment：将协同模型和语言模型的知识进行对齐。
- 利用对比学习预训练融合两种模态的信息。
Supervised Finetuning：在经过细粒度对比学习预训练之后，两种模态的信息已经进行充分融合。使用监督信号使协同模型适配下游任务。通过在不同的任务上微调，可以适配不同的推荐任务。
Serving：仅使用更轻量的传统模型进行 serving，不会对 RT 造成影响。

实验结果

实验结果如上表所示，在多个数据集上获得了 SOTA。

总结下方法创新性：

以混合粒度知识对齐的方式，同时建模协同信号和语义信号；
从数据角度进行双向知识注入，语言模型与推荐模型互相解耦；
可以单侧推理，推理复杂度低。

百度

Representation Learning with Large Language Models for Recommendation

百度这篇文章原理还比较容易理解，但是他写的复杂，导致理解费劲。

背景及问题

推荐系统利用深度学习和图神经网络，如 NGCF 和 LightGCN，显著提升个性化推荐。然而，它们过分依赖 ID 信息，忽视了文本信息，且易受隐式反馈（如点击偏见）的噪声干扰。为此，我们提出了 RLMRec，通过结合 LLMs（大型语言模型）增强表示学习，捕捉更多深层次的语义特征。我们通过辅助文本和跨视图对齐技术处理文本信息，利用互信息优化表示，以应对数据质量和偏见问题，确保在噪声环境下推荐系统的稳健性。

提出的方法

百度 RLMRec 方法

所提方法三步走：

第一步：使用 LLM 提取用户画像。即先获取 item 的各种特征文本，然后用大模型总结 item 的简要描述；然后结合用户与物品的交互信息，让 LLM 总结用户的兴趣或者画像描述，最后抽取用户画像的文本 emb。（注意这里省了了画像抽取的细节，感兴趣可看原文）
第二步：对齐图网络中用户 emb 与文本描述 emb。使用对比学习，将两个特征进行对齐。
第三步：借助生成训练方式，进一步对去图网络 emb 与语言表示。即利用图网络中用户 emb，通过生成网络还原用户画像的文本描述。

由此，获得了 llm 增强的用户画像 emb。

实验结果

实验证明了所提 emb 的提升，特别是在抗噪声干扰方面。同时也说明了该 emb 的通用性，在多个测试集获得提升。这里就不列出了。

腾讯

ID-centric pre-training for recommendation

背景及问题

传统的顺序推荐（SR）系统通过分析用户历史行为序列，预测用户未来喜好，常用于网站推荐。它主要利用 ID 嵌入，将商品独特 ID 转化为密集的嵌入向量来表示商品。然而，当面对新领域迁移时，这种方法存在挑战。本研究提出 ID 中心推荐预训练范式（IDP）来解决这一问题，通过在预训练阶段整合 ID 和行为信息，利用 ID 嵌入的语义，用 CDIM 在源领域寻找相似商品，以生成适应新领域的项目嵌入。实验证明，IDP 模型在冷启动和暖启动场景下表现优越。

腾讯 IDP 模型

所提方法

本文所提方法，可以分为三部分：

基于 ID 序列的预训练：这部分模型可采用 SASRec，即常用的序列推荐模型。目的是通过预训练，获取 ID 的 emb，同时 emb 中包含了 item 的协同信号。
多领域的 ID emb 匹配：这一步，就是让 item 的文本表示 text_emb 对齐 ID_emb，训练方式为对比学习，这里就不详细说明。
新领域 ID_emb 的生成：这部分是用于模型迁移的核心。对于一个新领域，item 的文本表示可以先生成对应 text_emb，然后通过匹配获取 topN 个 ID_emb；然后使用这 topN 个向量进行加权求平均，获取最终的新领域 item 的 ID_emb。新的模型 ID_emb 可直接复用预训练的推荐模型。

当然，在下游任务中可以直接复用预训练的推荐模型；微调也能更好适配新领域。

实验结果

实验证明了预训练的有效性，在多个测试集的下游任务获得了提升。这里细节不进行阐述，可自行查看原文。

快手

Knowledge Adaptation from LLM to Recommendation for Practical Industrial Application

背景及问题

过往使用大模型做推荐分为两种思路：

冻结 LLM 参数并适应推荐领域数据：利用 LLM 生成物品的内容嵌入，通常是通过处理生成物品的文本描述（如标题、说明、评论等），从而捕捉物品的语义信息，比如 Chat-Rec。
在推荐领域的特定文本数据集上微调 LLM：利用 LLM 捕捉用户行为序列，通过设计提示 prompt，使 LLM 学习用户和物品之间的潜在关系，在预测任务中理解用户的偏好变化和行为模式，从而更好地预测用户可能感兴趣的物品，比如 TallRec。

文中认为以上其实都是将 LLM 的广域和推荐领域强行结合 (Rec-to-LLM)，可能会出现遗忘，即随着推荐任务的学习，模型会丢失在预训练过程中学到的知识。

由此有了新的这个 LEARN 框架（Llm-driven knowlEdge Adaptive RecommeNdation），旨在有效融合大模型和推荐系统 (LLM-to-Rec)，更像是一种特征提取，LEARN 框架通过双塔结构（用户塔和物品塔），利用 LLM 生成的 Embedding 来改进推荐性能。

提出方法

历史序列和目标序列：感觉是对行为序列做截断，当前曝光之前的作为历史序列，当前曝光之后的作为目标序列，对于第 i 个用户，其历史交互序列和目标交互序列分别定义如下：
- 历史交互序列：U_hist_i = {Item_i1, Item_i2, ..., Item_iH}
- 目标交互序列：U_tar_i = {Item_i(H+1), Item_i(H+2), ..., Item_i(H+T)}
用户塔和商品塔：用户塔就是 PCH，商品塔给了三种样式：

快手 Variant 1

Variant 1：使用与用户塔相同的架构和模型权重，但输入的是用户目标交互序列（user target interactions）。这种方法通过使用相同的因果注意机制（causal attention）来处理用户历史交互，从而对齐用户和商品 Embedding。
Variant 2：使用自注意机制（self-attention mechanism），只关注商品本身。独立处理每个商品，不考虑商品之间的顺序依赖。（这里缺少不少细节，比如线上如何用）
Variant 3：直接使用 CEG 生成的内容 Embedding，在训练阶段使用用户目标交互序列，在推理阶段只使用商品的文本描述作为输入。

在训练阶段，Variant 1 使用用户目标交互序列作为输入，Variant 2 和 Variant 3 独立处理每个商品。

线上应用：应用模型如下图所示，他包含两个 loss。主 loss 是预测用户和 item 是否匹配（点击序列），数据包括 llm 产生的 emb 和 id_emb；辅助 loss 是 avr 预测，即转化率。

快手线上应用

实验结论

实验过程给出了多个对比实验，主要是根据召回准确率来对比。实验证明所提 variant 1 中模型的有效性；证明所提方法对比纯 id_emb 或文本 emb 的优势。具体可查看原文。

阿里

Large Language Model based Long-tail Query Rewriting in Taobao Search

背景及问题

淘宝电商搜索引擎框架下，用户输入搜索词之后，平台先进行语义理解，对用户 query 进行改写，之后对原始词 + 改写后的词召回商品，再经过多层排序后对用户展现头部商品。query 改写的目标是，在保持相关性的同时，对原始 query 进行语义扩展，可以召回更多相关商品。例如，有两个搜索词，'DIY blind box'和"Self_building blind box"。这里前者和后者语义相同，但是前者是主流搜索词，召回结果有多个。而后者属于长尾搜索词，难以召回多个结果。如果将后者改写为前者，语义保持相同的情况下，召回更多的商品，则在后续的排序流程中更有概率推荐转化率高的商品，从而提高订单量 && GMV。

目前 LLM 在 query 改写上有一些工作，但由于对没有使用 query 改写特定任务对大模型进行 fine-tune，还存在一定的局限性。

所提方法

本文提出了 BEQUE 框架，框架包含三个阶段，如下图所示：

阿里 BEQUE 框架

第一阶段 Multi-instruction Supervised Fine Tuning：使用多领域数据集对 LLM 进行 finetune，主要包括 Query Rewriting Dataset 和辅助数据集 2 个部分。

Query Rewriting Dataset：使用基线改写策略，对原始 query 取相关性 TOPN 的改写 query。为了进一步优化数据集相关性，限制原始 query 和改写 query 的相关性必须大于某一阈值。基线改写策略对长尾 query 效果不佳，即便原始 query 和改写 query 语义上具有相关性，但是召回的商品集合未必相关。因此使用拒绝负采样，query 和改写 query 召回商品后，要求用户真实交互过的商品数大于一定阈值，来保证和 query 和改写 query 在召回商品集合上的相关性。
辅助数据集：为增强 LLM 对长尾 query 的理解能力，使用 quality classification，product title prediction，Chainof-thought，三个辅助数据集对 LLM 进行 finetune。

第二阶段 offline feedback：设计多个函数多角度评估改写 query 质量，包括 relevance、increment、hitrate 等 3 个评估方法。

relevance：即便原始 query 和改写 query 语义上具有相关性，但是召回的商品集合未必相关。因此定义相关性指标来衡量改写前后召回商品的相关性。淘宝离线评估方法用来评估 query 和召回商品标题的相关性。
increment：query 改写可以增加商品召回的数量，解决'few-recall'的问题。因此定义增量指标来衡量 query 改写后是否增加了召回商品的数量。
hitrate：定义命中率指标，如果搜索场景之外成交过的某件商品和原始 query 相关性大于一定阈值，那 query 改写后应尽量召回该商品。

第三阶段 object alignment：强制模型学习改写 query 之间 pairwise 的偏序。使用 PRO Loss 来 pair wise 地学习改写 query 之间的顺序：

阿里 PRO Loss

模型的最终 Loss 为监督微调的 loss + PRO loss。

阿里最终 Loss

实验结果

模型离线效果如下表所示。从上图可以看到，与多种基线相比，BEQUE 与多种基线相比，在多个测试集上的 relevance 指标略为逊色，但在 incr/hitrate 指标上有极大幅度的提升。细节可参考原文。

蚂蚁

SLMRec: Empowering Small Language Models for Sequential Recommendation

背景及问题

主要研究推荐大模型的蒸馏问题，以满足线上推理时效性要求。

NLP 领域中 LLM 的冗余性启示我们，尽管 LLMs 在 NLP 任务上表现出色，但在 SR 任务中过大的模型并非必需。我们关注的是找到合适大小的 LLM，既能保证性能，又能减少资源消耗。现有的 LLM 驱动的 SR 模型如 P5、CoLLM 等虽然性能提升显著，但参数量膨胀问题严重，增加了 70 倍，这在面对海量日志和实时更新的环境时显得不切实际。因此，我们的研究旨在优化 LLM 在 SR 中的应用，通过减少不必要的模型大小，如利用 LLMs 的规模定律，以实现既能提升性能又节省资源的目标。

我们致力于研究如何通过缩小 LLMs，如 LLaMa-7B 的规模，来探究其在推荐中的实际效果，关注的是观察这种减小参数量对性能的影响。

模型蒸馏策略

蚂蚁蒸馏策略

我们选择 LLaMa 模型，教师模型为深度的，学生模型为较浅的，它们具有相同的隐藏维度。为确保特征方向的一致性，我们设计了一个余弦相似性损失 Lfsim，通过比较教师和学生模型每间隔 i 层的特征向量来测量相似性。

我们还加入了特征范数正则化，通过计算教师和学生模型每组间隔 i 层的特征差的平方和来量化 L2 距离。数学表达为 Lfnorm，目标是使学生模型的特征尽可能接近教师模型，以保持相似性和防止偏差。

我们引入了多源指导，通过学习额外的适配器 Wt 来细化学生模型的学习。

总损失函数 Ltotal 由三部分组成：知识蒸馏损失 LKD，特征相似性损失 Lfsim，以及多源指导的预测损失 Lmp。

通过联合优化这三种损失，学生模型能既学习教师知识，又能保持自身特征质量和对推荐的理解，从而提升其泛化能力和推荐表现。

蚂蚁损失函数

其中，我们引入了三个超参数 λ1 λ2, 和 λ3，分别代表知识蒸馏损失、特征相似性损失 Lfsim 和多源指导预测损失 Lmp 的重要性。它们允许我们在知识学习、特征保持和理解推荐知识之间进行动态平衡。通过调整这些权重，我们可以优化模型，确保在学习教师知识的同时，保证特征质量和对推荐信息的处理，从而增进学生模型的泛化能力和推荐表现。

实验结果

实验，我们发现基于 LLM 的推荐方法在提取序列兴趣模式方面明显优于传统 TSR 方法。同时也证明了小型语言模型在适当策略下能与大模型抗衡。具体细节可参考原文。

小红书

NoteLLM: A Retrievable Large Language Model for Note Recommendation

问题及背景

小红书作为一个 UGC 的种草分享平台，用户往往对特定内容具有很强的连续了解欲望，比如出游攻略，往往希望多看几个笔记去完善自己的出游计划，此类推荐文中称为 item2item(I2I) 推荐，从业务实际出发，标签 (#号，hashtag) 和类目 (cate) 提供很强的指导性和相关性，但现有基于 BERT 的模型进行 Embedding 学习时，对标签或类别等元素只是作为文本的一部分，没有充分利用，由此做了 NoteLLM 的工作。

所提方法

本方法将训练定义为三个任务：

推荐任务——在池子里选出 top-k 篇出来；
hashtag 生成任务——通过标题和内容生成 hashtag；
类比生成任务——通过标题、内容和 hashtag 生成类别；

小红书 NoteLLM 任务

为三个任务设计统一的 prompt：

小红书 Prompt

训练过程采用多任务联合训练。即训练数据中构造召回 pairs 对，对 emb 进行对比学习；对 tag 和类目采用生成的 loss，最后将对比学习 loss 与生成 loss 叠加作为 total loss。

实验结果

实验证明了所提方法的有效性，特别在低曝光笔记上效果提升明显。具体可参考原文。

3 总结与讨论

总结一下近期的重要探索方向：

将推荐场景动作和 item 进行序列化，以大模型方式预训练和应用，如 Meta。
语义表示与 ID_emb 的相互注入，增加特征的表示。如华为、百度、腾讯。
小方向应用探索，如阿里的 query 改写、蚂蚁的模型蒸馏、小红书的标签生成与 emb 增强。

总结图示

大模型推荐（LLM4Rec）技术调研与进展分析

1 LLM4Rec 的基础调研及框架

2 近期各公司在 LLM4Rec 方面的进展

Meta

背景及问题

所提方法

实验结论

华为

CTRL: Connect Collaborative and Language Model for CTR Prediction

背景及问题

具体技术方案

实验结果

百度

Representation Learning with Large Language Models for Recommendation

背景及问题

提出的方法

实验结果

腾讯

ID-centric pre-training for recommendation

背景及问题

所提方法

实验结果

快手

Knowledge Adaptation from LLM to Recommendation for Practical Industrial Application

背景及问题

提出方法

实验结论

阿里

Large Language Model based Long-tail Query Rewriting in Taobao Search

背景及问题

所提方法

实验结果

蚂蚁

SLMRec: Empowering Small Language Models for Sequential Recommendation

背景及问题

模型蒸馏策略

实验结果

小红书

NoteLLM: A Retrievable Large Language Model for Note Recommendation

问题及背景

所提方法

实验结果

3 总结与讨论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具