1 LLM4Rec 的基础调研及框架
在多方搜索资料后发现,2023 年存在一篇关于大模型推荐的综述(Survey)。国内也有一些讲解资料参考。这篇文章对近期大模型推荐的研究工作进行分类,大模型结合推荐的应用主要分为 5 个方面:

- 数据采集阶段:线上收集用户真实的行为和记录,得到原始数据。
- 特征工程阶段:对原始数据进行筛选、加工、增强,得到可供下游深度模型使用的结构化数据(structured data)。
- 特征编码阶段:对结构化数据进行编码,得到对应的稠密向量表示(embeddings)。
- 排序阶段:对候选 item 进行打分排序,得到要呈现给用户的 item 排序列表(recommended items)。
- 推荐流程控制:把控上述推荐系统整体流程,也可细化到对排序阶段的召回/粗排/精排的控制。(pipeline controller)
另外,模型也对模型的发展做了进一步的预测,微调大模型完成推荐、不微调大模型 + 传统推荐大模型将会为未来发展方向。这里就不具体展开,详情可看原文。

本文章不再对上文所提调研工作进行详述,而是对今年(2024)以来影响力较大的工作进行汇总,分析各互联网公司的研究进展,期望可以给出一些启示。
2 近期各公司在 LLM4Rec 方面的进展
近两年大模型飞速发展,很多公司也在探索大模型在推荐场景的落地应用。这里对近期的一些进展进行 survey。
Meta
背景及问题
- 计算扩展性不足:尽管深度学习推荐模型(DLRMs)在海量数据和数千个特征上进行训练,但它们在计算资源上的扩展性不足,这限制了模型的性能和应用。
- 推荐系统中的特征缺乏明确的结构:异构特征(高基数 ID、交叉特征、计数、比值)起着关键作用。
- 问题规模的挑战:十亿级动态词汇量,对比语言中 10 万规模的静态词汇量。推理阶段需要以目标感知的方式考虑数万个候选。
- 计算成本:推荐系统每天需要处理的 tokens 比语言模型 1-2 个月处理的 tokens 多几个数量级。
所提方法
- 生成式推荐(Generative Recommenders,简称 GRs):首次提出了生成式推荐,这是一种新的范式,用于替代传统的深度学习推荐模型(DLRMs)。
- 特征统一:对 DLRMs 中的异构特征空间进行了序列化和统一处理,随着序列长度趋于无限大,新方法逼近完整的 DLRM 特征空间。
- 任务统一:能够将主要的推荐问题(排名和检索)重新表述为生成式推荐中的纯序列转导任务。进一步使得模型训练能够以序列化、生成的方式进行,这允许我们在相同的计算资源下训练数量级更多的数据。
任务形式如下图:

统一特征:DRs 这里把 E/F, G, H 分别进行 merge and sequentialize,这里 (E, F) 表示哪些用户的交互行为,merge 后得到的是 (Φ,a,t): (Context, action, timestamp),而 G, H 则是一些'not related to user-content engagements'。

统一任务:
- 排序(Ranking):对于 ranking,作者设计的任务是:通过过往的信息预测下一个 action。
- 检索(Retrieval):对于 retrieval,作者设计的任务是仅对那些 ai 为 positive 的情况进行 negative 的 action 不进行预测。

- 模型优化:提出新的序列转导架构——分层序列转导单元(HSTU)来解决训练和推理过程中的计算成本挑战。
作者为了兼顾效率,特别改进了模型框架:

注意到,其中的每个模块变成了:

虽然形式上和 attention 还是比较像的,但是注意到:
- Q(X)K(X)^T 并没有经过 softmax 处理,作者认为这样除了效率外,还能够保证不同的参与度能够有所区分;
- U(X),门控机制的引入(作者用来模拟 MoE)。

可以发现,softmax 这个点的影响很大。此外,还有数据集的切分,优化器的选择等等。虽然最后的效果并没有特别夸张,但是这些尝试是值得肯定的。
实验结论
Generative Recommenders 与 DLRMs 的比较:GR 在工业规模流设置下不仅离线性能显著优于 DLRMs,而且在 A/B 测试中带来了 12.4%的指标提升;GR 的扩展性优于 DLRMs,其各项指标随着计算量的增加呈幂律增长,这表明从 LLMs 借鉴的扩展规律也适用于大规模推荐系统。
动态词汇表适应性:推荐系统需要能够快速适应动态变化的词汇表,如新物品的加入和旧物品的移除。HSTU 的设计允许模型灵活地处理这些变化,而不需要频繁的重新训练,这一点对于保持推荐系统的最新状态和相关性非常重要。
华为
CTRL: Connect Collaborative and Language Model for CTR Prediction
背景及问题
仅使用语言模型进行推荐目前效果不理想,需要通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。为此,华为提出了一种对齐语言模型和协同模型的框架 CTRL。

具体技术方案
- Prompt construction:通过 7 个模板把表格数据转换为文本数据。
- 用户和物品特征:特征名 + 连接词 + 特征值。
- 用户历史行为序列:用户的历史类型 + 动作连接词 + 历史 1|历史 2|历史 3。
- 采用','作为特征之间的分隔符;采用'.'作为用户信息和物品信息的分隔符。
- Cross-model Knowledge Alignment:将协同模型和语言模型的知识进行对齐。
- Supervised Finetuning:在经过细粒度对比学习预训练之后,两种模态的信息已经进行充分融合。使用监督信号使协同模型适配下游任务。通过在不同的任务上微调,可以适配不同的推荐任务。
- Serving:仅使用更轻量的传统模型进行 serving,不会对 RT 造成影响。
实验结果
实验结果如上表所示,在多个数据集上获得了 SOTA。
总结下方法创新性:
- 以混合粒度知识对齐的方式,同时建模协同信号和语义信号;
- 从数据角度进行双向知识注入,语言模型与推荐模型互相解耦;
- 可以单侧推理,推理复杂度低。
百度
Representation Learning with Large Language Models for Recommendation
百度这篇文章原理还比较容易理解,但是他写的复杂,导致理解费劲。
背景及问题
推荐系统利用深度学习和图神经网络,如 NGCF 和 LightGCN,显著提升个性化推荐。然而,它们过分依赖 ID 信息,忽视了文本信息,且易受隐式反馈(如点击偏见)的噪声干扰。为此,我们提出了 RLMRec,通过结合 LLMs(大型语言模型)增强表示学习,捕捉更多深层次的语义特征。我们通过辅助文本和跨视图对齐技术处理文本信息,利用互信息优化表示,以应对数据质量和偏见问题,确保在噪声环境下推荐系统的稳健性。
提出的方法

所提方法三步走:
- 第一步:使用 LLM 提取用户画像。即先获取 item 的各种特征文本,然后用大模型总结 item 的简要描述;然后结合用户与物品的交互信息,让 LLM 总结用户的兴趣或者画像描述,最后抽取用户画像的文本 emb。(注意这里省了了画像抽取的细节,感兴趣可看原文)
- 第二步:对齐图网络中用户 emb 与文本描述 emb。使用对比学习,将两个特征进行对齐。
- 第三步:借助生成训练方式,进一步对去图网络 emb 与语言表示。即利用图网络中用户 emb,通过生成网络还原用户画像的文本描述。
由此,获得了 llm 增强的用户画像 emb。
实验结果
实验证明了所提 emb 的提升,特别是在抗噪声干扰方面。同时也说明了该 emb 的通用性,在多个测试集获得提升。这里就不列出了。
腾讯
ID-centric pre-training for recommendation
背景及问题
传统的顺序推荐(SR)系统通过分析用户历史行为序列,预测用户未来喜好,常用于网站推荐。它主要利用 ID 嵌入,将商品独特 ID 转化为密集的嵌入向量来表示商品。然而,当面对新领域迁移时,这种方法存在挑战。本研究提出 ID 中心推荐预训练范式(IDP)来解决这一问题,通过在预训练阶段整合 ID 和行为信息,利用 ID 嵌入的语义,用 CDIM 在源领域寻找相似商品,以生成适应新领域的项目嵌入。实验证明,IDP 模型在冷启动和暖启动场景下表现优越。

所提方法
本文所提方法,可以分为三部分:
- 基于 ID 序列的预训练:这部分模型可采用 SASRec,即常用的序列推荐模型。目的是通过预训练,获取 ID 的 emb,同时 emb 中包含了 item 的协同信号。
- 多领域的 ID emb 匹配:这一步,就是让 item 的文本表示 text_emb 对齐 ID_emb,训练方式为对比学习,这里就不详细说明。
- 新领域 ID_emb 的生成:这部分是用于模型迁移的核心。对于一个新领域,item 的文本表示可以先生成对应 text_emb,然后通过匹配获取 topN 个 ID_emb;然后使用这 topN 个向量进行加权求平均,获取最终的新领域 item 的 ID_emb。新的模型 ID_emb 可直接复用预训练的推荐模型。
当然,在下游任务中可以直接复用预训练的推荐模型;微调也能更好适配新领域。
实验结果
实验证明了预训练的有效性,在多个测试集的下游任务获得了提升。这里细节不进行阐述,可自行查看原文。
快手
Knowledge Adaptation from LLM to Recommendation for Practical Industrial Application
背景及问题
过往使用大模型做推荐分为两种思路:
- 冻结 LLM 参数并适应推荐领域数据:利用 LLM 生成物品的内容嵌入,通常是通过处理生成物品的文本描述(如标题、说明、评论等),从而捕捉物品的语义信息,比如 Chat-Rec。
- 在推荐领域的特定文本数据集上微调 LLM:利用 LLM 捕捉用户行为序列,通过设计提示 prompt,使 LLM 学习用户和物品之间的潜在关系,在预测任务中理解用户的偏好变化和行为模式,从而更好地预测用户可能感兴趣的物品,比如 TallRec。
文中认为以上其实都是将 LLM 的广域和推荐领域强行结合 (Rec-to-LLM),可能会出现遗忘,即随着推荐任务的学习,模型会丢失在预训练过程中学到的知识。
由此有了新的这个 LEARN 框架(Llm-driven knowlEdge Adaptive RecommeNdation),旨在有效融合大模型和推荐系统 (LLM-to-Rec),更像是一种特征提取,LEARN 框架通过双塔结构(用户塔和物品塔),利用 LLM 生成的 Embedding 来改进推荐性能。
提出方法

- Variant 1:使用与用户塔相同的架构和模型权重,但输入的是用户目标交互序列(user target interactions)。这种方法通过使用相同的因果注意机制(causal attention)来处理用户历史交互,从而对齐用户和商品 Embedding。
- Variant 2:使用自注意机制(self-attention mechanism),只关注商品本身。独立处理每个商品,不考虑商品之间的顺序依赖。(这里缺少不少细节,比如线上如何用)
- Variant 3:直接使用 CEG 生成的内容 Embedding,在训练阶段使用用户目标交互序列,在推理阶段只使用商品的文本描述作为输入。
在训练阶段,Variant 1 使用用户目标交互序列作为输入,Variant 2 和 Variant 3 独立处理每个商品。
- 线上应用:应用模型如下图所示,他包含两个 loss。主 loss 是预测用户和 item 是否匹配(点击序列),数据包括 llm 产生的 emb 和 id_emb;辅助 loss 是 avr 预测,即转化率。

实验结论
实验过程给出了多个对比实验,主要是根据召回准确率来对比。实验证明所提 variant 1 中模型的有效性;证明所提方法对比纯 id_emb 或文本 emb 的优势。具体可查看原文。
阿里
Large Language Model based Long-tail Query Rewriting in Taobao Search
背景及问题
淘宝电商搜索引擎框架下,用户输入搜索词之后,平台先进行语义理解,对用户 query 进行改写,之后对原始词 + 改写后的词召回商品,再经过多层排序后对用户展现头部商品。query 改写的目标是,在保持相关性的同时,对原始 query 进行语义扩展,可以召回更多相关商品。例如,有两个搜索词,'DIY blind box'和"Self_building blind box"。这里前者和后者语义相同,但是前者是主流搜索词,召回结果有多个。而后者属于长尾搜索词,难以召回多个结果。如果将后者改写为前者,语义保持相同的情况下,召回更多的商品,则在后续的排序流程中更有概率推荐转化率高的商品,从而提高订单量 && GMV。
目前 LLM 在 query 改写上有一些工作,但由于对没有使用 query 改写特定任务对大模型进行 fine-tune,还存在一定的局限性。
所提方法
本文提出了 BEQUE 框架,框架包含三个阶段,如下图所示:

第一阶段 Multi-instruction Supervised Fine Tuning:使用多领域数据集对 LLM 进行 finetune,主要包括 Query Rewriting Dataset 和辅助数据集 2 个部分。
- Query Rewriting Dataset:使用基线改写策略,对原始 query 取相关性 TOPN 的改写 query。为了进一步优化数据集相关性,限制原始 query 和改写 query 的相关性必须大于某一阈值。基线改写策略对长尾 query 效果不佳,即便原始 query 和改写 query 语义上具有相关性,但是召回的商品集合未必相关。因此使用拒绝负采样,query 和改写 query 召回商品后,要求用户真实交互过的商品数大于一定阈值,来保证和 query 和改写 query 在召回商品集合上的相关性。
- 辅助数据集:为增强 LLM 对长尾 query 的理解能力,使用 quality classification,product title prediction,Chainof-thought,三个辅助数据集对 LLM 进行 finetune。
第二阶段 offline feedback:设计多个函数多角度评估改写 query 质量,包括 relevance、increment、hitrate 等 3 个评估方法。
- relevance:即便原始 query 和改写 query 语义上具有相关性,但是召回的商品集合未必相关。因此定义相关性指标来衡量改写前后召回商品的相关性。淘宝离线评估方法用来评估 query 和召回商品标题的相关性。
- increment:query 改写可以增加商品召回的数量,解决'few-recall'的问题。因此定义增量指标来衡量 query 改写后是否增加了召回商品的数量。
- hitrate:定义命中率指标,如果搜索场景之外成交过的某件商品和原始 query 相关性大于一定阈值,那 query 改写后应尽量召回该商品。
第三阶段 object alignment:强制模型学习改写 query 之间 pairwise 的偏序。
使用 PRO Loss 来 pair wise 地学习改写 query 之间的顺序:

模型的最终 Loss 为监督微调的 loss + PRO loss。

实验结果
模型离线效果如下表所示。从上图可以看到,与多种基线相比,BEQUE 与多种基线相比,在多个测试集上的 relevance 指标略为逊色,但在 incr/hitrate 指标上有极大幅度的提升。细节可参考原文。
蚂蚁
SLMRec: Empowering Small Language Models for Sequential Recommendation
背景及问题
主要研究推荐大模型的蒸馏问题,以满足线上推理时效性要求。
NLP 领域中 LLM 的冗余性启示我们,尽管 LLMs 在 NLP 任务上表现出色,但在 SR 任务中过大的模型并非必需。我们关注的是找到合适大小的 LLM,既能保证性能,又能减少资源消耗。现有的 LLM 驱动的 SR 模型如 P5、CoLLM 等虽然性能提升显著,但参数量膨胀问题严重,增加了 70 倍,这在面对海量日志和实时更新的环境时显得不切实际。因此,我们的研究旨在优化 LLM 在 SR 中的应用,通过减少不必要的模型大小,如利用 LLMs 的规模定律,以实现既能提升性能又节省资源的目标。
我们致力于研究如何通过缩小 LLMs,如 LLaMa-7B 的规模,来探究其在推荐中的实际效果,关注的是观察这种减小参数量对性能的影响。
模型蒸馏策略

我们选择 LLaMa 模型,教师模型为深度的,学生模型为较浅的,它们具有相同的隐藏维度。为确保特征方向的一致性,我们设计了一个余弦相似性损失 Lfsim,通过比较教师和学生模型每间隔 i 层的特征向量来测量相似性。
我们还加入了特征范数正则化,通过计算教师和学生模型每组间隔 i 层的特征差的平方和来量化 L2 距离。数学表达为 Lfnorm,目标是使学生模型的特征尽可能接近教师模型,以保持相似性和防止偏差。
我们引入了多源指导,通过学习额外的适配器 Wt 来细化学生模型的学习。
总损失函数 Ltotal 由三部分组成:知识蒸馏损失 LKD,特征相似性损失 Lfsim,以及多源指导的预测损失 Lmp。
通过联合优化这三种损失,学生模型能既学习教师知识,又能保持自身特征质量和对推荐的理解,从而提升其泛化能力和推荐表现。

其中,我们引入了三个超参数 λ1 λ2, 和 λ3,分别代表知识蒸馏损失、特征相似性损失 Lfsim 和多源指导预测损失 Lmp 的重要性。它们允许我们在知识学习、特征保持和理解推荐知识之间进行动态平衡。通过调整这些权重,我们可以优化模型,确保在学习教师知识的同时,保证特征质量和对推荐信息的处理,从而增进学生模型的泛化能力和推荐表现。
实验结果
实验,我们发现基于 LLM 的推荐方法在提取序列兴趣模式方面明显优于传统 TSR 方法。同时也证明了小型语言模型在适当策略下能与大模型抗衡。具体细节可参考原文。
小红书
NoteLLM: A Retrievable Large Language Model for Note Recommendation
问题及背景
小红书作为一个 UGC 的种草分享平台,用户往往对特定内容具有很强的连续了解欲望,比如出游攻略,往往希望多看几个笔记去完善自己的出游计划,此类推荐文中称为 item2item(I2I) 推荐,从业务实际出发,标签 (#号,hashtag) 和类目 (cate) 提供很强的指导性和相关性,但现有基于 BERT 的模型进行 Embedding 学习时,对标签或类别等元素只是作为文本的一部分,没有充分利用,由此做了 NoteLLM 的工作。
所提方法
本方法将训练定义为三个任务:
- 推荐任务——在池子里选出 top-k 篇出来;
- hashtag 生成任务——通过标题和内容生成 hashtag;
- 类比生成任务——通过标题、内容和 hashtag 生成类别;

为三个任务设计统一的 prompt:

训练过程采用多任务联合训练。即训练数据中构造召回 pairs 对,对 emb 进行对比学习;对 tag 和类目采用生成的 loss,最后将对比学习 loss 与生成 loss 叠加作为 total loss。
实验结果
实验证明了所提方法的有效性,特别在低曝光笔记上效果提升明显。具体可参考原文。
3 总结与讨论
总结一下近期的重要探索方向:
- 将推荐场景动作和 item 进行序列化,以大模型方式预训练和应用,如 Meta。
- 语义表示与 ID_emb 的相互注入,增加特征的表示。如华为、百度、腾讯。
- 小方向应用探索,如阿里的 query 改写、蚂蚁的模型蒸馏、小红书的标签生成与 emb 增强。
