跳到主要内容
大模型推荐(LLM4Rec)技术调研与进展分析 | 极客日志
编程语言 AI 算法
大模型推荐(LLM4Rec)技术调研与进展分析 综述由AI生成 调研了 2024 年各大互联网公司在大模型推荐(LLM4Rec)领域的最新进展。Meta 提出了生成式推荐(GRs)和分层序列转导单元(HSTU),通过统一特征和任务实现扩展性提升。华为的 CTRL 框架通过知识对齐融合协同信号与语义信号。百度 RLMRec 利用 LLM 增强表示学习以抗噪声。腾讯 IDP 范式解决新领域迁移问题。快手 LEARN 框架通过双塔结构融合 LLM 特征。阿里 BEQUE 框架利用 LLM 进行长尾 Query 改写。蚂蚁 SLMRec 探索小模型蒸馏以降低推理成本。小红书 NoteLLM 针对 UGC 内容优化标签与类目生成。整体趋势显示,大模型正从单纯的特征补充转向核心推荐逻辑的重构,重点在于语义与 ID 的融合、效率优化及特定场景的深度适配。
深海蔚蓝 发布于 2025/2/6 更新于 2026/6/14 27 浏览1 LLM4Rec 的基础调研及框架
在多方搜索资料后发现,2023 年存在一篇关于大模型推荐的综述(Survey)。国内也有一些讲解资料参考。这篇文章对近期大模型推荐的研究工作进行分类,大模型结合推荐的应用主要分为 5 个方面:
数据采集阶段 :线上收集用户真实的行为和记录,得到原始数据。
特征工程阶段 :对原始数据进行筛选、加工、增强,得到可供下游深度模型使用的结构化数据(structured data)。
特征编码阶段 :对结构化数据进行编码,得到对应的稠密向量表示(embeddings)。
排序阶段 :对候选 item 进行打分排序,得到要呈现给用户的 item 排序列表(recommended items)。
推荐流程控制 :把控上述推荐系统整体流程,也可细化到对排序阶段的召回/粗排/精排的控制。(pipeline controller)
另外,模型也对模型的发展做了进一步的预测,微调大模型完成推荐、不微调大模型 + 传统推荐大模型将会为未来发展方向。这里就不具体展开,详情可看原文。
本文章不再对上文所提调研工作进行详述,而是对今年(2024)以来影响力较大的工作进行汇总,分析各互联网公司的研究进展,期望可以给出一些启示。
2 近期各公司在 LLM4Rec 方面的进展
近两年大模型飞速发展,很多公司也在探索大模型在推荐场景的落地应用。这里对近期的一些进展进行 survey。
Meta
背景及问题
计算扩展性不足 :尽管深度学习推荐模型(DLRMs)在海量数据和数千个特征上进行训练,但它们在计算资源上的扩展性不足,这限制了模型的性能和应用。
推荐系统中的特征缺乏明确的结构 :异构特征(高基数 ID、交叉特征、计数、比值)起着关键作用。
问题规模的挑战 :十亿级动态词汇量,对比语言中 10 万规模的静态词汇量。推理阶段需要以目标感知的方式考虑数万个候选。
计算成本 :推荐系统每天需要处理的 tokens 比语言模型 1-2 个月处理的 tokens 多几个数量级。
所提方法
生成式推荐(Generative Recommenders,简称 GRs) :首次提出了生成式推荐,这是一种新的范式,用于替代传统的深度学习推荐模型(DLRMs)。
特征统一 :对 DLRMs 中的异构特征空间进行了序列化和统一处理,随着序列长度趋于无限大,新方法逼近完整的 DLRM 特征空间。
任务统一 :能够将主要的推荐问题(排名和检索)重新表述为生成式推荐中的纯序列转导任务。进一步使得模型训练能够以序列化、生成的方式进行,这允许我们在相同的计算资源下训练数量级更多的数据。
任务形式如下图:
统一特征 :DRs 这里把 E/F, G, H 分别进行 merge and sequentialize,这里 (E, F) 表示哪些用户的交互行为,merge 后得到的是 (Φ,a,t): (Context, action, timestamp),而 G, H 则是一些'not related to user-content engagements'。
排序(Ranking) :对于 ranking,作者设计的任务是:通过过往的信息预测下一个 action。
检索(Retrieval) :对于 retrieval,作者设计的任务是仅对那些 ai 为 positive 的情况进行 negative 的 action 不进行预测。
模型优化 :提出新的序列转导架构——分层序列转导单元(HSTU)来解决训练和推理过程中的计算成本挑战。
虽然形式上和 attention 还是比较像的,但是注意到:
Q(X)K(X)^T 并没有经过 softmax 处理,作者认为这样除了效率外,还能够保证不同的参与度能够有所区分;
U(X),门控机制的引入(作者用来模拟 MoE)。
可以发现,softmax 这个点的影响很大。此外,还有数据集的切分,优化器的选择等等。虽然最后的效果并没有特别夸张,但是这些尝试是值得肯定的。
实验结论 Generative Recommenders 与 DLRMs 的比较:GR 在工业规模流设置下不仅离线性能显著优于 DLRMs,而且在 A/B 测试中带来了 12.4%的指标提升;GR 的扩展性优于 DLRMs,其各项指标随着计算量的增加呈幂律增长,这表明从 LLMs 借鉴的扩展规律也适用于大规模推荐系统。
动态词汇表适应性:推荐系统需要能够快速适应动态变化的词汇表,如新物品的加入和旧物品的移除。HSTU 的设计允许模型灵活地处理这些变化,而不需要频繁的重新训练,这一点对于保持推荐系统的最新状态和相关性非常重要。
华为
CTRL: Connect Collaborative and Language Model for CTR Prediction
背景及问题 仅使用语言模型进行推荐目前效果不理想,需要通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。为此,华为提出了一种对齐语言模型和协同模型的框架 CTRL。
具体技术方案
Prompt construction :通过 7 个模板把表格数据转换为文本数据。
用户和物品特征:特征名 + 连接词 + 特征值。
用户历史行为序列:用户的历史类型 + 动作连接词 + 历史 1|历史 2|历史 3。
采用','作为特征之间的分隔符;采用'.'作为用户信息和物品信息的分隔符。
Cross-model Knowledge Alignment :将协同模型和语言模型的知识进行对齐。
Supervised Finetuning :在经过细粒度对比学习预训练之后,两种模态的信息已经进行充分融合。使用监督信号使协同模型适配下游任务。通过在不同的任务上微调,可以适配不同的推荐任务。
Serving :仅使用更轻量的传统模型进行 serving,不会对 RT 造成影响。
实验结果 实验结果如上表所示,在多个数据集上获得了 SOTA。
以混合粒度知识对齐的方式,同时建模协同信号和语义信号;
从数据角度进行双向知识注入,语言模型与推荐模型互相解耦;
可以单侧推理,推理复杂度低。
百度
Representation Learning with Large Language Models for Recommendation 百度这篇文章原理还比较容易理解,但是他写的复杂,导致理解费劲。
背景及问题 推荐系统利用深度学习和图神经网络,如 NGCF 和 LightGCN,显著提升个性化推荐。然而,它们过分依赖 ID 信息,忽视了文本信息,且易受隐式反馈(如点击偏见)的噪声干扰。为此,我们提出了 RLMRec,通过结合 LLMs(大型语言模型)增强表示学习,捕捉更多深层次的语义特征。我们通过辅助文本和跨视图对齐技术处理文本信息,利用互信息优化表示,以应对数据质量和偏见问题,确保在噪声环境下推荐系统的稳健性。
提出的方法
第一步 :使用 LLM 提取用户画像。即先获取 item 的各种特征文本,然后用大模型总结 item 的简要描述;然后结合用户与物品的交互信息,让 LLM 总结用户的兴趣或者画像描述,最后抽取用户画像的文本 emb。(注意这里省了了画像抽取的细节,感兴趣可看原文)
第二步 :对齐图网络中用户 emb 与文本描述 emb。使用对比学习,将两个特征进行对齐。
第三步 :借助生成训练方式,进一步对去图网络 emb 与语言表示。即利用图网络中用户 emb,通过生成网络还原用户画像的文本描述。
实验结果 实验证明了所提 emb 的提升,特别是在抗噪声干扰方面。同时也说明了该 emb 的通用性,在多个测试集获得提升。这里就不列出了。
腾讯
ID-centric pre-training for recommendation
背景及问题 传统的顺序推荐(SR)系统通过分析用户历史行为序列,预测用户未来喜好,常用于网站推荐。它主要利用 ID 嵌入,将商品独特 ID 转化为密集的嵌入向量来表示商品。然而,当面对新领域迁移时,这种方法存在挑战。本研究提出 ID 中心推荐预训练范式(IDP)来解决这一问题,通过在预训练阶段整合 ID 和行为信息,利用 ID 嵌入的语义,用 CDIM 在源领域寻找相似商品,以生成适应新领域的项目嵌入。实验证明,IDP 模型在冷启动和暖启动场景下表现优越。
所提方法
基于 ID 序列的预训练 :这部分模型可采用 SASRec,即常用的序列推荐模型。目的是通过预训练,获取 ID 的 emb,同时 emb 中包含了 item 的协同信号。
多领域的 ID emb 匹配 :这一步,就是让 item 的文本表示 text_emb 对齐 ID_emb,训练方式为对比学习,这里就不详细说明。
新领域 ID_emb 的生成 :这部分是用于模型迁移的核心。对于一个新领域,item 的文本表示可以先生成对应 text_emb,然后通过匹配获取 topN 个 ID_emb;然后使用这 topN 个向量进行加权求平均,获取最终的新领域 item 的 ID_emb。新的模型 ID_emb 可直接复用预训练的推荐模型。
当然,在下游任务中可以直接复用预训练的推荐模型;微调也能更好适配新领域。
实验结果 实验证明了预训练的有效性,在多个测试集的下游任务获得了提升。这里细节不进行阐述,可自行查看原文。
快手
Knowledge Adaptation from LLM to Recommendation for Practical Industrial Application
背景及问题
冻结 LLM 参数并适应推荐领域数据:利用 LLM 生成物品的内容嵌入,通常是通过处理生成物品的文本描述(如标题、说明、评论等),从而捕捉物品的语义信息,比如 Chat-Rec。
在推荐领域的特定文本数据集上微调 LLM:利用 LLM 捕捉用户行为序列,通过设计提示 prompt,使 LLM 学习用户和物品之间的潜在关系,在预测任务中理解用户的偏好变化和行为模式,从而更好地预测用户可能感兴趣的物品,比如 TallRec。
文中认为以上其实都是将 LLM 的广域和推荐领域强行结合 (Rec-to-LLM),可能会出现遗忘,即随着推荐任务的学习,模型会丢失在预训练过程中学到的知识。
由此有了新的这个 LEARN 框架(Llm-driven knowlEdge Adaptive RecommeNdation),旨在有效融合大模型和推荐系统 (LLM-to-Rec),更像是一种特征提取,LEARN 框架通过双塔结构(用户塔和物品塔),利用 LLM 生成的 Embedding 来改进推荐性能。
提出方法
Variant 1 :使用与用户塔相同的架构和模型权重,但输入的是用户目标交互序列(user target interactions)。这种方法通过使用相同的因果注意机制(causal attention)来处理用户历史交互,从而对齐用户和商品 Embedding。
Variant 2 :使用自注意机制(self-attention mechanism),只关注商品本身。独立处理每个商品,不考虑商品之间的顺序依赖。(这里缺少不少细节,比如线上如何用)
Variant 3 :直接使用 CEG 生成的内容 Embedding,在训练阶段使用用户目标交互序列,在推理阶段只使用商品的文本描述作为输入。
在训练阶段,Variant 1 使用用户目标交互序列作为输入,Variant 2 和 Variant 3 独立处理每个商品。
线上应用 :应用模型如下图所示,他包含两个 loss。主 loss 是预测用户和 item 是否匹配(点击序列),数据包括 llm 产生的 emb 和 id_emb;辅助 loss 是 avr 预测,即转化率。
实验结论 实验过程给出了多个对比实验,主要是根据召回准确率来对比。实验证明所提 variant 1 中模型的有效性;证明所提方法对比纯 id_emb 或文本 emb 的优势。具体可查看原文。
阿里
Large Language Model based Long-tail Query Rewriting in Taobao Search
背景及问题 淘宝电商搜索引擎框架下,用户输入搜索词之后,平台先进行语义理解,对用户 query 进行改写,之后对原始词 + 改写后的词召回商品,再经过多层排序后对用户展现头部商品。query 改写的目标是,在保持相关性的同时,对原始 query 进行语义扩展,可以召回更多相关商品。例如,有两个搜索词,'DIY blind box'和"Self_building blind box"。这里前者和后者语义相同,但是前者是主流搜索词,召回结果有多个。而后者属于长尾搜索词,难以召回多个结果。如果将后者改写为前者,语义保持相同的情况下,召回更多的商品,则在后续的排序流程中更有概率推荐转化率高的商品,从而提高订单量 && GMV。
目前 LLM 在 query 改写上有一些工作,但由于对没有使用 query 改写特定任务对大模型进行 fine-tune,还存在一定的局限性。
所提方法 本文提出了 BEQUE 框架,框架包含三个阶段,如下图所示:
第一阶段 Multi-instruction Supervised Fine Tuning :使用多领域数据集对 LLM 进行 finetune,主要包括 Query Rewriting Dataset 和辅助数据集 2 个部分。
Query Rewriting Dataset :使用基线改写策略,对原始 query 取相关性 TOPN 的改写 query。为了进一步优化数据集相关性,限制原始 query 和改写 query 的相关性必须大于某一阈值。基线改写策略对长尾 query 效果不佳,即便原始 query 和改写 query 语义上具有相关性,但是召回的商品集合未必相关。因此使用拒绝负采样,query 和改写 query 召回商品后,要求用户真实交互过的商品数大于一定阈值,来保证和 query 和改写 query 在召回商品集合上的相关性。
辅助数据集 :为增强 LLM 对长尾 query 的理解能力,使用 quality classification,product title prediction,Chainof-thought,三个辅助数据集对 LLM 进行 finetune。
第二阶段 offline feedback :设计多个函数多角度评估改写 query 质量,包括 relevance、increment、hitrate 等 3 个评估方法。
relevance :即便原始 query 和改写 query 语义上具有相关性,但是召回的商品集合未必相关。因此定义相关性指标来衡量改写前后召回商品的相关性。淘宝离线评估方法用来评估 query 和召回商品标题的相关性。
increment :query 改写可以增加商品召回的数量,解决'few-recall'的问题。因此定义增量指标来衡量 query 改写后是否增加了召回商品的数量。
hitrate :定义命中率指标,如果搜索场景之外成交过的某件商品和原始 query 相关性大于一定阈值,那 query 改写后应尽量召回该商品。
第三阶段 object alignment :强制模型学习改写 query 之间 pairwise 的偏序。
使用 PRO Loss 来 pair wise 地学习改写 query 之间的顺序:
模型的最终 Loss 为监督微调的 loss + PRO loss。
实验结果 模型离线效果如下表所示。从上图可以看到,与多种基线相比,BEQUE 与多种基线相比,在多个测试集上的 relevance 指标略为逊色,但在 incr/hitrate 指标上有极大幅度的提升。细节可参考原文。
蚂蚁
SLMRec: Empowering Small Language Models for Sequential Recommendation
背景及问题 主要研究推荐大模型的蒸馏问题,以满足线上推理时效性要求。
NLP 领域中 LLM 的冗余性启示我们,尽管 LLMs 在 NLP 任务上表现出色,但在 SR 任务中过大的模型并非必需。我们关注的是找到合适大小的 LLM,既能保证性能,又能减少资源消耗。现有的 LLM 驱动的 SR 模型如 P5、CoLLM 等虽然性能提升显著,但参数量膨胀问题严重,增加了 70 倍,这在面对海量日志和实时更新的环境时显得不切实际。因此,我们的研究旨在优化 LLM 在 SR 中的应用,通过减少不必要的模型大小,如利用 LLMs 的规模定律,以实现既能提升性能又节省资源的目标。
我们致力于研究如何通过缩小 LLMs,如 LLaMa-7B 的规模,来探究其在推荐中的实际效果,关注的是观察这种减小参数量对性能的影响。
模型蒸馏策略 我们选择 LLaMa 模型,教师模型为深度的,学生模型为较浅的,它们具有相同的隐藏维度。为确保特征方向的一致性,我们设计了一个余弦相似性损失 Lfsim,通过比较教师和学生模型每间隔 i 层的特征向量来测量相似性。
我们还加入了特征范数正则化,通过计算教师和学生模型每组间隔 i 层的特征差的平方和来量化 L2 距离。数学表达为 Lfnorm,目标是使学生模型的特征尽可能接近教师模型,以保持相似性和防止偏差。
我们引入了多源指导,通过学习额外的适配器 Wt 来细化学生模型的学习。
总损失函数 Ltotal 由三部分组成:知识蒸馏损失 LKD,特征相似性损失 Lfsim,以及多源指导的预测损失 Lmp。
通过联合优化这三种损失,学生模型能既学习教师知识,又能保持自身特征质量和对推荐的理解,从而提升其泛化能力和推荐表现。
其中,我们引入了三个超参数 λ1 λ2, 和 λ3,分别代表知识蒸馏损失、特征相似性损失 Lfsim 和多源指导预测损失 Lmp 的重要性。它们允许我们在知识学习、特征保持和理解推荐知识之间进行动态平衡。通过调整这些权重,我们可以优化模型,确保在学习教师知识的同时,保证特征质量和对推荐信息的处理,从而增进学生模型的泛化能力和推荐表现。
实验结果 实验,我们发现基于 LLM 的推荐方法在提取序列兴趣模式方面明显优于传统 TSR 方法。同时也证明了小型语言模型在适当策略下能与大模型抗衡。具体细节可参考原文。
小红书
NoteLLM: A Retrievable Large Language Model for Note Recommendation
问题及背景 小红书作为一个 UGC 的种草分享平台,用户往往对特定内容具有很强的连续了解欲望,比如出游攻略,往往希望多看几个笔记去完善自己的出游计划,此类推荐文中称为 item2item(I2I) 推荐,从业务实际出发,标签 (#号,hashtag) 和类目 (cate) 提供很强的指导性和相关性,但现有基于 BERT 的模型进行 Embedding 学习时,对标签或类别等元素只是作为文本的一部分,没有充分利用,由此做了 NoteLLM 的工作。
所提方法
推荐任务——在池子里选出 top-k 篇出来;
hashtag 生成任务——通过标题和内容生成 hashtag;
类比生成任务——通过标题、内容和 hashtag 生成类别;
训练过程采用多任务联合训练。即训练数据中构造召回 pairs 对,对 emb 进行对比学习;对 tag 和类目采用生成的 loss,最后将对比学习 loss 与生成 loss 叠加作为 total loss。
实验结果 实验证明了所提方法的有效性,特别在低曝光笔记上效果提升明显。具体可参考原文。
3 总结与讨论
将推荐场景动作和 item 进行序列化,以大模型方式预训练和应用,如 Meta。
语义表示与 ID_emb 的相互注入,增加特征的表示。如华为、百度、腾讯。
小方向应用探索,如阿里的 query 改写、蚂蚁的模型蒸馏、小红书的标签生成与 emb 增强。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online