大模型算法(二):推荐系统进阶

大模型算法(二):推荐系统进阶

第 4 章 推荐系统进阶

上一章介绍的推荐系统经典链路是推荐效果的基石,但要想进一步提升推荐效果,还需要深入一些具体问题来进行优化。本章将介绍一系列推荐系统进阶内容。推荐系统发展多年,有许多问题可以讨论,但限于篇幅,我们精选出一部分对推荐效果影响较大的因素,包括多样性、List-wise 建模、多种用户行为建模、消偏、图模型、探索与利用、动态权重 / 门控类模型。这些因素中的算法策略,并不是只能生效在推荐链路中的某一阶段,如果实践者能够在系统全链路进行优化,将会获得更大的收益。

4.1 推荐系统的多样性

随着推荐系统的发展,所分发内容与用户的匹配精度不断提高,但也萌发了许多新的挑战,多样性就是其中一个备受关注的方向。简而言之,多样性技术是在保障相关性的前提下,在不同的限定范围(即多样性是作用在什么范围内的对象上)提高推荐内容的丰富度,避免相似内容太过密集或扎堆,从而改善用户体验,促进推荐生态的长期健康发展。

宽泛意义上,多样性的限定范围既可以是用户侧也可以是非用户侧(如内容、作者),限定范围的维度通常是不同大小的时间和空间窗口,不同的限定范围对应不同的优化目标与作用方式。具体地,如果限定范围是用户的实时感知,多样性则应该更关注实时推送的内容列表组织。例如,对一个 NBA 资深球迷用户,把一次推荐返回的 NBA 集锦全部放在头部,在视觉体验上通常不如将其做适当的分散摆放。当多样性的时间维度拓展到用户的更长时间周期甚至全生命周期,此时既要全面覆盖用户的已知兴趣(尤其是冷门兴趣),也要持续探索并挖掘用户更多的新兴兴趣。例如,若将推荐内容限制在用户的 Top K 个固定兴趣,即使每次曝光的列表组织得很好,长期仍会造成用户的单调感。如果限定范围关注长时间窗口的内容侧,应该更侧重公平性,使各种类型的内容,尤其是小众内容,都得到分发的机会,避免系统被热门内容过分主导,改善长尾效应。如果限定范围关注较短期或实时的内容侧,则更应该关注新内容的冷启分发效率。

可以看到,多样性优化与一些特定的优化方向都有交集,如多兴趣覆盖、新兴趣探索、长尾分发、冷启动等。多样性也与推荐系统的惊喜性、新颖性、覆盖性关系密切 [61]。即使不以多样性作为直接目标,这些关联方向的持续改进,也会在一定程度上带动多样性的改善。

4.1.1 问题设定

1. 成因与优化

以多样性为直接目标的优化大多针对用户侧,下面的讨论主要围绕用户侧展开。关于用户侧推荐多样性不足的原因有很多,其中有两点经常被提及:

  1. 越推越窄的信息茧房之于长期多样性系统推荐内容给用户,收集用户的反馈,再从自己推荐的内容中学习用户偏好进行下轮推荐。在 “系统学习→系统推荐→用户反馈→系统学习→……” 这个闭环的不断循环中,系统更倾向向用户推广已熟悉的领域,用户逐渐被局限在一个相对狭窄的内容集合里,困在信息茧房中。
  2. 精排模型的单点预估之于实时多样性目前,业界主流的推荐精排模型大多基于 Point-wise,即对每个内容独立打分,内容之间互不影响,但用户感知到的其实是一个整体的列表。在单点打分模式下,相似内容往往有相近的分数,直接按预估分倒序取 Top K 推给用户,易导致相似内容扎堆,影响用户体验。

对于茧房效应,常见的优化手段是探索与利用(Exploration and Exploitation, EE),打破系统闭环,在满足用户历史已表达兴趣的同时,通过探索机制为用户寻找新的兴趣方向。当 EE 对象是用户没有或较少产生行为的内容类型,探索过程会使推荐结果更加多样,而更具多样性的推荐系统,也会使相对新奇的内容有更好地展现机会,4.6 节将对 EE 策略进行详细介绍。

针对实时曝光多样性,我们需要打破单点约束,做列表感知的推荐。一种方式是将精排升级为 List-wise,这类改造常常伴随样本组织与模型结构的复杂化,对在线的预估性能影响较大。另一种方式则是在单点预估之后,通过重排做多样性感知的列表组织优化,也是目前业界大规模应用的主流方式。

需要注意的是,多样性的缺失及优化并不是一个孤立的问题。在标准的漏斗式推荐系统中,漏斗上游下发的内容决定了下游可优化的天花板,“巧妇难为无米之炊” 同样适用于多样性问题。一个好的推荐系统,多样性能力需要全链路协同优化。为更好地解释这点,我们可以想象一个简单的推荐流程,并着重思考多样性在其中扮演的角色。

1)产品运营不断吸引和邀请众多领域的创作者,持续激励作者创作内容,为系统提供丰富且充分的内容供给。这里的丰富性包括很多粒度,如内容主题(如体育、亲子、金融)、曝光体裁(如视频、图文、直播)、创意(如标题、音乐、布局)等。

2)针对到来的用户请求,多条召回通路并行地从候选池中召回内容,这些通路的策略目标或模型结构各异,从不同方面对用户兴趣进行多而全的刻画,丰富召回结果。考虑到召回集合容易被用户的热门兴趣主导而缺乏新意,有些系统会设计专门的冷门兴趣挖掘、新兴趣探索等召回策略,并在召回策略中适当引入随机性。在多路召回合并时,融合策略尽量保障每路召回的内容均有进入下轮漏斗的机会。

3)作为召回与精排间的过渡,粗排常被看作弱化版精排。在多样性方面,精排会有的缺点同样发生在粗排,甚至可能更严重。为了避免召回阶段的努力功亏一篑,除了通过的精度优化,我们可以在粗排后设计集合筛选环节,权衡粗排的相关性与给到精排集合的多样性。这与精排与重排的关系类似,不过这里更关注整体集合,而后者则更关注列表组织。

4)精排在系统中有最强的相关性预估能力,但大多缺少列表感知能力。这并不意味着精排无事可做,某些多样性问题正是由精排预估的准确度不足导致的,例如,过于单调的特征体系会明显减弱模型对类似内容的预估区分度。此外,用户对所推内容多样性缺乏的容忍度,也与该内容与用户当前时刻兴趣的匹配程度密切相关。因此,更精准且更实时地捕捉用户兴趣的动态变化非常重要,尤其是负反馈捕捉。精排侧的这些通用优化有助于改善多样性。

5)重排作为最后一个阶段,扮演了内容组织者的角色,直接决定推给用户的有序列表。重排需要在列表视角下更好地权衡相关性与多样性。重排也可配合前链路进行更多灵活的干预,如冷门兴趣与新兴趣内容的扶持、用户负反馈内容的打压等。重排是多样性效果的兜底。


2. 评测与目标

目前,多样性并没有一个统一且明确的严格定义与指标体系,具体指标的选择与优化目标及场景有关。如在商品推荐场景,监测粒度可以是商品类目、店铺等级、价格段;在内容推荐场景,监测粒度则可以是内容主题、作者、体裁等,评估指标则可视业务目标灵活选择。以类目为例,最常见的观测指标是人均类目曝光数,还可以结合更多因素设计指标,如人均新类目曝光数(关注发现性),基于用户各类目的曝光占比分布计算基尼系数或信息熵(关注类目分布)。我们还可以基于内容的两两关系定义观测指标,如 ILAD(Intra-list Average Distance)指标,其定义为用户所曝光内容两两间距离的平均值。

与其他优化环节不同,作为系统优化的一种手段,多样性可以作为优化目标,但通常不是最终目的。在实际应用中,我们需要结合场景特点,基于充分的数据与实验分析,建立多样性与核心目标间的关联。这类核心目标有时不好直接优化,如用户的月均活跃天数,但可通过多样性优化或其他环节对过程指标的优化得到改进。

作为对比,一个点击率预估模型可以通过 AUC 指标持续优化,不断提升排序精度,从而提升线上点击率。但多样性不是越高越好,多样性优化通常需从线上真实反馈中评估,确保多样性指标的提升确实改善了(或者至少没有恶化)核心指标或核心指标关联的过程指标。

本小节对推荐系统的多样性进行简单介绍。多样性的优化需要系统全链路的协同,与很多特定的优化方向有交叉,这些关联的环节与方向会在其他章节重点介绍。本小节后续的讨论将聚焦在多样性感知的列表组织,通常也是提起多样性时外界讨论最多的话题。为便于讨论,这里将问题形式化为从n个候选中选出由m(m<n)个候选组成的推荐列表,使其同时满足较强的相关性与较好的多样性。

4.1.2 相似度度量

对多样性进行具体的优化前,我们需要对其进行量化度量。多样性度量的好坏是影响算法效果的关键。实践中常从相似度或距离的角度进行度量(距离可转换为相似度),即多样性度量可转换为相似度度量,本小节重点介绍相似度的度量。

即使用候选自身的属性标签作为表征。例如,在电商场景中,根据具体的优化目标可选择商品的类目、品牌、店铺或价格段等属性刻画商品。除了自有的静态属性,我们还可以通过知识挖掘、后验分析等方式构造更多有实际业务价值的标签。实践中,基于属性的候选表征常用于基于规则的约束与打散。

(2)基于向量的候选表征

用向量作为候选表征,也是目前主流多样性算法的表征方式。常见的向量表征有以下几种。1)基于统计。例如,在文本推荐中,通过词袋模型构造 Multi-hot 向量或者通过 TF-IDF 向量表征文本。2)基于行为学习。常见做法是通过用户与候选的历史交互行为学习向量表征。例如,双塔召回模型中候选塔学习的向量是基于用户 - 候选行为图,通过 Word2Vec 等图学习方法得到的。3)基于内容学习。基于候选自带的多媒体内容(如视频、图片、文字、声音等)学习多模态向量。目前的流行做法是使用效果优异的开源模型作为预训练模型,再结合应用场景进行数据微调,从而生成更精准的多模态向量表征。

实际应用中,候选表征的选择往往和场景特点、优化目标强相关,需要考虑的因素会更复杂。例如,基于行为学习的表征,通常要求足够多可利用的用户行为,可能不适用于刚起步或本身行为就很稀少的场景,通过不同场景的迁移学习有时可缓解该情况,如在小场景引入主场景行为、在广告场景引入更丰富的推荐场景行为等。

由于推荐系统的长尾效应,用户在冷门候选或冷启动候选上的行为非常稀少,易导致向量学习不充分。如果在所学习模型的输入中还引入了大量后验统计特征,这一问题会加剧。基于内容的多模态表征可避免该问题,但完全丢弃用户行为信息,在很多业务场景的实践中并非最优解,尤其当多样性并非完全可由视听信息刻画时。一个可行的方案是考虑两者的结合,如只使用多模态信息与固有属性作为特征,再通过图学习算法从 “用户 - 候选” 行为图中学习候选向量。

还需注意,要确保表征信息与多样性的优化目标对齐。例如,如果希望在不同价格层面呈现的商品丰富度不同,却只以商品的图片多模态向量作为表征,则可能很难学到价格信息。在某些场景,为灵活满足不同的业务需求,会融合多个不同侧重维度的表征向量,这种融合可以在一开始就由一个模型来学习,也可以是独立学习后通过特定转换、拼接,以使相似度评估达到优化预期。

对于多样性优化而言,候选表征是最值得花功夫去检验与持续改进的环节之一,做好数据分析如准召评估、人工抽检、异常分析等是很有必要的。

4.1.3 约束规则

随着 AI 算法的持续发展与算力加持,现代推荐系统的智能化与学习能力有了长足进步,但依然无法达到预期,实际上也几乎不可能达到完全完美的状态。针对算法可能疏漏或难以简单覆盖的情况,工业级的推荐系统通常都包含很多人工定义的约束规则,从而改善用户体验,保障特定的业务要求。例如,用户每次会话开始时的第一次或前几次请求,作为短时间的第一印象,对用户后续体验有较大影响。为提高这几次请求的用户体验,一个常见规则是,这几次请求的前 K 位不能是强营销类内容。又如,为了保护特定人群如青少年,可以对全量的候选集合进行筛选,只允许推荐内容来自特定集合。

4.1.4 最大边际相关

最大边际相关(MMR)最初用于信息检索领域,它希望在保证文本与检索目标相关性的同时降低所选文本的冗余度。早在 20 世纪 90 年代 MMR 就被提出了,至今仍被广泛使用,在很多工业级推荐系统的多样性算法中,都可以看到 MMR 或类似理念的影子。

(2)价值组合

利用特定组合定义综合价值,可使推荐结果兼顾相关性和多样性。除了式 (4-1) 中的线性加和,其他组合形式如乘法、幂指都是可行的,后面还会介绍基于行列式的组合。组合问题也可通过带参数的模型学习求解,这时会涉及更多的细节设计,如监督目标的选择。确定基础的组合形式后,可以灵活调整以进行更多优化,如相关性与多样性的重要度平衡、不同用户对多样性的偏好差异、不同场景的多样性要求等。在大趋势上,综合价值会逐步往更加个性化、更加动态、可学习的方向发展。

(3)列表搜索

相关性项与多样性项的定义与组合方式决定了具体的优化目标,而列表的搜索就是对应的求解过程。通常而言,此类优化问题并不具备最优子结构,找到精确的最优列表是 NP-Hard 问题。很多算法通过贪心算法搜索次优列表,用贪心选择的顺序代表列表位置,实践中这样得到的列表效果往往还不错。但对于某些算法,即使退化到贪心求解,仍可能产生较高的性能损耗,此时需要设计更高效的贪心算法。如何在性能约束下,进一步放大搜索空间是重要的优化方向,如可高效求解的优化目标设计、BS、多表候选生成等路线。

大多数多样性算法都可以拆分归纳至上述三点。如何设计更合理的价值定义(尤其是多样性的度量)、更好的组合方式、更高效的求解算法是学界和业界仍在持续研究与探索的课题。

4.1.5 行列式点过程

4.1.6 相关拓展

在一般的推荐场景中,用户发起请求,推荐系统在最终阶段从 N 个候选中返回 K 个物料供用户浏览,MMR 和 DPP 均可应用在 N 选 K 的过程中。本小节将介绍多样性算法在实际应用中的一些改造与拓展。

2. 滑动窗口

如果单次请求返回给用户的物料数较多(如 K=30),但基于特定的数据分析,希望只在较小的范围内考虑多样性,这时将多样性算法改造为带滑动窗口的约束形式是一个不错的选择。这个动机是合理的,因为在一个较长的会话浏览中,比起评估相隔较远的两个内容是否相似,用户对邻近内容的多样性感知会更强烈。

本节从业界实践视角介绍了推荐系统的多样性,希望读者能对推荐系统如何结合多样性算法有相对清楚的认识。关于如何提升系统的多样性,还有很多更深入的话题值得探讨,一些前沿的方向也在持续探索。整体而言,多样性算法的发展将更加注重用户的个性化(如多样性的偏好、频次间隔的敏感程度、长短期多样性的不同需求)和场景的多元化(如地理位置差异、购买决策发生的前后阶段、周末及周间习惯等),千人千面、千景千面的多样性优化会成为常态。与此同时,如何设计参数可学习的多样性算法,如何结合长期价值的强化学习范式,从而更好地引导差异化调控,也需要更多的探索和研究。

4.2 List-wise 建模

在推荐系统中通常对用户 - 物料进行 Point-wise 建模,但是推荐系统的最终目的是给用户推荐一个物料序列,它更需要 List-wise 建模能力。从用户的角度来说,用户在推荐系统中的行为通常是带有方向性的,排在前面的内容有可能会对用户的后续行为产生影响,因此从逻辑上说,List-wise 建模应该能够比 Point-wise 建模更好地捕捉用户兴趣。一提到 List-wise,人们比较容易想到的是排序学习(Learning To Rank, LTR)方法。推荐系统的 List-wise 建模确实是从 LTR 发展起来的,并经历了多次改进,逐渐形成了一套行之有效的方法论。

在推荐系统中,List-wise 建模最常见的应用场景是重排,而在本书第 3.4 小节已经介绍过重排相关内容,本节着重介绍单序列生成的 List-wise 建模方法。本节主要内容分为三部分:①从 LTR 讲起,介绍一些基于 LTR 的拓展方法;②主要介绍一类特定的序列生成方法,这类方法在生成器的训练中融合了评估器的评估,是一种 “生成 + 评估” 的端到端方法;③讨论一下生成式建模方法。

4.2.1 LTR 方法

1. 传统 LTR 方法

LTR 方法是在深度学习爆发之前就已经发展起来的一套比较成熟的排序方法。随着搜索引擎的蓬勃发展,LTR 在当时的工业界已经有了广泛的应用。LTR 方法的问题设定和处理方式缘起于搜索场景,但在推荐场景中依然能够发挥重要作用。本书把深度学习时代之前的 LTR 方法称为传统 LTR 方法,下面将从问题设定、评价指标和损失函数这三个方面进行简单介绍。

4.2.2 评估式生成方法

下面讨论一类新的生成方式。它包括一个生成器和一个评估器。它本质上还是一个生成器,评估器的作用是为生成器的训练提供学习信号。评估器的构建并不依赖于生成器,而是直接从用户日志中学习评估任意序列好坏的能力。可以把评估器看成一个虚拟环境,生成器通过与这个虚拟环境交互,来学习总回馈最大的序列生成策略。一些文献把这种生成方式称为 Evaluator-Generator 范式 [59]。

在上面的定义中,奖励函数就是评估器发挥作用的地方。如果没有评估器,奖励只能来自真实用户反馈。在这种情况下,学习过程必须是行为策略与目标策略相同(on-policy)的:系统需要在线做决策,并根据回收的实际用户反馈调整决策策略。当有了评估器之后,奖励就可以通过评估器计算出来,系统可以利用 off-policy 方法进行学习,数据效率也会大幅提升。

图 4-8 对评估器和生成器的协作流程进行了简要说明

离线训练流程分为两个阶段。第一个阶段是评估器训练。评估器通过用户日志进行训练,直至收敛。这个阶段通常是在生成器开始训练之前就已完成。第二个阶段是生成器训练和评估器服务。在这个阶段中,生成器基于用户日志开始训练,而评估器只进行推理。生成器分为编码阶段和解码阶段。在编码阶段,它根据初始序列计算编码后的隐状态;在解码阶段,它从候选集合中选择物料依次填入每个位置,直到所有位置填满。然后,它将生成的序列发送给评估器进行评估。评估器给出评估结果,并作为奖励被用于生成器的训练。

在线上推理阶段,推荐系统首先获得初始序列,然后发送给生成器,经过生成器的编码 / 解码阶段生成物料序列,发送给用户。值得注意的是,在线推理阶段所使用的初始序列应该与训练阶段相同,否则会出现不一致。例如,它们都可以采用精排顺序作为初始序列。

除此以外,为了把整个流程串联起来,还需要回答下面几个问题:①评估器如何构造?②如何定义奖励?③奖励如何在训练生成器时生效?

下面通过一个典型例子 GRN (Generative Rerank Network) [60] 做简单介绍,更多案例详见文献 [48−49,51]。

(1) 构造评估器

GRN 中的生成器部分,与前面介绍的指针网络比较类似,就不再赘述了。这里主要介绍 GRN 的评估器部分。

网络结构:从逻辑上说,在评估器中有两种交互信息需要建模:一种是用户特征和整个序列之间的交互;另一种是序列内部两物料之间的交互。前者建模的是用户意图 / 兴趣的变化,而后者建模的是序列中不同物料之间的相互影响。在 GRN 中有两个网络:一个是 Bi-LSTM(双向 LSTM),用于前者的建模;另一个是 Self-Attention 网络,用于后者的建模。将这两个子网络的输出向量输入一个多层神经网络,就得到了最后的输出,如图 4-9 所示。

在这个方法中,生成器的训练实际上只使用了评估器的预估结果,而评估器是通过用户反馈数据独立训练的。也就是说,生成器是通过评估器间接地利用了用户真实反馈。和直接利用用户反馈数据进行训练相比,这种方式有两点好处。第一,它提升了训练数据和标签之间一致性。在 Seq2Slate 方法中,生成模型训练所使用的标签并非来自生成器生成的那个序列,而在这里,训练所使用的标签来自评估器对当前序列的评估,消除了这种不一致性。第二,它增加了可使用的训练数据。在有评估器之前,只能利用日志中的实际反馈来训练生成器,数据量有限。在有评估器之后,对任意序列都可以给出评估结果,大大增加了可用于生成器训练的数据量。

4.2.3 生成式建模方法

近些年来,生成式 AI 发展得如火如荼,典型的工作如大语言模型 ChatGPT、图像生成系统 DALL-E(https://openai.com/index/dall-e-3/) 和视频生成系统 Sora (https://openai.com/index/sora/) 等。从生成式的角度来看推荐系统的 List-wise 建模,它本质上就是一类生成任务,只不过生成的内容不是文字、图像、视频,而是推荐的候选物料。一个很自然的问题是,生成式方法是否也可以应用在推荐系统的 List-wise 建模中?本小节将探讨这个话题。

4.3 多种用户行为建模

4.3.1 用户行为

《孙子兵法》有云:“知己知彼,百战不殆。” 说明在战争中如果对敌我双方的情况都能清晰地掌握,那么打起仗来就会立于不败之地。这句古话讲的是战场上情报的重要性,其实在推荐系统里 “情报” 同样非常重要。如果想建立一个让用户满意的推荐系统,那么掌握用户的 “情报” 就是非常重要的一个环节。

那么推荐系统里的 “情报” 是什么呢?战场上的情报包括敌方的军事单位的行动信息,而掌握了行动信息就可以针对性地实施进攻或者防御,同样在推荐系统中用户的行动信息也非常重要,掌握了用户的行动信息,就可以设计让推荐系统做出对应的反馈,从而改进推荐内容的效果并提升用户满意度。

用户在推荐系统中的行动就是用户与整个产品之间的交互行为,这些交互行为可能是显式的动作,比如点击、点赞、屏蔽、放大图片等;也可能是隐式的动作,比如长停

4.3.2 常见的建模方法

留、短停留、快速滑动等。推荐系统通过记录这些行为建立起用户的数字副本,准确地刻画用户对内容的反馈。不同行为对应了用户对内容、功能不同的喜爱、厌恶程度,以及满足用户不同的需求,比如,收藏动作通常会指向满足用户学习、关注、记录的需求,因此这类内容往往会有更好的质量,那么通过收藏这个行为就可以间接地调控这类内容的分发。

接下来会介绍不同产品中用户行为的表现与其背后的用户动机与含义,期望读者可以对 “用户行为” 这一话题有更深的理解。

(1) 淘宝

首先来看一个淘宝的商品详情页,这是一个典型的电商 APP 的交互行为设计,如图 4-12 所示。

这个页面有一些非常醒目的交互元素,这些元素也分别对应了一些用户的需求,以及对商品的态度。

  1. 分享。通常代表用户通过自己的社交关系传播这一个商品,在通常意义下分享带来的回流会有一定比例的进一步的购买行为,因此分享是一个可以直接鼓励 GMV 的行为。不过一些猎奇等类型的商品同样会有较高的分享表现,但是回流带来的 GMV 较差,因此对分享后价值的建模可以更精确地鼓励那些有更好的销售潜力的商品。
  2. 店铺。这个行为代表的含义并不明确,最佳的建模这个行为需要进一步建模进入店铺后的用户行为,如店铺内的浏览时间、浏览量、购买商品数等。
  3. 收藏。这个行为一般代表用户有后续购买意愿,对未来的 GMV 应当有正向收益。
  4. 加购物车和立即购买。明确地指向购买行为,对 GMV 有直接的鼓励作用。

从对这个页面的行为分析可以看到,除了传统的指向直接转化的行为以外,分享、收藏、店铺等入口都具有其独特的价值,这些价值对于长期 GMV、用户满意度起到了至关重要的作用。

(2) 小红书

接下来看一下小红书的图文详情页,这是一个典型的内容消费类 APP 的交互行为设计,如图 4-13 所示。

内容消费类 APP 的内容详情页的交互设计要更加复杂,其中一个原因是相比于电商类产品以订单为主要目标,内容消费类产品的用户满意度路径更多复杂,需要兼顾更多样的用户需求。

  1. 作者头像、昵称、关注。作者是内容消费类产品里最重要的部分之一,好的作者能吸引大量的用户,因此作者信息、作者个人页面的入口对于展示好的作者、提升用户对作者的感知是很重要的。
  2. 分享。用户往往会把精彩的内容分享给朋友,分享是少数可以直接拉动 DAU 的动作之一。
  3. 左右滑图。判断用户对这类多图内容的喜爱程度的标准之一就是用户是否看过了所有图片,如果用户愿意浏览全部的图片内容,那么用户满意的可能性就更大。
  4. Hashtag。通过话题聚合的手段可以让用户快速地找到感兴趣的主题并连续、深度地持续消费同类内容,这对提升用户体验是相当有用的。
  5. 评论区。评论显然是内容消费类产品中除内容自身外另一个非常值得阅读的内容,好的评论往往会让原始内容更加精彩,神评对用户的吸引力是相当大的。
  6. 点赞评论。评论排序的目标之一是把优质、精彩的评论排在更靠前的位置,评论点赞行为是一种判断用户对评论满意度的主要方式之一。
  7. 点赞内容。这个行为明显地反映了用户对这个内容的喜爱,推荐更多用户会点赞的内容显然可以改善用户的体验。
  8. 收藏内容。收藏相比于点赞行为在内容维度上会包含有用性、高价值性的差异,相比于点赞行为,收藏更加影响用户的长期的体验(如获得感等)。

从对这个页面的行为分析可以看到,内容消费类 APP 的用户满意路径是非常复杂的,不同用户对同一个内容也会有不同的交互行为和偏好的因素,因此提升用户的消费体验是一个对内容竞争力的综合性的提升,从多个方面去学习用户对内容的偏好才能最大化地提升用户消费满意度。

本小节将介绍一些常见的用户行为建模方法,在业界大家也经常把这些方法称为多目标建模方法,两者的含义非常接近并且很多场景下会相互交替使用。

为了让推荐系统可以在排序过程中充分地考虑到用户的各种行为,在推荐系统的精排阶段对用户各种行为的概率进行预估是必不可少的,早期比较传统的方法是给每个目标运行一个独立的模型,这个方法比较简单并且可以重复使用单目标模型的算法经验和工程架构,但是显而易见这个方法的弊端就是过多的模型带来了很大的维护成本和额外的资源消耗,并且由于用户行为的稀疏性,将不同行为分开建模对模型的预估精度也是不利的,于是多任务学习(Multi-task Learning, MTL)领域的方法很快就被工业界应用在了用户行为建模的工作上。通过让一个模型同时学习多个用户行为目标(任务),可以大大减少维护成本和资源消耗,迅速地成了用户行为模型建模的标准方法。

1. 多任务学习

多任务学习是一类机器学习方法,旨在同时学习多个任务,让模型具备同时处理多个任务的能力,并且可以很好地处理不同任务之间的差异。这类算法的目的是通过共享知识和模型参数,提高模型的泛化能力和性能,同时降低模型的复杂度和计算成本。

多任务学习的研究方向很多不会在本书中展开。在推荐系统中最早期,应用在用户行为建模的多任务学习方法之一是共享底座(Share-Bottom)方式。

Share-Bottom 是一种非常常见的多任务学习模型框架,它通过共享模型的底层参数来实现多个任务的学习,上层参数则被分配到不同的任务中。不同任务都具有可构建独立子结构和基于共享权重之上学习独立任务的特点如图 4-14 所示。

下面将通过介绍 ESMM来展示一下 Share-Bottom 的应用方法,ESMM 本身的建模方式对很多用户行为的建模,尤其是点击后行为的建模也有很强的指导意义。

2. ESMM

Share-Bottom 的建模方法非常直观,实现起来也比较容易,因此很早就被广泛地应用在各类应用场景中,其中应用广泛、知名度较高的建模方法之一是阿里巴巴联合建模点击率、转化率的模型 ESMM[88]。

由于文献 [88] 是一篇基于广告系统的算法设计的论文,这里简单介绍一下 CTR、CVR 在广告系统里的含义,同样的方法在推荐系统里基本是一致的,可以互相借鉴。

  1. CTR 是用户点击广告的目标,样本是全部展示给用户的广告,正例是用户点击的广告。
  2. CVR 是用户在点击广告后完成广告内部转化的目标(如下单付款、线下预约等),样本是用户点击的广告,正例是用户完成了某个转化目标。

也就是说,模型直接学习的是 CTR 和 CTCVR 两个目标,并以此间接地优化 CVR,从而起到了给 CVR 目标消偏的目的,同时因为模型使用了包含未点击的全部样本来训练,对 CVR 来说信息更加丰富了。

ESMM 的成功之处在于,它不但应用了 MTL 方法共享任务之间的信息,同时也通过刻画了标签之间的逻辑关系,从而更细腻地对多个目标进行建模,这对于用户行为繁多的推荐系统来说异常重要。对实际应用而言,如果用户行为之间存在逻辑上的递进关系,那么 ESMM 就是一个不错的起点。

从 ESMM 的建模中可以看到,Share-Bottom 方法的建模方法是非常易用的,但是也因为这种方法过于简单,它会带来一些新的问题。下面简单分析 Share-Bottom 的优缺点。

Share-Bottom 的优点主要包括以下两点:①Share-Bottom 通过共享模型的底层参数,可以减少模型的参数量,从而提高模型的效率,降低模型消耗的计算和存储成本;②底层权重是共享的。对于一些稀疏目标的预估精度可能是有帮助的,因为它可以将多个任务的知识和信息整合到共享的权重中,从而提高模型的灵活性和准确性。

Share-Bottom 的缺点主要包括以下两点:①模型的精度可能会受到影响。Share-Bottom 通过共享模型的底层参数实现了各个任务之间信息的共享,这个方法一方面会带来共享信息的增益,但是可能会导致模型的精度受到影响,尤其是当模型的各个任务之间关联性差,或存在意料之外的对共享权重部分更新的不一致性(有时这个问题被称为 Negative Transfer);②不同任务之间如果存在较为悬殊的样本量差异或权重差异,可能会导致底层共享的权重严重地向一部分目标倾斜,从而造成另外一些目标的效果下降。

3. MMoE[89]

MMoE 全称 Multi-gate Mixture-of-Experts,是谷歌团队在 KDD 2018 发表的一篇论文中提出的,MMoE 及其改进模型一经推出就备受关注,迅速在工业界推广落地,在很多场景都取得了不错的效果。

在开始介绍 MMoE 之前先简单介绍 MoE(Mixture-of-Experts)。MoE 是一类在建模过程中应用多个专家网络进行计算的方法,在使用多个专家模型的基础上训练一个整体模型,最终给出预估结果。MoE 算法通常用于处理复杂的数据集,这些数据集可能包含多个不同的子集以及对应的独特特征空间。

MoE 算法的核心思想是将整个问题拆分为多个不同的子问题,每个子问题对应一个专家模型,然后 MoE 算法将这些专家模型的输出合并成一个整体模型的输出。通过这种方式,MoE 算法可以使用多个专家模型来处理复杂的数据集,同时保持整体模型的简单性和可解释性。

了解一个 MoE 建模方式下的 MTL 模型的典型结构,这会帮助我们进一步理解 MoE 的改进版本 MMoE。

图 4-16 展示了一个包含了两个不同任务的 MoE 模型的网络结构,其中包括了三个专家网络(Expert)和一个门网络(Gate)。三个专家网络输入原始特征后计算出的结果通过一个门网络进行合并,门网络根据输入特征决定了不同专家网络输出结果的权重,三个专家网络的输出结果按照对应权重合并后分别输入两个独立任务的输出层,最后给出各个任务的预估结果。在实践中,专家网络可以由 MLP 构成,也可以设计更加复杂的网络结构,门网络通常会用 Softmax 函数对输出结果进行归一化以保证各个专家网络权重之和为 1。

从这个结构中可以清楚地看到,模型加强了对具有较大差异的不同输入特征的建模能力,每个专家网络可以只针对某个类型的输入特征强化学习效果,而门网络根据输入特征的特点来控制专家网络的权重,这样一方面可以充分地利用对应的专家网络的能力,另一方面也可以降低其他专家网络带来的负面影响。

但与此同时,在多任务的场景下这个网络结构也存在一个明显的缺陷:专家网络无法根据不同任务的特点来调整自身的权重,门网络也不能为不同的任务输出不同的专家网络权重。因此,这个结构对于多任务来说并不是最优的建模方法。MMoE 就是在 MoE 的网络结构的基础上,针对多任务场景的特点优化了 MoE 模型的网络结构。

在了解清楚 MoE 的建模方法之后,其实 MMoE 的改进点就非常显而易见了 —— 门网络受限于只能根据输入特征来决定不同的专家网络的权重,造成无法对多任务场景进行有效的优化,那么只要让每个任务都有一个独立的门网络,是不是就可以解决这个问题了?每个任务独立的门网络只学习对各自任务最佳的专家网络组合权重,不同的门网络之间没有相互的干扰,这就是 MMoE 的设计思路,其网络结构如图 4-17 所示。

MMoE 的网络结构和 MoE 几乎完全一致,差别在于每个任务都有独立的门网络。有的读者看到这里可能会有一个疑问:虽然门网络针对每个任务做了优化,不同任务之间的门网络不会相互干扰,但是不同的任务仍然共享了专家网络,那么这种共享机制是否会对模型的效果造成负面影响?实际上这是共享权重网络结构的通用问题 —— 共享带来了不同任务之间的知识的叠加,当这种叠加的收益大于它们之间冲突带来的损失时,叠加之后的效果就是正向的,反之效果就是负向(Negative Transfer)的。MMoE 的设计思路是希望这种叠加是 “有选择的”,尽可能只有当叠加对各个目标是正向时才会选择叠加对应的知识,因此相对来说 MMoE 结构更不容易出现叠加带来的负向。不过在实际应用场景中,有可能也会遇到,即使使用 MMoE 技术不同任务之间仍然会出现叠加负向的现象。

下面将介绍另外一类用于改进多任务学习效果的技术,在很多叠加负向的场景下这种方法都能起到一定的改进作用。

4. 平衡之道 —— 自适应权重的多任务学习

上文介绍的多任务模型的学习方法聚焦在模型结构的设计上,并探讨了如何让模型在学习不同任务的同时尽可能让各个任务之间的知识叠加产生正向收益,减小负向损失。而在实际的生产应用场景中经常会遇到一种更加难以处理的情况:不同的任务样本量差异极大,差异甚至在 1~2 个数量级。那么这对模型建模会造成什么样的影响?又该如何去优化这个模型?

机器学习在不同领域工作的方向、方法都有很大的不同,但是有一个问题在各个领域是基本共通的,这就是样本质量的问题。要训练一个性能很好的机器学习模型,高质量的样本是必不可少的,而决定样本质量高低的因素之一就是标签的分布。我们以一个经典的多分类模型作为例子:假设这个模型有 5 个分类,模型最终通过 Softmax 函数输出概率最高的分类作为样本分类的预估,这是一种非常常见的机器学习模型。假设收集到的样本里 5 个分类中的 1 个分类的样本量只占全部分类样本的万分之一,那么在不做任何额外优化的情况下,模型对这个极少样本类别的实际分类效果会非常差。这个时候通常会做一些样本增强、损失函数优化的工作,一方面丰富样本提升泛化能力,另一方面让模型对少样本分类的更新更敏感,防止模型训练过于针对其他分类而忽略少样本分类。

在对用户行为的多任务建模中,类似的问题是经常存在的,尤其是我们在建模一些稀疏动作目标时,这个问题尤为严重。然而实际的应用环境中,这类稀疏动作是非常多的,如收藏、关注作者、评论、添加购物车、支付订单、打赏文章、拍同款视频等。如果期望训练一个多任务模型建模用户的各个行为,那么不可避免地要去解决稀疏动作的少样本问题。而对于推荐系统来说,样本增强本身是难度很大的,通常需要实际观测用户对某个样本的反馈才能确定样本的标签,无法简单地做样本的扩充。那么,这个问题的解法就落在如何优化模型的损失函数,防止模型只关注少部分目标的学习效果,让各个目标学习变得更加公平的方法上了。

当代入这些实际应用中出现的情况时会发现,不同目标损失函数的权重之间绝对值的比较,并不一定代表这个目标对整个模型的影响力。需要一种可以量化调权后的目标对模型影响力的方法,这种方法给出的计算结果在不同目标之间也必须可比。有一种比较简单容易实现的计算方法:使用该目标调权后的损失函数在当前样本上计算出的梯度的 L2 范数。这一点很好直观地理解,模型权重的更新依赖于反向传播计算出的梯度大

小,如果一个目标贡献给整个模型的梯度越大,那么这个目标对相关的模型权重带来的影响就越大,而梯度的大小是可以公平比较的。计算不同目标贡献给模型的梯度大小的比例,就可以计算出各个目标实际对模型的影响力了。

通常来说,为了减少计算成本并直观地衡量目标对模型梯度的影响,会选择模型最后输出层的权重或最后一层共享层的权重作为梯度计算的参数。需要特别提出的是,这一点并不一定适用所有场景,不同的模型结构下可能存在更好的计算方法,如当多任务模型的共享权重设计较为复杂、存在多个共享权重以及这些共享权重与目标之间存在依赖关系时,就需要针对实际模型结构来调整梯度计算方法。不过,只要把握住 “体现出目标之间对同一权重的影响力的差异” 这一点,就比较容易地解决这个问题了。此时,对一些更为复杂的模型而言,需要计算和调整的不仅仅是每个目标损失函数的权重,还包括每个目标对某一个共享权重所贡献的梯度大小的校正,这些方法实现起来可能会稍微复杂一些,但是原理是相通的。

通过以上的分析,在定义清楚了目标收敛程度判定方法和目标权重比较方法之后,就容易推导出各个目标权重的调整方法了。其调整方向如下:相对收敛性越差,则权重应当越大,当收敛性一致时,不同目标的权重大小的比值,与各个目标对模型贡献梯度的 L2 范数的比值相对应,使得最终各个目标对模型贡献的梯度大小是相对一致的。

4.3.3 多目标融合

上文简略地介绍了常见的多目标建模方法,通过各种模型技巧对用户的不同行为进行预测,然后需要找到一种方法把这些预测结果统一地考虑进来,用于生成一个最终的推荐内容列表,这个过程称为多目标融合。早期的推荐系统目标比较少,设计思路也相对简单,因此还不涉及如何融合多个目标的问题,而现代推荐系统往往涉及几十个甚至更多个目标的融合,因此多目标融合逐渐成为推荐系统的一个重要研究方向。常见的推荐多目标融合的方法主要包括以下几种。

  1. 加权融合将多个推荐目标进行加权,以获得一个综合的推荐结果。加权融合的权重可以根据推荐目标的重要性、相关性、业务目标和实验情况进行调整。一般来说常见的有加法融合和乘法融合两类方法,这两类方法没有绝对的好坏,各有优劣。
  2. 模型拟合将多个推荐目标进行模型建模,模型的输入是各个多目标输出,输出是模型的融合结果。训练这个模型有很多种不同的方法,例如,①Learn to rank 类方法,模型学习的是结果间相对的顺序,通过对比损失来训练模型;②Session 目标类方法,比如追求最大化 Session 内的阅读数或者时长;③留存目标类方法,追求次留或者多日留存最大化的方法。

多目标融合是一个对细节非常敏感的工作,在融合各个多目标预测结果的过程中有很多细节需要考虑,即使使用了很多上文提及的技巧,一些细节上的不当处理仍然会对效果产生很大的影响。下面介绍根据实际调研经验总结的需要重视的细节。

  1. 不同活跃度用户的预估分是有较大差异的。我们以 CTR 来举例,APP 的高活用户与低活用户之间的后验 CTR 可能相差 10 倍,那么可以很容易地预见到在使用一套同样的融合公式的系统里,该公式对这两类用户的影响可能是非常不同的,并且很有可能其中一种的影响是在预期之外的,因此需要对各个目标的预估分做一些改进,以便于让公式可以更方便地适应不同类型的用户行为,这些方法包括但不限于分数归一化、离散的顺序、个性化调权等。
  2. 不同的用户行为的预估分之间也会有较大的差异。这一点是对上一点的补充,比如,同样是高活用户,一些用户偏爱评论,一些用户拒绝评论,那么对于评论目标来说这两类用户的预估分差异会非常大,这一点需要在调整公式的过程中加以考虑。
  3. 产品功能带来的行为偏差。当一个用户的行为发生与否和产品的功能密切相关时,需要认真地考虑这种关联性并在推荐系统中加以利用。比如,用户只有在登录后才可以发表评论,然而并不是所有 APP 都会强制登录,因此一定会存在一批用户因为某种原因没有登录从而无法发表评论。这种现象反馈到推荐系统中会让模型认为该用户属于拒绝评论一类的用户,这显然是不正确的。又如,APP 通常会有关注目标,但是对于已关注的作者来说用户是无法再次关注的,因此在用户关注某个作者之后的排序过程中如何处理关注目标的预估分,也是一个常见的需要考虑的问题。
  4. 不同内容的排序目标存在不公平的问题。这里以时长目标举例,长视频与短视频的播放时长有显著的差异,追求时长目标最大化会导致系统严重地偏向长视频,显然在这个目标上长视频与短视频是不公平的。这种不公平存在于大量的内容以及目标上,在设计融合方法时需要严谨地考虑这个问题。

4.4 消偏

推荐系统在各种各样的应用场景中已经取得了巨大的成功,极大地提升了人们筛选信息的效率。然而推荐系统仍然面临多种问题,这些问题对推荐系统的有效性、效率性和公平性构成了显式或隐式的挑战。其中一项重要的问题就是如何纠正推荐系统中广泛存在的偏差,纠正偏差的技术称为消偏技术。

4.4.1 关于偏差的例子

在探讨如何纠正或消除偏差前,先通过一些实际例子来更好地理解什么是偏差,进而会定义偏差与消偏。

例子一:在以用户主动打分为主要依据的电影推荐系统中,人们发现用户往往会从他们全部观看过的电影中,有选择性地挑选出一部分电影进行打分。一种典型的选择性现象是,得分最高和得分最低的电影更容易被打分,这可能来源于人们更可能对情感强烈的事物进行主动评价。虽然这种选择性可能是有意的也可能是无意产生的,但结果都使得用户打分数据不再全面或均匀随机,也就是出现了偏差。

例子二:无论在台式机大屏幕或者移动端小屏幕上,当用户第一眼观看到曝光的内容时,视觉注意力往往从屏幕左上角开始再向右、向下逐步延展。这一导致被放置在屏幕左上角的物料或信息更有机会被用户看见并注意到,而靠近屏幕底端或更靠近屏幕右侧的物料或信息更有可能被用户忽视。这种现象导致物料可能仅是由于位置不好未被用户反馈(如点击),而不是用户对它真的不感兴趣,即发生了所谓的位置偏差。

例子三:电商推荐中通常存在海量物料供用户选择,大部分用户无法与全部的候选物料都发生曝光 - 消费反馈。在有限次数的曝光机会下,系统倾向于给用户曝光那些预估更感兴趣的物料,从而实现效益最大化。在这种自我反馈机制下,推荐系统接收到的数据的分布显然不是均匀的,学习这样的数据更容易导致强者更强的马太效应。

结合上述例子可以看出,理想的推荐系统应该是建立在所谓的无偏环境(全面、均匀随机)中,推荐系统能够通过无偏数据学习到用户真正的兴趣,进而做出最优且公平的预估。反之,任何使得推荐系统的预估偏离这种理想情形的效应就可被称为偏差。相应地,在现有的数据或环境下纠正偏差的技术就可被归纳为消偏技术。

通常来说,忽视广泛存在于推荐系统中的偏差会对系统的效率性、公平性和探索性造成损害。系统中的模型如果直白地学习有偏的数据就会将偏差带到未来的预估中,导致对用户兴趣预估不准确,热门物料获得不应得的过量曝光,系统对于罕见的用户 - 物料缺乏最基本的判断力。但在一些最新的研究和实践中也发现,人为地添加经过设计的偏差有时也能提升系统的判断力,进而取得更好的效果,如负例采样中有意识地采样更难的负例等。

4.4.2 常见偏差和消偏方法

为了更加系统地介绍各种消偏技术,我们先进一步总结推荐系统中常见的偏差。

  1. 选择偏差(Selection Bias)[4]。用户对物料进行反馈时具有选择性,使得推荐系统接收到的数据不满足均匀随机假设。这种偏差通常在显式反馈场景中存在,如上面例子一中描述的用户给电影打分的场景。
  2. 曝光偏差(Exposure Bias)[81]。通过让用户仅能看到推荐系统认为他们更可能感兴趣的物料,或者其他有选择性地挑选方式,使得物料无反馈可能只是因为没有被曝光,而不是因为用户真的不感兴趣。这种偏差通常在隐式反馈场景中存在,例如上面例子三中描述的电商推荐场景。
  3. 位置偏差(Position Bias)[82]。仅因被展示的位置不同导致用户对物料的反馈不同,尤其是某些特别的位置更容易导致物料未被看到,从而形成负反馈,使得系统分不清是用户对物料真的不感兴趣还是根本就没有看见物料。这种偏差通常在隐式反馈场景中被讨论,如上面例子二中描述的场景。
  4. 从众偏差(Conformity Bias)[83]。当用户能够获知其他用户对物料的偏好程度时,易形成从众心理导致反馈结果偏离自身真实的兴趣程度。这种偏差在显式和隐式反馈场景中都存在,如贴上热销字样会使得商品更可能被购买。
  5. 流行度偏差(Popularity Bias)[84]。在实践中推荐系统的自反馈容易引起强者愈强的现象,常被称为流行度偏差。虽然和从众偏差有些难以区分,但流行度偏差更多是从物料角度讨论的推荐结果整体效应,而不是用户选择物料时的心理偏差。

下面将针对这些偏差分别介绍几种经典的消偏技术及其核心思路,并尝试讨论它们的优势和局限性。需要指出的是,消偏近年来持续成为工业界与学术界研究的热门方向,并在实践中有大量尝试,因此整体上消偏技术仍然在不断演化与改进中,本小节中介绍的技术只是各种消偏技术中较为经典与更具启发性的一部分。

1. 逆倾向打分

逆倾向打分(Inverse Propensity Scoring, IPS)[7] 是于 2016 年提出的经典消偏技术,该技术主要针对系统中的选择性偏差。

从因果推断的视角来重新审视推荐系统。给一个用户曝光一个物料,与在医药研究中给一个病人用一种特定的治疗药物是类似的。它们的共同点是只能观测到部分的结果。也就是说,病人(用户)与药物(物料)的关系对大部分是无法观测到的。那么一种可能有效的消偏方法是根据某种规则给能观测到的结果重新调整权重,使得重新调权后的观测数据在接下来的模型训练中能够发挥的作用与无选择偏差的数据相同。

4. 消除从众偏差

本小节中讨论对从众偏差的消偏技术。从众偏差强调的是用户天然有跟随他人选择的心理。需要注意的是,从众偏差和强调强者愈强的流行度偏差是有区别的,它更多地强调用户天然的心理,而不是系统分发的结果。因此从众偏差的发生存在一个先决条件 —— 用户能够获知其他用户的选择情况。例如,产品设计中有意识地让用户看见当前视频的播放次数、点赞次数等数据,或者用户能够通过评论条数等猜出物料是否被其他用户选择了。另一种从众偏差常常发生在社交关系中,例如在生活中有时你选择某个物料仅仅是因为你的好友买了相同的物料。因此,消除从众偏差的技术一般也从这两个角度出发设计具体方法。

5. 消除流行度偏差

下面介绍另一种会导致强者愈强的马太效应的流行度偏差。流行度偏差更多地被认为是推荐系统本身引起的。一方面,分发量大的物料产生的用户反馈也更多,也更容易收集到各种类型用户的反馈,因此通常认为模型对分发量大的物料学习得更加充分。进而,学习更充分的物料在将来也会更容易被模型选择分发给更多用户。另一方面,较为冷门的物料由于分发量小,模型对其学习得不够充分,因此匹配用户的时候就可能不够精准,导致分发量进一步减少。也可以从特征方面做出流行度偏差的解释。通常情况下,模型总会使用泛化特征,也就是会被不同物料的样本共同训练的特征。假设有 A、B 两个物料共有某个特征 F,而 A 是流行度很高的物料,B 是一个相对冷门的物料,那么对 F 的训练,A 就会起到主导作用,而 B 的影响相对就被淹没了。在使用 F 特征预估新的用户兴趣时,模型自然而然就更容易偏向 A。因此,消除流行度偏差的技术也大多从上面讨论的解释出发。

简单总结和归纳下大部分消偏技术的关键思路,希望这样的总结归纳能够启发更多的研究者和实践者。第一种思路是寻找能够刻画某种具体偏差的信息,将这种信息增加到模型中并做特殊的处理,让模型或者模型的一部分能够有效地学习到这些偏差。这种思路直观易于理解,但如何让模型仅学习某些偏差信息是这类方法需要面对的难题。在一些时候想要找到能准确描述偏差的信号也不是一件容易完成的事。第二种思路是类似因果图的方法[106],如图 4-19 所示,从带有偏差的观测数据往回倒推哪些因素会使得这样的结果出现,然后特别设计相应的模型结构来分离这些因素,这种思路下常常需要配合重新设计模型的损失函数。

最后介绍偏差的评估方法。一般来说评估方法都需要一个基准,这个基准应该是在没有偏差的环境中产生的。然而获取这种无偏数据,要么成本很高,要么本身就是难以实现的,例如,流行度是不太能完全从分发系统中消除的。因此在实践中,验证一种消偏技术能否有效,要么能够直接观察到消偏技术提升了用户反馈指标,要么是能够在某些维度上提升模型的训练指标。

前面介绍了对 5 种推荐系统中常见偏差的消偏技术,这些技术当然不是消偏技术的全貌。一方面近年来不断有各种各样的消偏技术出现,有些是针对其中一种类型的偏差而设计的,有些则被认为是相对通用的消偏技术,可以同时解决多种类型的偏差。另一方面,消偏技术的发展也是持续不断的,在学术界中多个顶级会议和期刊都为偏差和消偏技术设立了相关专题,工业界也出现了对具体消偏问题的相关竞赛。因此,当需要选择具体消偏技术的时候,一方面可以从经典成熟的方法中选择,另一方面也需要关注学术界和工业界中不断推陈出新的新方法。

4.5 图模型

4.5.1 图模型介绍

3.超图。超图是图的泛化,它由一个节点集合和一个超边集合组成。每个超边可以包含任意个节点,而不仅仅是两个节点。这样,超图可以表示更复杂和更高阶的关系,如多元关系、子集关系、非对称关系等。

除此之外,还有其他非常多的场景可以利用图模型进行效果优化,例如,在知识图谱推荐场景,图模型可以利用结构化知识库描述的实体(如人物、地点、事件等)以及它们之间的关系,为用户推荐相关的实体和查询结果;组合推荐场景(Bundle Recommend)希望推荐一组商品供用户整体消费,图模型可以建模 User-Item、User-Bundle、Bundle-Item 三种关系;在位置服务推荐场景,利用图模型对地理位置数据进行建模和分析,可以为用户推荐附近的餐厅、旅游景点、交通信息等。

3.稀疏信号缓解 推荐系统中,监督信号通常是稀疏的,以电商场景为例,目标行为(购买)相比其他行为(如点击、搜索、加入购物车等)是非常稀疏的。因此,只使用目标行为的推荐系统可能会有较差的性能。图模型可以通过在图上编码半监督信号,有效地整合多种非目标行为,从而显著提高推荐性能。同时,它还可以利用自监督信号参见自监督图学习(Self-supervised Graph Learning, SGL)[107],如图上的结构特征、节点重构、边预测等。这种方式可以通过设计不同的预测任务和损失函数,增强图上节点或边的表示,缓解信号稀疏问题。

4) 冷启动问题  推荐系统中一个重要痛点是冷启动问题。当新用户或物料加入时,由于缺乏相关历史数据,推荐效果可能较差,图模型通过关联和传递已知实体的信息来解决新用户或物料的冷启动问题。此外,图模型还可以利用不同域之间的关系和相似性,来传递和迁移用户或物料的特征和偏好,从而在冷启动阶段获取更好的推荐效果。

4.5.2 图模型在推荐系统中的经典实践

然而,图嵌入方法通常采用两阶段训练方案,第一阶段是特征学习阶段,第二阶段是下游任务预测阶段,两个阶段是独立的,两个阶段之间可能存在信息损失。如果特征学习阶段没有考虑到下游任务的需求,生成的节点表示可能不够优化。

DeepWalk 算法作为一种在线学习算法,具有很好的可扩展性,能够适应动态变化的图结构。同时,它也是一种无监督学习方法,不需要额外的标签信息就可以学习图中的嵌入表示。特别是随机游走过程可以非常方便地进行并行计算,利用多核架构可以大幅加速运行效率。

但是,随机游走作为一种可重复访问已访问节点的深度优先遍历,只考虑了图的局部结构信息,忽略了全局信息。此外,它也没有利用图中节点的属性信息。因此,DeepWalk 算法学习到的表示可能无法反映图的全局规律。另外,随机游走过程中游走次数和长度的参数选择也会明显影响结果,需要调节以得到最佳效果。

总体来说,DeepWalk 算法是图表示学习领域的一个开创性工作,计算效率高且易于实现,启发了后续很多基于随机游走和神经网络的方法,如 LINE、Node2Vec、SDNE 等。

上文讲到的 DeepWalk 算法是以深度优先的随机游走方式在图中进行节点的采样,LINE 算法则使用类似广度优先的方式,因此 LINE 算法可广泛应用于大规模网络的表示学习任务,是图嵌入领域的经典算法之一。与前人工作相比,LINE 算法在保证表示学习质量的同时,大幅提升了算法在亿规模图上的运行速度,为实际场景提供了计算高效的大规模图表示学习方案。

人工设定的元路径决定了随机游走后的节点序列只能符合这个路径。根据路径定义,每次游走只能选择符合路径的下一个节点类型。举例来说,如果定义的元路径是“作者-论文-作者”(APA),那么如果当前节点是作者时,下一步只能选择它邻接的论文节点,而不能选择其他作者或机构节点。这种现象反馈到推荐系统中会让模型认为该用户属于拒绝评论一类的用户,这显然是不正确的。又如,APP 通常会有关注目标,但是对于已关注的作者来说用户是无法再次关注的,因此在用户关注某个作者之后的排序过程中如何处理关注目标的预估分,也是一个常见的需要考虑的问题。

论文中还对 Metapath2Vec 算法的改进版本 Metapath2Vec++ 算法进行了介绍。Metapath2Vec 算法在计算 Softmax 函数时,忽略了节点类型信息,在采样负例时没有考虑样本是否与正样本属于同一个节点类型。因此,Metapath2Vec++ 算法为 Skip-Gram 模型最后一层输出层中的每个类型都指定了一个分布,并在相同类型的节点上进行 Softmax 函数归一化,如图 4-25 所示。不过在最后的实验环节,两种方案的差异不是很大。

(5) EGES 算法

上述算法都只是用到了图的结构信息,但没有充分利用到节点与边的其他属性。EGES 算法[122] 于 2018 年提出,它利用用户行为序列和商品的附加信息(如类别、品牌、价格等)来学习商品的向量表示,从而提高商品的相似性度量和推荐效果。

图 4-26 所示的是基础图嵌入(Base Graph Embedding, BGE)版本。首先,根据用户在一定时间窗口内的历史行为序列,如图 4-26a 所示,按照时序相邻关系构建商品的有向图,如图 4-26b 所示;其次,根据随机游走算法生成多个序列,如图 4-26c 所示;最后,根据 Skip-Gram 算法训练嵌入,如图 4-26d 所示。BGE 为了构图,只考虑用户在一定时间窗口内的历史行为,这样既能降低性能开销,又能适应用户兴趣的变化,但是这种方式对交互行为较少的物料不太友好,会导致向量学习不够充分,存在冷启动问题。

GraphSAGE 算法的流程主要包括以下几点。

  1. 对邻居节点进行随机采样,作为待聚合信息的节点,如图 4-28a 所示。设采样数量为 k,若节点邻居数少于 k,则采用有放回的抽样方法,直到采样出 k 个节点。若节点邻居数大于 k,则采用无放回的抽样。
  2. 生成目标节点的嵌入,首先聚合高阶邻居的特征,逐阶往内一共采样了二阶邻居,先将二阶邻居的特征聚合,再将一阶邻居特征聚合,最后聚合成目标节点的嵌入。如图 4-28b 所示
  3. 根据目标任务使用有监督或无监督的方式进行学习和参数更新,如图 4-28c 所示。

GraphSAGE 算法的关键是聚合函数的选择,文献 [120] 中给出了三种聚合函数。

  1. Mean Aggregator:将目标节点和邻居节点的向量拼接起来,然后对向量的每个维度进行求均值操作,将得到的结果做一次非线性变换产生目标节点的向量。这种方式可以有效地捕捉邻居节点的平均信息,但是可能忽略了邻居节点之间的差异性和顺序性。
  2. LSTM Aggregator:使用一个 LSTM 来处理邻居节点的向量序列,将得到的结果与目标节点的向量拼接,最后再经过一次非线性变换得到目标节点的向量。这种方式可以有效地捕捉邻居节点之间的顺序性和动态性,但是可能受到邻居节点顺序的影响而计算效率低下。
  3. Pooling Aggregator:先对邻居节点的向量进行一次非线性变换,然后进行一次池化操作(最大值或平均值),将得到的结果与目标节点的向量拼接,最后再经过一次非线性变换得到目标节点的向量。这种方式可以有效地捕捉邻居节点中最显著或最典型的信息,但是可能忽略了邻居节点之间的相关性和相互作用。

GraphSAGE 算法给图模型赋予了归纳学习的能力,从而使图神经网络在推荐系统场景下应用变得非常自然。下面介绍在工业界成功将 GraphSAGE 算法与自身业务结合起来并落地的 PinSAGE 算法[128]。

(4) GAT 算法

GAT 算法于 2018 年由 Yoshua Bengio 等人提出,它在 GraphSAGE 算法的基础上更加强调了邻居节点的重要程度,并采用注意力机制来进行建模提升了模型的能力。

3. 图神经网络框架

现有的深度学习框架如 TensorFlow、PyTorch、MXNet 等在深度学习网络设计和研究中大放异彩,不过它们都不能很好支持图神经网络的计算,所以许多具有代表性的图神经网络框架就被提了出来,也大大降低了学习和应用图模型的门槛。

目前比较流行的图神经网络框架有 Deep Graph Library (DGL)[129]、PyTorch Geometric (https://pytorch-geometric.readthedocs.io/en/latest/)、Euler(https://github.com/alibaba/euler)、PSGraph[130]、AGL(https://github.com/TuGraph-family/TuGraph-AntGraphLearning)、PGL(https://github.com/PaddlePaddle/PGL)等,其中比较具有代表性的是 DGL 和 PyG。

4.5.3 图模型的挑战和未来

随着互联网数据的急剧膨胀,大规模图神经网络的训练需要高计算和存储复杂度,工业界图规模的大小可以超过几十亿的节点和万亿的边,可占百 TB 的数据量,所以需要设计出能够高效利用有限资源的计算和存储策略。此外推荐系统中的数据和关系常常随着时间而发生变化。如何在图模型中优雅地处理这种动态性、时效性和可扩展性,也是一个值得研究的问题。

推荐系统中的数据通常具有稀疏性,特别是对于新用户或新物料而言,缺乏足够的历史记录。图模型在处理这类问题时,可能难以捕捉充分的信息。此外稀疏性会导致较差的空间局部性,在分布式训练中可能导致频繁的跨节点访问而带来大量额外开销。又由于图数据的幂律分布特性,会导致对图数据分区不合理的情况,从而存在复杂的负载均衡问题。

此外,针对动态图和异构图的处理,需要开发能够捕获图动态变化和多元信息的复杂图神经网络模型,在复杂度提升的同时,模型的可解释性与可视化能力也需要相应提高,以理解模型学习的机制和决策过程。

随着理论和工程实践的成熟,图神经网络在工业级大规模部署方面经验不断地积累经验,图神经网络方向会逐渐成为推荐系统中的重要分支。

4.6 探索与利用

4.6.1 问题与算法

本小节会介绍常见的探索与利用策略,包括老虎机(Bandits)[132] 问题的基础概念、相关算法和其中的探索与利用思想,以及这些思想在强化学习中的应用。

4. 线性 UCB

在真实应用中,除了每一轮的收益以外,算法可以额外获得一些关于摇臂和上下文的特征。例如,可以根据特征对交互进行分组(在推荐系统中,比较常见的是用户分组),如果不同分组的最优摇臂有显著区别,那么预期分组后再应用 Bandits 算法的收益天花板会更高。尽管上述基于统计的方法在寻找最优摇臂时是无偏的,但是其收敛级数为 O(klogn),也就是收敛的速度与摇臂的数量有关。当交互的总轮数 n 不够大时,UCB 这类算法很可能来不及收敛到最优摇臂。在这些情况下,研究如何利用这些特征,以便加快算法的收敛速度,提高 Bandits 算法的收益天花板,是非常有帮助的。

5. 强化学习中的探索与利用

在 Bandits 问题中,每轮只能从环境中获得一个摇臂的奖赏样本,并利用已经回收到的样本对摇臂的奖赏分布进行估计,因此需要在决策时平衡探索与利用,以达成最大化累积奖赏(或最小化遗憾)的目标。进一步讲,对于具有偏标记学习特点的决策问题,算法的决策不仅决定当前的收益,同时还因环境的反馈与算法的决策挂钩,进而通过影响对环境的认知进一步影响长期收益。因此,探索与利用是决定算法效果好坏的关键因素。

强化学习也是这样的偏标记学习问题,但强化学习本身并不是本节的重点,因此这里不再对它进行赘述,感兴趣的读者可以参考相关的文献或者课程。在这里仅讨论其中

与探索与利用相关的要素。尽管强化学习的设定更为复杂,例如,在 Bandits 问题的基础上,额外引入状态和状态转移概率等概念,奖赏也与状态和决策同时相关,但是在本质上,算法在交互的过程中,仍然只能从环境中获得与决策有关的部分信息,因此也需要考虑探索与利用的平衡。而让问题变得更加复杂的是,在强化学习中信息不仅指奖赏的分布,还包括了状态转移的概率。在每轮交互中,只能观察到决策以后,智能体根据潜在的状态转移概率从一个状态进入另一个状态,后续的决策、奖赏和状态的转移都只能基于这个新状态进一步发展。换而言之,在强化学习问题中,样本是以片段而不是以决策为单位的,一个片段可以包含很多轮决策。这样样本的成本变得更高,探索与利用失衡带来的遗憾也更大。

在强化学习算法中,E-Greedy 算法和 UCB 算法都是比较常见的方法。前者比较容易嵌入到任何类型的算法中,只要在决策时以一定概率进行随机的探索即可。而后者则主要应用在 Q-Learning 方法[136] 中,在决策时,在每个动作的 Q 值的基础上,引入置信上界,可以帮助算法避免落入仅利用的局部陷阱。

除此以外,还有一类非确定性(Non-deterministic)算法,在决策时天然保留了探索的能力。具体而言,这类算法在决策时,不会明确某一个动作,而是直接产出一个策略。我们知道,策略往往是类似动作空间的采样概率,因此在使用时,可以基于这个策略去生成动作,就会为整个算法引入随机性。强化学习中的策略学习(Policy Learning)方法就属于这一类非确定性算法。

4.6.2 业务应用

这里还需要讨论 Bandits 建模的粒度问题。在上述建模中,一般并不希望最终算法收敛的结果是空摇臂,因为这意味着竹篮打水一场空。然而,对于粗粒度的建模,例如,将全部用户请求作为一个 Bandits 问题,算法很有可能得到这样的结果。其原因在于,对于一个训练得不错的推荐模型,可以预期其在全部用户上的效果是不差的,此时针对整体请求进行探索,往往无法得到正向结果。此时,如果尝试将 Bandits 建模的粒度变细,例如根据一些属性对用户进行分组,每个用户分组作为一个 Bandits 问题,分别探索不同用户组的最优摇臂,很有可能会打开收益的空间,因为每个用户组的最优摇臂很可能不同。举个最简单的例子,对于男性用户和女性用户两个分组,其潜在最优的探索类目大概率是不同的。更极致的优化是进一步为每个用户个性化地寻找最优摇臂,在引入用户侧特征的条件下尝试线性 UCB 算法。与个性化推荐类似,为每个用户推荐其偏好商品的效果天花板,总要高于为全部用户推荐相同的、整体转化效率最高的商品。在实际的过程中,具体如何确定 Bandits 建模的粒度,需要综合考虑模型天花板和建模复杂度。

4.6.3 E&E 平台

由于推荐系统本质上是一个序列决策任务,各个环节可能都会涉及探索与利用的问题。结合探索与利用问题可能出现的环节、中间指标和相应的解决算法,可以将解决方案进行抽象,设计和实现一个探索与利用算法平台(E&E 平台)。该平台的好处在于,一方面保证在多环节生效的探索与利用算法的正确性,另一方面可以提高实现 E&E 策略的效率。后者是非常重要的,相比一般的精排优化,探索与利用方面的迭代存在多次但单次收益低的特点,一个好的 E&E 平台可以显著提高这些迭代的投入产出比。

E&E 平台流程可以抽象成配置平台、数据埋点、算法策略、推荐链路 4 个主要组成部分,如图 4-31 所示。

(1) 配置平台

配置平台是探索与利用任务的前端交互平台,可以使任务 ID 生效,支持用户选择任务的生效时间、生效流量范围、动作(摇臂)执行方式,并根据算法建模情况填写任务的基本信息。

生效流量范围如下:①对推荐内容和用户的圈选,通常以标准化离线表的形式提供;②与实验平台结合,对线上流量进行分流,例如,通过在 E&E 平台填写用于分流的关键字,并将关键字配置在实验平台上;③对于复杂的应用,可能还包括类似生效场景、生效体裁之类的信息。

动作执行方式如下:①在推荐系统中生效动作(摇臂)的具体环节,如召回过滤、粗排保送、精排调权等;②这些动作在上述环节中的使用方法,如过滤和保送的概率、调权分数等;③其他与动作执行相关的参数,例如,对于非确定性算法,需要约定生成具体工作的方法,例如无放回采样等。

算法建模信息如下:①需要进行探索的动作(摇臂)空间;②用于计算奖赏的中间指标融合公式以及时间窗口;③探索与利用算法及其超参数,如 UCB 算法及其 δ。

(2) 数据埋点

推荐系统线上执行链路在执行 E&E 策略的同时,会将执行的具体信息以参数的形式加入各种客户端动作(曝光、点击、加购、成交等)埋点。其中,参数中至少应包含当前流量生效的 <E&E 任务 ID, 动作> 列表;相关的数仓开发人员需对埋点进行过滤和加工,实时统计每个 <E&E 任务 ID, 动作> 上发生的各种动作的次数,并为算法策略模块提供查询接口。

(3) 算法策略

根据配置平台中的算法建模信息和查询接口提供的实时数据,实时地运行具体算法。具体而言,需要根据实时数据查询接口获取每个 E&E 任务的实时数据,并根据时间窗口和中间指标融合公式计算每个 <E&E 任务 ID, 动作> 的奖赏,而后根据选择的算法和超参数进行模型更新,为每个任务生成新的动作(摇臂)或者非确定性策略,同配置平台上的动作执行方式一起打包,以服务的方式提供给线上执行链路查询。

(4) 推荐链路

将配置平台中的信息回流到线上,提供给推荐系统执行。具体如下:①将物料和用户圈选信息进行聚合并回流到线上,关键字为各自的 ID、值为任务 ID 列表;②线上对物料、用户和实验平台命中的任务 ID 列表取交集,确定在当前流量上生效的任务 ID;③从算法策略模块提供的服务中获取每个生效任务的动作或者策略,以及具体的动作执行方式;④根据动作执行方式,在指定环节上生效动作或者策略,并埋点。

探索与利用是推荐系统中的重要问题。本节首先从样本分布、选择偏差和信息茧房的角度论述探索的重要性;然后通过 Bandits 问题的建模,介绍探索与利用的难点与关键,并介绍了 UCB、线性 UCB 等常见的探索与利用算法;接下来,围绕策略参数寻优和整体框架两个角度介绍了一些具体的业务应用;最后描述了 E&E 平台的设计思路与规范。探索与利用是比较基础的在线学习和在线优化问题,学术界有大量工作对该问题进行研究,在推荐系统中的算法与应用也肯定不限于本书介绍的这些内容。本节的主要目的是简述探索与利用问题的基本概念、难点和算法设计的原则,并尝试介绍在推荐系统中考虑该问题的必要性,以及一些常见的应用方法。

4.7 动态权重 / 门控类模型

为了满足人们日渐丰富的需求,现代推荐系统需要处理的流量入口也越来越多。以抖音电商推荐为例,用户可以从主推荐页刷到某直播间,也可以在直播广场刷到该直播间,甚至还能在抖音商城看见该直播间的主播在直播。不同入口的直播间的数据分布是不一样的,用户的诉求也是不一样的。在主推荐页,用户可能更看重直播的内容是否有趣;在抖音商城,用户可能更加关注这位主播推荐的商品性价比是否足够高。希望推荐系统能够很好地处理不同的推荐场景下,对模型的诉求不同的问题。事实上,除了流量入口不同,推荐系统对模型的要求不同之外,在很多的细粒度上(如新用户与老用户、用户的年龄、用户的性别等),模型关注的重点也是不一样的。

用直播的例子展开讨论所谓的 “对模型的诉求” 是指什么。直播间的内容是否有趣,很难直接刻画,假设用本场直播的 pv 点赞率来间接表示,通常情况下 pv 点赞率越高,直播间会越有意思,点击直播的概率也会更大;假设用主播正在讲解的商品的价格分桶表示商品的性价比,通常情况下,价格越低,观众的购买欲望更强,点击直播的概率更大。假设推荐模型是一个简单的逻辑回归模型,那么希望推荐系统的模型能够近似实现如下的需求:特征 pv 点赞率在推荐页的权重绝对值比在商城页大;特征商品价格分桶在商城页对应的权重绝对值要比在推荐页大,如图 4-32 所示。

这个问题似乎很好解决。对于推荐页的请求,用推荐页的历史样本,训练一个推荐页的模型,由于从样本的后验分布来看 pv 点赞率对点击的贡献比较大,因此这个模型大概率能够学到这个信息,用它来预估推荐页的请求价值(如点击率),应该是没有问题的;对于商城页的请求,用商城页的历史样本,训练一个商城页的模型,模型大概率也能够学到商品价格分桶对点击贡献比较大这个信息,因此用它来预估商城页的请求价值,大概率也是可以的。然而这种做法有很大的局限性。一方面每个场景单独训练一个模型,其资源开销非常大,当考虑更多细粒度(如新老用户、地区等)的时候,新增模型的开销非常大。除了模型的训练、部署外,维护成本也是非常高的。另一方面,一些数据较为稀疏的场景单独训练,模型收敛比较慢,甚至有时候无法收敛,这些场景通常是需要利用其他场景数据辅助训练。

那么直接用多个场景的数据不加区分共同训练一个模型可行吗?这种策略虽然资源的开销比较小,维护成本也比较低,但是也有很大的局限性。假设推荐页的样本数量是商城页的 100 倍,这种不加区分的共同训练,其结果就是模型参数会被数据丰富的场景所主导,无论在哪个场景,模型学到的都是 pv 点赞率更加重要这个信息。

聪明的读者可能会想到通过多任务方式建模多场景来解决这个问题,如图 4-33 所示。我们通过底层参数和结构共享,上层拆分预估的方式,让每个场景表示一个预估任务。将底层的模型结构和参数共享,用所有场景的数据训练,使得特征的表达被所有场景共用,然后在顶层利用各自场景的数据单独优化,解决了不同场景模型的参数不一致和关注重心不一致的问题。同时,由于顶层的参数数量比较小,因此模型更容易收敛。然而如果考虑细粒度的数据分布差异的话,这种策略也面临着新增场景的问题。首先,它需要新增一个顶层塔,最终顶层塔数量比较多,难以维护;其次,如果数据分布差异过大,共享的底层结构能不能抽取到一个和单独建模旗鼓相当的通用隐层表达也是一个很大的问题。

本节主要介绍一种个性化模型的技术,可以根据不同的场景特征个性化调整推荐模型的权重,以解决多场景数据协同与差异化建模的两难问题。

4.7.1 动态权重 / 门控类模型介绍

4.7.2 动态权重 / 门控类模型的建模方式

1. 场景差异化特征与场景差异化向量

在介绍动态权重/门控类模型的建模方式之前先来讨论场景差异化特征 z。在直播间的例子中,如果流量入口(如预览、商城)不同,那么模型的参数应该有所不同。无独有偶,在现代推荐系统中,会经常给模型提出各式各样的要求,例如,电商的新用户应该关注购物体验,老用户更加关注综合价值;珠宝类直播模型应该更关注商品质量,日用类主播可能价格更加重要。希望不同用户在使用抖音时对应的推荐模型不一样,甚至希望同一用户在面对不同品类的直播时,对应的推荐模型关注的重心也不一样。

从这个角度上来看,场景差异化特征更多应该是一个面向实用主义的名称。本节后续将预期模型在不同分层下参数不一致的分层特征定义为场景差异化特征。它通常包含了另一个假设,不同分层下数据的分布有比较大的差异。事实上,如果场景差异化特征不同,对应的数据分布比较一致的话,数据驱动的模型是很难也没有必要个性化的。有了场景差异化特征之后,通常还需要对这些特征处理成一个向量,以便模型对参数个性化。这个向量称之为场景差异化向量。那么如何选取场景差异化特征和向量?

4.7.3 动态权重 / 门控类模型的性能

下面进一步讨论动态权重 / 门控类模型的性能开销。本小节相对理论一点,对公式推导不感兴趣的读者可以跳过,只记住如下结论即可。

结论一:动态权重 / 门控类模型的两个流派,对模型输出的个性化调整和对模型参数的个性化调整。相比于传统的全连接层,前者解空间扩充更小,但模型的时间和空间复杂度变化不大;而后者的解空间更大,但时间和空间复杂度膨胀得非常厉害。

结论二:在考虑多层全连接的情况下,对模型输出的个性化调整可以看成特殊的对模型参数的个性化调整策略。在资源不够的情况下,可以考虑对模型输出的个性化调整。

结论三:矩阵的低秩分解、推理数学等效、权重共享是非常有效的效率优化常规手段,在模型效率遇到瓶颈时,应该首先考虑这 “三板斧”。通过这些策略,对模型参数的个性化调整能够拥有和传统全连接层相同甚至更低的推理效率。

常规全连接层的时间复杂度与空间复杂度如何?

两个秩为 1 的向量外积来拟合个性化模型参数的调节因子。因此,在一些资源比较紧张的场景,简单地采用对模型输出的个性化调整策略也不失为一个好策略。

通过低秩分解、推理数学等效和参数共享,对模型参数的个性化调整策略能够拥有和传统的全连接层相同甚至更低的推理效率。

受到式 (4-101) 的启发,我们利用两个秩为 1 的向量外积来拟合 2D 的个性化调整因子,反过来,能否通过矩阵的低秩分解来降低式 (4-101) 的复杂度,进而提高个性化模型参数的性能?

回顾一下本节的内容。首先,提出了一个现代推荐系统的经典问题,多场景下的模型服务问题。这里的场景不单单指流量入口,还包括其他细粒度分层数据分布差异的情况,例如,新老用户的行为差异、不同类目的商品推荐等。常规的建模会面临两难抉择:一方面,为每个场景单独训练一个模型,训练开销与维护成本都很高,而且难以利用多场景数据之间的分布共性来辅助学习;另一方面,用一个模型不加区分地训练所有场景数据,训练过程可能会被数据丰富的场景主导,数据稀疏的场景可能会训练不充分。

为了解决这个两难问题,本节提出了一种个性化模型的建模思路,它基于场景差异化向量动态地调整模型的隐层输出或者模型的参数。前者主要介绍了 LHUC 的技术,后者主要介绍了以 STAR 为代表的维护共享参数和私有参数的技术,以及以 M2M 为代表的元单元技术。此外,还分析了个性化模型的主要收益来源,它一方面扩大了解空间,另一方面也是注意力机制、知识迁移与特征交叉的应用。

对模型输出的个性化调整可以理解为特殊的模型参数个性化策略,它的复杂度比较低,资源开销比较小,在一些资源比较紧张的情景中是个不错的选择;而直接对模型参数个性化的策略,资源开销会成倍膨胀,通常是 10~100 倍这个量级。为了降低这个开销,本书以 APG 为例介绍了模型效率优化的 “三板斧”:矩阵的低秩分解、推理数学等效和权重共享

资源链接:图神经网络论文和代码

为了让你更系统地掌握图神经网络(GNN)的核心算法体系,我将前两轮的内容整合重构,按技术演进逻辑 + 应用场景分类,涵盖基础奠基、核心拓展、前沿方向三大板块,每篇论文均标注核心价值、发表信息、论文 / 代码地址,方便你按学习路径逐步深入。

一、基础奠基:GNN 核心范式(入门必学)

这部分是 GNN 的 “基石”,定义了图卷积、消息传递等核心范式,是理解所有 GNN 的前提。

模型

论文标题

发表

核心价值

论文地址

代码地址

ChebNet

Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

NeurIPS 2016

谱域图卷积开山之作,用切比雪夫多项式实现快速局部化图卷积

https://arxiv.org/abs/1606.09375

https://github.com/mdeff/cnn_graph

GCN

Semi-Supervised Classification with Graph Convolutional Networks

ICLR 2017

简化 ChebNet 为一阶近似,成为节点分类的经典基线模型

https://arxiv.org/abs/1609.02907

https://github.com/tkipf/gcn

MPNN

Neural Message Passing for Quantum Chemistry

ICML 2017

提出 “消息构建 - 聚合 - 更新” 框架,统一绝大多数空域 GNN 范式

https://arxiv.org/abs/1704.01212

https://github.com/priba/mpnns

GGNN

Gated Graph Sequence Neural Networks

ICLR 2016

引入 GRU 门控机制,适配图序列任务(程序分析、分子生成)

https://arxiv.org/abs/1511.05493

https://github.com/yujiali/ggnn

Graph Networks

Relational Inductive Biases, Deep Learning, and Graph Networks

arXiv 2018

提出统一 GN 框架,覆盖节点 / 边 / 全局状态更新,抽象 GNN 核心逻辑

https://arxiv.org/abs/1806.01261

https://github.com/deepmind/graph_nets

GNN 综述

Graph Neural Networks: A Review of Methods and Applications

arXiv 2018

系统梳理 GNN 分类、训练、应用,入门必读综述

https://arxiv.org/abs/1812.04202

无(综述)

二、核心拓展:解决 GNN 关键痛点(进阶应用)

这部分针对基础 GNN 的局限(如归纳学习、过平滑、异构图适配)提出解决方案,是工业界常用模型。

1. 大规模图与归纳学习

模型

论文标题

发表

核心价值

论文地址

代码地址

GraphSAGE

Inductive Representation Learning on Large Graphs

NeurIPS 2017

邻居采样 + 聚合函数,支持 unseen 节点泛化,解决大规模图训练问题

https://arxiv.org/abs/1706.02216

https://github.com/williamleif/GraphSAGE

FastGCN

FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling

ICLR 2018

重要性采样降训练复杂度至 O (1),适配超大规模图

https://arxiv.org/abs/1801.10247

https://github.com/matenure/FastGCN

SGC

Simplifying Graph Convolutional Networks

ICML 2019

合并多层卷积为一步,速度提升 10-100 倍,性能接近 GCN

https://arxiv.org/abs/1902.07153

https://github.com/Tiiiger/SGC

2. 注意力与异构图适配

模型

论文标题

发表

核心价值

论文地址

代码地址

GAT

Graph Attention Networks

ICLR 2018

自注意力机制为邻居动态分配权重,提升异质图表达能力

https://arxiv.org/abs/1710.10903

https://github.com/PetarV-/GAT

R-GCN

Modeling Relational Data with Graph Convolutional Networks

ESWC 2018

扩展 GCN 至多关系图,适配知识图谱等异构图场景

https://arxiv.org/abs/1703.06103

https://github.com/tkipf/relational-gcn

HAN

Heterogeneous Graph Attention Network

WWW 2019

层级注意力(节点 + 语义),建模异构图复杂语义关联

https://arxiv.org/abs/1903.07293

https://github.com/Jhy1993/HAN

RGAT

Relational Graph Attention Networks

ICLR 2019

为多关系图学习独立注意力权重,强化异构图建模能力

https://arxiv.org/abs/1904.05811

https://github.com/microsoft/tfgnn

3. 表达能力与深度 GNN

模型

论文标题

发表

核心价值

论文地址

代码地址

GIN

How Powerful are Graph Neural Networks?

ICML 2019

理论证明等价于 WL 图同构测试,是表达能力最强的 GNN 架构

https://arxiv.org/abs/1810.00826

https://github.com/weihua916/powerful-gnns

DropEdge

DropEdge: Towards Deep Graph Convolutional Networks on Node Classification

ICLR 2020

随机丢弃边缓解过平滑,支持训练 20 + 层深度 GNN

https://arxiv.org/abs/1907.10903

https://github.com/DropEdge/DropEdge

4. 图池化(图分类核心)

模型

论文标题

发表

核心价值

论文地址

代码地址

DiffPool

Hierarchical Graph Representation Learning with Differentiable Pooling

NeurIPS 2018

首个端到端可微池化,生成层次化图表示,提升图分类性能

https://arxiv.org/abs/1806.08804

https://github.com/rusty1s/pytorch_geometric

TopKPool

Graph U-Nets

ICML 2019

借鉴 U-Net,按节点重要性采样,实现图上下采样

https://arxiv.org/abs/1905.05178

https://github.com/HongyangGao/Graph-U-Nets

ASAPool

ASAP: Adaptive Structure Aware Pooling for Learning Hierarchical Graph Representations

AAAI 2020

结合节点重要性与拓扑结构,自适应保留图信息

https://arxiv.org/abs/1911.07979

https://github.com/ajay1593/ASAP

三、前沿方向:GNN 最新突破(研究 / 工业落地)

这部分涵盖近 3 年的前沿方向,包括图 Transformer、大模型融合、自监督、高效推理,适配前沿研究与工业落地需求。

1. 图 Transformer(全局依赖建模)

模型

论文标题

发表

核心价值

论文地址

代码地址

Graphormer

Do Transformers Really Perform Bad for Graph Representation?

NeurIPS 2021

结构编码 + 注意力偏置,让 Transformer 适配图结构,超越主流 GNN

https://arxiv.org/abs/2106.05234

https://github.com/microsoft/Graphormer

SAN

Specformer: Spectral Graph Neural Networks Meet Transformers

ICLR 2022

融合谱域卷积与 Transformer,捕获局部 + 全局依赖

https://arxiv.org/abs/2201.12826

https://github.com/DevilYangS/SAN

NAGphormer

NAGphormer: A Tokenized Graph Transformer for Node Classification in Large Graphs

ICLR 2023

图分块 Token 化,高效处理超大规模图节点分类

https://openreview.net/forum?id=8KYeilT3Ow

https://github.com/JHL-HUST/NAGphormer

2. 大模型 ×GNN(跨模态 / 知识增强)

模型

论文标题

发表

核心价值

论文地址

代码地址

GNN-LLM

Talk Like a Graph: Encoding Graphs for Large Language Models

ICLR 2024

图 - 文本对齐编码,实现 LLM 与图数据无缝融合

https://arxiv.org/abs/2310.04560

https://github.com/GraphPKU/TalkLikeAGraph

GraphEdit

GraphEdit: Large Language Models for Graph Structure Learning

arXiv 2025

LLM 驱动图结构生成 / 编辑,解决固定图结构局限

https://arxiv.org/abs/2502.12619

https://github.com/UnHans/GraphEdit

3. 自监督图学习(无标签数据)

模型

论文标题

发表

核心价值

论文地址

代码地址

DGI

Deep Graph Infomax

ICLR 2019

互信息最大化,图自监督学习奠基之作

https://arxiv.org/abs/1809.10341

https://github.com/PetarV-/DGI

GraphCL

Graph Contrastive Learning with Augmentations

NeurIPS 2020

图数据增强 + 对比学习,提升无标签场景鲁棒性

https://arxiv.org/abs/2010.13902

https://github.com/Shen-Lab/GraphCL

4. 高效推理与压缩(工业落地)

模型

论文标题

发表

核心价值

论文地址

代码地址

Node IDs

Node Identifiers: Compact, Discrete Representations for Efficient Graph Learning

ICLR 2025

向量量化压缩节点嵌入,内存降 90%+,推理提速 10 倍

https://openreview.net/forum?id=t9lS1lX9FQ

https://github.com/LUOyk1999/NodeID

GraphMLP

GraphMLP: A Simple yet Effective Baseline for Graph Representation Learning

NeurIPS 2021

抛弃消息传递,仅用 MLP + 图编码,速度极快,性能接近主流 GNN

https://arxiv.org/abs/2106.04051

https://github.com/facebookresearch/GraphMLP

四、常用 GNN 框架(快速复现)

框架名称

核心优势

代码地址

PyTorch Geometric (PyG)

易用性强,适配 PyTorch 生态

https://github.com/pyg-team/pytorch_geometric

Deep Graph Library (DGL)

高效处理大规模图,支持多后端

https://github.com/dmlc/dgl

TensorFlow GNN

适配 TensorFlow/TFX 流水线

https://github.com/microsoft/tfgnn

总结

  1. 学习路径:先掌握基础奠基类模型(GCN/MPNN)理解核心范式,再学习核心拓展类解决实际痛点,最后探索前沿方向跟进最新研究;
  2. 场景适配:节点分类优先选 GCN/GAT/GraphSAGE,图分类重点关注 DiffPool/TopKPool,异构图用 HAN/R-GCN,大规模图优先 FastGCN/NAGphormer;
  3. 落地工具:优先用 PyG/DGL 复现经典模型,工业落地关注高效推理类(Node IDs/GraphMLP)和大模型融合方向。

参考文献

[ 1 ] PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: bringing order to the web[J]. Stanford Digital Libraries Working Paper, 1998. DOI:10.1007/978-3-319-08789-4_10.

[2] 艾萨克森。史蒂夫・乔布斯 [M]. 管延圻,魏群,余倩,等译。北京:中信出版社,2011.

[ 3 ] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain[J]. Psychological Review, 1958, 65(6): 386.

[ 4 ] HERNÁN M A, HERNÁNDEZ-DÍAZ S, ROBINS J M. A structural approach to selection bias[J]. Epidemiology, 2004, 15(5): 615-625.

[ 5 ] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]. Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. New York: IEEE, 2001(1): I.

[ 6 ] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

[ 7 ] SCHNABEL T, SWAMINATHAN A, SINGH A, et al. Recommendations as treatments: debiasing learning and evaluation[C]. International Conference on Machine Learning. New York: PMLR, 2016: 1670-1679.

[ 8 ] VERMA S, DICKERSON J, HINES K. Counterfactual explanations for machine learning: a review[J]. arXiv preprint, arXiv:2010.10596, 2020, 2.

[ 9 ] IE E, HSU C, MLADENOV M, et al. Recsim: a configurable simulation platform for recommender systems[J]. arXiv preprint, arXiv:1909.04847, 2019.

[ 10 ] WANG L, LIN J, METZLER D. Learning to efficiently rank[C]. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. New York: ACM, 2010: 138-145.

[ 11 ] WANG L, LIN J, METZLER D. A cascade ranking model for efficient ranked retrieval[C]. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. New York: ACM, 2011: 105-114.

[ 12 ] LIU S, XIAO F, OU W, et al. Cascade ranking for operational e-commerce search[C]. Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 1557-1565.

[ 13 ] JIANG B, ZHANG P, CHEN R, et al. Dcaf: a dynamic computation allocation framework for online serving system[J]. arXiv preprint, arXiv:2006.09684, 2020.

[ 14 ] HUANG P S, HE X, GAO J, et al. Learning deep structured semantic models for web search using clickthrough data[C]. Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. New York: ACM, 2013: 2333-2338.

[ 15 ] JEGOU H, DOUZE M, SCHMID C. Product quantization for nearest neighbor search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(1): 117-128.

[ 16 ] ZHU H, LI X, ZHANG P, et al. Learning tree-based deep model for recommender systems[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 1079-1088.

[ 17 ] GAO W, FAN X, WANG C, et al. Deep retrieval: learning a retrievable structure for large-scale recommendations[J]. arXiv preprint, arXiv:2007.07203, 2020.

[ 18 ] CHEN R, LIU B, ZHU H, et al. Approximate nearest neighbor search under neural similarity metric for large-scale recommendation[C]. Proceedings of the 31st ACM International Conference on Information & Knowledge Management. New York: ACM, 2022: 3013-3022.

[ 19 ] MALKOV Y A, YASHUNIN D A. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(4): 824-836.

[ 20 ] BIN X, CUI J, YAN W, et al. Real-time indexing for large-scale recommendation by streaming vector quantization retrieval[J]. arXiv preprint, arXiv:2501.08695, 2025.

[ 21 ] ABERNETHY J, CANINI K, LANGFORD J, et al. Online collaborative filtering[R]. University of California at Berkeley, Tech. Rep., 2007.

[ 22 ] YANG X, ZHU Y, ZHANG Y, et al. Large scale product graph construction for recommendation in e-commerce[J]. arXiv preprint, arXiv:2010.05525, 2020.

[ 23 ] LI C, LIU Z, WU M, et al. Multi-interest network with dynamic routing for recommendation at Tmall[C]. Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 2615-2623.

[ 24 ] YAN J, JIANG L, CUI J, et al. Trinity: syncretizing multi-/long-tail/long-term interest all in one[C]. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery And DATA Mining. New York: ACM, 2024: 6095-6104.

[ 25 ] BURGES C J C. From ranknet to lambdarank to lambdamart: an overview[J]. Learning, 2010, 11(23-581): 81.

[ 26 ] CAO Z, QIN T, LIU T Y, et al. Learning to rank: from pairwise approach to listwise approach[C]. Proceedings of the 24th International Conference on Machine Learning. New York: PMLR, 2007: 129-136.

[ 27 ] WANG Z, ZHAO L, JIANG B, et al. Cold: towards the next generation of pre-ranking system[J]. arXiv preprint, arXiv:2007.16122, 2020.

[ 28 ] KLEINBAUM D G, DIETZ K, GAIL M, et al. Logistic regression[M]. New York: Springer-Verlag, 2002.

[ 29 ] XU C, LI Q, GE J, et al. Privileged features distillation at taobao recommendations[C]. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020: 2590-2598.

[ 30 ] RENDLE S. Factorization machines[C]. 2010 IEEE International Conference on Data Mining. New York: IEEE, 2010: 995-1000.

[ 31 ] JUAN Y, ZHUANG Y, CHIN W S, et al. Field-aware factorization machines for CTR prediction[C]. Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM, 2016: 43-50.

[ 32 ] COVINGTON P, ADAMS J, SARGIN E. Deep neural networks for youtube recommendations[C]. Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM, 2016: 191-198.

[ 33 ] CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems[C]. Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM, 2016: 7-10.

[ 34 ] GUO H, TANG R, YE Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction[J]. arXiv preprint, arXiv:1703.04247, 2017.

[ 35 ] HE X, CHUA T S. Neural factorization machines for sparse predictive analytics[C]. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2017: 355-364.

[ 36 ] WANG R, FU B, FU G, et al. Deep & cross network for ad click predictions[C]. Proceedings of the ADKDD' 17. 2017: 1-7.

[ 37 ] WANG R, SHIVANNA R, CHENG D, et al. Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems[C]. Proceedings of the Web Conference 2021. New York: IEEE, 2021: 1785-1797.

[ 38 ] ZHOU G, ZHU X, SONG C, et al. Deep interest network for click-through rate prediction[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 1059-1068.

[ 39 ] ZHOU G, MOU N, FAN Y, et al. Deep interest evolution network for click-through rate prediction[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2019, 33(01): 5941-5948.

[ 40 ] CHO K. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint, arXiv:1406.1078, 2014.

[ 41 ] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-11.

[ 42 ] CHEN Q, ZHAO H, LI W, et al. Behavior sequence transformer for e-commerce recommendation in alibaba[C]. Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. New York: ACM, 2019: 1-4.

[ 43 ] PI Q, ZHOU G, ZHANG Y, et al. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction[C]. Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York: ACM, 2020: 2685-2692.

[ 44 ] FENG Y, GONG Y, SUN F, et al. Revisit recommender system in the permutation prospective[J]. arXiv preprint, arXiv:2102.12057, 2021.

[ 45 ] ZHUANG T, OU W, WANG Z. Globally optimized mutual influence aware ranking in e-commerce search[J]. arXiv preprint, arXiv:1805.08524, 2018.

[ 46 ] GONG X, FENG Q, ZHANG Y, et al. Real-time short video recommendation on mobile devices[C]. Proceedings of the 31st ACM International Conference on Information & Knowledge Management. New York: ACM, 2022: 3103-3112.

[ 47 ] WANG F, FANG X, LIU L, et al. Sequential evaluation and generation framework for combinatorial recommender system[J]. arXiv preprint, arXiv:1902.00245, 2019.

[ 48 ] ZHANG J, MAO J, LIU Y, et al. Context-aware ranking by constructing a virtual environment for reinforcement learning[C]. Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1603-1612.

[ 49 ] WEI J, ZENG A, WU Y, et al. Generator and critic: a deep reinforcement learning approach for slate re-ranking in e-commerce[J]. arXiv preprint, arXiv:2005.12206, 2020.

[ 50 ] FENG Y, HU B, GONG Y, et al. GRN: generative Rerank Network for Context-wise Recommendation[J]. arXiv preprint, arXiv:2104.00860, 2021.

[ 51 ] HUZHANG G, PANG Z J, GAO Y, et al. AliExpress learning-to-rank: maximizing online model performance without going online[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(2): 1214-1226.

[ 52 ] XI Y, LIU W, DAI X, et al. Context-aware reranking with utility maximization for recommendation[J]. arXiv preprint, arXiv:2110.09059, 2021.

[ 53 ] YAN J, XU Z, TIWANA B, et al. Ads allocation in feed via constrained optimization[C]. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020: 3386-3394.

[ 54 ] AGARWAL D, CHEN B C, ELANGO P, et al. Personalized click shaping through lagrangian duality for online recommendation[C]. Proceedings of the 35th international ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2012: 485-494.

[ 55 ] ZHAO X, GU C, ZHANG H, et al. Dear: deep reinforcement learning for online advertising impression in recommender systems[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2021, 35(1): 750-758.

[ 56 ] LIAO G, WANG Z, WU X, et al. Cross DPN: cross deep q network for ads allocation in feed[C]. Proceedings of the ACM Web Conference 2022. New York: ACM, 2022: 401-409.

[ 57 ] XIE R, ZHANG S, WANG R, et al. Hierarchical reinforcement learning for integrated recommendation[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2021, 35(5): 4521-4528.

[ 58 ] HAO Q, LUO T, HUZHANG G. Re-ranking with constraints on diversified exposures for homepage recommender system[J]. arXiv preprint, arXiv:2112.07621, 2021.

[ 59 ] LIU W, QIN J, TANG R, et al. Neural re-ranking for multi-stage recommender systems[C]. Proceedings of the 16th ACM Conference on Recommender Systems. New York: ACM, 2022: 698-699.

[ 60 ] REN Y, YANG Q, WU Y, et al. Non-autoregressive generative models for reranking recommendation[C]. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2024: 5625-5634.

[ 61 ] KAMINSKAS M, BRIDGE D. Diversity, serendipity, novelty, and coverage: a survey and empirical analysis of beyond-accuracy objectives in recommender systems[J]. ACM Transactions on Interactive Intelligent Systems (TiiS), 2016, 7(1): 1-42.

[ 62 ] BORODIN A, JAIN A, LEE H C, et al. Max-sum diversification, monotone submodular functions, and dynamic updates[J]. ACM Transactions on Algorithms (TALG), 2017, 13(3): 1-25.

[ 63 ] CARBONELL J, GOLDSTEIN J. The use of MMR, diversity-based reranking for reordering documents and producing summaries[C]. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. New York: ACM, 1998: 335-336.

[ 64 ] KULESZA A, TASKAR B. Determinantal point processes for machine learning[J]. Foundations and Trends in Machine Learning, 2012, 5(2–3): 123-286.

[ 65 ] ABDOOL M, HALDAR M, RAMANATHAN P, et al. Managing diversity in airbnb search[C]. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020: 2952-2960.

[ 66 ] CHEN L, ZHANG G, ZHOU E. Fast greedy map inference for determinantal point process to improve recommendation diversity[J]. Advances in Neural Information Processing Systems, 2018, 31: 1-12.

[ 67 ] HUANG Y, WANG W, ZHANG L, et al. Sliding spectrum decomposition for diversified recommendation[C]. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York: ACM, 2021: 3041-3049.

[ 68 ] WILHELM M, RAMANATHAN A, BONOMO A, et al. Practical diversified recommendations on youtube with determinantal point processes[C]. Proceedings of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM, 2018: 2165-2173.

[ 69 ] LIU T Y. Learning to rank for information retrieval[J]. Foundations and Trends in Information Retrieval, 2009, 3(3): 225-331.

[ 70 ] SCULLEY D. Combined regression and ranking[C]. Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2010: 979-988.

[ 71 ] LI C, LU Y, MEI Q, et al. Click-through prediction for advertising in twitter timeline[C]. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1959-1968.

[ 72 ] YAN L, QIN Z, WANG X, et al. Scale calibration of deep ranking models[C]. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2022: 4300-4309.

[ 73 ] AI Q, BI K, GUO J, et al. Learning a deep listwise context model for ranking refinement[C]. The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2018: 135-144.

[ 74 ] PEI C, ZHANG Y, ZHANG Y, et al. Personalized re-ranking for recommendation[C]. Proceedings of the 13th ACM Conference on Recommender Systems. New York: ACM, 2019: 3-11.

[ 75 ] XI Y, LIU W, ZHU J, et al. Multi-level interaction ranking with user behavior history[C]. Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2022: 1336-1346.

[ 76 ] PANG L, XU J, AI Q, et al. Setrank: learning a permutation-invariant ranking model for information retrieval[C]. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 499-508.

[ 77 ] POBROTYN P, BARTCZAK T, SYNOWIEC M, et al. Context-aware learning to rank with self-attention[J]. arXiv preprint, arXiv:2005.10084, 2020.

[ 78 ] VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 1-10.

[ 79 ] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014, 27: 1-11.

[ 80 ] HOCHREITER S. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[ 81 ] BELLO I, KULKARNI S, JAIN S, et al. Seq2Slate: re-ranking and slate optimization with RNNs[J]. arXiv preprint, arXiv:1810.02019, 2018.

[ 82 ] CHANG Z, KOULIERIS G A, SHUM H P H. On the design fundamentals of diffusion models: a survey[J]. arXiv preprint, arXiv:2306.04542, 2023.

[ 83 ] LIU S, CAI Q, HE Z, et al. Generative flow network for listwise recommendation[C]. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2023: 1524-1534.

[ 84 ] LIN X, CHEN X, WANG C, et al. Discrete conditional diffusion for reranking in recommendation[C]. Companion Proceedings of the ACM on Web Conference 2024. New York: ACM, 2024: 161-169.

[ 85 ] REN Y, YANG Q, WU Y, et al. Non-autoregressive generative models for reranking recommendation[C]. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2024: 5625-5634.

[ 86 ] RAJPUT S, MEHTA N, SINGH A, et al. Recommender systems with generative retrieval[J]. Advances in Neural Information Processing Systems, 2024, 36: 1-11.

[ 87 ] LEE D, KIM C, KIM S, et al. Autoregressive image generation using residual quantization[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11523-11532.

[ 88 ] MA X, ZHAO L, HUANG G, et al. Entire space multi-task model: an effective approach for estimating post-click conversion rate[C]. The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2018: 1137-1140.

[ 89 ] MA J, ZHAO Z, YI X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 1930-1939.

[ 90 ] CHEN Z, BADRINARAYANAN V, LEE C Y, et al. Gradnorm: gradient normalization for adaptive loss balancing in deep multitask networks[C]. International Conference on Machine Learning. New York: PMLR, 2018: 794-803.

[ 91 ] OVAISI Z, AHSAN R, ZHANG Y, et al. Correcting for selection bias in learning-to-rank systems[C]. Proceedings of The Web Conference 2020. New York: IEEE, 2020: 1863-1873.

[ 92 ] JOACHIMS T, GRANKA L, PAN B, et al. Accurately interpreting clickthrough data as implicit feedback[C]. ACM SIGIR Forum. New York: ACM, 2017, 51(1): 4-11.

[ 93 ] KRISHNAN S, PATEL J, FRANKLIN M J, et al. A methodology for learning, analyzing, and mitigating social influence bias in recommender systems[C]. Proceedings of the 8th ACM Conference on Recommender systems. New York: ACM, 2014: 137-144.

[ 94 ] ABDOLLAHPOURI H, BURKE R, MOBASHER B. Controlling popularity bias in learning-to-rank recommendation[C]. Proceedings of the Eleventh ACM Conference on Recommender Systems. New York: ACM, 2017: 42-46.

[ 95 ] LITTLE R J A, RUBIN D B. Statistical analysis with missing data[M]. Hoboken: John Wiley & Sons, 2019.

[ 96 ] AI Q, BI K, LUO C, et al. Unbiased learning to rank with unbiased propensity estimation[C]. The 41st international ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2018: 385-394.

[ 97 ] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]. 2008 Eighth IEEE International Conference on Data Mining. New York: IEEE, 2008: 263-272.

[ 98 ] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

[ 99 ] GUO H, YU J, LIU Q, et al. PAL: a position-bias aware learning framework for CTR prediction in live recommender systems[C]. Proceedings of the 13th ACM Conference on Recommender Systems. New York: ACM, 2019: 452-456.

[100] DUPRET G E, PIWOWARSKI B. A user browsing model to predict search engine click data from past observations[C]. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2008: 331-338.

[101] CRASWELL N, ZOETER O, TAYLOR M, et al. An experimental comparison of click position-bias models[C]. Proceedings of the 2008 International Conference on Web Search and Data Mining. New York: ACM, 2008: 87-94.

[102] LIU Y, CAO X, YU Y. Are you influenced by others when rating? Improve rating prediction by conformity modeling[C]. Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM, 2016: 269-272.

[103] CHEN T, GUESTRIN C. Xgboost: a scalable tree boosting system[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794.

[104] WASILEWSKI J, HURLEY N. Incorporating diversity in a learning to rank recommender system[C]. The Twenty-ninth International Flairs Conference. Menlo Park: AAAI, 2016: 572-577.

[105] CHEN Z, XIAO R, LI C, et al. Esam: discriminative domain adaptation with non-displayed items to improve long-tail performance[C]. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 579-588.

[106] ZHENG Y, GAO C, LI X, et al. Disentangling user interest and popularity bias for recommendation with causal embedding[J]. arXiv preprint, arXiv:2006.11011, 2020: 64.

[107] WU J, WANG X, FENG F, et al. Self-supervised graph learning for recommendation[C]. Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2021: 726-735.

[108] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.

[109] BELKIN M, NIYOGI P. Laplacian eigenmaps for dimensionality reduction and data representation[J]. Neural Computation, 2003, 15(6): 1373-1396.

[110] AHMED A, SHERVASHIDZE N, NARAYANAMURTHY S, et al. Distributed large-scale natural graph factorization[C]. Proceedings of the 22nd International Conference on World Wide Web. 2013: 37-48.

[111] CAO S, LU W, XU Q. Grarep: learning graph representations with global structural information[C]. Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York: ACM, 2015: 891-900.

[112] OU M, CUI P, PEI J, et al. Asymmetric transitivity preserving graph embedding[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1105-1114.

[113] PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations[C]. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014: 701-710.

[114] GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 855-864.

[115] WANG D, CUI P, ZHU W. Structural deep network embedding[C]. Proceedings of the 22nd ACM SIGKDD international Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1225-1234.

[116] CAO S, LU W, XU Q. Deep neural networks for learning graph representations[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2016, 30(1).

[117] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint, arXiv: 1609.02907, 2016.

[118] TANG J, QU M, WANG M, et al. Line: large-scale information network embedding[C]. Proceedings of the 24th International Conference on World Wide Web. New York: IEEE, 2015: 1067-1077.

[119] LAWLER G F, LIMIC V. Random walk: a modern introduction[M]. Cambridge: Cambridge University Press, 2010.

[120] MIKOLOV T. Efficient estimation of word representations in vector space[J]. arXiv preprint, arXiv: 1301.3781, 2013, 3781.

[121] DONG Y, CHAWLA N V, SWAMI A. Metapath2vec: scalable representation learning for heterogeneous networks[C]. Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 135-144.

[122] WANG J, HUANG P, ZHAO H, et al. Billion-scale commodity embedding for e-commerce recommendation in alibaba[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 839-848.

[123] FENG Y, YOU H, ZHANG Z, et al. Hypergraph neural networks[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2019, 33(01): 3558-3565.

[124] HAMILTON W, YING Z, LESKOVEC J. Inductive representation learning on large graphs[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-12.

[125] VELIČKOVIĆ P, CURCULL G, CASANOVA A, et al. Graph attention networks[J]. arXiv preprint arXiv: 1710.10903, 2017.

[126] ZHANG C, SONG D, HUANG C, et al. Heterogeneous graph neural network[C]. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2019: 793-803.

[127] O'SHEA K, NASH R. An introduction to convolutional neural networks[J]. arXiv preprint, arXiv: 1511.08458, 2015.

[128] YING R, HE R, CHEN K, et al. Graph convolutional neural networks for web-scale recommender systems[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 974-983.

[129] WANG M Y, ZHENG D, YE Z H, et al. Deep graph library: towards efficient and scalable deep learning on graphs[J]. arXiv preprint, arXiv: 1909.01315, 2019.

[130] JIANG J, XIAO P, YU L, et al. PSGraph: how Tencent trains extremely large-scale graphs with Spark?[C]. 2020 IEEE 36th International Conference on Data Engineering (ICDE). New York: IEEE, 2020: 1549-1557.

[131] COUR T, SAPP B, TASKAR B. Learning from partial labels[J]. The Journal of Machine Learning Research, 2011, 12: 1501-1536.

[132] SLIVKINS A. Introduction to multi-armed bandits[J]. Foundations and Trends® in Machine Learning, 2019, 12(1-2): 1-286.

[133] GARIVIER A, LATTIMORE T, KAUFMANN E. On explore-then-commit strategies[J]. Advances in Neural Information Processing Systems, 2016, 29: 1-12.

[134] LATTIMORE T, SZEPESVÁRI C. Bandit algorithms[M]. Cambridge: Cambridge University Press, 2020.

[135] CHU W, LI L, REYZIN L, et al. Contextual bandits with linear payoff functions[C]. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Cambridge: MIT Press, 2011: 208-214.

[136] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8: 279-292.

[137] YI X, WANG S C, HE R, et al. Online matching: a real-time bandit system for large-scale recommendations[C]. Proceedings of the 17th ACM Conference on Recommender Systems. New York: ACM, 2023: 403-414.

[138] SWIETOJANSKI P, LI J, RENAIS S. Learning hidden unit contributions for unsupervised acoustic model adaptation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(8): 1450-1463.

[139] CHANG J, ZHANG C, HUI Y, et al. Pepnet: parameter and embedding personalized network for infusing with personalized prior information[C]. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2023: 3795-3804.

[140] SHENG X R, ZHAO L, ZHOU G, et al. One model to serve all: star topology adaptive recommender for multi-domain ctr prediction[C]. Proceedings of the 30th ACM International Conference on Information & Knowledge Management. New York: ACM, 2021: 4104-4113.

[141] HOSPEDALES T, ANTONIOU A, MICAELLI P, et al. Meta-learning in neural networks: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(9): 5149-5169.

[142] ZHANG Q, LIAO X, LIU Q, et al. Leaving no one behind: a multi-scenario multi-task meta learning approach for advertiser modeling[C]. Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. New York: ACM, 2022: 1368-1376.

[143] ZHU Y, TANG Z, LIU Y, et al. Personalized transfer of user preferences for cross-domain recommendation[C]. Proceedings of the Fifteenth ACM international conference on web search and data mining. New York: ACM, 2022: 1507-1515.

[144] BIAN W, WU K, REN L, et al. Can: feature co-action for click-through rate prediction[J]. arXiv preprint, arXiv: 2011.05625, 2020.

[145] YAN B, WANG P, ZHANG K, et al. Apg: adaptive parameter generation network for click-through rate prediction[J]. Advances in Neural Information Processing Systems, 2022, 35: 24740-24752.

[146] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[J]. arXiv preprint, arXiv: 1607.01759, 2016.

[147] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv: 1810.04805, 2018.

[148] LAN Z, CHEN M, GOODMAN S, et al. Albert: a lite bert for self-supervised learning of language representations[J]. arXiv preprint, arXiv: 1909.11942, 2019.

[149] LIU Y, OTT M, GOYAL N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint, arXiv: 1907.11692, 2019.

[150] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics, 2001: 1189-1232.

[151] SCHLEIMER S, WILKERSON D S, AIKEN A. Winnowing: local algorithms for document fingerprinting[C]. Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 76-85.

[152] CHARIKAR M S. Similarity estimation techniques from rounding algorithms[C]. Proceedings of the thirty-fourth annual ACM symposium on Theory of computing. New York: ACM, 2002: 380-388.

[153] BRODER A Z. On the resemblance and containment of documents[C]. Proceedings of Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171). New York: IEEE, 1997: 21-29.

[154] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]. International Conference on Machine Learning. New York: PMLR, 2017: 1126-1135.

[155] NICHOL A, ACHIAM J, SCHULMAN J. On first-order meta-learning algorithms[J]. arXiv preprint, arXiv: 1803.02999, 2018.

[156] RAJESWARAN A, FINN C, KAKADE S M, et al. Meta-learning with implicit gradients[J]. Advances in Neural Information Processing Systems, 2019(32): 1-20.

[157] PAN F, LI S, AO X, et al. Warm up cold-start advertisements: improving ctr predictions via learning to learn id embeddings[C]. Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 695-704.

[158] ZHU Y, XIE R, ZHUANG F, et al. Learning to warm up cold item embeddings for cold-start recommendation with meta scaling and shifting networks[C]. Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2021: 1167-1176.

[159] LEE H, IM J, JANG S, et al. Melu: meta-learned user preference estimator for cold-start recommendation[C]. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2019: 1073-1082.

[160] DONG M, YUAN F, YAO L, et al. Mamo: memory-augmented meta-optimization for cold-start recommendation[C]. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020: 688-697.

[161] YAO T, YI X, CHENG D Z, et al. Self-supervised learning for large-scale item recommendations[C]. Proceedings of the 30th ACM International Conference on Information & Knowledge Management. New York: ACM, 2021: 4321-4330.

[162] DAI S, LIN H, ZHAO Z, et al. POSO: personalized cold start modules for large-scale recommendation systems[J]. arXiv preprint, arXiv: 2108.04690, 2021.

[163] JOHNSON M A, MORADI M H. PID control[M]. London: Springer-Verlag London Limited, 2005.

[164] BLOOM B H. Space/time trade-offs in hash coding with allowable errors[J]. Communications of the ACM, 1970, 13(7): 422-426.

[165] CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2): 1-26.

[166] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system[C]. Proceedings of the nineteenth ACM symposium on Operating systems principles. New York: ACM, 2003: 29-43.

[167] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

[168] LI M, ANDERSEN D G, PARK J W, et al. Scaling distributed machine learning with the parameter server[C]. 11th USENIX Symposium on operating systems design and implementation (OSDI 14). Berkeley: USENIX, 2014: 583-598.

[169] JACOB B, KLIGYS S, CHEN B, et al. Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2018: 2704-2713.

[170] WANG G, LIN Y S, YI W. Kernel fusion: an effective method for better power efficiency on multithreaded GPU[C]. 2010 IEEE/ACM Int'l Conference on Green Computing and Communications & Int'l Conference on Cyber, Physical and Social Computing. New York: IEEE, 2010: 344-350.

[171] CHEN T, MOREAU T, JIANG Z, et al. TVM: an automated end-to-end optimizing compiler for deep learning[C]. 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18). Berkeley: USENIX, 2018: 578-594.

[172] RAGAN-KELLEY J, BARNES C, ADAMS A, et al. Halide: a language and compiler for optimizing parallelism, locality, and recomputation in image processing pipelines[J]. Acm Sigplan Notices, 2013, 48(6): 519-530.

[173] GAO C, ZHENG Y, WANG W, et al. Causal inference in recommender systems: a survey and future directions[J]. ACM Transactions on Information Systems, 2024, 42(4): 1-32.

[174] DENG A, XU Y, KOHAVI R, et al. Improving the sensitivity of online controlled experiments by utilizing pre-experiment data[C]. Proceedings of the sixth ACM international conference on Web search and data mining. New York: ACM, 2013: 123-132.

[175] DIXON W J, YUEN K K. Trimming and winsorization: a review[J]. Statistische Hefte, 1974, 15(2): 157-170.

[176] RAMSEY P H, RAMSEY P P. Optimal trimming and outlier elimination[J]. Journal of Modern Applied Statistical Methods, 2007, 6: 355-360.

Read more

宇树科技Go2机器人强化学习(RL)开发实操指南

宇树科技Go2机器人强化学习(RL)开发实操指南

在Go2机器人的RL开发中,环境配置、模型训练、效果验证与策略部署的实操步骤是核心环节。本文基于宇树科技官方文档及开源资源,以Isaac Gym和Isaac Lab两大主流仿真平台为核心,提供从环境搭建到实物部署的全流程操作步骤,覆盖关键命令与参数配置,帮助开发者快速落地RL开发。 一、基础准备:硬件与系统要求 在开始操作前,需确保硬件与系统满足RL开发的基础需求,避免后续因配置不足导致训练中断或性能瓶颈。 类别具体要求说明显卡NVIDIA RTX系列(显存≥8GB)需支持CUDA加速,Isaac Gym/Isaac Lab均依赖GPU进行仿真与训练操作系统Ubuntu 18.04/20.04/22.04推荐20.04版本,兼容性最佳,避免使用Windows系统(部分依赖不支持)显卡驱动525版本及以上需与CUDA版本匹配(如CUDA 11.3对应驱动≥465.19.01,CUDA 11.8对应驱动≥520.61.05)软件依赖Conda(

By Ne0inhk
汇川机器人软件RobotLab常规操作

汇川机器人软件RobotLab常规操作

一.权限管理注意事项 1.1 软件登录权限管理 连接上软件后,修改轴参数、点位数据需要权限。点击人物图标,登录对应的权限,管理员权限登录密码6个0。 1.2机器人控制权限管理 点击“锁”,打开机器人控制权配置页面。 选择“InoRoboLabt”,机器人受编程软件控制,使用软件可手动移动点位、示教位置信息。 选择“远程IO单元”,机器人受外部设备控制如PLC、上位机,机器人进入自动模式,收到交互信号就按照程序执行。 选择“远程以太网客户端”,机器人受远程客户短控制,用于查找问题、远程调试。 二、 使用过渡点注意事项 程序中点到点直线运动会有机构干涉或有安全风险时,使用过渡点在运动规避风险。 使用过渡点时,注意指令的工具坐标系,选择正确的Wobj工具好,否则运动出错有撞机风险。 如下图所示为例,wobj0为A工位,wobj1为B工位,注意在“轴控制面板”中选择对应工具坐标号 三、使用全局点位移动注意事项 双击左侧“P.

By Ne0inhk

无人机飞行空域申请全流程指南

无人机飞行空域申请全流程指南 一、哪些情况需要申请空域? 必须申请空域的情况: * 在管制空域内飞行(包括机场周边、军事区、120米以上空域等) * 微型/轻型无人机在适飞空域内超过真高120米飞行 * 轻型无人机进行特殊操作(如中继飞行、载运危险品、飞越人群) * 小型及以上无人机(空机>4kg或最大起飞重量>7kg)在任何空域飞行 无需申请的情况: * 微型无人机在真高50米以下适飞空域内飞行 * 轻型无人机在真高120米以下适飞空域内飞行 二、申请前必备准备 1️⃣ 实名登记(所有无人机必备) * 登录民用无人驾驶航空器综合管理平台(UOM)(https://uom.caac.gov.cn或UOM APP) * 个人用户:完成实名认证(上传身份证),为≥250g的无人机登记,获取唯一编码和二维码 * 企业用户:准备营业执照、法人身份证、运营合格证、无人机适航证 2️⃣ 人员资质要求

By Ne0inhk

比 OpenClaw 轻 99%!我用 nanobot 搭了个 QQ AI 机器人,还顺手贡献了代码

❝ 4000 行代码,打造你的私人 AI 助手❞ 前言 最近 AI Agent 领域有个项目特别火——「OpenClaw」,它是一个功能强大的 AI 助手框架,能让你拥有一个 7×24 小时在线的智能助理。 但当我 clone 下来准备研究时,发现它有 「43 万行代码」!对于想快速上手或做二次开发的个人开发者来说,这个体量实在太重了。 直到我发现了它的"轻量版"——「nanobot」。 nanobot:99% 的瘦身,核心功能全保留 nanobot 来自香港大学数据科学实验室(HKUDS),它的设计理念很简单: ❝ 用最少的代码,实现 AI Agent 的核心能力❞ 来看一组对比数据: 项目 代码行数 核心功能 OpenClaw 430,

By Ne0inhk