数据稀疏场景下 Embedding 学习策略综述
在推荐系统中,冷启动或长尾分布是一个长期存在的核心挑战。模型在处理数据量较少的用户(User)或物品(Item)时,预测效果往往显著下降。造成冷启动样本预测效果不佳的重要原因之一,是冷启动样本积累的数据稀缺,不足以通过常规训练得到高质量的 Embedding 表示。Embedding 是将 User 或 Item 的 ID 映射到一个可学习的连续向量空间的过程,若该向量无法准确反映用户兴趣或物品属性,将直接导致模型在该部分样本上的召回与排序能力受损。
本文整理了 2020 年以来 SIGIR、Multimedia 等顶级会议中,围绕如何在数据不充分的情况下生成高质量 Embedding 表示的工作。主要集中在推荐系统领域的 User 和 Item Embedding 生成,解法涵盖了域自适应(Domain Adaptation)、变分自编码器(VAE)、对比学习(Contrastive Learning)、引入用户历史行为序列等多种技术路径。
1. 利用域自适应解决冷启动问题
利用 Domain Adaptation (DA) 解决长尾问题的典型论文是 ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance (SIGIR 2020)。其核心思路是通过特征分布对齐和用户反馈信息,利用 DA 技术将尾部 Item 的特征分布向头部 Item 靠拢。
1.1 问题定义与假设
本文旨在解决长尾 Item 的预估准确性问题。长尾 Item 指的是展现机会较少、曝光频率低的物品。由于模型在这部分 Item 上学习不充分,会导致推荐过程中无法准确实现长尾 Item 的推荐,进而进一步恶化长尾 Item 的学习,形成马太效应。
文章提出了一个核心假设:无论一个 Item 是否属于长尾,它们的一些底层属性信息是有关联的。例如,奢侈品类型的 Item 价格普遍较高,价格特征与品牌的关系比与材质的关系更紧密。这些特征之间的关联规律是可以从头部 Item 泛化到长尾 Item 上的。
1.2 域自适应框架
文章主要采用 Domain Adaptation 的思路对齐头部 Item 和长尾 Item。具体而言,将头部 Item 视为源域(Source Domain),将长尾 Item 视为目标域(Target Domain)。整体的损失函数通常包含多个部分,主要包括以下逻辑:
- 预测误差损失 (Ls):衡量头部 Item 和对应 Query 的预测误差,保证基础推荐性能。
- 属性相关性一致性 (A2C):对应 LDA 部分,目标是缩小 Source Domain 和 Target Domain 特征关系的差异。由于希望长尾 Item 各个特征之间的相互关系与头部一致(例如价格和品牌特征的相关性模式),这个底层特征规律也会反映到上层 Item 特征表征向量上。实际计算时采用 mini-batch 方式采样一部分样本,计算两个 Domain 中 Item 向量各个维度之间的关系的一致性。
- 中心聚类损失 (LDCc):基于另一个假设,即如果两个 Item 相似,它们对应的用户反馈也应该是相似的,无论是否是长尾 Item。据此提出 Center-wise Clustering,让具有相似用户反馈的 Item 距离更近。
- 自监督伪标签 (LDCp):引入自监督学习思路,给未展现的 Item 分配一个伪标签。伪标签来自于上一版模型的预测结果,并通过正则化筛选出置信度足够高的伪标签进行训练,以增强模型对未见数据的泛化能力。
2. 根据属性特征生成 Embedding
根据属性特征生成 Embedding 是业内解决冷启动问题的常用做法。虽然对于冷启动样本,仅根据 ID 生成 Embedding 比较困难,但这些 User 和 Item 通常拥有比较丰富的泛化特征(Side Information),例如用户的年龄、爱好,商品的价格、品类等。因此可以将问题转换为学习一个映射函数,根据泛化特征生成 ID Embedding。
2.1 随机化训练与多专家网络
第一篇文章是 Recommendation for new users and new items via randomized training and mixture-of experts transformation (SIGIR 2020)。本文同时解决 Item 侧和 User 侧的冷启动问题,核心思路也是学习一个映射函数,根据 User 或 Item 的 Side Information 生成较好的 ID Embedding。主要包括三个核心点:
- 映射函数学习:一方面在模型中只输入 Side Information 生成 User 侧和 Item 侧的表示并计算 Loss;另一方面使用一个预训练的良好 ID Embedding 指导映射函数学习,通过 L2 距离约束映射函数产出的 Embedding 和预训练 Embedding 的距离,确保生成的向量空间语义合理。


