数据稀疏场景下 Embedding 学习策略综述

综述由AI生成针对推荐系统中冷启动及长尾样本数据稀疏导致 Embedding 学习效果差的问题，综述了 2020 年以来 SIGIR 等顶会的六篇代表性工作。主要涵盖四种技术路径：一是利用域自适应（Domain Adaptation）将长尾 Item 对齐至头部 Item 分布，通过属性相关性一致性和自监督伪标签增强泛化；二是基于属性特征生成 Embedding，采用随机化训练、多专家网络、Meta Scaling/Shift 及条件变分自编码器（CVAE）来学习 Side Information 到 ID 的映射；三是应用对比学习优化 User-Item 及 Item-Item 互信息，拉近内容与协同过滤表示的距离；四是融合用户历史行为（含曝光未点击），利用 Transformer 和全局冷启动 Embedding 对齐分布。这些方法旨在解决数据不足时的表征学习难题，提升冷启动场景下的推荐精度。

鲜活发布于 2025/2/7更新于 2026/6/121 浏览

数据稀疏场景下 Embedding 学习策略综述

在推荐系统中，冷启动或长尾分布是一个长期存在的核心挑战。模型在处理数据量较少的用户（User）或物品（Item）时，预测效果往往显著下降。造成冷启动样本预测效果不佳的重要原因之一，是冷启动样本积累的数据稀缺，不足以通过常规训练得到高质量的 Embedding 表示。Embedding 是将 User 或 Item 的 ID 映射到一个可学习的连续向量空间的过程，若该向量无法准确反映用户兴趣或物品属性，将直接导致模型在该部分样本上的召回与排序能力受损。

本文整理了 2020 年以来 SIGIR、Multimedia 等顶级会议中，围绕如何在数据不充分的情况下生成高质量 Embedding 表示的工作。主要集中在推荐系统领域的 User 和 Item Embedding 生成，解法涵盖了域自适应（Domain Adaptation）、变分自编码器（VAE）、对比学习（Contrastive Learning）、引入用户历史行为序列等多种技术路径。

1. 利用域自适应解决冷启动问题

利用 Domain Adaptation (DA) 解决长尾问题的典型论文是 ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance (SIGIR 2020)。其核心思路是通过特征分布对齐和用户反馈信息，利用 DA 技术将尾部 Item 的特征分布向头部 Item 靠拢。

1.1 问题定义与假设

本文旨在解决长尾 Item 的预估准确性问题。长尾 Item 指的是展现机会较少、曝光频率低的物品。由于模型在这部分 Item 上学习不充分，会导致推荐过程中无法准确实现长尾 Item 的推荐，进而进一步恶化长尾 Item 的学习，形成马太效应。

文章提出了一个核心假设：无论一个 Item 是否属于长尾，它们的一些底层属性信息是有关联的。例如，奢侈品类型的 Item 价格普遍较高，价格特征与品牌的关系比与材质的关系更紧密。这些特征之间的关联规律是可以从头部 Item 泛化到长尾 Item 上的。

1.2 域自适应框架

文章主要采用 Domain Adaptation 的思路对齐头部 Item 和长尾 Item。具体而言，将头部 Item 视为源域（Source Domain），将长尾 Item 视为目标域（Target Domain）。整体的损失函数通常包含多个部分，主要包括以下逻辑：

预测误差损失 (Ls)：衡量头部 Item 和对应 Query 的预测误差，保证基础推荐性能。
属性相关性一致性 (A2C)：对应 LDA 部分，目标是缩小 Source Domain 和 Target Domain 特征关系的差异。由于希望长尾 Item 各个特征之间的相互关系与头部一致（例如价格和品牌特征的相关性模式），这个底层特征规律也会反映到上层 Item 特征表征向量上。实际计算时采用 mini-batch 方式采样一部分样本，计算两个 Domain 中 Item 向量各个维度之间的关系的一致性。
中心聚类损失 (LDCc)：基于另一个假设，即如果两个 Item 相似，它们对应的用户反馈也应该是相似的，无论是否是长尾 Item。据此提出 Center-wise Clustering，让具有相似用户反馈的 Item 距离更近。
自监督伪标签 (LDCp)：引入自监督学习思路，给未展现的 Item 分配一个伪标签。伪标签来自于上一版模型的预测结果，并通过正则化筛选出置信度足够高的伪标签进行训练，以增强模型对未见数据的泛化能力。

2. 根据属性特征生成 Embedding

根据属性特征生成 Embedding 是业内解决冷启动问题的常用做法。虽然对于冷启动样本，仅根据 ID 生成 Embedding 比较困难，但这些 User 和 Item 通常拥有比较丰富的泛化特征（Side Information），例如用户的年龄、爱好，商品的价格、品类等。因此可以将问题转换为学习一个映射函数，根据泛化特征生成 ID Embedding。

2.1 随机化训练与多专家网络

第一篇文章是 Recommendation for new users and new items via randomized training and mixture-of experts transformation (SIGIR 2020)。本文同时解决 Item 侧和 User 侧的冷启动问题，核心思路也是学习一个映射函数，根据 User 或 Item 的 Side Information 生成较好的 ID Embedding。主要包括三个核心点：

映射函数学习：一方面在模型中只输入 Side Information 生成 User 侧和 Item 侧的表示并计算 Loss；另一方面使用一个预训练的良好 ID Embedding 指导映射函数学习，通过 L2 距离约束映射函数产出的 Embedding 和预训练 Embedding 的距离，确保生成的向量空间语义合理。

数据稀疏场景下 Embedding 学习策略综述

数据稀疏场景下 Embedding 学习策略综述

1. 利用域自适应解决冷启动问题

1.1 问题定义与假设

1.2 域自适应框架

2. 根据属性特征生成 Embedding

2.1 随机化训练与多专家网络

更多推荐文章

相关免费在线工具

2.2 Meta Scaling and Shifting Networks

2.3 变分自编码器 (CVAE)

3. 基于对比学习学习 Embedding

3.1 互信息优化

3.2 对比学习实现

4. 根据用户历史行为生成 Embedding

4.1 融合行为序列

4.2 区分交互类型

5. 总结

更多推荐文章

相关免费在线工具

数据稀疏场景下 Embedding 学习策略综述

数据稀疏场景下 Embedding 学习策略综述

1. 利用域自适应解决冷启动问题

1.1 问题定义与假设

1.2 域自适应框架

2. 根据属性特征生成 Embedding

2.1 随机化训练与多专家网络

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 Meta Scaling and Shifting Networks

2.3 变分自编码器 (CVAE)

3. 基于对比学习学习 Embedding

3.1 互信息优化

3.2 对比学习实现

4. 根据用户历史行为生成 Embedding

4.1 融合行为序列

4.2 区分交互类型

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具