京东零售广告部承担着全站流量变现及营销效果提升的重要职责。作为核心技术研发部门,我们基于海量用户和商家数据,探索前沿深度学习算法,创新并应用到业务实践中,赋能千万商家和数亿消费者的消费连接。
在大模型时代,新一代广告系统重点攻坚以下五个方向:流量价值预估、流量售卖机制、生成式推荐、智能创意以及承载它的算法工程体系。
一、流量价值预估——更好的人货场理解能力
1、广告用户意图理解
Query 意图识别是电商搜索中离用户最近和最基础的一个模块,主要功能是精确地理解用户的搜索意图,为下游的召回/相关性/排序提供决策信息和特征。Query 意图识别主要包括分词、纠错、NER、品牌识别、类目预测和 query 改写等,需准确捕捉用户意图辅助下游决策,是供需匹配和用户体验的基础。
当前 query 意图识别训练样本的产生逻辑导致约 85% 的 query 预测的类目都是单类目,且多标签样本的标签量较少。因此亟需在保持现有的类目精准度情况下,提升类目的召回率。通过分析,主要存在以下类型的 query 的高相关召回率不足:
• 泛词的多意图:侧重知识类,词与具体商品之间需要知识关联,例如:水果,生日礼物,灯; • 歧义词的多意图:多意图 query 下,基于样本生成逻辑,会偏向主意图,弱化甚至丢失次意图,导致召回问题,例如:小米(粮食 or 手机?),苹果(水果 or 手机?); • 长尾类目冷启:由于用户点击数据的马太效应,使得大量的长尾类目没有曝光机会,类目下商品无法获得点击,加深了模型无法得到长尾类目训练数据的问题,例如:服务类,健康类,工业品类; • 长尾 query 的多意图:由于用户背景和表达习惯不同,对同类商品需求,会有多种表达方式,产生很多长尾 query。模型给出的类目不准,因此产生的点击数据也不够准确。
生成 - 判别模型增强长尾类目训练数据
模型的训练依赖 query 点击商品的类目来作为监督信号。像这些偏冷启动类目的商品,我们希望通过增加商品曝光来让它们获得更多点击。有了点击数据,就能正向影响下次模型迭代,让模型下一次可以预测的更准。从而让整个模型迭代的流程形成良性循环,而不是马太效应的恶性循环。

解决方案:针对训练样本的类目高度不平衡问题,我们设计了生成 - 匹配模型,预训练一个 query 生成模型 +query-SKU 匹配模型,生成模型用来根据 SKU 的标题/属性信息生成 query,匹配模型用于计算生成 query 和原 SKU title 的相关性分数,卡掉低质量的 query,保证生成 query 的质量。Sku 的类目作为生成 query 的类目,补充到类目预测的训练样本中,平衡和缓解训练集类目失衡问题,让模型能够学习到用户 query 中的长尾类目需求,从而让长尾类目商品有一定的曝光机会。

基于搜索日志数据预训练的生成 - 匹配模型不仅可以在类目预测中使用,也可以用在其他相关业务线。例如 query suggestion 和 query 改写业务,根据 sku title 生成的 query 可以作为两者的 query 召回源。
先验知识注入模型解决中长尾类目召回不足导致的商家获量困难问题
算法训练以用户点击 sku 的类目为标签。但由于马太效应,高点击商品的类目才能获得展现。模型的更新,反而会加剧马太效应,形成恶性循环。
• 用户反馈信号被高频类目主导,需打破仅依赖用户反馈的马太效应闭环。例如:用户搜'耳机',相关类目包含 862-手机耳机,842-蓝牙耳机… 等 9 个三级类目。由于马太效应,系统只能展现出 1~2 个高点击类目的商品,中长尾类目下商品无展现。 • 业界最新算法,也高度依赖后验反馈信号,无法召回中长尾类目。
解决方案:通过引入先验知识和模型的优化,增强模型对电商知识的感知,弱化模型对后验反馈的依赖:引入先验知识:类目语义知识、类目共现/语义关系图。通过提取类目名、类目的产品词等,代表类目侧的语义表征。通过类目关系图,反映类目共点击和语义相似关系,实现头部类目带长尾(相关)类目来提升召回率。学习先验知识:设计新模型,以 BERT 为文本编码器,学习 Query 和类目表征。以多通道 GCN 为图结构编码器,学习类目之间的关系。设计半监督 Loss,通过 query-类目语义匹配分数,作为监督信号增强类目标签。




