美团搜索广告介绍
从美团流量场景角度来看,美团搜索广告分为两大类,一是列表推荐广告;二是搜索广告。推荐广告以展现商家模式为主,通常叫商家流。搜索广告的展现形式比较丰富,有商家模式,即以商家展现为主,会挂上菜品/商品;还有商品模式,即以商品展现为主,以呈现商品大图、商品标题等核心商品信息为主。
美团搜索广告流量有以下几个典型特点:
搜商品意图占据绝大多数份额,搜索商家只占较小的一部分;因此检索以商品为主,看候选规模的话,美团有百万量级的商家和十亿级别的商品,供给规模较庞大。
从商家特点来看,它有一个和业界传统电商场景不太一致的特点是很多是中小商家/夫妻店,他们的线上运营能力较弱,导致美团商家的内容质量没有其他电商平台好,所以在内容质量处理上,花费了很多时间。
美团的 O2O 场景特点是 LBS 属性,供给相对不那么充分,一个蜂窝内的几百个、上千个商家,搜索场景里有相关性约束,供给队列更短,有很多位置受限于供给没有填上。因此,美团搜索广告对召回率的要求更高。
上图展示了美团广告和传统广告之间一些的差异。下面介绍围绕着召回率提升我们做的一些工作。美团的搜索广告从 2019 年开始建设,主要经历了三个发展阶段:
第一阶段是美团搜索广告启动阶段,我们叫多策略关键词挖掘阶段。这时的工程基建能力处于起步阶段,也缺乏线上反馈数据,另外考虑落地节奏,希望尽可能快的把整个系统从 0 到 1 搭建起来,并希望在数据有限的情况下,快速支持迭代效率。所以这个阶段的召回方式是 SPU 通过离线方式,挖掘核心关键词,在线与 Query 精确匹配。
特点:一是只聚焦于通过离线方式覆盖高频流量;二是缺乏线上的行为数据,以 NLP 的挖词技术为主;三是为了追求更多的覆盖,采用了多策略并行的方式,不断叠加新的召回策略,以达到更高的流量覆盖。
缺点:第一,它不是一个正向匹配过程,而是从商品反向挖掘,所以整体挖掘效率很低,挖出了大量无效关键词,放到线上后,又无法匹配;第二,由于它是一个离线策略,所以只能覆盖一些高频流量,20%-30% 的长尾流量无法覆盖;第三个是多策略并行,在后期,新通路会通过不断挤压旧召回通路,最终形成 10+ 的召回通路,这种模式的维护成本较高,而且如果一个算法同学优化一个召回通路,策略面覆盖有限,整体的 ROI 在后期较低;第四个是缺乏个性化技术。
第二阶段是分层召回体系,它是基于流量和供给特点,按照业务类型,聚焦在几个象限内,每个象限里采用更聚焦的针对性召回策略,进行优化。
特点:第一,在一个业务范畴内,通过把技术做深能够取得业务效果的极大提升;第二是随着基建能力的提升,更多的是把召回由离线切换成在线,以此覆盖更多的流量;第三是在单通路的召回能力上,我们突破了传统单一 NLP 技术瓶颈,开始大规模使用个性化/图/多模态等新的召回技术。在 2022 年底,整个分层召回体系取得了不少成效。
缺点:第一是整个召回体系还是以判别式召回模式为主,决策空间不够,倾向于学习历史数据行为,马太效应现象变得越来越严重,而且整个探索空间在这种判别式模型下面,局限性也越来越明显;第二是整个模型规模和容量相对不足,天花板很容易逼近;第三是采用多通道独立优化的方式,每个通道都有自己的样本特征,很难做到通道之间的融合,难以形成 1+1>2 的效果。
第三个阶段是生成式召回。核心思路是借鉴生成式大模型的思路和能力,改造现有的召回技术体系,长期上来看,我们会探索 DSI 新召回范式。
大模型在 C 端流量的落地,会遇到很多算力瓶颈。经过一年的探索,我们形成了大模型落地的方式和原则,分为三类。第一是离线用能力构建领域微调大模型;第二是在线用大模型技术思想,结合传统模型改造现有模型能力;第三是通过蒸馏方式,在线尽可能学习离线大模型能力,通过蒸馏方式把大模型通用知识蒸馏到在线规模相对较小的模型上。
面临的挑战包括三个方面:第一是有算力焦虑;第二是在模型规模变得越来越大的情况下,如何保证模型迭代效率;第三模型的变化不能发挥模型能力本身的优势,我们希望构建以大模型核心能力基础为核心的架构,拿到更好的效果,但改造成本较大。
美团搜索广告召回发展阶段
| 阶段一:多策略关键词挖掘
对于多策略关键词挖掘阶段,美团搜索广告的特点一是 Query 较短,平均长度也就两三个字,因为很多人在美团 App 搜索比如烧烤、西餐这种很泛但又很短的 Query;二是流量分布比较集中,高频、Top 几万的 Query 就占了大约 70% ~ 80% 的流量,头部效应比较明显;三是区别于业界传统的搜索广告,美团搜索广告商家没有买词能力,通常以整个店铺的投放模式为主。
基于这三个特点,我们设计了关键词挖掘策略思路。一由于 Query 很短,我们很容易通过信息抽取,把词或实体核心信息抽取出来;二是因为头部效应比较明显,Top2 万的 Query 覆盖了很多流量,采用这种离线方式能快速拿到大部分收益;三是由于商家没有买词能力,如果用 Query 直接匹配商品,会涉及到传导文本匹配问题,匹配难度会更高,所以我们最后采用模型从商家商品里挖掘核心词,在线做短串匹配的方式。
如左下图所示的召回模式是离线,我们从广告或 SPU 里通过关键词挖掘的方式挖掘出关键词,在线通过 Query 改写的方式尽可能提升在线匹配效率。
具体来说,我们的关键词挖掘策略经历过三版迭代,按照技术由浅入深的方式做的。
- 早期第一版创建时,我们更多采用基于规则的挖掘式策略,把流量分成了商家词、商品词和品类词。商品词通过分词和词频贡献的算法,挖掘核心关键词,由于品类字面没有完全匹配的信息,我们通过互信息,构建词之间的权重去挖掘。但问题一是规则能力较弱;第二是只能挖掘出连续的短差,比如'炒西红柿鸡蛋',它只能挖掘出'炒西红柿',挖掘不出'炒鸡蛋'。


