SIGIR 24：利用大语言模型进行无监督密集检索器排序

原文：Leveraging LLMs for Unsupervised Dense Retriever Ranking
地址：https://arxiv.org/abs/2402.04853
代码：https://github.com/ielab/larmor/
出版：SIGIR '24
机构：昆士兰大学、澳大利亚联邦科学与工业研究组织

RAG 排序示意图

1 研究问题

本文研究的核心问题是：如何在无监督和零样本场景下为特定目标语料库选择最佳的密集检索器（Dense Retriever, DR）。这也是 RAG（检索增强生成）检索增强中重点研究的环节。

想象一个小型法律咨询公司刚刚建立了一个包含数千份法律文件的数据库。他们想要实现一个高效的搜索系统，但面临两个挑战：首先，他们没有足够的资源为这个特定领域的数据集训练一个新的检索模型；其次，他们也没有现成的查询 - 文档相关性标注数据。在这种情况下，如何从现有的预训练密集检索器中选择一个最适合他们数据库的模型就成为了一个关键问题。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面：

缺乏目标语料库的查询和相关性判断：传统方法通常依赖于目标语料库的查询和人工标注的相关性判断来评估检索器性能，但在实际应用中，这些资源往往难以获得或成本很高。
领域偏移问题：预训练的密集检索器在面对与其训练数据不同领域的目标语料库时，性能往往会下降。
模型选择的复杂性：随着各种密集检索器模型的不断涌现，如何在众多模型中选择最适合特定目标语料库的一个变得越来越具有挑战性。
评估方法的局限性：现有的一些无监督评估方法，如基于分数的查询性能预测（QPP）技术，在跨模型比较时效果不佳，因为不同模型产生的分数分布可能有很大差异。

总的来说，这个调整非常普遍，基本上现在 RAG 都会有这个痛点。针对这些挑战，本文提出了一种名为'大语言模型辅助检索模型排序'（LARMOR）的方法。

LARMOR 的核心思想是利用大语言模型（LLM）的强大能力来模拟人类专家在评估检索系统时的行为。就像一个法律专家可以根据文档内容构造相关查询并判断检索结果的相关性一样，LARMOR 使用 LLM 为目标语料库生成伪查询、伪相关性判断和伪参考列表。这些生成的数据然后被用来评估和排序各种密集检索器。具体来说，LARMOR 首先从目标语料库中采样一部分文档，并使用 LLM 为每个文档生成多个相关查询。这就像是模拟了可能的用户查询。然后，它使用这些生成的查询来获取各个密集检索器的检索结果。接下来，LARMOR 再次调用 LLM 来为这些检索结果生成相关性判断或重新排序，从而创建伪相关性判断和伪参考列表。最后，基于这些生成的数据，LARMOR 可以计算各种评估指标（如 nDCG 或 RBO）来对密集检索器进行排序。这种方法巧妙地解决了缺乏真实查询和相关性判断的问题，同时也能适应不同领域的目标语料库。它就像是创造了一个'虚拟评估员'，可以为任何给定的语料库生成评估数据并进行检索器选择。

2 研究方法

LARMOR 架构示意图

论文提出了一种名为 LARMOR (Large Language Model Assisted Retrieval Model Ranking) 的方法，用于解决密集检索器选择问题。这种方法巧妙地利用了大语言模型 (LLM) 的能力，在没有目标语料库查询和相关性判断的情况下，对密集检索器进行无监督排序。LARMOR 主要包括三个关键步骤：、和，以及。下面我们将详细介绍这三个步骤。

SIGIR 24：利用大语言模型进行无监督密集检索器排序