跳到主要内容 GraphRAG 论文解读:从局部到全局的查询聚焦摘要生成 | 极客日志
编程语言 AI 算法
GraphRAG 论文解读:从局部到全局的查询聚焦摘要生成 GraphRAG 是一种基于图的检索增强生成(RAG)方法,旨在解决传统向量 RAG 无法处理的全局意义构建任务。该方法利用大语言模型构建知识图谱,通过社区检测生成分层社区摘要,实现自底向上的全局理解。实验表明,在大规模数据集上,GraphRAG 在答案的全面性和多样性方面显著优于传统向量 RAG 及源文本摘要方法,同时降低了上下文标记消耗。
星落 发布于 2026/4/5 更新于 2026/4/12 0 浏览GraphRAG 论文解读:从局部到全局的查询聚焦摘要生成
摘要
利用检索增强生成(RAG)从外部知识源检索相关信息,使大语言模型(LLMs)能够回答关于私有和/或先前未见过的文档集合的问题。然而,针对整个文本语料库的全局性问题,例如'数据集中的主要主题是什么?',RAG 则无法胜任,因为这本质上是一个查询聚焦的摘要生成(QFS)任务,而非显式的检索任务。同时,先前的 QFS 方法无法扩展到典型 RAG 系统索引的文本数量。为了结合这些不同方法的优势,我们提出了GraphRAG ,一种基于图的方法,用于在私有文本语料库上进行问答,该方法能随用户问题的广泛性和源文本的数量而扩展。我们的方法使用 LLM 分两个阶段构建图索引:首先,从源文档中推导出实体知识图谱;然后,为所有紧密相关的实体组预先生成社区摘要。给定一个问题,每个社区摘要被用于生成部分回答,然后所有这些部分回答再次汇总成一个最终回答返回给用户。对于在约 100 万标记范围内的数据集上的一类全局意义构建问题,我们表明,与传统的 RAG 基线相比,GraphRAG 在生成答案的全面性和多样性方面都带来了显著提升。
1 引言 检索增强生成(RAG)是一种成熟的方法,它利用 LLMs 基于那些因数据量太大而无法放入语言模型上下文窗口 (即 LLM 一次能处理的标记 文本单位的最大数量)的数据来回答查询。在经典的 RAG 设置中,系统可以访问一个大型的外部文本记录语料库,并检索出与查询各自相关且总体规模小到足以放入 LLM 上下文窗口的记录子集。然后,LLM 基于查询和检索到的记录生成响应。
这种我们统称为向量 RAG 的传统方法,对于可以通过集中在少量记录内的信息来回答的查询效果很好。然而,向量 RAG 方法不支持意义构建 查询,即那些需要对整个数据集有全局性理解的查询,例如'过去十年间,跨学科研究如何影响科学发现的关键趋势是什么? '
意义构建 任务需要对'(可能是人与人、地点与地点、事件与事件之间的)关联进行推理,以预测其发展轨迹并有效行动 '。像 GPT、Llama 和 Gemini 这样的 LLMs 在科学发现和情报分析等复杂领域的意义构建方面表现出色。给定一个意义构建查询和一篇蕴含着一组隐含且相互关联的概念的文本,LLM 可以生成回答该查询的摘要。然而,当数据量需要采用 RAG 方法时,挑战就出现了,因为向量 RAG 方法无法支持对整个语料库进行意义构建。
在本文中,我们提出GraphRAG ——一种基于图的 RAG 方法,能够在整个大型文本语料库上进行意义构建。GraphRAG 首先使用 LLM 构建一个知识图谱,其中节点对应语料库中的关键实体,边代表这些实体之间的关系。接着,它将图分割成一个由紧密相关实体组成的层次化社区结构,然后使用 LLM 生成社区层面的摘要。这些摘要遵循提取出的社区的层次结构自底向上生成,层次结构中更高级别的摘要递归地融合了较低级别的摘要。这些社区摘要共同提供了对语料库的全局描述和洞察。最后,GraphRAG 通过对社区摘要进行映射 - 规约处理来回答问题;在映射步骤中,这些摘要被独立且并行地用于提供问题的部分答案,然后在规约步骤中,部分答案被合并并用于生成最终的全局答案。
GraphRAG 方法及其在整个语料库上执行全局意义构建的能力是这项工作的主要贡献。为了证明这种能力,我们开发了一种新颖的 LLM 即评判员技术的应用,适用于针对没有标准答案的广泛议题和主题的提问。该方法首先使用一个 LLM 基于语料库特定用例生成一组多样化的全局意义构建问题,然后使用第二个 LLM,根据预定义的评判标准来评判两个不同 RAG 系统的答案。我们使用这种方法在两个具有代表性的现实世界文本数据集上比较 GraphRAG 与向量 RAG。结果表明,在使用 GPT-4 作为 LLM 时,GraphRAG 显著优于向量 RAG。
2 背景
2.1 RAG 方法与系统 RAG 通常泛指任何利用用户查询从外部数据源检索相关信息,然后将此信息纳入由 LLM(或其他生成式 AI 模型,如多媒体模型)生成的查询响应中的系统。查询和检索到的记录填入提示模板,然后传递给 LLM。当数据源中的记录总数太大,无法全部包含在给 LLM 的单个提示中时,即数据源中的文本量超过 LLM 的上下文窗口时,RAG 是理想的选择。
在经典的 RAG 方法中,检索过程返回一组与查询语义相似且数量固定的记录,生成的答案仅使用这些检索到的记录中的信息。传统 RAG 的一种常见方法是使用文本嵌入,检索在向量空间中与查询最接近的记录,其中接近度对应于语义相似性。虽然一些 RAG 方法可能使用替代的检索机制,我们统称这类传统方法为向量 RAG 。GraphRAG 与向量 RAG 的不同之处在于其能够回答需要在整个数据语料库上进行全局意义构建的查询。
2.2 在 LLMs 和 RAG 中使用知识图谱 从自然语言文本语料库中提取知识图谱的方法包括规则匹配、统计模式识别、聚类和嵌入。GraphRAG 属于一个较新的研究领域,该领域利用 LLMs 进行知识图谱提取。它也加入了一系列越来越多的使用知识图谱作为索引的 RAG 方法。一些技术直接在提示中使用子图、图的元素或图结构的属性,或作为生成输出的真实性依据。其他技术利用知识图谱来增强检索,在查询时,一个基于 LLM 的智能体动态遍历一个图,其节点代表文档元素(例如段落、表格),边编码词汇和语义相似性或结构关系。GraphRAG 与这些方法的不同之处在于,它专注于图中一个在此背景下尚未被探索的特性:其固有的模块性 以及将图分割成紧密相关节点的嵌套模块化社区的能力。具体来说,GraphRAG 通过使用 LLM 创建跨越此社区层次结构的摘要,递归地创建越来越全局化的摘要。
2.3 用于 RAG 评估的自适应基准测试 存在许多用于开放域问答的基准数据集,包括 HotPotQA、MultiHop-RAG 和 MT-Bench。然而,这些基准测试主要面向向量 RAG 性能,即它们评估的是显式事实检索的性能。在这项工作中,我们提出了一种生成问题集的方法,用于评估对整个语料库的全局意义构建能力。我们的方法与那些使用语料库来生成其答案为语料库摘要的 LLM 方法相关。然而,为了进行公平的评估,我们的方法避免直接从语料库本身生成问题(作为一种替代实现,可以使用语料库的一个子集,该子集不参与后续的图提取和答案评估步骤)。
自适应基准测试 指的是动态生成针对特定领域或使用案例定制的评估基准的过程。最近的工作使用 LLMs 进行自适应基准测试,以确保相关性、多样性以及与目标应用或任务的一致性。在这项工作中,我们提出了一种自适应基准测试方法来为 LLM 生成全局意义构建查询。我们的方法建立在之前基于 LLM 的角色生成工作的基础上,其中 LLM 被用于生成多样化和真实的角色集合。我们的自适应基准测试程序使用角色生成来创建能代表现实世界 RAG 系统使用情况的查询。具体来说,我们的方法使用 LLM 来推断潜在用户将如何使用 RAG 系统及其用例,这指导了语料库特定意义构建查询的生成。
2.4 RAG 评估标准 我们的评估依赖于 LLM 来评判 RAG 系统对生成问题的回答质量。先前的研究表明 LLMs 是自然语言生成的良好评判员,包括一些 LLM 评估结果与人类评估相当的工作。一些先前的研究提出了让 LLMs 量化生成文本(如'流畅性')质量的标准。其中一些标准对向量 RAG 系统是通用的,与全局意义构建无关,例如'上下文相关性'、'忠实性'和'答案相关性'。由于缺乏评估的黄金标准,可以通过提示 LLM 比较两个不同竞争模型的生成结果来量化给定标准的相对性能。在这项工作中,我们设计了评估 RAG 生成的全局意义构建问题答案的标准,并使用比较方法评估我们的结果。我们还使用从 LLM 提取的可验证事实陈述或'主张'得出的统计数据来验证结果。
3 方法
3.1 GraphRAG 工作流程 图 1 展示了 GraphRAG 方法及流程的高层数据流。在本节中,我们将描述每个步骤的关键设计参数、技术及实现细节。
图 1: 使用源文档文本的 LLM 衍生图索引的 Graph RAG 流程。该图索引包含节点(如实体)、边(如关系)以及关联属性(如主张),这些均通过针对数据集领域定制的 LLM 提示进行检测、提取和摘要生成。社区检测(例如 Leiden 算法,Traag 等人,2019)用于将图索引划分为多个元素组(节点、边、关联属性),以便 LLM 在索引构建和查询阶段并行进行摘要生成。针对给定查询的'全局答案',是通过对所有报告与该查询相关的社区摘要进行最终一轮的查询聚焦式摘要生成而得出。
3.1.1 源文档 → 文本块 首先,将语料库中的文档分割成文本块。LLM 从每个文本块中提取信息供后续处理使用。选择文本块的大小是一个基本的设计决策;较长的文本块需要为此类提取而调用 LLM 的次数更少(从而降低成本),但会降低对出现在块中较早部分信息的召回率。
3.1.2 文本块 → 实体与关系 在此步骤中,提示 LLM 从给定的文本块中提取重要的实体 实例以及实体之间的关系 。此外,LLM 会为实体和关系生成简短描述。为了说明,假设一个文本块包含以下文本:
"NeoChip (NC) 的股票在 NewTech 交易所交易的第一周内大涨。然而,市场分析师警告说,这家芯片制造商的首次公开募股可能并不能反映其他科技类 IPO 的趋势。NeoChip 之前是一家私人实体,于 2016 年被 Quantum Systems 收购。这家创新的半导体公司专注于用于可穿戴设备和物联网设备的低功耗处理器。"
实体 NeoChip,描述为"NeoChip 是一家公开交易的上市公司,专注于用于可穿戴设备和物联网设备的低功耗处理器。"
实体 Quantum Systems,描述为"Quantum Systems 是此前拥有 NeoChip 的公司。"
NeoChip 与 Quantum Systems 之间的关系,描述为"Quantum Systems 从 2016 年起拥有 NeoChip,直至 NeoChip 成为公开交易公司。"
这些提示可以通过为上下文学习选择适合特定领域的少样本示例来针对文档语料库的领域进行定制。例如,虽然我们的默认提示提取的是诸如人物、地点和组织等广泛的"命名实体"类别且普遍适用,但具有专业知识(例如科学、医学、法律)的领域将受益于针对这些领域定制的少样本示例。
LLM 还可以被提示提取关于已检测实体的主张 。主张 是关于实体的重要事实性陈述,例如日期、事件以及与其他实体的互动。与实体和关系一样,上下文学习示例可以提供特定领域的指导。从示例文本块中提取的主张描述如下:
NeoChip 的股票在 NewTech 交易所交易的第一周内大涨。
NeoChip 在 NewTech 交易所作为上市公司首次亮相。
Quantum Systems 于 2016 年收购了 NeoChip,并持有其所有权直至 NeoChip 上市。
3.1.3 实体与关系 → 知识图谱 使用 LLM 提取实体、关系和主张是一种抽象式摘要生成——这些是对概念的有意义的总结,对于关系和主张而言,这些概念可能并未在文本中明确陈述。实体/关系/主张提取过程会创建单个元素的多个实例,因为一个元素通常会在多个文档中被检测和提取到。
在知识图谱提取过程的最后一步中,这些实体和关系的实例成为图中的单个节点和边。为每个节点和边聚合并总结实体描述。关系被聚合成图的边,其中特定关系的重复次数成为边的权重。主张以类似方式聚合。
在本文中,我们的分析使用精确字符串匹配进行实体匹配 ——即协调同一实体的不同提取名称的任务。然而,通过稍作调整提示或代码,也可以使用更宽松的匹配方法。此外,GraphRAG 通常对重复实体具有鲁棒性,因为重复实体通常在后续步骤中会聚集在一起进行摘要生成。
3.1.4 知识图谱 → 图社区 给定上一步创建的图索引,可以使用多种社区检测算法将图分割成强连接节点的社区(例如,参见 Fortunato 和 Jin 等人的综述)。在我们的流程中,我们以分层方式使用莱顿社区检测算法,递归地在每个检测到的社区内检测子社区,直到达到无法再分割的叶子社区。
该层次结构的每一级都提供一个社区划分,以互斥且共同穷尽的方式覆盖图的节点,从而实现分治式的全局摘要生成。
3.1.5 图社区 → 社区摘要 下一步使用一种设计用于扩展到超大规模数据集的方法,为社区层次结构中的每个社区创建类似报告的摘要。这些摘要本身作为理解数据集全局结构和语义的方式是有用的,并且在没有特定查询的情况下,它们本身也可用于理解语料库。例如,用户可以浏览某一级别的社区摘要以寻找感兴趣的一般主题,然后阅读较低级别的链接报告,这些报告为每个子主题提供了更多细节。然而,在此我们重点关注它们作为基于图的索引的一部分的实用性,该索引用于回答全局查询。
GraphRAG 通过将各种元素摘要(针对节点、边和相关主张)添加到社区摘要模板中来生成社区摘要。较低级别社区的社区摘要用于生成更高级别社区的摘要,具体如下:
叶子级社区 。叶子级社区的元素摘要被优先处理,然后迭代地添加到 LLM 上下文窗口中,直到达到标记限制。优先级排序如下:对于每条社区边,按其源节点和目标节点度数的总和(即整体显著性)降序排列,添加源节点、目标节点、边本身以及相关主张的描述。
更高级别社区 。如果所有元素摘要都能放入上下文窗口的标记限制内,则按照叶子级社区的方式进行,并汇总社区内的所有元素摘要。否则,按元素摘要标记数降序排列子社区,并迭代地用子社区摘要(较短)替换其关联的元素摘要(较长),直到它们能放入上下文窗口内。
3.1.6 社区摘要 → 社区答案 → 全局答案 给定用户查询,上一步生成的社区摘要可以通过一个多阶段过程用于生成最终答案。社区结构的层次性也意味着可以使用来自不同层级的社区摘要来回答问题,这就提出了一个问题:在层次化社区结构中的特定层级是否为一般意义构建问题提供了摘要细节和范围的最佳平衡。
对于给定的社区层级,任何用户查询的全局答案生成如下:
准备社区摘要 。社区摘要被随机打乱并分割成预定义标记大小的块。这确保了相关信息分布在各个块中,而不是集中在(并可能丢失在)单个上下文窗口中。
映射社区答案 。并行生成中间答案。同时要求 LLM 生成一个 0-100 之间的分数,表示生成的答案对回答目标问题的帮助程度。得分为 0 的答案被过滤掉。
规约到全局答案 。中间社区答案按照帮助程度分数降序排序,并迭代地添加到一个新的上下文窗口中,直到达到标记限制。这个最终的上下文被用于生成返回给用户的全局答案。
3.2 全局意义构建问题生成 为了评估 RAG 系统在全局意义构建任务上的有效性,我们使用 LLM 生成一组针对特定语料库的问题,旨在评估对给定语料库的高层次理解,而无需检索特定的低层次事实。具体做法是,给定一个语料库及其用途的高层次描述,提示 LLM 生成该 RAG 系统潜在用户的角色。然后,针对每个假设用户,提示 LLM 具体说明该用户将使用 RAG 系统完成的任务。最后,针对每个用户和任务的组合,提示 LLM 生成需要理解整个语料库才能回答的问题。算法 1 描述了该方法。
算法 1:问题生成的提示过程
1:输入:语料库描述,用户数量 K,每个用户的任务数 N,每个(用户,任务)组合的问题数 M。
2:输出:一组 K * N * M 个需要对语料库有全局理解的高层问题。
3:过程 GENERATEQUESTIONS
4:基于语料库描述,提示 LLM:
(1)描述 K 个数据集潜在用户的角色。
(2)为每个用户,识别 N 个相关任务。
(3)针对每个用户与任务对,生成 M 个高层问题,这些问题:
• 需要理解整个语料库。
• 不需要检索特定的低层事实。
5:收集生成的问题,为数据集产生 K * N * M 个测试问题。
6:结束过程
在我们的评估中,我们设定 K=M=N=5,每个数据集总共生成 125 个测试问题。表 1 展示了针对两个评估数据集生成的示例问题。
数据集 示例活动框架与全局意义构建问题的生成 播客文本 用户 :一位寻找科技行业见解和趋势的科技记者任务 :理解科技领袖如何看待政策与监管的作用问题 :
哪些剧集主要涉及科技政策和政府监管?
嘉宾们如何看待隐私法对技术发展的影响?
是否有嘉宾讨论创新与伦理考量之间的平衡?
嘉宾们提到的对当前政策的建议修改有哪些?
是否讨论了科技公司与政府之间的合作,以及如何合作? |
| 新闻文章 | 用户 :将时事纳入课程的教育工作者
任务 :教授健康与保健知识
问题 :
当前哪些健康主题可以纳入健康教育课程?
新闻文章如何阐述预防医学和保健的概念?
是否存在相互矛盾的健康类文章示例?如果存在,原因是什么?
基于新闻报道,可以获取哪些关于公共卫生优先事项的见解?
教育工作者如何利用该数据集来强调健康素养的重要性? |
此外,我们使用一个称为"直接性"的"控制标准",其回答的是"答案在多大程度上具体且清晰地回应了问题?"。简而言之,直接性评估的是答案在适用于任何 LLM 生成的摘要时的简洁性。我们将其作为一个参考标准包含进来,以判断其他标准结果的合理性。由于直接性实际上与全面性和多样性相对立,我们不期望任何方法在所有四个标准上都胜出。
在我们的评估中,向 LLM 提供问题、来自两个竞争系统的生成答案,并提示其根据标准比较两个答案,然后给出哪个答案更优的最终判断。LLM 要么指出优胜者;或者,如果它们本质上相似则返回平局。为了考虑 LLM 生成固有的随机性,我们对每次比较进行多次重复,并将结果在重复和问题间取平均值。附录 D 展示了 LLM 对示例问题答案进行评估的示例。
4 分析
4.1 实验 1
4.1.1 数据集 我们选择了两个规模在约一百万标记范围内的数据集,每个都代表了用户在现实世界活动中可能遇到的语料库类型:
播客文本。 微软首席技术官 Kevin Scott 与科技领域各领域思想领袖对话的播客节目《Behind the Tech with Kevin Scott》的公开文本记录。该语料库被分割为 1669 个×600 标记的文本块,块间有 100 标记的重叠(约 100 万标记)。
新闻文章。 一个基准数据集,包含 2013 年 9 月至 2023 年 12 月期间发表的多个类别(包括娱乐、商业、体育、科技、健康、科学)的新闻文章。该语料库被分割为 3197 个×600 标记的文本块,块间有 100 标记的重叠(约 170 万标记)。
4.1.2 实验条件 我们比较了六种实验条件,包括四个不同图社区层级的 GraphRAG(C0 , C1 , C2 , C3 )、一种将我们的映射 - 规约方法直接应用于源文本的文本摘要方法(TS ),以及一种向量 RAG"语义搜索"方法(SS ):
C0. 使用根层级社区摘要(数量最少)回答用户查询。
C1. 使用高层级社区摘要回答查询。这些是 C0 的子社区(如果存在),否则是 C0 社区向下投影的结果。
C2. 使用中间层级社区摘要回答查询。这些是 C1 的子社区(如果存在),否则是 C1 社区向下投影的结果。
C3. 使用低层级社区摘要(数量最多)回答查询。这些是 C2 的子社区(如果存在),否则是 C2 社区向下投影的结果。
TS. 与第 3.1.6 节相同的方法,不同之处在于源文本(而非社区摘要)在映射 - 规约摘要生成阶段被打乱并分块。
SS. 一种向量 RAG 的实现,其中检索文本块并将其添加到可用的上下文窗口中,直到达到指定的标记限制。
生成答案所用的上下文窗口大小和提示在所有六种实验条件下是相同的(除了为匹配所用上下文信息类型而略微修改引用风格)。实验条件仅在创建上下文窗口内容的方式上有所不同。
支持条件C0-C3 的图索引是使用我们通用的实体和关系提取提示创建的,其实体类型和少样本示例根据数据领域进行了定制。
4.1.3 配置 我们使用固定的 8k 标记上下文窗口大小来生成社区摘要、社区答案和全局答案。使用 600 标记窗口进行图索引构建(见第 A.2 节解释)对于播客数据集耗时 281 分钟,运行于一台虚拟机(16GB RAM, Intel(R) Xeon(R) Platinum 8171M CPU @ 2.60GHz),并使用公共 OpenAI 端点访问 gpt-4-turbo(2M TPM, 10k RPM)。
我们使用 graspologic 库实现了 Leiden 社区检测。用于生成图索引和全局答案的提示见附录 E,用于根据我们的标准评估 LLM 响应的提示见附录 F。下一节所呈现结果的完整统计分析见附录 G。
4.2 实验 2 为了验证实验 1 中关于全面性和多样性的结果,我们实施了基于主张的指标来量化这两种特性。我们采用 Ni 等人对事实主张的定义,即"明确呈现某些可验证事实的陈述"。例如,句子"加利福尼亚州和纽约州实施了可再生能源采用的激励措施,突显了可持续性在政策决策中的更广泛重要性"包含两个事实主张:(1) 加利福尼亚州实施了可再生能源采用的激励措施,(2) 纽约州实施了可再生能源采用的激励措施。
为了提取事实主张,我们使用了Claimify ,这是一种基于 LLM 的方法,用于识别答案中包含至少一个事实主张的句子,然后将这些句子分解为简单、自包含的事实主张。我们将 Claimify 应用于实验 1 中各条件下生成的答案。从每个答案中移除重复主张后,我们提取了 47,075 个独特主张,平均每个答案包含 31 个主张。
全面性 :以每种条件下生成的答案中提取出的平均主张数量来衡量。
多样性 :通过对每个答案的主张进行聚类,并计算平均聚类数量来衡量。
对于聚类,我们遵循 Padmakumar 和 He 描述的方法,该方法涉及使用 Scikit-learn 的凝聚聚类实现。通过"完全"链接方式合并聚类,意味着只有当两个聚类中最远点之间的最大距离小于或等于预定义的距离阈值时,它们才会被合并。使用的距离度量是 1 - ROUGE-L。由于距离阈值影响聚类数量,我们报告了在一系列阈值下的结果。
5 结果
5.1 实验 1 索引过程为播客数据集生成了一个包含 8,564 个节点和 20,691 条边的图,为新闻数据集生成了一个更大的包含 15,754 个节点和 19,520 条边的图。表 2 显示了每个图社区层次结构不同层级上社区摘要的数量。
全局方法 vs. 向量 RAG 。如图 2 和表 6 所示,在跨数据集的两个评估标准(全面性和多样性)上,全局方法显著优于传统的向量 RAG(SS )。具体而言,全局方法在播客文本的全面性胜率上达到 72-83%(p<.001),在新闻文章的全面性胜率上达到 72-80%(p<.001);多样性胜率方面,播客文本为 75-82%(p<.001),新闻文章为 62-71%(p<.01)。我们使用直接性作为有效性检验,结果证实向量 RAG 在所有比较中产生了最直接的响应。
赋能性 。赋能性比较显示,全局方法与向量 RAG(SS )之间,以及 GraphRAG 方法与源文本摘要方法(TS )之间的结果喜忧参半。使用 LLM 分析此指标的 LLM 推理过程表明,提供具体示例、引述和引用的能力被认为是帮助用户达成知情理解的关键。调整元素提取提示可能有助于在 GraphRAG 索引中保留更多此类细节。
图 2 :在两个数据集、四项评价指标、以及每次比较使用 125 个问题(每个问题重复五次取平均值)的条件下,(行条件)相对于(列条件)的胜率百分比。每个数据集和指标下的总体最优条件以粗体 显示。自胜率未计算,但作为参考显示了理论值 50%。所有 Graph RAG 条件在答案全面性 和多样性 上均优于朴素 RAG。条件 C1-C3 在答案全面性和多样性上也比 TS(无图索引的全局文本摘要)略有提升。
表 2 :上下文单元数量(C0-C3 的社区摘要和 TS 的文本块)、对应的令牌计数以及相对于最大令牌数的百分比。对源文本进行Map-reduce 摘要 是资源消耗最大的方法,需要最多的上下文令牌。而根级社区摘要(C0) 每个查询所需的令牌数大幅减少(降低为原来的 1/9 至 1/43)。
社区摘要 vs. 源文本 。在 GraphRAG 中比较社区摘要与源文本时,社区摘要通常在答案的全面性和多样性上带来虽小但持续的改进,根层级摘要除外。播客数据集的中间层级摘要和新闻数据集的低层级社区摘要分别取得了 57%(p<.001)和 64%(p<.001)的全面性胜率。多样性胜率方面,播客中间层级摘要为 57%(p=.036),新闻低层级社区摘要为 60%(p<.001)。表 2 还展示了 GraphRAG 相比源文本摘要的可扩展性优势:对于低层级社区摘要(C3 ),GraphRAG 所需上下文标记数减少了 26-33%;而对于根层级社区摘要(C0 ),所需标记数减少了 97% 以上。尽管与其他全局方法相比性能略有下降,但根层级的 GraphRAG 为以迭代式问答为特征的意义构建活动提供了一种非常高效的方法,同时在与向量 RAG 相比时,仍保持了全面性(72% 胜率)和多样性(62% 胜率)方面的优势。
5.2 实验 2 表 3 :按条件及数据集类型统计的提取主张平均数量。加粗数值 代表各列中的最高分。
表 3 展示了每种条件下提取出的平均主张数量(即基于主张的全面性度量)结果。对于新闻和播客两个数据集,所有全局搜索条件(C0-C3 )和源文本摘要(TS )都比向量 RAG(SS )具有更高的全面性。在所有情况下,差异都具有统计学显著性(p < .05)。这些发现与实验 1 中基于 LLM 的胜率结果一致。
表 4 包含了平均聚类数量的结果,这是基于主张的多样性度量。对于播客数据集,所有全局搜索条件在所有距离阈值上都显著高于SS (p < .05),这与实验 1 中观察到的胜率一致。然而,对于新闻数据集,只有C0 在所有距离阈值上显著优于SS (p < .05)。虽然C1-C3 的平均聚类数也高于SS ,但差异仅在某些距离阈值上具有统计学显著性。在实验 1 中,所有全局搜索条件在新闻数据集上都显著优于SS ——不仅仅是C0 。然而,新闻数据集中SS 与全局搜索条件之间在平均多样性分数上的差异小于播客数据集,这与基于主张的结果在趋势上一致。
对于全面性和多样性,在两个数据集中,全局搜索条件之间或全局搜索与TS 之间均未观察到具有统计学显著性的差异。
最后,对于实验 1 中的每对比较,我们测试了 LLM 偏好的答案是否与基于主张指标的胜出者一致。由于实验 1 中的每对比较都进行了五次,而基于主张的指标每次比较仅提供一个结果,我们使用多数投票法将实验 1 的结果聚合成一个标签。例如,如果在某个问题的全面性比较中,C0 在五次评判中三次胜过SS ,则C0 被标记为胜者,SS 为败者。然而,如果C0 胜两次,SS 胜一次,平局两次,则没有多数结果,最终标签为平局。
我们发现,基于主张的指标很少出现完全平局。一个可能的解决方案是基于阈值来定义平局(例如,条件 A 和条件 B 基于主张的结果的绝对差值必须小于或等于 x)。然而,我们观察到结果对阈值的选择很敏感。因此,我们专注于聚合后的 LLM 标签不是平局的情况,这分别占全面性和多样性两两比较的 33% 和 39%。在这些情况下,聚合后的 LLM 标签与基于主张的标签在 78% 的全面性两两比较以及 69-70% 的多样性两两比较(跨越所有距离阈值)中匹配,表明两者具有中等强度的对应关系。
表 4 :按条件及数据集类型统计、跨不同距离阈值的平均聚类数量。加粗数值 代表各行中的最高分。
6 讨论
6.1 评估方法的局限性 我们迄今为止的评估主要针对两个分别包含约 100 万标记的语料库的具体意义构建问题。需要更多工作来理解性能如何推广到来自不同领域、具有不同用例的数据集。比较虚构率,例如使用像 SelfCheckGPT 这样的方法,也将增强当前的分析。
6.2 未来工作 支持当前 GraphRAG 方法的图索引、丰富的文本标注和层次化社区结构,为改进和适应提供了许多可能性。这包括以更局部方式操作的 RAG 方法,例如通过基于嵌入的用户查询与图标注匹配。特别是,我们看到了混合 RAG 方案的潜力,这些方案在应用我们的映射 - 规约摘要机制之前,将基于嵌入的匹配与即时社区报告生成相结合。这种"上卷"方法也可以扩展到社区层次结构的多个层级,并可以实现为一种更具探索性的"下钻"机制,以跟踪高层级社区摘要中包含的信息线索。
更广泛的影响。 作为一种用于在大型文档集合上进行问答的机制,如果生成的答案不能准确代表源数据,则会对下游的意义构建和决策任务带来风险。系统使用时应伴随关于 AI 使用和输出可能存在错误的清晰披露。然而,与向量 RAG 相比,GraphRAG 有希望作为一种减轻此类全局性问题下游风险的方法,否则这些问题可能仅由检索到的事实样本(被错误地呈现为全局摘要)来回答。
7 结论 我们提出了 GraphRAG,一种结合知识图谱生成和查询聚焦摘要生成(QFS)的 RAG 方法,以支持人类在整个文本语料库上进行意义构建。初步评估显示,与向量 RAG 基线相比,GraphRAG 在答案的全面性和多样性方面均有显著提升,并且与使用映射 - 规约源文本摘要的全局但无图方法相比,也具有有利的结果。对于需要在同一数据集上提出许多全局性查询的情况,基于实体的图索引中根层级的社区摘要提供了一个既优于向量 RAG,又以一小部分的标记成本达到与其他全局方法相竞争性能的数据索引。
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown 转 HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online