GraphRAG 论文解读：从局部到全局的查询聚焦摘要生成

综述由AI生成GraphRAG 是一种基于图的检索增强生成（RAG）方法，旨在解决传统向量 RAG 无法处理的全局意义构建任务。该方法利用大语言模型构建知识图谱，通过社区检测生成分层社区摘要，实现自底向上的全局理解。实验表明，在大规模数据集上，GraphRAG 在答案的全面性和多样性方面显著优于传统向量 RAG 及源文本摘要方法，同时降低了上下文标记消耗。

星落发布于 2026/4/5更新于 2026/5/2529 浏览

GraphRAG 论文解读：从局部到全局的查询聚焦摘要生成

摘要

利用检索增强生成（RAG）从外部知识源检索相关信息，使大语言模型（LLMs）能够回答关于私有和/或先前未见过的文档集合的问题。然而，针对整个文本语料库的全局性问题，例如'数据集中的主要主题是什么？'，RAG 则无法胜任，因为这本质上是一个查询聚焦的摘要生成（QFS）任务，而非显式的检索任务。同时，先前的 QFS 方法无法扩展到典型 RAG 系统索引的文本数量。为了结合这些不同方法的优势，我们提出了GraphRAG，一种基于图的方法，用于在私有文本语料库上进行问答，该方法能随用户问题的广泛性和源文本的数量而扩展。我们的方法使用 LLM 分两个阶段构建图索引：首先，从源文档中推导出实体知识图谱；然后，为所有紧密相关的实体组预先生成社区摘要。给定一个问题，每个社区摘要被用于生成部分回答，然后所有这些部分回答再次汇总成一个最终回答返回给用户。对于在约 100 万标记范围内的数据集上的一类全局意义构建问题，我们表明，与传统的 RAG 基线相比，GraphRAG 在生成答案的全面性和多样性方面都带来了显著提升。

1 引言

检索增强生成（RAG）是一种成熟的方法，它利用 LLMs 基于那些因数据量太大而无法放入语言模型上下文窗口（即 LLM 一次能处理的标记文本单位的最大数量）的数据来回答查询。在经典的 RAG 设置中，系统可以访问一个大型的外部文本记录语料库，并检索出与查询各自相关且总体规模小到足以放入 LLM 上下文窗口的记录子集。然后，LLM 基于查询和检索到的记录生成响应。

这种我们统称为向量 RAG的传统方法，对于可以通过集中在少量记录内的信息来回答的查询效果很好。然而，向量 RAG 方法不支持意义构建查询，即那些需要对整个数据集有全局性理解的查询，例如'过去十年间，跨学科研究如何影响科学发现的关键趋势是什么？'

意义构建任务需要对'（可能是人与人、地点与地点、事件与事件之间的）关联进行推理，以预测其发展轨迹并有效行动'。像 GPT、Llama 和 Gemini 这样的 LLMs 在科学发现和情报分析等复杂领域的意义构建方面表现出色。给定一个意义构建查询和一篇蕴含着一组隐含且相互关联的概念的文本，LLM 可以生成回答该查询的摘要。然而，当数据量需要采用 RAG 方法时，挑战就出现了，因为向量 RAG 方法无法支持对整个语料库进行意义构建。

在本文中，我们提出GraphRAG——一种基于图的 RAG 方法，能够在整个大型文本语料库上进行意义构建。GraphRAG 首先使用 LLM 构建一个知识图谱，其中节点对应语料库中的关键实体，边代表这些实体之间的关系。接着，它将图分割成一个由紧密相关实体组成的层次化社区结构，然后使用 LLM 生成社区层面的摘要。这些摘要遵循提取出的社区的层次结构自底向上生成，层次结构中更高级别的摘要递归地融合了较低级别的摘要。这些社区摘要共同提供了对语料库的全局描述和洞察。最后，GraphRAG 通过对社区摘要进行映射 - 规约处理来回答问题；在映射步骤中，这些摘要被独立且并行地用于提供问题的部分答案，然后在规约步骤中，部分答案被合并并用于生成最终的全局答案。

GraphRAG 方法及其在整个语料库上执行全局意义构建的能力是这项工作的主要贡献。为了证明这种能力，我们开发了一种新颖的 LLM 即评判员技术的应用，适用于针对没有标准答案的广泛议题和主题的提问。该方法首先使用一个 LLM 基于语料库特定用例生成一组多样化的全局意义构建问题，然后使用第二个 LLM，根据预定义的评判标准来评判两个不同 RAG 系统的答案。我们使用这种方法在两个具有代表性的现实世界文本数据集上比较 GraphRAG 与向量 RAG。结果表明，在使用 GPT-4 作为 LLM 时，GraphRAG 显著优于向量 RAG。

GraphRAG 作为开源软件发布于 https://github.com/microsoft/graphrag。此外，GraphRAG 方法的版本也作为多个开源库的扩展提供，包括 LangChain、LlamaIndex、NebulaGraph 和 Neo4J。

2 背景

2.1 RAG 方法与系统

RAG 通常泛指任何利用用户查询从外部数据源检索相关信息，然后将此信息纳入由 LLM（或其他生成式 AI 模型，如多媒体模型）生成的查询响应中的系统。查询和检索到的记录填入提示模板，然后传递给 LLM。当数据源中的记录总数太大，无法全部包含在给 LLM 的单个提示中时，即数据源中的文本量超过 LLM 的上下文窗口时，RAG 是理想的选择。

在经典的 RAG 方法中，检索过程返回一组与查询语义相似且数量固定的记录，生成的答案仅使用这些检索到的记录中的信息。传统 RAG 的一种常见方法是使用文本嵌入，检索在向量空间中与查询最接近的记录，其中接近度对应于语义相似性。虽然一些 RAG 方法可能使用替代的检索机制，我们统称这类传统方法为向量 RAG。GraphRAG 与向量 RAG 的不同之处在于其能够回答需要在整个数据语料库上进行全局意义构建的查询。

数据集	示例活动框架与全局意义构建问题的生成
播客文本	用户：一位寻找科技行业见解和趋势的科技记者
任务：理解科技领袖如何看待政策与监管的作用
问题：

GraphRAG 论文解读：从局部到全局的查询聚焦摘要生成