GraphRAG 知识图谱构建全流程解析 | 极客日志

PythonAI算法

GraphRAG 知识图谱构建全流程解析

GraphRAG 通过知识图谱增强 RAG 能力，解决传统检索在概括性问题上的不足。详细解析了 GraphRAG 的索引（Indexing）流程，涵盖文本分块、实体关系提取、社区检测、摘要生成及持久化存储等关键步骤。利用 Leiden 算法进行社区划分，结合 LLM 生成社区报告，最终将数据保存为 Parquet 格式并支持导入 Neo4j 进行可视化与分析。该流程分为文档处理、图谱构建、聚类分析及报告生成四大类工作流，旨在实现查询聚焦式总结（QFS）。

RustyLab发布于 2025/2/6更新于 2026/7/734 浏览

GraphRAG 解决了什么问题

当你问：'这个数据集的主题是什么？'这类高级别、概括性的问题时，传统的 RAG 可能就会束手无策。这是因为这本质上是一个聚焦于查询的总结性任务 (Query-Focused Summarization, QFS)，而不是一个明确的检索任务。

解决方案在相关论文中已有详细描述：

In contrast with related work that exploits the structured retrieval and traversal affordances of graph indexes (subsection 4.2)，we focus on a previously unexplored quality of graphs in this context: their inherent modularity (Newman，2006) and the ability of community detection algorithms to partition graphs into modular communities of closely-related nodes (e.g.，Louvain，Blondel et al.，2008; Leiden，Traag et al.，2019). LLM-generated summaries of these community descriptions provide complete coverage of the underlying graph index and the input documents it represents. Query-focused summarization of an entire corpus is then made possible using a map-reduce approach: first using each community summary to answer the query independently and in parallel，then summarizing all relevant partial answers into a final global answer.

简单来说，就是利用社区检测算法（如 Leiden 算法）将整个知识图谱划分模块化的社区 (包含相关性较高的节点)，然后大模型自下而上对社区进行摘要，最终再采取 map-reduce 方式实现 QFS: 每个社区先并行执行 Query，最终汇总成全局性的完整答案。

与其他 RAG 系统类似，GraphRAG 整个 Pipeline 也可划分为索引 (Indexing) 与查询 (Query) 两个阶段。索引过程利用 LLM 提取出节点（如实体）、边（如关系）和协变量（如 claim），然后利用社区检测技术对整个知识图谱进行划分，再利用 LLM 进一步总结。

鉴于篇幅原因，本文主要聚焦于 Indexing，Query 的工作原理将在后续介绍。

Pipeline

当你运行 poetry run poe index 命令时，它会执行 graphrag.index.cli 目录下的 index_cli 入口函数。在 GraphRAG 中，构建知识图谱被视为一个流水线（pipeline）过程，这个流水线包含多个工作流（workflow），例如文本分块、使用 LLM 来识别实体等。Pipeline 涵盖的 Workflow 是通过 settings.yml 配置文件进行指定的。index_cli 的主要任务是创建 pipeline_config 对象，并利用 run_pipeline_with_config 函数来运行流水线。

GraphRAG Indexing Pipeline Diagram

整个过程体现了自上而下的编程思想——每个结果依赖于更底层函数的执行，从顶部开始调用，然后逐步深入到底层函数。这样的结构使得整体流程清晰明了。

Workflow

讨论 Workflow 之前，先简单了解下项目使用的另一个框架：DataShaper 是微软开源的一款用于执行工作流处理的库，内置了很多组件 (专业名词叫做 Verb)。通过定义一个数据处理的工作流，你可以对输入的数据（比如 Pandas 的 DataFrame）定义一系列数据操作的动作（DataShaper 中称作Verb）、参数与步骤，执行这个工作流即可完成数据处理过程。在 DataShaper 中提供了很多开箱即用的 Verb，你也可以自定义 Verb。多个子工作流也可以组合定义成一个更大的工作流。

当你通过命令行执行完 indexing 之后，你会看到如下的输出内容:

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

entity_extraction:     ## llm: override the global llm settings for this task     ## parallelization: override the global parallelization settings for this task     ## async_mode: override the global async_mode settings for this task     prompt: "prompts/entity_extraction.txt"     entity_types: [organization,person,geo,event]     max_gleanings: 1

("entity"<|>欧罗·杰克逊号<|>ORGANIZATION<|>欧罗·杰克逊号是罗杰海贼团的船只)   ##   ("entity"<|>白胡子<|>PERSON<|>白胡子是'顶上战争'之前的四皇之一，悬赏金为 50 亿 4600 万)   ##   ("entity"<|>百兽<|>PERSON<|>百兽是'顶上战争'之前和之后的四皇之一，悬赏金为 46 亿 1110 万)   ##   ("entity"<|>BIG MOM<|>PERSON<|>BIG MOM 是'顶上战争'之前和之后的四皇之一，悬赏金为 43 亿 8800 万)   ##   ("entity"<|>红发<|>PERSON<|>红发是'顶上战争'之前和之后的四皇之一，悬赏金为 40 亿 4890 万)   ##   ("entity"<|>黑胡子海贼团<|>ORGANIZATION<|>黑胡子海贼团是黑胡子的势力)   ##   ("relationship"<|>弗兰奇<|>卡雷拉公司<|>弗兰奇设计的海贼船由卡雷拉公司协助制作<|>8)   ##   ("relationship"<|>草帽大船团<|>俊美海贼团<|>俊美海贼团是草帽大船团旗下的一个海贼团<|>7)   ##   ("relationship"<|>卡文迪许<|>俊美海贼团<|>卡文迪许是俊美海贼团的船长<|>9)   ##   ("relationship"<|>斯莱曼<|>俊美海贼团<|>斯莱曼是俊美海贼团的船员<|>8)

你是一位负责生成以下提供数据的综合摘要的有用助手。   根据一个或两个实体，以及一系列描述，这些描述都与同一个实体或一组实体有关。   请将所有这些描述合并成一个单一的、全面的描述。确保包括所有描述中收集到的信息。   如果提供的描述存在矛盾，请解决这些矛盾，并提供一个单一的、连贯的摘要。   确保用第三人称写作，并包括实体名称，以便我们拥有完整的上下文。      #######   -数据-   实体：{entity_name}   描述列表：{description_list}   #######   输出:

source	target	weight	description	text_unit_ids	id	human_readable_id	source_degree	target_degree	rank
蒙奇·D·路飞	草帽一伙	1.0	蒙奇·D·路飞是草帽一伙的船长和创立者	['2808e991f29115cba505836944beb514']	392be891f8b649fabdc20e7bf549f669	0	11	19	30
蒙奇·D·路飞	香克斯	1.0	蒙奇·D·路飞为了实现与香克斯的约定而出海	['2808e991f29115cba505836944beb514']	0111777c4e9e4260ab2e5ddea7cbcf58	1	11	2	13
蒙奇·D·路飞	ONE PIECE	1.0	蒙奇·D·路飞为了寻找传说中的大秘宝 ONE PIECE 而扬帆起航	['2808e991f29115cba505836944beb514']	785f32471c439e89601ab81c828d1d	2	11	1	12

'-----Entities-----\n'
    'human_readable_id,title,description,degree\n'
    '2,蒙奇·D·路飞，蒙奇·D·路飞是'草帽一伙'的船长，外号'草帽小子'，梦想成为'海贼王'，悬赏金 30 亿贝里，11\n'
    '20,ONE PIECE,,1\n'
    '17,五老星，五老星认为蒙奇·D·路飞食用的橡胶果实实际上是人人果实·幻兽种·尼卡形态，1\n'
    '10,和之国事件，和之国事件是蒙奇·D·路飞击败原'四皇'之一的'百兽'凯多的事件，1\n'
    '19,尼卡，尼卡是五老星认为蒙奇·D·路飞食用的人人果实·幻兽种的形态，1\n'
    '9,恶魔果实，恶魔果实是一种神秘的果实，食用后可以获得超人能力，但会失去游泳的能力，1\n'
    '11,百兽凯多，百兽凯多是原'四皇'之一，被蒙奇·D·路飞在和之国事件中击败，1\n'
    '\n'
    '\n'
    '\n'
    '-----Relationships-----\n'
    'human_readable_id,source,target,description,rank\n'
    '0,蒙奇·D·路飞，草帽一伙，蒙奇·D·路飞是草帽一伙的船长和创立者，30\n'
    '7,蒙奇·D·路飞，东海，蒙奇·D·路飞的出身地是东海，16\n'
    '1,蒙奇·D·路飞，香克斯，蒙奇·D·路飞为了实现与香克斯的约定而出海，13\n'
    '6,蒙奇·D·路飞，香波地群岛，蒙奇·D·路飞是'极恶的世代'中登陆香波地群岛的 11 位超新星之一，13\n'
    '9,蒙奇·D·路飞，极恶的世代，蒙奇·D·路飞是'极恶的世代'中登陆香波地群岛的 11 位超新星之一，13\n'
    '2,蒙奇·D·路飞，ONE PIECE，蒙奇·D·路飞为了寻找传说中的大秘宝 ONE PIECE 而扬帆起航，12\n'
    '8,蒙奇·D·路飞，五老星，五老星认为蒙奇·D·路飞食用的橡胶果实实际上是人人果实·幻兽种·尼卡形态，12\n'
    '4,蒙奇·D·路飞，和之国事件，蒙奇·D·路飞在和之国事件中击败了百兽凯多，12\n'
    '10,蒙奇·D·路飞，尼卡，五老星认为蒙奇·D·路飞食用的橡胶果实实际上是人人果实·幻兽种·尼卡形态，12\n'
    '3,蒙奇·D·路飞，恶魔果实，蒙奇·D·路飞因误食恶魔果实而成为了橡皮人，12\n'
    '5,蒙奇·D·路飞，百兽凯多，蒙奇·D·路飞在和之国事件中击败了百兽凯多，12'

你是一个人工智能助手，帮助人类分析员进行一般的信息发现。信息发现是识别和评估与某些实体（例如，组织和个人）相关的相关信息的过程。

# 目标
在给定属于社区的实体列表及其关系和可选的相关声明的情况下，编写社区的全面报告。报告将用于通知决策者有关社区及其潜在影响的信息。报告内容包括社区关键实体的概述、他们的法律合规性、技术能力、声誉和值得注意的声明。

# 报告结构
报告应包括以下部分：
- 标题：代表其关键实体的社区名称——标题应简短但具体。尽可能在标题中包括具有代表性的命名实体。
- 摘要：对社区整体结构、其实体之间的关系以及与其实体相关的重大信息的执行摘要。
- 影响严重性评分：一个介于 0-10 之间的浮动评分，表示社区内实体所构成的影响的严重程度。影响是社区的重要性评分。
- 评分解释：用一句话解释影响严重性评分。
- 详细发现：关于社区的 5-10 个关键见解的列表。每个见解应有一个简短的摘要，后跟根据以下基础规则进行的多段解释性文本。要全面。

返回输出为格式良好的 JSON 格式的字符串，格式如下：
```json
{
    "title": <report_title>,
    "summary": <executive_summary>,
    "rating": <impact_severity_rating>,
    "rating_explanation": <rating_explanation>,
    "findings": [
        {
            "summary":<insight_1_summary>,
            "explanation": <insight_1_explanation>
        },
        {
            "summary":<insight_2_summary>,
            "explanation": <insight_2_explanation>
        }
    ]
}

{
    "title": "绿洲广场和团结游行",
    "summary": "社区围绕绿洲广场展开，该广场是团结游行的地点。广场与和谐集会、团结游行和论坛焦点都有关系，这些都与游行事件有关。",
    "rating": 5.0,
    "rating_explanation": "由于团结游行期间可能发生的骚乱或冲突，影响严重性评分为中等。",
    "findings": [
        {
            "summary": "绿洲广场作为中心地点",
            "explanation": "绿洲广场是该社区的中心实体，作为团结游行的地点。该广场是所有其他实体的共同联系点，表明其在社区中的重要性。广场与游行的关联可能会导致如公共秩序问题或冲突等问题，具体取决于游行的性质和它引起的反应。[数据：实体 (5), 关系 (37, 38, 39, 40, 41,+更多)]"
        },
        {
            "summary": "和谐集会在社区中的角色",
            "explanation": "和谐集会是社区中的另一个关键实体，他们在绿洲广场组织游行。和谐集会的性质和他们的游行可能是潜在的威胁来源，这取决于他们的目标和引起的反应。和谐集会和广场之间的关系对于理解该社区的动态至关重要。[数据：实体 (6), 关系 (38, 43)]"
        },
        {
            "summary": "团结游行作为重要事件",
            "explanation": "团结游行是一个在绿洲广场上发生的重要事件。该事件是社区动态的关键因素，具体取决于游行的性质和它引起的反应，可能是潜在的威胁来源。游行和广场之间的关系对于理解社区的动态至关重要。[数据：关系 (39)]"
        },
        {
            "summary": "论坛焦点的作用",
            "explanation": "论坛焦点正在报道在绿洲广场上举行的团结游行。这表明该事件吸引了媒体的关注，可能会放大其对社区的影响。论坛焦点的作用可能在塑造公众对事件和相关实体的看法方面具有重要意义。[数据：关系 (40)]"
        }
    ]
}

{
    "title": <report_title>,
    "summary": <executive_summary>,
    "rating": <impact_severity_rating>,
    "rating_explanation": <rating_explanation>,
    "findings": [
        {
            "summary":<insight_1_summary>,
            "explanation": <insight_1_explanation>
        },
        {
            "summary":<insight_2_summary>,
            "explanation": <insight_2_explanation>
        }
    ]
}


我们看下某个社区的报告内容：

{'findings': [{'explanation': '蒙奇·D·路飞是草帽一伙的船长和创立者，他的梦想是成为海贼王。他的出身地是东海，并且为了实现与香克斯的约定而出海。他还因误食恶魔果实而成为了橡皮人，这使他获得了超人能力但失去了游泳的能力 '[Data: Entities (2, 9); Relationships (0, 7, 1, '3)].', 'summary': '蒙奇·D·路飞的核心地位'}, {'explanation': '和之国事件是蒙奇·D·路飞击败原'四皇'之一的百兽凯多的事件。这一事件标志着他在海贼世界中的地位进一步提升，并对世界格局产生了深远影响 '[Data: Entities (10, 11); Relationships (4, '5)].', 'summary': '和之国事件的重要性'}, {'explanation': '五老星认为蒙奇·D·路飞食用的橡胶果实实际上是人人果实·幻兽种·尼卡形态。这一观点揭示了蒙奇·D·路飞的能力可能比之前认为的更为强大和神秘 '[Data: Entities (17, 19); Relationships (8, '10)].', 'summary': '五老星的观点'}, {'explanation': '恶魔果实是一种神秘的果实，食用后可以获得超人能力，但会失去游泳的能力。蒙奇·D·路飞因误食恶魔果实而成为了橡皮人，这使他在战斗中具有独特的优势 '[Data: Entities (9); Relationships (3)].', 'summary': '恶魔果实的影响'}, {'explanation': '草帽一伙是由蒙奇·D·路飞创立的海贼团体，他们在海贼世界中扮演着重要角色。蒙奇·D·路飞作为船长，带领着这支团队在寻找传说中的大秘宝 ONE PIECE 的过程中经历了许多冒险 [Data: Entities (2, 20); 'Relationships (0, 2)].', 'summary': '草帽一伙的角色'}, {'explanation': '蒙奇·D·路飞是'极恶的世代'中登陆香波地群岛的 11 位超新星之一。这一身份使他在海贼世界中备受关注，并进一步提升了他的影响力 '[Data: Relationships (6, 9)].', 'summary': '极恶的世代'}], 'rating': 8.5, 'rating_explanation': '该社区的影响力很高，因为蒙奇·D·路飞在和之国事件中的胜利对整个世界格局产生了重大影响。', 'summary': '该社区围绕着蒙奇·D·路飞展开，他是草帽一伙的船长，梦想成为海贼王。蒙奇·D·路飞与多个实体有着紧密的联系，包括和之国事件、五老星、百兽凯多等。和之国事件是他击败原'四皇'之一的百兽凯多的重要事件。五老星认为他食用的橡胶果实实际上是人人果实·幻兽种·尼卡形态。', 'title': '蒙奇·D·路飞与和之国事件'}


这份报告包含了社区的总体 title、summary 和发现等等，这个过程也是最耗费 token 的。

### 12. create_final_text_units

这个 workflow 很简单，就是把对应的 chunk 和这个 chunk 有的 document_ids, entity_ids, relationship_ids 做关联，成一张表

- **id**: 表示每条记录的唯一标识符。
- **text**: 包含文本内容的列。
- **n_tokens**: 表示文本内容中包含的标记（token）的数量。
- **document_ids**: 包含一个或多个文档标识符的列，表示该记录与哪些文档相关联。
- **entity_ids**: 包含一个或多个实体标识符的列，表示该记录中提到的实体。
- **relationship_ids**: 包含一个或多个关系标识符的列，表示该记录中涉及到的关系。

![Final Text Units](https://qiniu.meowparty.cn/coder.2023/2025-02-23/Lesson-2109789e3d338.png)

### 13. create_base_documents

这个流程也很简单，主要是建立 document 和 text_unit 的对应关系表

![Base Documents](https://qiniu.meowparty.cn/coder.2023/2025-02-23/Lesson-796481425be96.png)

### 14. create_final_documents

这个流程完成的工作基本和 create_base_documents 一致，只是把 text_units 列名换成了 text_unit_ids 而已

![Final Documents](https://qiniu.meowparty.cn/coder.2023/2025-02-23/Lesson-9574159a3380d.png)

## 总结

当 GraphRAG 完成索引过程后，它默认会将构建知识图谱所需的所有数据持久化。这些数据被存储在输出目录中，并采用 Parquet 文件格式。Parquet 是一种列式压缩存储格式，专为高效的数据存储和分析而设计。你可以将其视为 DataFrame 的一种持久化方式。

在查询阶段，这些 Parquet 文件会被加载到内存和向量数据库中。这样做的好处在于，我们可以直接从内存和数据库中检索信息，而无需再次从原始数据源抽取和处理数据。这大大提高了查询的效率和速度。

由于 parquet 是一种底层文件格式，我们无法用来直观的了解与观察上面构建的知识图谱索引的细节，有什么办法可以做更直观的可视化、分析与检索呢？

由于 parquet 文件可以很简单的通过 pandas 库读取成 DataFrame 表，所以在了解其结构后，就可以通过 Cypher 语句导入成 Neo4j 图数据库中的节点与关系。在 Github 上已经有人完成这样的工作：https://github.com/tomasonjo/blogs/blob/master/msft_graphrag/ms_graphrag_import.ipynb。你如果嫌麻烦，也可以把 parquet 转成 csv 格式进行查看，代码也非常简单，不到 20 行左右。

下图是抽取的 Entity 的 Neo4j 展示：

![Neo4j Entity View](https://qiniu.meowparty.cn/coder.2023/2025-02-23/Lesson-f41fd8d539578.png)

基于 GraphRAG 生成的数据导入到 Neo4j 之后，我们完全可以不再依赖于 GraphRAG 项目自带的 Query 功能，可以结合自己的项目需求在自己的 Neo4j 图数据库上定义自己的 RAG 应用检索与生成器，从而带来极大的灵活性。

![Neo4j Application](https://qiniu.meowparty.cn/coder.2023/2025-02-23/Lesson-db64be7cab6bd.jpg)

GraphRAG 知识图谱构建全流程解析

GraphRAG 解决了什么问题

Pipeline

Workflow

更多推荐文章

相关免费在线工具

1. create_base_text_units

2. create_base_extracted_entities

3. create_summarized_entities

4. create_base_entity_graph

5. create_final_entities

6. create_final_nodes

7. create_final_communities

8. join_text_units_to_entity_ids

9. create_final_relationships

10. join_text_units_to_relationship_ids

11. create_final_community_reports

基础规则

示例输入

真实数据

基础规则

更多推荐文章

相关免费在线工具

GraphRAG 知识图谱构建全流程解析

GraphRAG 解决了什么问题

Pipeline

Workflow

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. create_base_text_units

2. create_base_extracted_entities

3. create_summarized_entities

4. create_base_entity_graph

5. create_final_entities

6. create_final_nodes

7. create_final_communities

8. join_text_units_to_entity_ids

9. create_final_relationships

10. join_text_units_to_relationship_ids

11. create_final_community_reports

基础规则

示例输入

真实数据

基础规则

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具