基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例 | 极客日志

PythonAI算法

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

综述由AI生成介绍微软开源的 GraphRAG 项目，通过提取实体和关系构建知识图谱来增强大模型检索能力。内容涵盖环境搭建、配置修改、索引构建流程以及图谱查看方法。文章结合《红楼梦》案例演示了局部检索与全局检索的具体用法，并分享了处理 Token 限制和 Embedding 模型兼容性的实战经验，旨在帮助开发者利用结构化数据提升 LLM 问答质量。

技术博主发布于 2025/2/7更新于 2026/5/2818 浏览

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

最近尝试把《红楼梦》接入大模型（LLM），用于打造知识检索增强的智能体，效果一直不太理想。传统 RAG 主要依赖向量相似度搜索，在处理复杂关系推理时往往力不从心。

今天发现一个 GitHub 高赞项目 - GraphRAG，微软开源。它首先通过 LLM 进行实体提取、关系提取，将知识库构建成知识图谱，然后再基于知识图谱，利用 LLM 回答用户问题。这种结构化数据的方式显著提升了推理能力。

GraphRAG 是一种结构化、分层的检索增强生成 (RAG) 方法，与使用纯文本片段的朴素语义搜索方法不同。GraphRAG 的处理流程包括从原始文本中提取知识图、构建社区层次结构、为这些社区生成摘要，然后在执行基于 RAG 的任务时利用这些结构。

大白话解释一下：GraphRAG 是一个数据转换套件，旨在利用 LLM 从非结构化文本中提取有价值的结构化数据，进而构建成知识图谱。

1. GraphRAG 是什么

项目地址：https://github.com/microsoft/graphrag

官方文档：https://microsoft.github.io/graphrag/

图谱有两个最重要的概念：节点和边。比如在知乎：你和猴哥都是一个节点，你关注猴哥就构成一条边，你给猴哥点赞也构成一条边。你我和构成的边，都是图谱的一部分。

发布至今，已有 15.9K Star，并且项目还在持续迭代中。

2. 安装使用

环境准备

首先，在 Python 虚拟环境中一键安装：

pip install graphrag

然后，创建一个项目文件夹 graphrag，并在其中新建 input 文件夹，用于存放知识库数据：

mkdir graphrag
mkdir graphrag/input

把你的知识库文件（如 红楼梦.txt）装入 graphrag/input 后，一键初始化项目：

python -m graphrag.index --init --root graphrag/

这一步，如果遇到如下报错：

from past.utils import old_div
ModuleNotFoundError: No module named 'past'

提示缺少 past 模块，future 库提供了向后兼容的接口。安装 future，即可确保程序正常：

pip install future

项目目录结构

初始化成功后，项目目录结构如下：

graphrag/
├── .env
├── input
│   └── 红楼梦.txt
├── prompts
│   ├── claim_extraction.txt
│   ├── community_report.txt
│   ├── entity_extraction.txt
│   └── summarize_descriptions.txt
└── settings.yaml

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

python -m graphrag.index --root graphrag/

⠧ GraphRAG Indexer 
├── Loading Input (text) - 1 files loaded (0 filtered) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 0:00:00 0:00:00
├── create_final_entities
├── create_final_nodes
├── create_final_communities
├── join_text_units_to_entity_ids
├── create_final_relationships
├── join_text_units_to_relationship_ids
├── create_final_community_reports
├── create_final_text_units
├── create_base_documents
└── create_final_documents
🚀 All workflows completed successfully.

python -m graphrag.query --root graphrag --method global "红楼梦的主题是什么？"

SUCCESS: Global Search Response: 
《红楼梦》的主题涵盖了多个方面，主要包括：

1. **家族衰败**：小说以贾、王、史、薛四大家族的兴衰为背景，展现了封建社会的腐朽和衰落。
2. **人性探讨**：小说深入探讨了人性的复杂性和矛盾，如贾宝玉的叛逆、林黛玉的多愁善感等。
3. **社会批判**：小说对封建礼教、官场腐败、社会不公等进行了深刻的批判。
4. **爱情与婚姻**：小说中的爱情与婚姻关系错综复杂，反映了当时社会的婚姻制度和家庭观念。
5. **哲学思考**：小说还探讨了人生、命运、爱情、婚姻、家族关系等主题。

综上所述，《红楼梦》是一部深刻反映封建社会末期社会矛盾和人物命运的史诗性作品。

python -m graphrag.query --root graphrag --method local "刘姥姥进大观园时带了谁"

SUCCESS: Local Search Response: 
刘姥姥进入大观园时，并没有携带其他人。根据提供的数据，我们可以看到与刘姥姥相关的记录中，并没有提及她带了其他人一同进入大观园。

python -m graphrag.query --root graphrag --method global "刘姥姥进大观园时带了谁"

SUCCESS: Global Search Response: 
刘姥姥进大观园时，带了她的孙子板儿。这一信息在多份分析师报告中得到了确认，包括报告编号 104、656 和 546。根据这些报告，可以确定板儿是刘姥姥的孙子，且在刘姥姥进入大观园时，孙子板儿与她一同前往。

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

1. GraphRAG 是什么

2. 安装使用

环境准备

项目目录结构

更多推荐文章

相关免费在线工具

构建索引

3. 踩坑预警

4. 图谱展示

查看生成的节点和边

5. 考考它吧

5.1 几个例子

全局检索 - 红楼梦的主题是什么？

局部查询 - 刘姥姥进大观园时带了谁？

全局查询 - 刘姥姥进大观园时带了谁？

6. 性能优化与最佳实践

Token 消耗管理

提示词调优

可视化分析

7. 总结

更多推荐文章

相关免费在线工具

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

基于 GraphRAG 构建知识图谱增强 LLM 检索：以《红楼梦》为例

1. GraphRAG 是什么

2. 安装使用

环境准备

项目目录结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

构建索引

3. 踩坑预警

4. 图谱展示

查看生成的节点和边

5. 考考它吧

5.1 几个例子

全局检索 - 红楼梦的主题是什么？

局部查询 - 刘姥姥进大观园时带了谁？

全局查询 - 刘姥姥进大观园时带了谁？

6. 性能优化与最佳实践

Token 消耗管理

提示词调优

可视化分析

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具