基于知识图谱构建的检索增强生成 GraphRAG 部署指南 | 极客日志

PythonAI算法

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

GraphRAG 结合知识图谱解决传统 RAG 无法回答全局问题。流程包括实体抽取、聚类生成社区摘要。部署需配置 API 与参数，执行索引后支持全局或局部问答。注意 Token 消耗较高，适合对上下文关系要求高的场景。

GRACE Grace发布于 2025/2/7更新于 2026/7/2033 浏览

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

背景与原理

在传统的 LLM 应用开发中，检索增强生成（RAG）是提升模型回答准确性的利器。然而，标准 RAG 通常基于切片片段进行召回，这导致其只能回答局部文档问题，难以处理涉及知识库全局信息的复杂查询。

微软近期开源了 GraphRAG（Graph-based Retrieval Augmented Generation），它在通用 RAG 的基础上结合了知识图谱技术。GraphRAG 的核心流程如下：

实体与关系提取：利用大语言模型从知识库中提取实体及其相互关系。
社区聚类与摘要：对实体间的联系进行聚类，生成社区摘要。
问答生成：在回答用户问题时，结合社区摘要提供丰富的上下文和关系信息。

这种机制显著提升了检索生成的效果，使其能够理解数据之间的深层关联。

环境搭建

GraphRAG 的环境依赖相对简单，主要需要 Python 环境和相应的包。

conda create -n graphrag python=3.10
conda activate graphrag
git clone https://github.com/microsoft/graphrag.git
cd graphrag
pip install graphrag

数据准备与配置

1. 准备知识库

知识图谱适合处理结构化或半结构化的文本数据。例如，可以使用小说人物关系、企业组织架构等作为示例数据。将整理好的文本文件（如 TXT 格式）放入指定目录。

mkdir -p ./hlmtest/input
echo "红楼梦四大家族简介..." > ./hlmtest/input/data.txt

2. 初始化配置

在 GraphRAG 根目录下执行初始化命令，生成默认的环境变量文件和设置文件。

python -m graphrag.index --init --root ./hlmtest

执行后会在 ./hlmtest 目录下生成 .env 和 settings.yaml 文件。

配置 API Key

编辑 .env 文件，填入你的 OpenAI 或其他兼容模型的 API Key。

GRAPHRAG_API_KEY=your_openai_key

配置项目参数

编辑 settings.yaml 文件，主要配置模型、切片规则及 Prompt 等参数。

LLM 模块配置：

llm:
  api_key: ${GRAPHRAG_API_KEY}
  type: azure_openai_chat # 或 openai_chat
  model: model_name
  model_supports_json:

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

chunks:
  size: 300
  overlap: 100
  group_by_columns: [id] # 默认不允许跨文档切片

input:
  type: file # 或 blob
  file_type: text # 或 csv
  base_dir: "input"
  file_encoding: utf-8
  file_pattern: ".*\\.txt$"

entity_extraction:
  entity_types: [organization, person, geo, event]
  max_gleanings: 0

summarize_descriptions:
  max_length: 500

community_reports:
  prompt: prompts/community_report.txt
  max_length: 2000
  max_input_length: 8000

python -m graphrag.index --root ./hlmtest

python -m graphrag.query --root ./hlmtest --method global "贾元春和贾宝玉的关系？"

python -m graphrag.query --root ./hlmtest --method global "红楼梦中金陵十二钗有哪些人物？"

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

背景与原理

环境搭建

数据准备与配置

1. 准备知识库

2. 初始化配置

配置 API Key

配置项目参数

更多推荐文章

相关免费在线工具

运行索引 Pipeline

基于知识问答

性能优化与注意事项

总结

更多推荐文章

相关免费在线工具

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

基于知识图谱构建的检索增强生成 GraphRAG 部署指南

背景与原理

环境搭建

数据准备与配置

1. 准备知识库

2. 初始化配置

配置 API Key

配置项目参数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

运行索引 Pipeline

基于知识问答

性能优化与注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具