LightRAG：基于图结构索引的智能检索增强生成系统

概述

LightRAG 是由香港大学研究团队开发的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统。该系统通过结合图结构索引和双层检索机制，显著提升了大型语言模型在信息检索方面的准确性和效率。与传统基于向量搜索的 RAG 不同，LightRAG 能够捕捉实体之间的复杂关系，全面理解信息，无论是具体还是抽象的查询都能处理，确保用户得到既相关又丰富的回答。

此外，LightRAG 具备快速适应新数据的能力，在动态环境中保持高效和准确。通过增量更新算法，系统能够及时整合新数据，而无需重建整个知识库，这对于需要频繁更新信息的场景尤为重要。

核心功能

增强信息检索：LightRAG 能结合外部知识源，提升大型语言模型在信息检索中的准确性和相关性，减少幻觉现象。
处理复杂查询：系统能理解和处理涉及多个实体和复杂关系的查询，支持多跳推理。
生成准确回答：基于检索到的结构化信息，生成与用户查询紧密相关的详细回答。
适应动态数据：快速整合新数据，确保系统在信息频繁更新的环境中保持准确性和时效性。
提高检索效率：通过优化的检索机制，减少检索时间和计算资源消耗，降低 Token 使用量。

技术原理

1. 图结构索引

LightRAG 使用图结构来索引文本数据。节点代表实体，边代表实体间的关系。这种结构能够更好地捕捉和表示复杂的依赖关系，使得系统不仅能匹配关键词，还能理解语义关联。

2. 双层检索系统

系统结合了低层次（具体实体和属性）和高层次（广泛主题和概念）的检索策略。

低层次检索：关注具体的事实和数据点。
高层次检索：关注宏观的主题和概念框架。这种混合策略满足了不同类型的查询需求，平衡了精确度和召回率。

3. 增量更新算法

当新数据到来时，系统会增量式地更新知识图谱。它识别新实体和新关系，并将其融入现有结构中，无需从头开始重建，极大地提高了数据处理的效率。

4. 实体和关系提取

利用大型语言模型识别文本中的实体和关系，生成键值对，优化检索过程。这一过程通常包括命名实体识别（NER）和关系抽取（RE）。

环境安装

前置要求

Python 3.9 或更高版本
OpenAI API Key 或其他兼容的 LLM 服务

安装方式

从源代码安装

git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG
pip install -e .

从 PyPI 安装

pip install lightrag-hku

快速开始

1. 设置环境变量

在运行代码前，请确保已设置 API 密钥。

export OPENAI_API_KEY="sk-..."

2. 准备数据

下载示例文本文件，例如《圣诞颂歌》。

curl https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt > ./book.txt

搜索方式	描述	适用场景
朴素搜索 (Naive)	直接根据查询关键词进行搜索，不考虑实体间的关系。	适用于简单、直接的查询，不需要深入理解实体间的关系。
本地搜索 (Local)	在实体及其直接相邻的实体之间进行搜索，考虑实体间的基本关系。	适用于需要理解实体间直接关系的查询，但不需要全局视角。
全局搜索 (Global)	在整个知识图谱中进行搜索，考虑实体间的全局关系。	适用于需要全局视角，理解实体间复杂关系的查询。
混合搜索 (Hybrid)	结合本地搜索和全局搜索的优点，既考虑实体间的直接关系，也考虑全局关系。	适用于需要全面理解实体间关系的查询，适用于大多数场景。

LightRAG：基于图结构索引的智能检索增强生成系统