LightRAG 架构深度解析:基于图的检索增强生成系统
1. 为什么要提出 LightRAG?
检索增强生成(Retrieval-Augmented Generation,RAG)通过整合外部知识源来增强大型语言模型(LLM),这种整合使 LLM 能够生成更准确和与上下文相关的响应,显著提高实际应用中的效用。
RAG 的核心优势
- 领域适应性:通过适应特定领域知识,RAG 系统确保所提供的信息不仅相关,而且符合用户的需求。
- 时效性保障:提供获取最新信息的途径,这在快速发展的技术领域尤为重要。
- 分块优化:分块在促进检索增强生成过程中起着至关重要的作用。通过将大型外部文本语料库分解为更小、更易于管理的段,提高了信息检索的准确性。允许进行更有针对性的相似性搜索,确保检索到的内容与用户查询直接相关。
现有系统的局限性
然而,现有的 RAG 系统存在关键的局限性,阻碍了它们的性能:
- 数据结构简单:许多方法依赖于简单的数据结构,限制了它们理解并检索基于实体间复杂关系的信息的能力。
- 缺乏上下文意识:这些系统往往无法在不同实体及其相互关系之间保持连贯性,导致它们给出的回答可能无法全面回应用户的查询。
- 案例说明:例如,当用户问及'电动汽车的增长如何影响城市空气质量和公共交通设施?'时,现有的 RAG 方法可能会分别检索到关于电动汽车、空气污染和公共交通挑战的文档,但在将这些信息整合成一个连贯的回答上却显得力不从心。它们可能无法解释电动汽车的普及如何改善空气质量,进而影响公共交通规划。
为了解决这些局限性,作者准备将图结构(知识图谱)纳入文本索引和相关信息检索。图特别有效地表示不同实体之间的相互依赖关系,这能够更细致地理解关系。基于图的知识结构的整合有助于将来自多个来源的信息综合成连贯且上下文丰富的响应。
因此,作者提出了 LightRAG:一个基于图的文本索引范式与双层检索框架无缝集成的 RAG 系统。
2. LightRAG 架构

上图展示了 LightRAG 的架构,分为两个主要部分:
- 第一部分:基于图的索引阶段。使用大型语言模型从每个文本块中提取实体和关系。
- 第二部分:基于图的检索阶段。首先利用大型语言模型(LLM)生成相关关键字。
与当前的检索增强生成(RAG)系统类似,LightRAG 的检索机制依赖于基于向量的搜索。与传统的 RAG 中检索块不同,LightRAG 专注于检索实体和关系。与 GraphRAG 中使用的基于社区的遍历方法相比,LightRAG 显著降低了检索开销。
2.1 基于图的文本索引
图增强的实体和关系提取
LightRAG 通过将文档分割成更小、更易于管理的部分来增强检索系统。允许在不分析整个文档的情况下快速识别和访问相关信息。利用大型语言模型(LLM)来识别和提取各种实体(例如,名称、日期、地点和事件)以及它们之间的关系,然后创建一个知识图。

- 提取实体和关系:利用 LLM 在文本数据中识别实体(节点)及其关系(边)。例如,从文本'心脏病专家评估症状以识别潜在的心脏问题'中提取实体如'心脏病专家'和'心脏病',以及关系如'心脏病专家诊断心脏病'。为了提高效率,原始文本被分割成多个块后再进行实体和关系的提取。






