基于知识图谱的 RAG：固定实体架构实现方案

基于固定实体架构（FEA）的知识图谱检索增强生成（RAG）方法。通过预定义本体构建鱼骨图结构，利用向量索引和余弦相似度将文档块与实体连接，避免了 LLM 构建图谱的高成本与重复问题。文章对比了微软 GraphRAG 与 FEA 的差异，展示了在 Neo4j 中创建向量与全文索引的过程，并通过混合搜索查询实现了智能检索。该方法适用于定义明确、需高精度控制的领域，提供了灵活且低成本的 RAG 知识库构建方案。

苹果系统发布于 2025/2/7更新于 2026/7/3143 浏览

图方法在 RAG 中的应用——现状

检索增强生成（Retrieval-Augmented Generation，简称 RAG）结合了大型语言模型（LLM）的自然语言生成能力与信息检索的优势，使响应更加具备上下文感知、准确、相关且富有细微差别。通过将检索纳入生成过程，RAG 系统能够保持高度的相关性和事实准确性，使其在知识管理、客户支持和研究等需要精确且上下文适宜的信息的应用中不可或缺。

传统的检索增强生成（RAG）技术在某些场景下虽然有效，但往往难以捕捉现实世界数据中复杂的关系和上下文细微差别。另一方面，知识图谱提供了信息的结构化表示，能够实现更高效的检索和推理。然而，将知识图谱与 LLM 有效整合以提升 RAG 性能仍然是一项具有挑战性的任务。

在 RAG 系统中使用知识图谱越来越被认可，因为它能够改善数据组织和检索精度。基于图的方法现在通常与使用大型语言模型（LLM）从文本语料库中提取和构建复杂关系相关联。然而，使用 LLM 构建和维护准确的知识图谱仍然需要大量资源，并面临数据稀疏、重复和需要持续更新等挑战。为了解决这些问题，趋势是使用模块化和层次化的图结构，这些结构能够有效管理大规模数据集。诸如社区检测和摘要等技术正被用于提升基于图的 RAG 系统的可扩展性和效率。

本文将重点介绍一种我称之为固定实体架构（Fixed Entity Architecture，FEA）的新方法。微软的 GraphRAG 和 FEA 这两种方法都解决了知识图谱构建和利用中的常见问题，如可扩展性、复杂性和精度。它们是两种截然不同的方法，取决于具体的使用案例和数据。

本文重点

本文提出了一种用于构建知识图谱的新方法，该方法能够为多种使用案例的 RAG 应用提供更有效的知识库。FEA 方法突破了传统基于 LLM 的图构建方法，旨在解决现有技术的以下局限性：

在图创建步骤中过度依赖 LLM
避免实体重复并消除实体解析的需求
图的稀疏性

本文结构如下：

分析 GraphRAG 和固定实体架构
GraphRAG —— 微软现有方法概述
固定实体架构：介绍和比较概述
本体鱼骨图
增加知识
检索过程

我将使用著名的爱因斯坦名言的简单示例来说明这些概念，展示如何构建知识库并执行高级检索。

分析 GraphRAG 和固定实体架构

GraphRAG —— 微软现有方法概述

2024 年 4 月，微软发布了他们的第一篇关于 GraphRAG 的论文，介绍了一种有趣的方法，利用大型语言模型（LLM）从文本语料库中提取实体和关系，并基于这些实体构建知识图谱。他们将实体聚合成社区，这些社区随后成为其内容的摘要。实际的检索增强生成（RAG）是在这些摘要上进行的。

像任何方法一样，GraphRAG 有其优缺点。在某些使用案例中，尤其是处理大量文本数据时，预先了解实体之间的关系可能并不总是适用。

在我的案例中，我正在进行一个概念验证（POC），使用的是已知或至少部分已知的本体，并且迫切需要一个 RAG 实现。任务是基于非常非结构化的数据构建一个高效的知识库。

我最初尝试使用微软的方法在我的数据上构建图，花费了大量时间编写和完善查询，以从文本块中提取实体和关系。在创建了第一个甚至第二个基于 LLM 生成的图数据库后，我遇到了一个重大问题。信息检索不适合 GenAI 驱动的应用。数据库中充斥着重复项，实体解析的准确性不足，导致过程耗时且成本高昂。总之，对于我的特定使用案例来说，它太昂贵、太杂乱、太复杂且难以控制。

我意识到，对于我正在处理的定义明确的领域，需要一种不同的方法来在知识图谱上实现 RAG——一种快速、主要自动化且不依赖于昂贵的 LLM 调用的方法。此外，我希望它非常可控和灵活。LLM 生成的大量经常重复的实体让我想到，我希望这些实体是固定的，数量更少，并且能够高精度地了解它们是如何连接的。

本文介绍了 FEA 方法，使用固定实体架构在图上构建 RAG。知识图谱是使用 Neo4j 创建的。

固定实体架构 —— 新方法介绍

本文提出的固定实体架构（FEA）基于预定义的实体和关系，这些实体和关系构成了您的使用案例领域的本体'鱼骨图'。确定在此结构中包含什么通常是一个深刻的哲学问题，需要广泛的领域知识来开发一个稳健的固定实体架构。或者，您可以考虑知识库的用途，并确定关键或模板文档作为本体鱼骨图的基础。

与微软的方法不同，固定实体架构不依赖于大型语言模型（LLM）来构建图。相反，它利用特定于使用案例的专有领域知识，结合简单的数学技术。这种方法提供了一种高效的方式来解决与基于 LLM 的方法相关的许多缺点。

比较概述

总的来说，固定实体架构适用于定义明确、范围狭窄的领域，特别需要高精度和控制。它具有较低的复杂性、降低的计算成本，并且最小化了对 LLM 的依赖。然而，它在灵活性方面有所欠缺，在大型数据集上的可扩展性较差，并且需要预先的领域知识。

微软的 GraphRAG在处理大规模、多样化的数据集和复杂查询方面表现出色，提供了跨多个领域的可扩展性和适应性。它支持本地和全局查询，但复杂性更高、资源成本更大，并且对 LLM 有较强的依赖。当优先考虑简便性、低维护或固定实体时，它的适用性较差。

基于知识图谱的 RAG：固定实体架构实现方案

图方法在 RAG 中的应用——现状