GraphRAG 与 RAG 的比较分析

检索增强生成（RAG）技术概述

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是一种旨在提升大型语言模型（Large Language Models，LLMs）性能的技术方法。其核心思想是通过整合外部可靠知识库的信息来增强模型的输出质量，解决大模型知识截止、幻觉及私有数据无法访问的问题。

RAG 的工作原理

当 LLM 接收到查询时，它不仅依赖于自身的预训练知识，还会主动从指定的知识源检索相关信息。这种方法确保了生成的输出能够参考大量上下文丰富的数据，并得到最新、最相关可用信息的支持。

RAG 系统的核心组件

标准 RAG 系统主要由三个关键组件构成：

检索器组件（Retriever Component）
- 功能：在知识库或大规模文档集中搜索与查询主题高度相关的信息。
- 工作方式：识别在语义上与查询相关的文档，并通过相似度度量（通常采用向量间的余弦相似度）计算相关性。
生成器（Generator）
- 定义：通常是一个大型语言模型。
- 输入：检索到的相关信息和原始查询。
- 输出：基于输入生成响应。
知识库（Knowledge Base）
- 用途：作为检索器查找文档或信息的数据源，通常经过向量化处理。

RAG 的工作流程

索引构建：从外部源收集相关信息，对文档进行切片、清洗，创建文本嵌入（Embedding）并存入向量数据库。
检索增强：将用户查询转换为向量，在知识库中检索 Top-K 个相关片段。
提示工程：将收集到的信息附加到用户的原始提示中，形成增强后的 Prompt。
生成响应：将增强后的提示作为输入发送给语言模型。在生成阶段，LLM 结合增强提示和自身的训练数据表示，生成针对用户查询定制的响应。

这一过程产生的响应融合了个性化和可验证的信息，特别适用于客服聊天机器人、企业知识库问答等应用场景。

图 1：检索增强生成流程示意

Graph RAG 技术简介

Graph RAG 是 RAG 方法的一个高级变体，其特点是引入了图结构数据。与将知识库视为平面文档集合不同，Graph RAG 将信息表示为实体和关系的互联网络，利用知识图谱（Knowledge Graphs, KGs）的结构化特性来增强检索能力。

Graph RAG 的核心概念

Graph RAG 基于知识图谱构建。知识图谱是现实世界实体及其关系的结构化表示，主要由两个基本元素组成：

节点（Nodes）：表示单个实体，如人物、地点、物体或概念。
边（Edges）：表示节点之间的关系，定义了实体间的连接方式。

相比于标准 RAG 使用向量相似度和向量数据库进行检索，Graph RAG 利用图数据库进行更全面、系统的信息检索，从而提高了检索的完整性和准确性，特别是在处理复杂关系时。

Graph RAG 的技术优势

Graph RAG 相较于标准 RAG 具有以下显著优势：

维度	标准 RAG	Graph RAG
知识表示方式	采用平面文档结构，依赖向量空间	使用图结构表示知识，依赖节点与边关系
检索机制	主要依赖向量相似度搜索（Vector Search）	采用图遍历算法（Graph Traversal）结合混合检索
上下文理解能力	局限于局部窗口内的语义相似性	能够捕捉更复杂的多步骤关系，这些关系在标准 RAG 中可能被忽略
推理能力	基于概率生成的单跳推理为主	图结构支持对相互关联信息进行更深入、更复杂的逻辑推理
适用场景	简单问答、事实检索、内容总结	复杂关系分析、多跳查询、全局洞察

GraphRAG 与 RAG 的比较分析