RAG 接入知识图谱：全局数据关系表示与实战指南 | 极客日志

PythonAI算法

RAG 接入知识图谱：全局数据关系表示与实战指南

将知识图谱（KG）接入检索增强生成（RAG）系统的完整流程。首先分析了传统 RAG 在处理全局数据关系时的局限性，阐述了向量嵌入与相似度检索的基本原理。接着详细演示了如何使用 Neo4j 和 LangChain 创建向量索引，并通过过滤条件实现精准查询。随后构建了基于 RAG+KG 的聊天应用，最后探讨了自然语言转 Cypher 的进阶用法及安全风险控制。文章提供了具体的代码示例和最佳实践建议，帮助开发者实现更准确、实时的企业级问答系统。

蜜桃汽水发布于 2025/2/7更新于 2026/7/2740 浏览

RAG 接入知识图谱：全局数据关系表示与实战指南

在构建检索增强生成（RAG）系统时，传统方法往往面临上下文碎片化的问题。将知识图谱（Knowledge Graph, KG）引入 RAG 架构，能够利用图结构的全局数据关系表示能力，显著提升复杂查询的准确性。

1. 核心优势：全局数据关系表示

传统 RAG 通常基于向量相似度检索 Top-K 个文本块。当文本块过多超出大模型上下文限制，或关键信息分散在不相邻的文本块中时，回答质量会大幅下降。

知识图谱的优势在于其结构化特性：

全局视野：LLM 可以看到整个图谱的背景关系，而非孤立的片段。
精确关联：通过图遍历和 Cypher 查询，能精准定位实体间的关系。
减少幻觉：基于事实图谱的数据比纯文本检索更具可信度。

示例场景

用户提问：'有多少位于 Germany 的供应商？'

传统 RAG：可能检索到包含 "Germany" 和 "Supplier" 的文档片段，但难以统计总数。
RAG + KG：LLM 理解图谱背景，执行 Cypher 查询，直接返回准确计数结果。

2. 基础概念：向量与相似度检索

要理解 RAG 与 KG 的结合，首先需要明确向量的基本概念。

2.1 什么是向量？

在机器学习中，现实世界的对象和概念通常被表示为一组连续数字，称为向量嵌入（Vector Embeddings）。这种方法将物体之间的相似性转换为向量空间中的距离。

语义相似性：由向量在空间中的接近程度表示。
常用模型：Word2Vec、GloVe、USE 用于文本；VGG 等 CNN 模型用于图像。

2.2 向量距离与相似度

通过计算对象向量之间的距离来判断相似性。常用的距离度量包括：

欧几里得距离 (Euclidean)
曼哈顿距离 (Manhattan)
余弦相似度 (Cosine)
切比雪夫距离 (Chebyshev)

选择合适的距离指标取决于具体任务需求。在 LangChain 与 Neo4j 集成中，通常使用余弦相似度来衡量文本嵌入的接近程度。

3. 环境准备与索引创建

本部分演示如何将 Neo4j 图数据库中的数据索引到 RAG 应用中，并实现指定范围的节点检索。

3.1 为什么指定索引节点？

图数据库可能包含大量数据，全量索引不仅消耗资源，还可能涉及数据安全问题。例如，财务部的数据不应被销售部随意查询。因此，支持按节点标签（Node Label）筛选索引至关重要。

3.2 实操步骤

激活环境

确保已安装必要的依赖库（如 langchain, neo4j, openai 等），并激活 Conda 环境：

conda activate medkg

启动 Jupyter Notebook

jupyter notebook

配置环境变量

打开 .env 文件，确保填写了正确的 API Key 和数据库连接信息：

NEO4J_URI: 数据库地址
NEO4J_USERNAME: 用户名

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain.vectorstores import Neo4jVector
import os

neo4j_graph_vector_index = Neo4jVector.from_existing_graph(
    embedding=OpenAIEmbeddings(),  # 使用 OpenAI 模型生成向量
    url=os.getenv("NEO4J_URI"),     # 获取数据库 URI
    username=os.getenv("NEO4J_USERNAME"),
    password=os.getenv("NEO4J_PASSWORD"),
    index_name="employee",          # 索引名称
    node_label="Employee",          # 指定节点标签
    text_node_properties=[         # 需要索引的属性列表
        "address", "note", "city",
        "postcode", "job_title",
        "first_name", "last_name",
        "region"
    ],
    embedding_node_property="embedding" # 存储向量的属性名
)

result = neo4j_graph_vector_index.similarity_search("Andrew", k=1)

result = neo4j_graph_vector_index.similarity_search(
    "Employee details", 
    filter={ "country": "UK" }
)

employee_details_chat_template_str = """
你的任务是使用提供的员工数据来回答关于他们的角色、表现和在公司内的经验的问题。
使用以下上下文来回答问题。
请尽可能详细地回答，但不要添加任何上下文之外的信息。
如果你不知道答案，就说你不知道。
{context}
"""

from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(
    llm=llm_model,  # 已定义的 LLM 实例
    retriever=neo4j_graph_vector_index.as_retriever(),
    chain_type="stuff"  # 将所有检索文档堆叠后输入模型
)

qa_generation_template_str = """
您是一名助手，负责将 Neo4j Cypher 查询的结果转化为易于人类阅读的响应。
查询结果部分包含了基于用户自然语言问题生成的 Cypher 查询结果。
所提供的信息是权威的；您绝不能质疑它，或者使用您的内部知识去更改它。
确保您的回答听起来像是针对问题的回应。
Query Results:
{context}
Question:
{question}
如果提供的信息为空，请通过声明您不知道答案来回应。
空信息由以下方式表示：[]
如果信息不为空，您必须使用结果来提供答案。
当查询结果中提供名称时，例如医院名称，要小心任何包含逗号或其他标点符号的名称。
绝不要在查询结果中有数据的情况下表示你缺乏足够的信息。
Helpful Answer:
"""

from langchain.graphs import Neo4jGraph
from langchain.chains import GraphCypherQAChain

graph = Neo4jGraph()

cypher_qa_chain = GraphCypherQAChain.from_llm(
    graph=graph,
    verbose=True,
    validate_cypher=True,  # 验证生成的 Cypher 有效性
    qa_prompt=qa_generation_prompt,
    cypher_prompt=cypher_generation_prompt,
    qa_llm=ChatOpenAI(model="gpt-3.5-turbo", temperature=0),
    cypher_llm=ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
)

RAG 接入知识图谱：全局数据关系表示与实战指南

RAG 接入知识图谱：全局数据关系表示与实战指南

1. 核心优势：全局数据关系表示

示例场景

2. 基础概念：向量与相似度检索

2.1 什么是向量？

2.2 向量距离与相似度

3. 环境准备与索引创建

3.1 为什么指定索引节点？

3.2 实操步骤

激活环境

启动 Jupyter Notebook

配置环境变量

更多推荐文章

相关免费在线工具

创建向量索引

4. 查询策略：从相似性搜索到精锁查询

4.1 单次相似性查询

4.2 精锁查询（Filtering）

5. 构建 Chat 应用：RAG + KG 实战

5.1 定义提示词模板

5.2 创建查询引擎

5.3 发起查询

6. 进阶：自然语言转 Cypher 实时对话

6.1 风险与权限控制

6.2 Few-Shot Prompting 策略

6.3 创建链式实例

7. 总结与最佳实践

更多推荐文章

相关免费在线工具

RAG 接入知识图谱：全局数据关系表示与实战指南

RAG 接入知识图谱：全局数据关系表示与实战指南

1. 核心优势：全局数据关系表示

示例场景

2. 基础概念：向量与相似度检索

2.1 什么是向量？

2.2 向量距离与相似度

3. 环境准备与索引创建

3.1 为什么指定索引节点？

3.2 实操步骤

激活环境

启动 Jupyter Notebook

配置环境变量

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

创建向量索引

4. 查询策略：从相似性搜索到精锁查询

4.1 单次相似性查询

4.2 精锁查询（Filtering）

5. 构建 Chat 应用：RAG + KG 实战

5.1 定义提示词模板

5.2 创建查询引擎

5.3 发起查询

6. 进阶：自然语言转 Cypher 实时对话

6.1 风险与权限控制

6.2 Few-Shot Prompting 策略

6.3 创建链式实例

7. 总结与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具