使用大语言模型从零构建知识图谱 | 极客日志

PythonAI算法

使用大语言模型从零构建知识图谱

利用大语言模型从零开始构建知识图谱的完整流程。首先配置本地开源模型如 Ollama，提取数据集结构定义节点属性。接着通过提示词工程引导模型生成节点定义与关系三元组，并引入重试机制确保稳定性。随后构建 Cypher 查询模板，验证语法后加载数据至 Neo4j 图数据库。该方法展示了如何自动化处理非结构化业务数据，为设计自定义 GraphRAG 系统提供基础方案。

小熊软糖发布于 2025/2/6更新于 2026/7/1034 浏览

通过创建一个自定义流程来自动上传业务数据

在这一节，我会带你创建一个自定义流程，通过大语言模型自动生成节点定义、关系和 Cypher 查询，基于数据集进行操作。这种方法也适用于其他 DataFrame，同时该方法也能够自动识别其 Schema。

需要注意的是，这种方法在性能上会是个问题，尤其是与 Langchain 的 LLMGraphTransformer 相比，我将在下一节中进行介绍。而本节主要帮助你理解如果从零开始构建该过程，从原理出发，帮助你有机会设计自己的 Graph-Builder。实际上，目前所谓最佳方法的主要限制来自于它对数据的天然含义和模式高度敏感。因此，需要跳出固有的思维模式就显得至关重要，这样才能够帮助你从零开始设计 GraphRAG，或利用现有的，最佳实践的 GraphRAG 来满足你的业务需求。

现在，让我们深入研究，设置我们将在接下来的练习中使用的大语言模型。你可以使用 Langchain 所支持的任何大语言模型，只要其性能能够满足你真实（而非真是）的业务需要。

这里我们有两个可选的免费方案：DeepSeek-V3（注册后可获得 10 元的额度，有效期一个月）和 Ollama（可以让你轻松的在本地运行开源模型）。对于这两种方案我都进行了测试，尽管 DeepSeek-V3 提供了和 GPT-4o 类似的性能，我仍然推荐你选择 Ollama 进行学习，这样，你可以更深入的了解从模型下载到运行的整个过程。

在 Ollama 示例中，我们将使用 Qwen2.5-Coder:7B，它针对代码任务进行了微调，并在代码生成、推理和修复代码错误方面表现出色。根据你本地计算机的配置来决定是否使用更高参数量的版本，如 14B 或 32B。

让我们从初始化模型开始：

llm = OllamaLLM(model="qwen2.5-coder:latest")

让我们开始提取数据集的结构，并定义节点及其属性：

node_structure = "\n".join([f"{col}: {', '.join(map(str, movies[col].unique()[:3]))}..." for col in movies.columns])
print(node_structure)

对于数据集中的每一列（例如：电影类型、导演），我们来展示一些样本值。这将帮助大语言模型理解数据格式以及每一列的典型值。

生成节点

接下来，我们使用大语言模型的提示词模板来引导模型如何提取节点及其属性。让我们先看看完整的代码：

# 设置日志
import logging
logging.basicConfig(level=logging.logging.INFO)
logger = logging.getLogger(__name__)

def validate_node_definition(node_def: Dict) -> bool:
    """验证节点结构定义"""
    if not isinstance(node_def, dict):
        return False
    return (
        (v, )  ((k, )  k  v.keys())
         v  node_def.values()
    )

 retrying  retry
 time  sleep


 () -> [, [, ]]:
    
    :
        
        response = chain.invoke({: structure, : example})
                
        
        node_defs = ast.literal_eval(response)
                
        
          validate_node_definition(node_defs):
             ValueError()
                    
         node_defs
            
     (ValueError, SyntaxError)  e:
        logger.error()
        
   

node_example = {
    : {: , : },
    : {: , : },
    : {: , : },
}
   

:
    node_chain = define_nodes_prompt | llm
    node_definitions = get_node_definitions(node_chain, structure=node_structure, example=node_example)
    logger.info()
 Exception  e:
    logger.error()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

def validate_node_definition(node_def: Dict) -> bool:
    """验证节点结构定义"""
    if not isinstance(node_def, dict):
        return False
    return all(
        isinstance(v, dict) and all(isinstance(k, str) for k in v.keys())
        for v in node_def.values()
    )

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def get_node_definitions(chain, structure: str, example: Dict) -> Dict[str, Dict[str, str]]:
    """获取带有重试逻辑的节点定义"""
    try:
        # 从大语言模型获取响应
        response = chain.invoke({"structure": structure, "example": example})
                
        # 解析响应
        node_defs = ast.literal_eval(response)
                
        # 验证结构
        if not validate_node_definition(node_defs):
            raise ValueError("无效的节点结构定义")
                    
        return node_defs

except (ValueError, SyntaxError) as e:
    logger.error(f"Error parsing node definitions: {e}")
    raise

define_nodes_prompt = PromptTemplate(
    input_variables=["example", "structure"],
    template=("""
        分析以下数据集结构并提取节点的实体标签及其属性。
        节点属性应基于数据集列和它们的值。
        返回的结果应为一个字典，其中键是节点标签，值是节点属性。

        示例：{example}

        数据集结构:
{structure}

        确保包括所有可能的节点标签及其属性。
        如果某个属性可以是其自己的节点，请将其作为单独的节点标签。
        请不要使用三重反引号标识代码块，只需返回元组的列表。
        仅返回包含节点标签和属性的字典，不要包含任何其他文本或引号。
        """),
)

node_example = {
    "NodeLabel1": {"property1": "row['property1']", "property2": "row['property2']"},
    "NodeLabel2": {"property1": "row['property1']", "property2": "row['property2']"},
    "NodeLabel3": {"property1": "row['property1']", "property2": "row['property2']"},
}

try:
    node_chain = define_nodes_prompt | llm
    node_definitions = get_node_definitions(node_chain, structure=node_structure, example=node_example)
    logger.info(f"节点定义：{node_definitions}")
except Exception as e:
    logger.error(f"获取节点定义失败：{e}")
    raise

INFO:__main__:Node Definitions: {'Movie': {'Release Year': "row['Release Year']", 'Title': "row['Title']"}, 'Director': {'Name': "row['Director']"}, 'Cast': {'Actor': "row['Cast']"}, 'Genre': {'Type': "row['Genre']"}, 'Plot': {'Description': "row['Plot']"}}

class RelationshipIdentifier:
    """识别图数据库中节点之间的关系。"""
    RELATIONSHIP_EXAMPLE = [
        ("NodeLabel1", "RelationshipLabel", "NodeLabel2"),
        ("NodeLabel1", "RelationshipLabel", "NodeLabel3"),
        ("NodeLabel2", "RelationshipLabel", "NodeLabel3"),
    ]

    PROMPT_TEMPLATE = PromptTemplate(
        input_variables=["structure", "node_definitions", "example"],
        template="""
        考虑以下数据集结构：\n{structure}\n

        考虑以下节点定义：\n{node_definitions}\n

        根据数据集结构和节点定义，识别节点之间的关系（边）。
        以三元组的形式返回关系，其中每个三元组包含起始节点标签、关系标签和结束节点标签，每个三元组是一个元组。
        请仅返回元组列表。请不要使用三重反引号标识代码块，只返回元组列表。

        示例:
{example}
        """
    )

    def __init__(self, llm: Any, logger: logging.Logger = None):
        self.llm = llm
        self.logger = logger or logging.getLogger(__name__)
        self.chain = self.PROMPT_TEMPLATE | self.llm

    def validate_relationships(self, relationships: List[Tuple]) -> bool:
        """验证关系结构"""
        return all(
            isinstance(rel, tuple) and
           len(rel) == 3 and
           all(isinstance(x, str) for x in rel)
            for rel in relationships
        )

    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
    def identify_relationships(self, structure: str, node_definitions: Dict) -> List[Tuple]:
        """识别关系并应用重试逻辑"""
        try:
            response = self.chain.invoke({
                "structure": structure,
               "node_definitions": str(node_definitions),
               "example": str(self.RELATIONSHIP_EXAMPLE)
            })
                        
            relationships = ast.literal_eval(response)
                        
            if not self.validate_relationships(relationships):
                raise ValueError("无效的关系结构")
                            
            self.logger.info(f"已验证 {len(relationships)} 个关系")
            return relationships
                    
        except Exception as e:
            self.logger.error(f"验证关系时出现错误：{e}")
            raise

    def get_relationship_types(self) -> List[str]:
        """提取唯一的关系类型。"""
        return list(set(rel[1] for rel in self.identify_relationships()))

# 用法
identifier = RelationshipIdentifier(llm=llm)
relationships = identifier.identify_relationships(node_structure, node_definitions)
print("关系:", relationships)

RELATIONSHIP_EXAMPLE = [
    ("NodeLabel1", "RelationshipLabel", "NodeLabel2"),
    ("NodeLabel1", "RelationshipLabel", "NodeLabel3"),
    ("NodeLabel2", "RelationshipLabel", "NodeLabel3"),
]

PROMPT_TEMPLATE = PromptTemplate(
    input_variables=["structure", "node_definitions", "example"],
    template="""
        考虑以下数据集结构：\n{structure}\n

        考虑以下节点定义：\n{node_definitions}\n

        根据数据集结构和节点定义，识别节点之间的关系（边）。
        以三元组的形式返回关系，其中每个三元组包含起始节点标签、关系标签和结束节点标签，每个三元组是一个元组。
        请仅返回元组列表。请不要使用三重反引号标识代码块，只返回元组列表。

        示例:
{example}
        """
)

def __init__(self, llm: Any, logger: logging.Logger = None):
    self.llm = llm
    self.logger = logger or logging.getLogger(__name__)
    self.chain = self.PROMPT_TEMPLATE | self.llm

def validate_relationships(self, relationships: List[Tuple]) -> bool:
    """验证关系结构。"""
    return all(
        isinstance(rel, tuple) and
       len(rel) == 3 and
       all(isinstance(x, str) for x in rel)
        for rel in relationships
    )

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def identify_relationships(self, structure: str, node_definitions: Dict) -> List[Tuple]:
    """识别关系并应用重试逻辑。"""
    try:
        response = self.chain.invoke({
            "structure": structure,
           "node_definitions": str(node_definitions),
           "example": str(self.RELATIONSHIP_EXAMPLE)
        })
                
        relationships = ast.literal_eval(response)
                
        if not self.validate_relationships(relationships):
            raise ValueError("无效的关系结构")
                    
        self.logger.info(f"已验证 {len(relationships)} 个关系")
        return relationships

except Exception as e:
    self.logger.error(f"Error identifying relationships: {e}")
    raise

def get_relationship_types(self) -> List[str]:
    """Extract unique relationship types."""
    return list(set(rel[1] for rel in self.identify_relationships()))

identifier = RelationshipIdentifier(llm=llm)
relationships = identifier.identify_relationships(node_structure, node_definitions)
print("Relationships:", relationships)

INFO:__main__:Identified 4 relationships
Relationships: [('Movie', 'Directed By', 'Director'), ('Movie', 'Starring', 'Cast'), ('Movie', 'Has Genre', 'Genre'), ('Movie', 'Contains Plot', 'Plot')]

class CypherQueryBuilder:
    """构建用于 Neo4j 图数据库的 Cypher 查询。"""

    INPUT_EXAMPLE = """
    NodeLabel1: value1, value2
    NodeLabel2: value1, value2
    """

    EXAMPLE_CYPHER = example_cypher = """
    CREATE (n1:NodeLabel1 {property1: "row['property1']", property2: "row['property2']"})
    CREATE (n2:NodeLabel2 {property1: "row['property1']", property2: "row['property2']"})
    CREATE (n1)-[:RelationshipLabel]->(n2);
    """

    PROMPT_TEMPLATE = PromptTemplate(
        input_variables=["structure", "node_definitions", "relationships", "example"],
        template="""
        考虑以下节点定义：\n{node_definitions}\n
        考虑以下关系：\n{relationships}\n
        生成 Cypher 查询以创建节点和关系，使用下面的节点定义和关系。记得用数据集中的实际数据替换占位符值。
        包括每个节点的所有属性，按照节点定义，并创建关系。
        返回一个包含每个查询用分号分隔的单个字符串。
        请不要在响应中包含任何其他文本或引号。
        请仅返回包含 Cypher 查询的字符串。请不要使用三重反引号标识代码块。

        示例输入：
{input}

        示例输出Cypher查询：
{cypher}
        """
    )

    def __init__(self, llm: Any, logger: logging.Logger = None):
        self.llm = llm
        self.logger = logger or logging.getLogger(__name__)
        # self.chain = LLMChain(llm=llm, prompt=self.PROMPT_TEMPLATE)
        self.chain = self.PROMPT_TEMPLATE | self.llm

    def validate_cypher_query(self, query: str) -> bool:
        """使用 LLM 和正则表达式模式验证 Cypher 查询语法。"""

        VALIDATION_PROMPT = PromptTemplate(
            input_variables=["query"],
            template="""
            验证此 Cypher 查询并返回 TRUE 或 FALSE：
                        查询：{query}
                        检查规则：
            1. 有效的 CREATE 语句
            2. 正确的属性格式
            3. 有效的关系语法
            4. 无缺失的括号
            5. 有效的属性名称
            6. 有效的关系类型
                        如果查询有效，返回 TRUE；如果无效，返回 FALSE。
            """
        )

        try:
            # 基本模式验证
            basic_valid = all(re.search(pattern, query) for pattern in [
                r'CREATE \(',
                  r'\{.*?\}',
                    r'\)-\[:.*?\]->'
            ])
                        
            if not basic_valid:
                return False

            #  LLM 验证
            validation_chain = VALIDATION_PROMPT | self.llm
            result = validation_chain.invoke({"query": query})

            # 解析结果
            is_valid = "TRUE" in result.upper()

            if not is_valid:
                self.logger.warning(f"LLM 验证查询失败：{query}")

            return is_valid

        except Exception as e:
            self.logger.error(f"验证错误：{e}")
            return False

    def sanitize_query(self, query: str) -> str:
        """清理并格式化 Cypher 查询"""
        return (
            query
            .strip()
            .replace('\n', ' ')
            .replace('  ', ' ')
            .replace("'row[", "row['")
            .replace("]'", "']"))

    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
    def build_queries(self, node_definitions: Dict, relationships: List) -> str:
        """构建带有重试逻辑的 Cypher 查询。"""
        try:
            response = self.chain.invoke({
                "node_definitions": str(node_definitions),
                "relationships": str(relationships),
                "input": self.INPUT_EXAMPLE,
                "cypher": self.EXAMPLE_CYPHER
            })

            # 获取位于三重反引号内的响应。
            if '```' in response:
                response = response.split('```')[1]

            # 清理响应
            queries = self.sanitize_query(response)

            # 验证查询
            if not self.validate_cypher_query(queries):
                raise ValueError("无效的 Cypher 查询语法")

            self.logger.info("成功生成 Cypher 查询")
            return queries

        except Exception as e:
            self.logger.error(f"构建 Cypher 查询出错：{e}")
            raise

    def split_queries(self, queries: str) -> List[str]:
        """将组合的查询拆分为单独的语句。"""
        return [q.strip() for q in queries.split(';') if q.strip()]

# 用法
builder = CypherQueryBuilder(llm=llm)
cypher_queries = builder.build_queries(node_definitions, relationships)
print("Cypher 查询:", cypher_queries)

PROMPT_TEMPLATE = PromptTemplate(
    input_variables=["structure", "node_definitions", "relationships", "example"],
    template="""
        考虑以下节点定义：\n{node_definitions}\n
        考虑以下关系：\n{relationships}\n
        生成 Cypher 查询以创建节点和关系，使用下面的节点定义和关系。记得用数据集中的实际数据替换占位符值。
        包括每个节点的所有属性，按照节点定义，并创建关系。
        返回一个包含每个查询用分号分隔的单个字符串。
        请不要在响应中包含任何其他文本或引号。
        请仅返回包含 Cypher 查询的字符串。请不要使用三重反引号标识代码块。

        示例输入：
{input}

        示例输出Cypher查询：
{cypher}
        """
)

def __init__(self, llm: Any, logger: logging.Logger = None):
    self.llm = llm
    self.logger = logger or logging.getLogger(__name__)
    self.chain = self.PROMPT_TEMPLATE | self.llm

def validate_cypher_query(self, query: str) -> bool:
    """使用 LLM 和正则表达式模式验证 Cypher 查询语法。"""

    VALIDATION_PROMPT = PromptTemplate(
        input_variables=["query"],
        template="""
        验证此 Cypher 查询并返回 TRUE 或 FALSE：
                        查询：{query}
                        检查规则：
            1. 有效的 CREATE 语句
            2. 正确的属性格式
            3. 有效的关系语法
            4. 无缺失的括号
            5. 有效的属性名称
            6. 有效的关系类型
                        如果查询有效，返回 TRUE；如果无效，返回 FALSE。
        """
    )

    try:
        # 基本模式验证
        basic_valid = all(re.search(pattern, query) for pattern in [
            r'CREATE \(',
              r'\{.*?\}',
                r'\)-\[:.*?\]->'
        ])

        if not basic_valid:
            return False

        # LLM 验证
        validation_chain = VALIDATION_PROMPT | self.llm
        result = validation_chain.invoke({"query": query})

        # 解析结果
        is_valid = "TRUE" in result.upper()

        if not is_valid:
            self.logger.warning(f"LLM 验证查询失败：{query}")

        return is_valid

    except Exception as e:
        self.logger.error(f"验证错误：{e}")
        return False

basic_valid = all(re.search(pattern, query) for pattern in [
    r'CREATE \(',
      r'\{.*?\}',
        r'\)-\[:.*?\]->'
])
if not basic_valid:
    return False

validation_chain = VALIDATION_PROMPT | self.llm
result = validation_chain.invoke({"query": query})
is_valid = "TRUE" in result.upper()

def sanitize_query(self, query: str) -> str:
    """清理并格式化 Cypher 查询。"""
    return (
        query
        .strip()
        .replace('\n', ' ')
        .replace('  ', ' ')
        .replace("'row[", "row['")
        .replace("]'", "']"))

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def build_queries(self, node_definitions: Dict, relationships: List) -> str:
    """构建带有重试逻辑的 Cypher 查询。"""
    try:
        response = self.chain.invoke({
            "node_definitions": str(node_definitions),
            "relationships": str(relationships),
            "input": self.INPUT_EXAMPLE,
            "cypher": self.EXAMPLE_CYPHER
        })

        # 获取位于三重反引号内的响应
        if '```' in response:
            response = response.split('```')[1]

        # 清理响应
        queries = self.sanitize_query(response)

        # 验证查询
        if not self.validate_cypher_query(queries):
            raise ValueError("无效的 Cypher 查询语法")

        self.logger.info("成功生成 Cypher 查询")
        return queries

    except Exception as e:
        self.logger.error(f"构建 Cypher 查询时出错：{e}")
        raise

if '```' in response:
    response = response.split('```')[1]

def split_queries(self, queries: str) -> List[str]:
    """将组合的查询拆分为单独的语句"""
    return [q.strip() for q in queries.split(';') if q.strip()]

CREATE (n1:Movie {title: "Inception"}); CREATE (n2:Director {name: "Nolan"});

["CREATE (n1:Movie {title: 'Inception'})", "CREATE (n2:Director {name: 'Nolan'})"]

builder = CypherQueryBuilder(llm=llm)
cypher_queries = builder.build_queries(node_definitions, relationships)
print("Cypher 查询:", cypher_queries)

INFO:__main__:Successfully generated Cypher queries
Cypher Queries: CREATE (m:Movie {Release_Year: "row['Release Year']", Title: "row['Title']"}) CREATE (d:Director {Name: "row['Director']"}) CREATE (c:Cast {Actor: "row['Cast']"}) CREATE (g:Genre {Type: "row['Genre']"}) CREATE (p:Plot {Description: "row['Plot']"}) CREATE (m)-[:Directed_By]->(d) CREATE (m)-[:Starring]->(c) CREATE (m)-[:Has_Genre]->(g) CREATE (m)-[:Contains_Plot]->(p)

logs = ""
total_rows = len(df)

def sanitize_value(value):
    if isinstance(value, str):
        return value.replace('"', '')
    return str(value)

for index, row in tqdm(df.iterrows(), 
                     total=total_rows,
                      desc="正在加载数据到 Neo4j",
                      position=0,
                      leave=True):
    # 将占位符替换为实际的值
    cypher_query = cypher_queries
    for column in df.columns:
        cypher_query = cypher_query.replace(
            f"row['{column}']",
           f'{sanitize_value(row[column])}'
        )
    try:
        # 执行查询并更新进度
        conn.execute_query(cypher_query)
    except Exception as e:
        logs += f"在行 {index+1}: {str(e)} 出现错误\n"

def sanitize_value(value):
    if isinstance(value, str):
        return value.replace('"', '')
    return str(value)

for index, row in tqdm(df.iterrows(), 
                     total=total_rows,
                      desc="正在加载数据到 Neo4j",
                      position=0,
                      leave=True):
    # 将占位符替换为实际的值
    cypher_query = cypher_queries
    for column in df.columns:
        cypher_query = cypher_query.replace(
            f"row['{column}']",
           f'{sanitize_value(row[column])}'
        )
    try:
        # 执行查询并更新进度
        conn.execute_query(cypher_query)
    except Exception as e:
        logs += f"在行 {index+1}: {str(e)} 出现错误\n"

MATCH p=(m:Movie)-[r]-(n)
RETURN p
LIMIT 100;

使用大语言模型从零构建知识图谱

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

使用大语言模型从零构建知识图谱

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具