【保姆级教程】从零入手:Python + Neo4j 构建你的第一个知识图谱

【保姆级教程】从零入手:Python + Neo4j 构建你的第一个知识图谱

摘要: 大数据时代,数据之间的关系往往比数据本身更有价值。传统的 SQL 数据库在处理复杂关系(如社交网络、推荐系统、风控分析)时显得力不从心,而 知识图谱图数据库 Neo4j 正是为此而生。本文将带你从 0 基础出发,理解知识图谱核心概念,安装 Neo4j 环境,并手把手教你用 Python 代码构建一个生动的人物关系图谱。拒绝枯燥理论,全是实战干货!


一、 什么是知识图谱与 Neo4j?

在动手写代码之前,我们先用大白话把两个核心概念捋清楚。

1. 什么是知识图谱 (Knowledge Graph)?

不要被高大上的名字吓到。知识图谱本质上就是把世界上的事物(节点)和它们之间的联系(关系)画成一张巨大的网

  • Excel 思维: 罗列数据。例如:张三,25岁;李四,30岁。
  • 图谱思维: 链接数据。例如:(张三)--[朋友]-->(李四)

它由三要素组成:

  • 实体 (Entity/Node): 比如“周杰伦”、“昆凌”。
  • 关系 (Relationship): 比如“夫妻”、“代言”。
  • 属性 (Property): 比如周杰伦的“年龄:40+”。

2. 什么是 Neo4j?

如果说 SQL 是关系型数据库的霸主,那么 Neo4j 就是图数据库(Graph Database)的王者。

  • 特点: 原生支持图存储,查询关联数据速度极快(秒杀 MySQL)。
  • 查询语言: 使用 Cypher 语言(类似 SQL,但更直观)。
一句话总结: 我们用 Python 处理数据,把数据喂给 Neo4j,最终形成可视化的知识图谱。

二、 环境搭建:Neo4j Desktop 安装

对于初学者,我强烈推荐使用 Neo4j Desktop(桌面版),不仅免费,而且图形化界面非常友好,免去了复杂的命令行配置。

步骤 1:下载与安装

  1. 进入 Neo4j 官网下载中心
  2. 填写基本信息后下载 Neo4j Desktop
  3. 像安装普通软件一样安装并运行。

步骤 2:创建项目与数据库

  1. 打开 Neo4j Desktop,点击 "New Project"
  2. 在右侧点击 "Add" -> "Local DBMS"
  3. 关键设置: 设置一个密码(比如 123456),一定要记住!
  4. 点击 Create,然后点击 Start 启动数据库。

步骤 3:进入浏览器控制台

当状态灯变绿后,点击 Open 或者在浏览器输入 http://localhost:7474

  • 用户名:neo4j
  • 密码:你刚才设置的(如 123456

三、 快速上手:Cypher 语言初体验

在用 Python 之前,我们先在 Neo4j 浏览器的输入框里敲一行代码,感受一下图的魅力。

输入以下命令并按回车(或点击播放按钮):

Cypher

CREATE (p1:Person {name: '孙悟空', title: '齐天大圣'}) CREATE (p2:Person {name: '唐僧', title: '师傅'}) CREATE (p1)-[:PROTECT {role: '保镖'}]->(p2) RETURN p1, p2 

你会看到屏幕上出现了两个圆圈(节点)和一条连线。这就是最简单的图谱!


四、 实战:使用 Python 构建知识图谱

在实际工作中,我们不可能手动一条条敲 Cypher 命令,而是通过 Python 读取文件(CSV/Excel)并批量写入。

1. 安装 Python 驱动

打开终端或 CMD,运行:

Bash

pip install neo4j 

2. 编写核心代码

下面我编写了一个通用的连接类,你可以直接复制使用。我们将构建一个简单的 “西游记人物关系图谱”

新建一个 build_graph.py 文件:

Python

from neo4j import GraphDatabase class KnowledgeGraph: def __init__(self, uri, user, password): """ 连接 Neo4j 数据库 """ self.driver = GraphDatabase.driver(uri, auth=(user, password)) def close(self): """ 关闭连接 """ self.driver.close() def create_node_and_relationship(self, person1, relation, person2): """ 创建节点和关系 使用 MERGE 关键字,保证节点不被重复创建 """ with self.driver.session() as session: # Cypher 语句说明: # 1. 查找或创建名为 person1 的节点 # 2. 查找或创建名为 person2 的节点 # 3. 建立两者之间的关系" MERGE (p1:Character {name: $name1}) MERGE (p2:Character {name: $name2}) MERGE (p1)-[r:RELATION {type: $rel}]->(p2) RETURN p1, p2, r """ session.run(query, name1=person1, name2=person2, rel=relation) print(f"成功构建:{person1} --[{relation}]--> {person2}") def clear_data(self): """ (可选) 清空数据库,方便测试 """ with self.driver.session() as session: session.run("MATCH (n) DETACH DELETE n") print("数据库已清空!") # --- 主程序执行 --- if __name__ == "__main__": # 1. 配置数据库连接 (请修改你的密码) URI = "bolt://localhost:7687" USER = "neo4j" PASSWORD = "123456" # 替换为你自己的密码 # 2. 准备数据 (模拟从 Excel 读取的数据) data = [ ("唐僧", "师徒", "孙悟空"), ("唐僧", "师徒", "猪八戒"), ("唐僧", "师徒", "沙僧"), ("孙悟空", "师兄弟", "猪八戒"), ("孙悟空", "师兄弟", "沙僧"), ("孙悟空", "结拜兄弟", "牛魔王"), ("牛魔王", "夫妻", "铁扇公主"), ("铁扇公主", "母子", "红孩儿") ] # 3. 开始构建 kg = KnowledgeGraph(URI, USER, PASSWORD) try: # 先清空旧数据,防止重复 kg.clear_data() print("开始构建知识图谱...") for p1, rel, p2 in data: kg.create_node_and_relationship(p1, rel, p2) print("\n图谱构建完成!请去 Neo4j Browser 查看效果。") except Exception as e: print(f"发生错误: {e}") finally: kg.close() 

3. 运行效果

运行上述脚本,控制台会输出:

Plaintext

数据库已清空! 开始构建知识图谱... 成功构建:唐僧 --[师徒]--> 孙悟空 成功构建:唐僧 --[师徒]--> 猪八戒 ... 图谱构建完成! 

五、 见证奇迹的时刻:可视化展示

现在回到你的 Neo4j Browser (http://localhost:7474)。

在顶部输入框输入以下命令查询所有数据:

Cypher

MATCH (n) RETURN n 

点击播放按钮。 你将看到一张错综复杂、可以拖拽的人物关系网! 

你可以尝试:

  1. 点击“孙悟空”节点,改变它的颜色。
  2. 拖动节点,感受力导向图的物理效果。
  3. 鼠标悬停在连线上,查看关系类型。

六、 总结与展望

恭喜你!你已经完成了从 0 到 1 的知识图谱构建。 我们通过 Python 的 neo4j 库,成功将结构化的数据转化为了图谱。

本文学到了什么?

  1. 理解了图数据库与传统数据库的区别。
  2. 学会了安装 Neo4j Desktop。
  3. 掌握了 Python 连接 Neo4j 并批量写入数据的核心代码。

下一步可以做什么? 构建图谱只是第一步。有了这个图谱,我们不仅可以“看”,还可以让 AI 去“理解”。 在下一篇文章中,我将分享 《进阶篇:如何结合 BERT 模型与 Neo4j 实现智能问答系统 (KBQA)》,让 AI 能回答“孙悟空的结拜兄弟的老婆是谁?”这种复杂问题。

如果你觉得这篇文章对你有帮助,欢迎点赞、收藏、关注三连!有任何报错问题,请在评论区留言,我会第一时间解答!

Read more

Seedance 2.0 权限越界事件复盘(2024Q2真实攻防演练数据披露):如何用最小权限原则堵住飞书机器人数据泄露缺口

第一章:Seedance 2.0 权限越界事件全景复盘与根本归因 2024年3月17日,Seedance 2.0 生产环境发生一起高危权限越界事件:普通用户通过构造特定 GraphQL 查询,成功读取了本应仅限管理员访问的审计日志、密钥轮换记录及跨租户用户元数据。事件持续暴露窗口达47分钟,影响12个企业租户,触发SOC三级告警。 攻击路径还原 攻击者利用未校验的 resolveInfo.path 字段绕过字段级授权中间件。GraphQL 解析器在执行 userAuditLogs 字段时,错误地将租户上下文( tenant_id)绑定至请求发起者而非目标租户,导致鉴权逻辑失效。 关键漏洞代码片段 // ❌ 错误:从 context 中直接取当前用户 tenant_id,未校验字段所属租户 func resolveUserAuditLogs(ctx context.Context, obj *User, args map[string]

Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制

Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制 前言 在“万物互联”的愿景下,鸿蒙系统(OpenHarmony)最核心的武器就是跨设备协同能力。然而,如何让你的 Flutter 应用在复杂的家庭或办公内网中,自动发现并操控那些非鸿蒙生态但同样广泛分布的设备(如:DLNA 智能电视、家用路由器、网络打印机、甚至是 NAS 存储)? UPnP(Universal Plug and Play)协议此时扮演了全局搜索的关键角色。作为一套基于 SSDP 和 HTTP 处理发现与控制的老牌协议,它依然是局域网互联互通的“基础设施”。 upnp_client 为 Flutter

定义下一代机器人训练?智元 SOP:VLA 模型真实世界分布式在线后训练的关键突破

定义下一代机器人训练?智元 SOP:VLA 模型真实世界分布式在线后训练的关键突破

当前,VLA模型通过大规模预训练具备了出色的泛化能力,但在实际场景部署时,除了需要广泛的通用性,还需达到专家级的任务执行水平。以家庭机器人为例:它必须能够折叠衣物、整理货架、组装家具,同时展现出堪比专用设备所要求的可靠性与精确性。 要让机器人实现能真正干活的目标,剩余的挑战就在于:如何在不牺牲通过大规模预训练所获得的通用性的前提下,赋予这些模型专家级的熟练度。 那么,问题的关键就在于后训练—— 使预训练模型适应特定的下游部署场景。在大型语言模型(LLMs)等领域,通过在线强化学习(RL)和人类反馈进行的后训练已被证明非常有效,使模型能够通过大规模分布式训练持续改进。然而,对于物理世界中的VLA后训练,结合分布式数据收集的在线学习的系统级实现,在很大程度上仍未得到充分探索。 现有针对VLA 模型的后训练方法多为离线式、单机器人适配或特定任务专用。在这种模式下,数据收集与策略改进在结构上是脱节的。 对预先收集的演示数据进行离线训练,不可避免地会遭受分布偏移的影响,微小的执行误差会在长时程任务中不断累积。这限制了模型在现实交互过程中的高效在线策略适配与可扩展学习。 为此,智元机器人

Retinaface+CurricularFace镜像教程:SSH远程连接+JupyterLab交互式调试配置

Retinaface+CurricularFace镜像教程:SSH远程连接+JupyterLab交互式调试配置 1. 镜像环境与快速入门 Retinaface+CurricularFace 人脸识别镜像是一个开箱即用的完整解决方案,集成了人脸检测和人脸识别两大核心功能。无论你是想快速验证模型效果,还是需要进行二次开发,这个镜像都能提供便捷的环境支持。 核心功能特点: * RetinaFace:精准的人脸检测,自动定位图片中的人脸位置 * CurricularFace:高质量的人脸特征提取,准确判断是否为同一人 * 预配置环境:无需手动安装依赖,启动即可使用 * 支持多种输入:本地图片、网络图片URL都能直接处理 让我们先从最基础的用法开始,逐步掌握这个强大工具的使用方法。 2. 基础使用方法 2.1 环境准备与激活 镜像启动后,首先需要进入工作目录并激活预配置的环境: # 进入工作目录 cd /root/Retinaface_CurricularFace # 激活conda环境 conda activate torch25 环境激活后,你就可以使用所有