【保姆级教程】从零入手：Python + Neo4j 构建你的第一个知识图谱

优质文章学习记录

07 Apr 2026 — 7 min read

摘要：大数据时代，数据之间的关系往往比数据本身更有价值。传统的 SQL 数据库在处理复杂关系（如社交网络、推荐系统、风控分析）时显得力不从心，而 知识图谱 和 图数据库 Neo4j 正是为此而生。本文将带你从 0 基础出发，理解知识图谱核心概念，安装 Neo4j 环境，并手把手教你用 Python 代码构建一个生动的人物关系图谱。拒绝枯燥理论，全是实战干货！

一、什么是知识图谱与 Neo4j？

在动手写代码之前，我们先用大白话把两个核心概念捋清楚。

1. 什么是知识图谱 (Knowledge Graph)？

不要被高大上的名字吓到。知识图谱本质上就是把世界上的事物（节点）和它们之间的联系（关系）画成一张巨大的网。

Excel 思维： 罗列数据。例如：张三，25岁；李四，30岁。
图谱思维： 链接数据。例如：（张三）--[朋友]-->（李四）。

它由三要素组成：

实体 (Entity/Node)： 比如“周杰伦”、“昆凌”。
关系 (Relationship)： 比如“夫妻”、“代言”。
属性 (Property)： 比如周杰伦的“年龄：40+”。

2. 什么是 Neo4j？

如果说 SQL 是关系型数据库的霸主，那么 Neo4j 就是图数据库（Graph Database）的王者。

特点： 原生支持图存储，查询关联数据速度极快（秒杀 MySQL）。
查询语言： 使用 Cypher 语言（类似 SQL，但更直观）。

一句话总结： 我们用 Python 处理数据，把数据喂给 Neo4j，最终形成可视化的知识图谱。

二、环境搭建：Neo4j Desktop 安装

对于初学者，我强烈推荐使用 Neo4j Desktop（桌面版），不仅免费，而且图形化界面非常友好，免去了复杂的命令行配置。

步骤 1：下载与安装

进入 Neo4j 官网下载中心。
填写基本信息后下载 Neo4j Desktop。
像安装普通软件一样安装并运行。

步骤 2：创建项目与数据库

打开 Neo4j Desktop，点击 "New Project"。
在右侧点击 "Add" -> "Local DBMS"。
关键设置： 设置一个密码（比如 123456），一定要记住！
点击 Create，然后点击 Start 启动数据库。

步骤 3：进入浏览器控制台

当状态灯变绿后，点击 Open 或者在浏览器输入 http://localhost:7474。

用户名：neo4j
密码：你刚才设置的（如 123456）

三、快速上手：Cypher 语言初体验

在用 Python 之前，我们先在 Neo4j 浏览器的输入框里敲一行代码，感受一下图的魅力。

输入以下命令并按回车（或点击播放按钮）：

Cypher

CREATE (p1:Person {name: '孙悟空', title: '齐天大圣'}) CREATE (p2:Person {name: '唐僧', title: '师傅'}) CREATE (p1)-[:PROTECT {role: '保镖'}]->(p2) RETURN p1, p2

你会看到屏幕上出现了两个圆圈（节点）和一条连线。这就是最简单的图谱！

四、实战：使用 Python 构建知识图谱

在实际工作中，我们不可能手动一条条敲 Cypher 命令，而是通过 Python 读取文件（CSV/Excel）并批量写入。

1. 安装 Python 驱动

打开终端或 CMD，运行：

Bash

pip install neo4j

2. 编写核心代码

下面我编写了一个通用的连接类，你可以直接复制使用。我们将构建一个简单的 “西游记人物关系图谱”。

新建一个 build_graph.py 文件：

Python

from neo4j import GraphDatabase class KnowledgeGraph: def __init__(self, uri, user, password): """ 连接 Neo4j 数据库 """ self.driver = GraphDatabase.driver(uri, auth=(user, password)) def close(self): """ 关闭连接 """ self.driver.close() def create_node_and_relationship(self, person1, relation, person2): """ 创建节点和关系 使用 MERGE 关键字，保证节点不被重复创建 """ with self.driver.session() as session: # Cypher 语句说明： # 1. 查找或创建名为 person1 的节点 # 2. 查找或创建名为 person2 的节点 # 3. 建立两者之间的关系" MERGE (p1:Character {name: $name1}) MERGE (p2:Character {name: $name2}) MERGE (p1)-[r:RELATION {type: $rel}]->(p2) RETURN p1, p2, r """ session.run(query, name1=person1, name2=person2, rel=relation) print(f"成功构建：{person1} --[{relation}]--> {person2}") def clear_data(self): """ (可选) 清空数据库，方便测试 """ with self.driver.session() as session: session.run("MATCH (n) DETACH DELETE n") print("数据库已清空！") # --- 主程序执行 --- if __name__ == "__main__": # 1. 配置数据库连接 (请修改你的密码) URI = "bolt://localhost:7687" USER = "neo4j" PASSWORD = "123456" # 替换为你自己的密码 # 2. 准备数据 (模拟从 Excel 读取的数据) data = [ ("唐僧", "师徒", "孙悟空"), ("唐僧", "师徒", "猪八戒"), ("唐僧", "师徒", "沙僧"), ("孙悟空", "师兄弟", "猪八戒"), ("孙悟空", "师兄弟", "沙僧"), ("孙悟空", "结拜兄弟", "牛魔王"), ("牛魔王", "夫妻", "铁扇公主"), ("铁扇公主", "母子", "红孩儿") ] # 3. 开始构建 kg = KnowledgeGraph(URI, USER, PASSWORD) try: # 先清空旧数据，防止重复 kg.clear_data() print("开始构建知识图谱...") for p1, rel, p2 in data: kg.create_node_and_relationship(p1, rel, p2) print("\n图谱构建完成！请去 Neo4j Browser 查看效果。") except Exception as e: print(f"发生错误: {e}") finally: kg.close()

3. 运行效果

运行上述脚本，控制台会输出：

Plaintext

数据库已清空！ 开始构建知识图谱... 成功构建：唐僧 --[师徒]--> 孙悟空 成功构建：唐僧 --[师徒]--> 猪八戒 ... 图谱构建完成！

五、见证奇迹的时刻：可视化展示

现在回到你的 Neo4j Browser (http://localhost:7474)。

在顶部输入框输入以下命令查询所有数据：

Cypher

MATCH (n) RETURN n

点击播放按钮。 你将看到一张错综复杂、可以拖拽的人物关系网！

你可以尝试：

点击“孙悟空”节点，改变它的颜色。
拖动节点，感受力导向图的物理效果。
鼠标悬停在连线上，查看关系类型。

六、总结与展望

恭喜你！你已经完成了从 0 到 1 的知识图谱构建。我们通过 Python 的 neo4j 库，成功将结构化的数据转化为了图谱。

本文学到了什么？

理解了图数据库与传统数据库的区别。
学会了安装 Neo4j Desktop。
掌握了 Python 连接 Neo4j 并批量写入数据的核心代码。

下一步可以做什么？ 构建图谱只是第一步。有了这个图谱，我们不仅可以“看”，还可以让 AI 去“理解”。在下一篇文章中，我将分享 《进阶篇：如何结合 BERT 模型与 Neo4j 实现智能问答系统 (KBQA)》，让 AI 能回答“孙悟空的结拜兄弟的老婆是谁？”这种复杂问题。

如果你觉得这篇文章对你有帮助，欢迎点赞、收藏、关注三连！有任何报错问题，请在评论区留言，我会第一时间解答！

Seedance 2.0 权限越界事件复盘（2024Q2真实攻防演练数据披露）：如何用最小权限原则堵住飞书机器人数据泄露缺口

第一章：Seedance 2.0 权限越界事件全景复盘与根本归因 2024年3月17日，Seedance 2.0 生产环境发生一起高危权限越界事件：普通用户通过构造特定 GraphQL 查询，成功读取了本应仅限管理员访问的审计日志、密钥轮换记录及跨租户用户元数据。事件持续暴露窗口达47分钟，影响12个企业租户，触发SOC三级告警。攻击路径还原攻击者利用未校验的 resolveInfo.path 字段绕过字段级授权中间件。GraphQL 解析器在执行 userAuditLogs 字段时，错误地将租户上下文（ tenant_id）绑定至请求发起者而非目标租户，导致鉴权逻辑失效。关键漏洞代码片段 // ❌ 错误：从 context 中直接取当前用户 tenant_id，未校验字段所属租户 func resolveUserAuditLogs(ctx context.Context, obj *User, args map[string]

Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制前言在“万物互联”的愿景下，鸿蒙系统（OpenHarmony）最核心的武器就是跨设备协同能力。然而，如何让你的 Flutter 应用在复杂的家庭或办公内网中，自动发现并操控那些非鸿蒙生态但同样广泛分布的设备（如：DLNA 智能电视、家用路由器、网络打印机、甚至是 NAS 存储）？ UPnP（Universal Plug and Play）协议此时扮演了全局搜索的关键角色。作为一套基于 SSDP 和 HTTP 处理发现与控制的老牌协议，它依然是局域网互联互通的“基础设施”。 upnp_client 为 Flutter

定义下一代机器人训练？智元 SOP：VLA 模型真实世界分布式在线后训练的关键突破

当前，VLA模型通过大规模预训练具备了出色的泛化能力，但在实际场景部署时，除了需要广泛的通用性，还需达到专家级的任务执行水平。以家庭机器人为例：它必须能够折叠衣物、整理货架、组装家具，同时展现出堪比专用设备所要求的可靠性与精确性。要让机器人实现能真正干活的目标，剩余的挑战就在于：如何在不牺牲通过大规模预训练所获得的通用性的前提下，赋予这些模型专家级的熟练度。那么，问题的关键就在于后训练—— 使预训练模型适应特定的下游部署场景。在大型语言模型（LLMs）等领域，通过在线强化学习（RL）和人类反馈进行的后训练已被证明非常有效，使模型能够通过大规模分布式训练持续改进。然而，对于物理世界中的VLA后训练，结合分布式数据收集的在线学习的系统级实现，在很大程度上仍未得到充分探索。现有针对VLA 模型的后训练方法多为离线式、单机器人适配或特定任务专用。在这种模式下，数据收集与策略改进在结构上是脱节的。对预先收集的演示数据进行离线训练，不可避免地会遭受分布偏移的影响，微小的执行误差会在长时程任务中不断累积。这限制了模型在现实交互过程中的高效在线策略适配与可扩展学习。为此，智元机器人

Retinaface+CurricularFace镜像教程：SSH远程连接+JupyterLab交互式调试配置

Retinaface+CurricularFace镜像教程：SSH远程连接+JupyterLab交互式调试配置 1. 镜像环境与快速入门 Retinaface+CurricularFace 人脸识别镜像是一个开箱即用的完整解决方案，集成了人脸检测和人脸识别两大核心功能。无论你是想快速验证模型效果，还是需要进行二次开发，这个镜像都能提供便捷的环境支持。核心功能特点： * RetinaFace：精准的人脸检测，自动定位图片中的人脸位置 * CurricularFace：高质量的人脸特征提取，准确判断是否为同一人 * 预配置环境：无需手动安装依赖，启动即可使用 * 支持多种输入：本地图片、网络图片URL都能直接处理让我们先从最基础的用法开始，逐步掌握这个强大工具的使用方法。 2. 基础使用方法 2.1 环境准备与激活镜像启动后，首先需要进入工作目录并激活预配置的环境： # 进入工作目录 cd /root/Retinaface_CurricularFace # 激活conda环境 conda activate torch25 环境激活后，你就可以使用所有

一、 什么是知识图谱与 Neo4j？