【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

目录

一、Neo4j图数据库

1、neo4j 安装 - mac brew版

2、neo4j 快速入门

3、neo4j 基本操作

(1)增操作

(2)查操作

(3)改操作

(4)删操作

4、安装py2neo

二、数据预处理

1、数据清洗

2、知识建模

(1)识别实体

(2)识别实体属性

(3)识别关系

三、搭建知识图谱


博主的数据集是用的自己的数据集,大家练习时可以在网上找一个数据量小的数据集练手。

一、Neo4j图数据库

        Neo4j 是一个高性能的、原生的图数据库。它不采用传统的行和列的表格结构,而是使用节点关系的图结构来存储和管理数据。

1、neo4j 安装 - mac brew版

(1)安装neo4j

安装了Homebrew直接在终端输入以下命令即可



安装后,Neo4j 浏览器可通过 http://localhost:7474 访问。





(2)登录neo4j



【1】在登录页面填写信息:Connect URL:输入 neo4j://localhost:7687Authentication type:保持为 "Username / Password"Username:输入 neo4jPassword:首次连接时输入默认密码 neo4j点击蓝色的 Connect​ 按钮



【2】首次连接成功后,系统会强制要求修改默认密码:当前密码:neo4j设置一个新的安全密码(请务必记住)



【3】测试连接

连接成功后,在顶部的命令行中输入 Cypher 查询语句,例如:

2、neo4j 快速入门

【1】我们点击左边栏的星星图标,在Example Graphs中选择Movie Graph,点击运行,就会弹出一个关于电影图谱的教程





【2】创建图谱

点击灰色代码框,创建图谱的代码会自动复制到代码框



点击运行,即可看到创建的电影图谱





【3】查找

下面是一些关于查找的语句:查找名叫Tom Hanks的演员查找标题为Cloud Atlas的电影查找10个人查找在20世纪90年代上映的电影







【4】询问



后续还有一些查询语句教程不一一列举了,感兴趣的同学可以自行运行。

3、neo4j 基本操作

接下来我们以【麦当劳】为背景,用Neo4j的Cypher查询语言演示基本增删改查操作。

下面我们建立一个简单的图谱,包含两种节点和一种关系:

  • 节点类型1:餐厅
    • 属性:名称地址开业年份
  • 节点类型2:产品
    • 属性:名称价格类别
  • 关系类型:供应
    • 属性:自何时起供应
(1)增操作

【1】创建节点

【2】创建关系
(2)查操作

【1】查找所有餐厅





【2】查找特定餐厅供应的所有产品





【3】查找供应可乐的所有餐厅





因为前面没有创建这么多关系,下面只做操作语法展示



【4】多跳查询 - 查找与MC销售同类产品的其他餐厅

因为前面没有创建这么多关系,这里只做操作语法展示

【5】路径查询 - 查找两家餐厅通过共同产品产生的关联

(3)改操作

【1】更新节点属性

【2】新增节点属性

【3】更新关系属性
(4)删操作

【1】删除关系

【2】删除节点(必须先删除其所有关系)

【3】删除所有节点
通过以上麦当劳的例子,我们可以看到Neo4j的操作非常直观:CREATE/ MERGE: 对应SQL的INSERT,用于创建节点和关系。MATCH: 对应SQL的SELECT ... FROM,是查询的起点,用于定位图形中的模式。WHERE: 对应SQL的WHERE,用于过滤结果。SET: 对应SQL的UPDATE,用于更新属性。DELETE/ DETACH DELETE: 对应SQL的DELETE,用于删除元素。

Neo4j的核心优势在于通过MATCH子句描述关联模式,例如(餐厅)-[供应]->(产品),这使得查询复杂的关系网络变得简单和高效。
4、安装py2neo

py2neo 是 Python 连接和操作 Neo4j 图数据库的主要工具库,适用于需要处理复杂关系数据的应用场景。

二、数据预处理

数据预处理包括数据清洗、实体识别等步骤,目的是将原始数据转换为适合构建知识图谱的格式。

1、数据清洗

数据质量要求:补全缺失值:对于明显缺失的信息(如设备型号),可以标记为【缺失】或根据上下文推断。格式标准化:将日期统一为【YYYY-MM-DD】格式。去除重复值:删除重复的条目
2、知识建模

我们需要从业务角度理解数据,设计出合理的图谱结构。(1)识别实体

实体是知识图谱中的【节点】。在我的数据集中,可以识别出以下主要实体类型:订单记录:核心实体,每一笔订单就是一个销售事件。产品:订单中的商品。例如,“生日蛋糕”、“马卡龙”、“手冲咖啡”。数据中【产品名称】和【产品类别】是其属性。配方标准:制作产品的依据和标准。数据中【配方名称】、【配料序号】、【制作要点】等是其属性。客户反馈:客户对订单或产品的评价与建议。促销活动:与订单关联的营销方案。门店:订单发生的背景。

(2)识别实体属性

属性是描述实体的键值对。订单记录​ 的属性:下单时间、订单描述、订单金额、是否加急、订单状态、支付方式、配送地址。产品​ 的属性:产品名称、产品类别、规格、单价、保质期、产品编号。配方标准​ 的属性:配方名称、配料序号、制作步骤、所需时间、适用产品。客户反馈​ 的属性:反馈内容、评分。促销活动​ 的属性:活动名称、折扣力度、适用条件。门店​ 的属性:门店地址、营业时间、联系电话。

(3)识别关系

关系是连接实体的边,是图谱价值的体现。门店​ -- 提供 --> 产品订单记录​ -- 产生于 --> 门店订单记录​ -- 包含 --> 产品订单记录​ -- 触发 --> 促销活动订单记录​ -- 收到 --> 客户反馈产品​ -- 依据 --> 配方标准配方标准​ -- 适用于 --> 产品

三、搭建知识图谱

下面代码为简化后的模板代码,需要根据自己的数据集进行修改后再运行。



运行后效果如下图:

Read more

当测试工程师拿起AI写作笔:人机协作的精准实践

当测试工程师拿起AI写作笔:人机协作的精准实践

——论软件测试方法论在AI文本生产中的迁移应用 第一章 AI草稿:代码级别的需求评审 (测试视角:需求分析/静态测试) 当GPT类工具生成初稿时,测试工程师的本能反应是启动静态分析: 1. [边界值检查]   - 技术术语密度是否超出受众阈值?(如测试术语占比>15%需降维) - 案例复杂度是否跨越认知边界?(参照用户故事映射法) 2. [等价类划分] - 论点是否覆盖核心场景?(功能/性能/安全/兼容性维度) - 论据是否代表典型用户痛点?(缺陷聚类分析模型) 案例示范:某自动化测试方案文档初稿中,AI将「持续集成」误用为「连续集成」,类似变量命名规范的逻辑错误需在评审阶段拦截。 第二章 灵魂打磨:动态执行的深度测试 (测试视角:动态测试/探索性测试) 人工精修本质是动态测试过程,需建立系统化验证策略: | 测试类型 | 写作对应项 | 检测工具 | |----------------|---------------------|

llama.cpp量化模型部署实战:从模型转换到API服务

1. 为什么你需要关注llama.cpp:让大模型在普通电脑上跑起来 如果你对AI大模型感兴趣,肯定听说过动辄需要几十GB显存的“庞然大物”。想在自己的电脑上跑一个7B参数的模型,以前可能得配一张昂贵的专业显卡。但现在,情况不一样了。我今天要跟你聊的 llama.cpp,就是那个能让大模型“瘦身”并飞入寻常百姓家的神奇工具。 简单来说,llama.cpp是一个用C/C++编写的开源项目,它的核心目标只有一个:用最高效的方式,在消费级硬件(比如你的笔记本电脑CPU)上运行大型语言模型。它不像PyTorch那样是个庞大的深度学习框架,它更像一个“推理引擎”,专注于把训练好的模型,以最小的资源消耗跑起来。 我刚开始接触大模型部署时,也被各种复杂的依赖和巨大的资源需求劝退过。直到用了llama.cpp,我才发现,原来在我的MacBook Pro上,也能流畅地和Llama 2这样的模型对话。这背后的功臣,主要就是两点:纯C/C++实现带来的极致性能,以及模型量化技术带来的体积与速度革命。量化这个词听起来有点技术,你可以把它想象成给模型“压缩图片”

2026年高校论文AI率新规解读:哪些学校已明确AIGC检测要求

2026年高校论文AI率新规解读:哪些学校已明确AIGC检测要求

2026年高校论文AI率新规解读:哪些学校已明确AIGC检测要求 引言:AI率检测成为毕业"新门槛" 2026年毕业季,一个让无数毕业生焦虑的新词频繁出现在各大高校的通知文件中——AIGC检测。和传统的查重率不同,AIGC检测针对的是论文中由人工智能生成内容的占比,也就是我们常说的"AI率"。 从2024年下半年开始,教育部就多次发文要求高校加强对学术不端行为的管理,其中明确将"使用AI工具代写论文"纳入学术不端范畴。进入2026年,越来越多的高校不再只是口头警示,而是将AIGC检测正式写入毕业论文管理办法,成为论文答辩前必须通过的一道硬性关卡。 那么,目前到底有哪些学校已经明确了AIGC检测要求?各校的AI率标准又是多少?这篇文章将为你全面梳理和解读2026年的高校论文AI率新规。 一、政策背景:为什么高校越来越重视AI率检测 1.1 AI写作工具的普及倒逼政策升级 ChatGPT在2022年底横空出世后,以其为代表的大语言模型迅速普及。国内如文心一言、通义千问、讯飞星火等AI工具相继上线,AI写作的门槛被大幅降低。据不完全统计,2025年有超过60%的在校大学生使

基于YOLOv10n-SOEP-PST的跟随式助老机器人目标检测与识别系统详解

1. 基于YOLOv10n-SOEP-PST的跟随式助老机器人目标检测与识别系统详解 【CC 4.0 BY-SA版权 版权声明:本文为博主原创文章,遵循版权协议,转载请附上原文出处链接和本声明。 文章标签: 深度学习 同时被 2 个专栏收录 这个损失函数由五个部分组成:边界框坐标损失(前两行)、置信度损失(第三、四行)和分类损失(最后一行)。 λ c o o r d \lambda_{coord} λcoord 和 λ n o o b j \lambda_{noobj} λnoobj 是权重参数,用于平衡不同损失的重要性。 I i j o b j