利用大型语言模型自动构建知识图谱

引言

随着大型语言模型（LLM）的兴起，关于知识图谱（Knowledge Graph, KG）是否会被取代的讨论层出不穷。事实上，两者处于不同的抽象层面：知识图谱是经过加工的结构化产品，可用于多种场景并反向提升大模型的准确性；而大模型既是生产知识图谱的工具，也能借助知识图谱增强自身的推理能力。

本文旨在探讨如何利用大型语言模型自动构建知识图谱，分析其技术难点、与 LLM 的对比关系，并综述现有的自动化构建方法。

构建知识图谱的挑战

传统知识图谱的构建主要依赖众包或文本挖掘，存在显著挑战：

成本高昂：需要人工定义本体、属性及关系，并进行大量校验和迭代。
领域限制：不同领域概念差异大，缺乏通用构建方法。例如服务计算领域需要整合分散且未注释的数据。
步骤繁琐：涉及共指消解、命名实体识别等复杂预处理步骤。
更新困难：维护成本高，难以实时反映新出现的知识。

这些痛点催生了利用 LLM 进行自动化构建的研究方向。LLM 具备强大的语言理解能力，能大幅降低对人工标注的依赖。

知识图谱与大型语言模型的比较

KG 和 LLM 均可作为知识库查询，但机制不同：KG 通过节点关联检索答案，LLM 则通过概率预测补全序列。

特性	知识图谱 (KG)	大型语言模型 (LLM)
知识来源	结构化数据，基于事实	训练语料，统计规律
推理能力	强，支持逻辑推导	弱，易产生幻觉
领域适应性	可针对特定领域定制	通用性强，但缺乏深度领域知识
更新频率	易于增量更新	需重新训练，成本高
可解释性	高，路径清晰	低，黑盒模型

尽管 LLM 拥有海量通用知识，但在回忆具体关系事实、数值计算及符号推理方面仍存在局限。此外，LLM 可能产生偏见、毒性内容或过时信息。因此，将两者结合是更优方案。

融合知识图谱与 LLM 的路径

目前主要有三种融合方式：

LLM 辅助自动构建：利用 LLM 从非结构化数据中提取三元组填充 KG。
KG 增强 LLM：利用 KG 检索结果指导 LLM 生成，减少幻觉。
知识图谱增强的预训练模型 (KGPLMs)：在训练阶段引入 KG 结构信息。

使用 LLM 进行自动知识图谱构建的方法

1. 早期生成式方法 (COMET)

2019 年提出的 COMET (Commonsense Transformers) 利用微调后的生成式 LLM（如 GPT）构建常识图谱。该方法给定头实体和关系，让模型生成尾实体。例如输入 "piece" 和 "PartOf"，模型可能输出。生成的种子 - 关系 - 完成三元组经人类评估后可直接用于构建图谱。这种方法的优势在于能发现隐含的常识关系，但受限于模型本身的常识覆盖范围。

利用大型语言模型自动构建知识图谱