利用大型语言模型自动构建知识图谱
引言
随着大型语言模型(LLM)的兴起,关于知识图谱(Knowledge Graph, KG)是否会被取代的讨论层出不穷。事实上,两者处于不同的抽象层面:知识图谱是经过加工的结构化产品,可用于多种场景并反向提升大模型的准确性;而大模型既是生产知识图谱的工具,也能借助知识图谱增强自身的推理能力。
本文旨在探讨如何利用大型语言模型自动构建知识图谱,分析其技术难点、与 LLM 的对比关系,并综述现有的自动化构建方法。
构建知识图谱的挑战
传统知识图谱的构建主要依赖众包或文本挖掘,存在显著挑战:
- 成本高昂:需要人工定义本体、属性及关系,并进行大量校验和迭代。
- 领域限制:不同领域概念差异大,缺乏通用构建方法。例如服务计算领域需要整合分散且未注释的数据。
- 步骤繁琐:涉及共指消解、命名实体识别等复杂预处理步骤。
- 更新困难:维护成本高,难以实时反映新出现的知识。
这些痛点催生了利用 LLM 进行自动化构建的研究方向。LLM 具备强大的语言理解能力,能大幅降低对人工标注的依赖。
知识图谱与大型语言模型的比较
KG 和 LLM 均可作为知识库查询,但机制不同:KG 通过节点关联检索答案,LLM 则通过概率预测补全序列。
| 特性 | 知识图谱 (KG) | 大型语言模型 (LLM) |
|---|---|---|
| 知识来源 | 结构化数据,基于事实 | 训练语料,统计规律 |
| 推理能力 | 强,支持逻辑推导 | 弱,易产生幻觉 |
| 领域适应性 | 可针对特定领域定制 | 通用性强,但缺乏深度领域知识 |
| 更新频率 | 易于增量更新 | 需重新训练,成本高 |
| 可解释性 | 高,路径清晰 | 低,黑盒模型 |
尽管 LLM 拥有海量通用知识,但在回忆具体关系事实、数值计算及符号推理方面仍存在局限。此外,LLM 可能产生偏见、毒性内容或过时信息。因此,将两者结合是更优方案。
融合知识图谱与 LLM 的路径
目前主要有三种融合方式:
- LLM 辅助自动构建:利用 LLM 从非结构化数据中提取三元组填充 KG。
- KG 增强 LLM:利用 KG 检索结果指导 LLM 生成,减少幻觉。
- 知识图谱增强的预训练模型 (KGPLMs):在训练阶段引入 KG 结构信息。
使用 LLM 进行自动知识图谱构建的方法
1. 早期生成式方法 (COMET)
2019 年提出的 COMET (Commonsense Transformers) 利用微调后的生成式 LLM(如 GPT)构建常识图谱。该方法给定头实体和关系,让模型生成尾实体。例如输入 "piece" 和 "PartOf",模型可能输出 。生成的种子 - 关系 - 完成三元组经人类评估后可直接用于构建图谱。这种方法的优势在于能发现隐含的常识关系,但受限于模型本身的常识覆盖范围。


