深度解析 KBQA 常用数据集:WebQSP 与 CWQ
一、引言
知识图谱问答(KBQA)是自然语言处理领域的关键任务,其核心挑战在于将自然语言问题转换为可执行的逻辑形式(如 SPARQL 查询)并从知识图谱中获取答案。WebQSP和CWQ是当前 KBQA 研究中最具代表性的两个数据集,分别覆盖了从多跳到复杂组合性问题的全场景。本文将从数据形式、标注特点、核心挑战等维度对两者进行深度解析,并对比其在 KBQA 研究中的定位与价值。
二、WebQSP 数据集:多跳推理的基石
2.1 数据集概况
- 全称:WebQuestionsSP(扩展自 WebQuestions)
- 来源:基于 Freebase 知识图谱构建,由 Berant 等人于 2013 年提出,后经扩展支持多跳推理。
- 规模:训练集约 4,700 条,测试集约 2,000 条。
- 问题类型:多跳关系推理(最多 4 跳),需结合实体、关系和约束条件。
2.2 数据形式详解(基于 WebQSP-train 实例深度解析)
WebQSP 的每条数据以 JSON 格式组织,包含从原始问题到逻辑形式、推理路径、答案的完整标注。以下结合 WebQTrn-0 实例(关于'贾斯汀·比伯的兄弟叫什么名字'的查询),逐字段解析其数据形式与实际意义:
{"QuestionId":"WebQTrn-0",// 问题唯一标识,"Trn"表示来自训练集
"RawQuestion":"what is the name of justin bieber brother?",// 原始用户输入,含标点
"ProcessedQuestion":"what is the name of justin bieber brother",// 清洗后问题,去除标点符号
"Parses":[// 标注者对问题的解析结果(可能有多个标注,此处为 1 个)
{"ParseId":"WebQTrn-0.P0",// 解析结果唯一标识,".P0"表示第 1 个标注
"AnnotatorId":1,// 标注者 ID,用于区分不同标注者的结果

