深度解析 KBQA 常用数据集:WebQSP 与 CWQ
一、引言
知识图谱问答(KBQA)是自然语言处理领域的关键任务,其核心挑战在于将自然语言问题转换为可执行的逻辑形式(如 SPARQL 查询)并从知识图谱中获取答案。WebQSP和CWQ是当前 KBQA 研究中最具代表性的两个数据集,分别覆盖了从多跳到复杂组合性问题的全场景。本文将从数据形式、标注特点、核心挑战等维度对两者进行深度解析,并对比其在 KBQA 研究中的定位与价值。
二、WebQSP 数据集:多跳推理的基石
2.1 数据集概况
- 全称:WebQuestionsSP(扩展自 WebQuestions)
- 来源:基于 Freebase 知识图谱构建,由 Berant 等人于 2013 年提出,后经扩展支持多跳推理。
- 规模:训练集约 4,700 条,测试集约 2,000 条。
- 问题类型:多跳关系推理(最多 4 跳),需结合实体、关系和约束条件。
2.2 数据形式详解(基于 WebQSP-train 实例深度解析)
WebQSP 的每条数据以 JSON 格式组织,包含从原始问题到逻辑形式、推理路径、答案的完整标注。以下结合 WebQTrn-0 实例(关于'贾斯汀·比伯的兄弟叫什么名字'的查询),逐字段解析其数据形式与实际意义:
{"QuestionId":"WebQTrn-0",// 问题唯一标识,"Trn"表示来自训练集"RawQuestion":"what is the name of justin bieber brother?",// 原始用户输入,含标点"ProcessedQuestion":"what is the name of justin bieber brother",// 清洗后问题,去除标点符号"Parses":[// 标注者对问题的解析结果(可能有多个标注,此处为 1 个){"ParseId":"WebQTrn-0.P0",// 解析结果唯一标识,".P0"表示第 1 个标注"AnnotatorId":1,// 标注者 ID,用于区分不同标注者的结果"AnnotatorComment":{// 标注者对解析质量的评价"ParseQuality":"Complete",// 解析完整性:完整覆盖问题逻辑"QuestionQuality":"Good",// 问题质量:表述清晰,无歧义"Confidence":"Normal",// 标注者置信度:中等"FreeFormComment":"First-round parse verification"// 备注:首轮解析验证},"Sparql":"PREFIX ns: <http://rdf.freebase.com/ns/>\nSELECT DISTINCT ?x\nWHERE {\nFILTER (?x != ns:m.06w2sn5)\nFILTER (!isLiteral(?x) OR lang(?x) = '' OR langMatches(lang(?x), 'en'))\nns:m.06w2sn5 ns:people.person.sibling_s ?y .\n?y ns:people.sibling_relationship.sibling ?x .\n?x ns:people.person.gender ns:m.05zppz .\n}\n",// 对应问题的 SPARQL 查询"PotentialTopicEntityMention":"justin bieber",// 问题中提到的核心实体(原始表述)"TopicEntityName":"Justin Bieber",// 核心实体的标准化名称"TopicEntityMid":"m.06w2sn5",// 核心实体在 Freebase 中的唯一 ID(MID)"InferentialChain":[// 从核心实体到答案的推理关系链"people.person.sibling_s","people.sibling_relationship.sibling"],"Constraints":[// 答案需满足的约束条件{"Operator":"Equal",// 约束操作符:等于"ArgumentType":"Entity",// 约束参数类型:实体"Argument":"m.05zppz",// 约束参数(Freebase 中'男性'的 MID)"EntityName":"Male",// 约束参数的标准化名称:男性"SourceNodeIndex":1,// 约束作用的节点索引(对应推理链中的第 2 个关系)"NodePredicate":"people.person.gender",// 约束对应的关系:性别"ValueType":"String"// 约束值类型:字符串(实体名称)}],"Time":null,// 时间约束:无(问题不涉及时间)"Order":null,// 排序约束:无(问题不要求排序)"Answers":[// 问题的标准答案{"AnswerType":"Entity",// 答案类型:实体"AnswerArgument":"m.0gxnnwq",// 答案实体的 MID"EntityName":"Jaxon Bieber"// 答案实体的标准化名称}]}]}

