深度解析 KBQA 常用数据集:WebQSP 与 CWQ
一、引言
知识图谱问答(KBQA)是自然语言处理领域的关键任务,其核心挑战在于将自然语言问题转换为可执行的逻辑形式(如 SPARQL 查询)并从知识图谱中获取答案。WebQSP和CWQ是当前 KBQA 研究中最具代表性的两个数据集,分别覆盖了从多跳到复杂组合性问题的全场景。本文将从数据形式、标注特点、核心挑战等维度对两者进行深度解析,并对比其在 KBQA 研究中的定位与价值。
二、WebQSP 数据集:多跳推理的基石
2.1 数据集概况
- 全称:WebQuestionsSP(扩展自 WebQuestions)
- 来源:基于 Freebase 知识图谱构建,由 Berant 等人于 2013 年提出,后经扩展支持多跳推理。
- 规模:训练集约 4,700 条,测试集约 2,000 条。
- 问题类型:多跳关系推理(最多 4 跳),需结合实体、关系和约束条件。
2.2 数据形式详解(基于 WebQSP-train 实例深度解析)
WebQSP 的每条数据以 JSON 格式组织,包含从原始问题到逻辑形式、推理路径、答案的完整标注。以下结合 WebQTrn-0 实例(关于'贾斯汀·比伯的兄弟叫什么名字'的查询),逐字段解析其数据形式与实际意义:
{"QuestionId":"WebQTrn-0",// 问题唯一标识,"Trn"表示来自训练集"RawQuestion":"what is the name of justin bieber brother?",// 原始用户输入,含标点"ProcessedQuestion":"what is the name of justin bieber brother",// 清洗后问题,去除标点符号"Parses":[// 标注者对问题的解析结果(可能有多个标注,此处为 1 个){"ParseId":"WebQTrn-0.P0",// 解析结果唯一标识,".P0"表示第 1 个标注"AnnotatorId":1,// 标注者 ID,用于区分不同标注者的结果"AnnotatorComment":{// 标注者对解析质量的评价, 解析完整性:完整覆盖问题逻辑, 问题质量:表述清晰,无歧义, 标注者置信度:中等 备注:首轮解析验证},, 对应问题的 查询, 问题中提到的核心实体(原始表述), 核心实体的标准化名称, 核心实体在 中的唯一 ()[ 从核心实体到答案的推理关系链,],[ 答案需满足的约束条件{, 约束操作符:等于, 约束参数类型:实体, 约束参数( 中的 ), 约束参数的标准化名称:男性, 约束作用的节点索引(对应推理链中的第 个关系), 约束对应的关系:性别 约束值类型:字符串(实体名称)}],, 时间约束:无(问题不涉及时间), 排序约束:无(问题不要求排序)[ 问题的标准答案{, 答案类型:实体, 答案实体的 答案实体的标准化名称}]}]}

