KBQA 核心数据集详解:WebQSP 与 CWQ
知识图谱问答(KBQA)是自然语言处理领域的关键任务,其核心挑战在于将自然语言问题转换为可执行的逻辑形式(如 SPARQL 查询)并从知识图谱中获取答案。WebQSP和CWQ是当前 KBQA 研究中最具代表性的两个数据集,分别覆盖了从多跳到复杂组合性问题的全场景。本文将从数据形式、标注特点、核心挑战等维度对两者进行深度解析,并对比其在 KBQA 研究中的定位与价值。
WebQSP 数据集:多跳推理的基石
1. 数据集概况
- 全称:WebQuestionsSP(扩展自 WebQuestions)
- 来源:基于 Freebase 知识图谱构建,由 Berant 等人于 2013 年提出,后经扩展支持多跳推理。
- 规模:训练集约 4,700 条,测试集约 2,000 条。
- 问题类型:多跳关系推理(最多 4 跳),需结合实体、关系和约束条件。
2. 数据形式详解
WebQSP 的每条数据以 JSON 格式组织,包含从原始问题到逻辑形式、推理路径、答案的完整标注。以下结合 WebQTrn-0 实例(关于'贾斯汀·比伯的兄弟叫什么名字'的查询),逐字段解析其数据形式与实际意义:
{
"QuestionId": "WebQTrn-0",
"RawQuestion": "what is the name of justin bieber brother?",
"ProcessedQuestion": "what is the name of justin bieber brother",
"Parses": [
{
"ParseId": "WebQTrn-0.P0",
"AnnotatorId": 1,
"Sparql": "PREFIX ns: <http://rdf.freebase.com/ns/>\nSELECT DISTINCT ?x\nWHERE {\nFILTER (?x != ns:m.06w2sn5)\nFILTER (!isLiteral(?x) OR lang(?x) = '' OR langMatches(lang(?x), 'en'))\nns:m.06w2sn5 ns:people.person.sibling_s ?y .\n?y ns:people.sibling_relationship.sibling ?x .\n?x ns:people.person.gender ns:m.05zppz .\n}"

