深度解析 KBQA 常用数据集：WebQSP 与 CWQ

深度解析 KBQA 领域两大常用数据集 WebQSP 与 CWQ。WebQSP 基于 Freebase，侧重多跳推理，提供显式推理链与 SPARQL 标注；CWQ 规模更大，新增组合性标注，支持复杂逻辑与多实体关联。两者均涵盖从自然语言到逻辑形式的映射，适用于不同复杂度 KBQA 模型的训练与评估，为语义解析与可解释性研究提供基础数据支撑。

嘘发布于 2026/4/6更新于 2026/7/739 浏览

深度解析 KBQA 常用数据集：WebQSP 与 CWQ

一、引言

知识图谱问答（KBQA）是自然语言处理领域的关键任务，其核心挑战在于将自然语言问题转换为可执行的逻辑形式（如 SPARQL 查询）并从知识图谱中获取答案。WebQSP和CWQ是当前 KBQA 研究中最具代表性的两个数据集，分别覆盖了从多跳到复杂组合性问题的全场景。本文将从数据形式、标注特点、核心挑战等维度对两者进行深度解析，并对比其在 KBQA 研究中的定位与价值。

二、WebQSP 数据集：多跳推理的基石

2.1 数据集概况

全称：WebQuestionsSP（扩展自 WebQuestions）
来源：基于 Freebase 知识图谱构建，由 Berant 等人于 2013 年提出，后经扩展支持多跳推理。
规模：训练集约 4,700 条，测试集约 2,000 条。
问题类型：多跳关系推理（最多 4 跳），需结合实体、关系和约束条件。

2.2 数据形式详解（基于 WebQSP-train 实例深度解析）

WebQSP 的每条数据以 JSON 格式组织，包含从原始问题到逻辑形式、推理路径、答案的完整标注。以下结合 WebQTrn-0 实例（关于'贾斯汀·比伯的兄弟叫什么名字'的查询），逐字段解析其数据形式与实际意义：

{"QuestionId":"WebQTrn-0",// 问题唯一标识，"Trn"表示来自训练集
"RawQuestion":"what is the name of justin bieber brother?",// 原始用户输入，含标点
"ProcessedQuestion":"what is the name of justin bieber brother",// 清洗后问题，去除标点符号
"Parses":[// 标注者对问题的解析结果（可能有多个标注，此处为 1 个）
{"ParseId":"WebQTrn-0.P0",// 解析结果唯一标识，".P0"表示第 1 个标注
"AnnotatorId":1,// 标注者 ID，用于区分不同标注者的结果

深度解析 KBQA 常用数据集：WebQSP 与 CWQ

深度解析 KBQA 常用数据集：WebQSP 与 CWQ

一、引言

二、WebQSP 数据集：多跳推理的基石

2.1 数据集概况

2.2 数据形式详解（基于 WebQSP-train 实例深度解析）

更多推荐文章

相关免费在线工具

核心字段深度解读（结合实例场景）

更多推荐文章

相关免费在线工具

深度解析 KBQA 常用数据集：WebQSP 与 CWQ

深度解析 KBQA 常用数据集：WebQSP 与 CWQ

一、引言

二、WebQSP 数据集：多跳推理的基石

2.1 数据集概况

2.2 数据形式详解（基于 WebQSP-train 实例深度解析）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心字段深度解读（结合实例场景）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具