心理理论(Theory of Mind, ToM)指理解他人信念、意图及情感等心理状态的能力,这对人类社会交往至关重要。近期研究引发了关于大语言模型(LLMs)是否展现出 ToM 能力的辩论。然而,现有评估方法受限于范围狭窄、主观判断强及潜在数据污染等问题,难以提供充分依据。为此,清华大学团队联合合作者提出了 TMBENCH,这是一个包含 8 个任务和 31 种能力的系统化评估框架,采用多项选择题格式构建双语库存,支持自动化和无偏见评估。
TMBENCH 框架核心
该框架基于广泛的心理学文献,定义了 8 个评估 ToM 能力的社会认知任务,并基于 ATOMS(Abilities in the Theory-of-Mind Space)框架扩展到 31 种核心 ToM 能力。框架包含 2,860 个测试样本,涵盖多样化的真实世界社交场景。
三大特点
- 系统化评估框架:定义 8 个任务和 31 种能力,覆盖广泛的社会认知维度。
- 多项选择问题格式:每个样本由故事、问题和选项组成,确保自动化评分的公正性。
- 从头构建的库存:为避免数据泄露,研究者从零开始创建原始测试样本,实施严格的注释和验证程序。
8 个心理理论任务
这些任务根据原始心理学文献中的定义构建,包括:
- 意外结果测试(Unexpected Outcome Test):评估推断角色在情绪激发情境与实际情绪之间差异的能力。
- 量词含义任务(Scalar Implicature Task):涉及不完全信息下,说话者使用术语暗示非全部含义的理解。
- 说服故事任务(Persuasion Story Task):评估理解和选择有效说服策略的能力。
- 错误信念任务(False Belief Task):检验区分自身信念与他人错误信念的能力。
- 模糊故事任务(Ambiguous Story Task):评估对不确定情境下他人心理状态的理解。
- 暗示测试(Hinting Test):评估从间接暗示中推断心理状态的能力。
- 奇异故事任务(Strange Story Task):要求推断包含复杂社交交流故事中角色的心理状态。
- 失礼行为识别测试(Faux-pas Recognition Test):测试识别社交故事中角色失礼行为的能力。
31 个心理理论能力
参考 ATOMS 框架,保留了 6 个维度和 31 种能力(移除了视觉线索相关的感知维度)。这 6 个维度包括:
- 情感(Emotion):理解情境如何影响情绪及调节表达的能力。
- 欲望(Desire):理解主观欲望、偏好及其对行为的影响。
- 意图(Intention):理解人们为追求目标而采取行动的能力。
- 知识(Knowledge):理解他人基于感知或熟悉程度拥有不同知识的能力。
- 信念(Belief):理解人们可持有与现实或自身不同的信念。
- 非字面沟通(Non-literal Communication):理解沟通传达超出字面意义的能力。
TMBENCH 构建流程
构建遵循从零开始原则,避免数据污染。所有参与者均经过心理学专家培训,严格遵循任务定义。首先为 8 个任务制作样本,每种能力至少 20 个样本,共生成 2470 个样本。随后补充未覆盖的 12 种能力样本,总数达 2,860 个。
数据收集后进行两轮验证以确保质量。第一轮由工作者 A 复核 B 创建的样本,讨论分歧;第二轮引入工作者 C 解决剩余争议。最终平均一致性达到 99.4%。初始中文库存经 GPT-4-0613 翻译为英文,并手动检查,确保无数据泄露。
测试样本按任务视图和能力视图组织。向 LLMs 展示故事、问题和选项,要求其选择正确答案。
实验与结果
实验设置
评估了 10 种流行 LLMs,包括 GPT-4 系列、ChatGLM3-6B、LLaMA2-13B-Chat 等。采用两种提示方法:直接询问的普通提示(vanilla prompting)和引导逐步推理的链式推理提示(CoT prompting)。


