大模型心理理论能力评估：TMBENCH 基准测试

心理理论（ToM）涉及理解他人信念与意图，是衡量大模型社会智能的关键指标。现有评估存在数据污染和主观性强等缺陷。清华大学提出的 TMBENCH 基准通过 8 个任务覆盖 31 种能力，采用多项选择题格式构建双语库存，实现了自动化无偏见评估。实验显示，尽管 GPT-4 表现优异，但整体仍显著低于人类水平，尤其在知识理解和连贯性测试上暴露出依赖语义关联而非真正认知推理的弱点。该框架为后续研究提供了全面且系统的评估工具。

漫步发布于 2025/2/7更新于 2026/7/2539 浏览

心理理论（Theory of Mind, ToM）指理解他人信念、意图及情感等心理状态的能力，这对人类社会交往至关重要。近期研究引发了关于大语言模型（LLMs）是否展现出 ToM 能力的辩论。然而，现有评估方法受限于范围狭窄、主观判断强及潜在数据污染等问题，难以提供充分依据。为此，清华大学团队联合合作者提出了 TMBENCH，这是一个包含 8 个任务和 31 种能力的系统化评估框架，采用多项选择题格式构建双语库存，支持自动化和无偏见评估。

TMBENCH 框架核心

该框架基于广泛的心理学文献，定义了 8 个评估 ToM 能力的社会认知任务，并基于 ATOMS（Abilities in the Theory-of-Mind Space）框架扩展到 31 种核心 ToM 能力。框架包含 2,860 个测试样本，涵盖多样化的真实世界社交场景。

三大特点

系统化评估框架：定义 8 个任务和 31 种能力，覆盖广泛的社会认知维度。
多项选择问题格式：每个样本由故事、问题和选项组成，确保自动化评分的公正性。
从头构建的库存：为避免数据泄露，研究者从零开始创建原始测试样本，实施严格的注释和验证程序。

8 个心理理论任务

这些任务根据原始心理学文献中的定义构建，包括：

意外结果测试（Unexpected Outcome Test）：评估推断角色在情绪激发情境与实际情绪之间差异的能力。
量词含义任务（Scalar Implicature Task）：涉及不完全信息下，说话者使用术语暗示非全部含义的理解。
说服故事任务（Persuasion Story Task）：评估理解和选择有效说服策略的能力。
错误信念任务（False Belief Task）：检验区分自身信念与他人错误信念的能力。
模糊故事任务（Ambiguous Story Task）：评估对不确定情境下他人心理状态的理解。
暗示测试（Hinting Test）：评估从间接暗示中推断心理状态的能力。
奇异故事任务（Strange Story Task）：要求推断包含复杂社交交流故事中角色的心理状态。
失礼行为识别测试（Faux-pas Recognition Test）：测试识别社交故事中角色失礼行为的能力。

31 个心理理论能力

参考 ATOMS 框架，保留了 6 个维度和 31 种能力（移除了视觉线索相关的感知维度）。这 6 个维度包括：

情感（Emotion）：理解情境如何影响情绪及调节表达的能力。
欲望（Desire）：理解主观欲望、偏好及其对行为的影响。
意图（Intention）：理解人们为追求目标而采取行动的能力。
知识（Knowledge）：理解他人基于感知或熟悉程度拥有不同知识的能力。
信念（Belief）：理解人们可持有与现实或自身不同的信念。
非字面沟通（Non-literal Communication）：理解沟通传达超出字面意义的能力。

TMBENCH 构建流程

构建遵循从零开始原则，避免数据污染。所有参与者均经过心理学专家培训，严格遵循任务定义。首先为 8 个任务制作样本，每种能力至少 20 个样本，共生成 2470 个样本。随后补充未覆盖的 12 种能力样本，总数达 2,860 个。

数据收集后进行两轮验证以确保质量。第一轮由工作者 A 复核 B 创建的样本，讨论分歧；第二轮引入工作者 C 解决剩余争议。最终平均一致性达到 99.4%。初始中文库存经 GPT-4-0613 翻译为英文，并手动检查，确保无数据泄露。

测试样本按任务视图和能力视图组织。向 LLMs 展示故事、问题和选项，要求其选择正确答案。

实验与结果

实验设置

评估了 10 种流行 LLMs，包括 GPT-4 系列、ChatGLM3-6B、LLaMA2-13B-Chat 等。采用两种提示方法：直接询问的普通提示（vanilla prompting）和引导逐步推理的链式推理提示（CoT prompting）。

大模型心理理论能力评估：TMBENCH 基准测试

TMBENCH 框架核心

三大特点

8 个心理理论任务

31 个心理理论能力

TMBENCH 构建流程

实验与结果

实验设置

更多推荐文章

相关免费在线工具

主要结果

深入分析

更多推荐文章

相关免费在线工具

大模型心理理论能力评估：TMBENCH 基准测试

TMBENCH 框架核心

三大特点

8 个心理理论任务

31 个心理理论能力

TMBENCH 构建流程

实验与结果

实验设置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

主要结果

深入分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具