GAIA:通用人工智能助理的基准
摘要
GAIA 是一个面向通用人工智能(AGI)助理的评估基准。如果系统能解决其中的问题,将代表 AI 研究的一个重要里程碑。该基准提出了一系列现实世界的问题,要求模型具备推理、多模态处理、网络浏览以及工具使用熟练度等核心能力。
GAIA 的设计理念与当前趋势不同:现有基准往往针对对人类越来越困难的任务,而 GAIA 关注的是对人类概念简单但对高级 AI 极具挑战性的场景。实验数据显示,人类受访者在配备插件的 GPT-4 上取得了 92% 的支持率,而在早期模型上仅为 15%。这种显著差异表明,尽管 LLM 在特定专业领域(如法律或化学)表现优异,但在通用任务上的鲁棒性仍有差距。我们认为,AGI 的出现取决于系统在这些问题上能否表现出与普通人相似的稳定性。
本次我们梳理了 GAIA 的方法论,共设计了 466 个问题及对应答案,并公开了部分数据以支持社区评估。
1 引言
随着大语言模型的快速发展,评估其真实能力变得愈发关键。传统的基准测试往往侧重于知识检索或逻辑推理的单一维度,难以全面反映智能体在复杂环境下的综合表现。GAIA 的提出正是为了填补这一空白,它强调'通用'二字,要求模型不仅能回答问题,还要能像人一样利用外部工具和环境信息来解决问题。
2 相关工作
当前的 AI 基准大多遵循'难度递增'的逻辑,即设计越来越难的人类任务。然而,GAIA 团队认为,真正的 AGI 应当能够胜任那些人类觉得理所当然的任务。通过对比发现,许多在专业领域超越人类的模型,在面对需要跨模态理解或实时搜索的日常问题时却显得力不从心。这种反差揭示了当前技术路线的局限性。
3 GAIA
GAIA 的核心在于构建一个贴近现实的测试集。我们设计了 466 个具体问题,涵盖多个领域和任务类型。为了保证评估的公正性和持续性,我们发布了问题集合,但保留了其中 300 个问题的答案作为隐藏集,供后续领导委员会进行权威验证。这种方法既促进了社区的广泛参与,又防止了过拟合导致的虚假繁荣。
4 LLMs 在 GAIA 上的结果
初步测试结果令人深思。在配备插件的 GPT-4 中,人类受访者获得了 92% 的支持率,这意味着模型在辅助人类完成任务方面已经相当出色。相比之下,早期模型仅获得 15% 的支持率。这一数据不仅反映了模型能力的代际差异,也凸显了插件机制和上下文理解在提升 AI 实用性中的关键作用。未来,如何在保持专业深度的同时提升通用鲁棒性,将是技术演进的重点方向。

