跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

多模态大模型新基准 II-Bench:评估图像隐喻理解能力

综述由AI生成由多家机构联合提出的多模态大模型图像隐喻理解基准测试 II-Bench。该基准包含 1222 张图片和 1434 个问题,覆盖六大领域,旨在评估模型的心智理论和多跳推理能力。实验显示,当前模型最高准确率为 74.8%,远低于人类的 90%。闭源模型略优于开源模型,但在艺术和心理等抽象领域表现较差。研究发现思维链和多样本学习对此类任务提升不明显,且模型对隐含情感的感知存在偏差。II-Bench 为衡量 MLLMs 高级认知能力提供了重要标准,推动了 AI 在深层语义理解方向的发展。

微码行者发布于 2025/2/7更新于 2026/6/332 浏览
多模态大模型新基准 II-Bench:评估图像隐喻理解能力

背景引入

在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。然而,它们是否真的能够像人类一样,洞悉图片中的深层含义?为了探讨多模态大模型(MLLMs)与人类认知的差距,来自中科院深圳先进院、M-A-P、华中科技大学、零一万物、滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型图像隐喻理解能力的综合性基准测试——II-Bench。

在多模态大模型的世界中,图像隐喻理解(Image Implication Understanding) 正成为一个全新的挑战。图像隐喻理解不仅仅是识别图像中的物体,它要求模型具备多跳逻辑推理能力和心智理论(Theory of Mind, ToM),这是属于人类的高级认知能力。与简单的图像理解任务相比,图像隐喻理解要求模型能够捕捉到图像中的隐喻、象征以及细微的情感表达,这无疑是对 MLLMs 的一次严峻考验。

II-Bench 数据集构建

为了全面评估 MLLMs 的高级感知能力,研究团队精心打造了 II-Bench 数据集。从 20,150 张原始图片中,经过三阶段严格的数据筛选流程——图像去重、文本与图像比例控制以及人工审核,最终得到了 1,222 张图片和 1,434 个问题。

II-Bench 覆盖了生活、艺术、社会、心理、环境等六大领域,图片类型包括插画、梗图、海报、漫画、Logo 和绘画等。这种跨领域和跨类别的设计,使得对模型的理解和推理能力的评估更加客观和全面。

实验设置

研究团队在 II-Bench 上对 20 种 MLLMs 进行了广泛的实验。实验设置了不同的提示方式,包括思维链(Chain-of-Thought, CoT)、多样本学习(Few-Shot Learning)、图像关键词提取等,以评估模型在不同条件下的表现。通过对比不同提示策略下的模型输出,研究人员旨在探究哪些方法能有效提升模型对隐含意义的理解。

评测结果分析

实验结果显示了当前多模态大模型在高级认知任务上的局限性:

  1. 人机差距显著:MLLMs 在图像含义理解方面与人类存在显著差距。模型的最高准确率仅为 74.8%,而人类的平均准确率高达 90%,最佳表现甚至达到了 98%。
  2. 开源与闭源性能:闭源模型通常优于开源模型,但领先闭源模型与领先开源模型之间的性能差距微乎其微,仅为 1% 左右。这表明开源社区正在快速追赶。
  3. 领域差异:在不同领域的表现上,模型在艺术和心理等包含抽象和复杂信息的领域表现较差,而在环境、生活、社会等其他领域表现较好。这暗示模型在处理具象信息时更强,处理抽象概念时较弱。
  4. 情感倾向影响:当在提示中加入图像的情感倾向信息时,模型的得分普遍提高,这表明模型在图像情感理解方面存在不足,容易导致对隐含意义的误解。
  5. 提示工程效果:思维链(CoT)和多样本学习对模型在 II-Bench 的得分提升上无明显效果。这说明现有的推理增强方法可能并不适用于此类深层语义理解任务。
  6. 情感感知偏差:MLLMs 对于难度的感知和人类是对齐的,但是对于隐含情感的感知和人类相悖,相比中立和负面情感,模型在正面隐喻情感上的表现更好。

错误分析

研究人员对 GPT-4V 在 II-Bench 上的错误进行了深入分析,错误类型包括隐喻理解错误、细节理解错误、细节忽略、表面层次理解、推理错误、拒绝回答和答案提取错误。

GPT-4V 最常见的错误类型是隐喻理解错误,占比高达 36%。这种错误表明,尽管 MLLMs 在表面级别的图像识别上表现出色,但当涉及到图像中的隐喻和象征性含义时,它们的理解能力仍然有限。这可能是因为隐喻通常需要对文化背景和情境有深刻的理解,而 MLLMs 可能缺乏这种深层次的语义关联能力。

同时,占比 12% 的推理错误表明,在需要复杂逻辑和多步骤推理的任务中,MLLMs 的性能不足,这反映了模型在处理高级认知任务时的局限性。这些发现揭示了当前 AI 系统在模拟人类心智理论方面的不足。

总结与展望

最后简单总结一下,II-Bench 是一个旨在评估多模态大模型(MLLMs)在图像隐喻理解方面的综合性基准测试。II-Bench 的广度体现在其精心构建的包含 1,222 张图片和 1,434 个问题的数据上,这些问题覆盖了生活、艺术、社会、心理、环境等六大领域。

评估结果揭示了当前 MLLMs 在图像含义理解方面与人类相比存在显著差距。II-Bench 的目标是衡量 MLLMs 在高级感知、推理和理解能力方面的进展,并在未来将继续扩展其所涵盖的领域和任务类型。研究人员相信,II-Bench 将进一步激发 MLLMs 的研究和开发,推动人工智能在图像情感理解、隐喻识别和深层次含义推断等高级认知任务上的发展,使得人们能够更接近实现具有高级心智理论(ToM)的真正智能的多模态系统。

未来的研究方向可能包括改进模型对文化背景的编码能力,探索更有效的提示策略以激活模型的潜在推理能力,以及在训练数据中引入更多富含隐喻和象征意义的样本。通过这些努力,我们有望缩小机器与人类在语义理解层面的鸿沟。

目录

  1. 背景引入
  2. II-Bench 数据集构建
  3. 实验设置
  4. 评测结果分析
  5. 错误分析
  6. 总结与展望
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • C++ Manacher 算法:原理、实现与应用
  • Flutter 三方库 shelf_modular 的鸿蒙化适配指南
  • C++调用OCR模型:高性能场景下的原生接口封装
  • VS Code 远程连接服务器后 GitHub Copilot 无法使用及修复方案
  • 基于YOLOv8/v11/v26与LLM的Web目标检测及人脸表情识别系统
  • 基于 Docker 部署 Nginx 并通过 cpolar 实现公网远程访问
  • SpringBoot 整合 Neo4j 图数据库项目实战详解
  • VSCode Copilot 登录失败常见原因与解决方案
  • Python 语言概述:核心特性、应用场景与学习价值
  • Python 调用高德地图 MCP 服务查询天气实战
  • 二分查找进阶:寻找峰值、旋转数组最小值与缺失数字
  • C++ map 与 multimap 底层原理及常用操作详解
  • DeepSeek-R1-Distill-Llama-8B 模型本地部署与高性能推理服务搭建
  • 基于 FPGA 的 CLAHE 自适应限制对比度直方图均衡算法硬件实现
  • Spring Boot Web 三大核心交互实战:表单、AJAX 与 JSON
  • C++ 驱动 DPU 在医疗数据处理中的应用探索
  • PyCharm 隐藏实用技巧与常用快捷键指南
  • 2026 年 2 月 AIGC 行业模型发布与前沿资讯汇总
  • 相干伊辛机在医疗及医疗 AI 领域的应用前景分析
  • C++ 入门:发展历史、命名空间与输入输出详解

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online