多模态大模型新基准 II-Bench:评估图像隐喻理解能力 | 极客日志