
以下是 9 篇大模型领域值得关注的论文:
1. BALROG:评估 LLM 和 VLM 的智能体能力
大语言模型(LLM)和视觉语言模型(VLM)拥有丰富的知识,并表现出良好的推理能力,但在复杂的动态环境中仍难以表现出色。现实世界的任务需要处理错综复杂的交互、高级空间推理、长期规划和不断探索新策略——在这些领域,业内缺乏全面评估这些能力的有效方法。
为了弥补这一不足,来自伦敦大学学院和 IDEAS NCBR 的研究团队及其合作者,推出了一个新基准 BALROG,旨在通过一系列具有挑战性的游戏来评估 LLM 和 VLM 的智能体能力。该基准结合了一系列难度各异的现有强化学习环境,包括非专业人类可在数秒内解决的任务,以及可能需要数年才能掌握的极具挑战性的任务(如 NetHack 学习环境)。
他们设计了衡量性能的细粒度指标,并对几种流行的开源和闭源 LLM 和 VLM 进行了广泛评估。研究结果表明,虽然目前的模型在较简单的游戏中取得了部分成功,但在更具挑战性的任务中却表现得十分吃力。值得注意的是,基于视觉的决策存在严重缺陷,因为当提供环境的视觉表征时,模型的表现会更差。
论文链接:https://arxiv.org/abs/2411.13543
2. AdaptAgent:通过对人类演示的少样本学习调整多模态网页智能体
多模态网页智能体(agent)由多模态大语言模型(MLLM)驱动,可以通过处理用户指令和与图形用户界面(GUI)交互,自主执行许多网页任务。当前构建网页智能体的策略依赖于:(1)底层多模态大语言模型的通用性及其通过提示的可操控性;(2)针对网络相关任务对多模态大语言模型进行大规模微调。然而,网页智能体仍难以在未见过的网站和域中自动执行任务,这限制了它们在企业专用和专有平台上的适用性。
除了通过大规模预训练和微调实现泛化外,该研究还建议利用人类演示来构建可实现少样本适应性的智能体。在这项工作中,来自乔治亚理工学院和摩根大通的研究团队提出了 AdaptAgent 框架,该框架可让专有和开放权重的多模态网页智能体通过少量人类演示(最多 2 次)来适应新网站和新领域。他们在 Mind2Web 和 VisualWebArena 这两个流行基准上进行的实验表明,使用上下文演示(针对专有模型)或元适应演示(针对元学习的开放权重模型)可将任务成功率提高 3.36% 至 7.21%,与未适应的 SOTA 模型相比,相对成功率提高了 21.03% 至 65.75%。此外,他们还进行了其他分析:(1)显示了多模态演示比纯文本演示更有效;(2)揭示了元学习过程中不同数据选择策略对智能体泛化的影响;(3)证明了少量实例的数量对网页智能体成功率的影响。
论文链接:https://arxiv.org/abs/2411.13451
3. Video-RAG:视觉对齐检索 - 增强长视频理解
由于上下文有限,现有的大型视频语言模型(LVLM)难以正确理解长视频。为解决这一问题,微调长上下文 LVLM 和采用基于 GPT 的智能体已成为有前途的解决方案。然而,微调 LVLM 需要大量高质量数据和大量 GPU 资源,而基于 GPT 的智能体则依赖于专有模型(如 GPT-4o)。
在这项工作中,来自厦门大学和罗切斯特大学的研究团队提出了视频检索 - 增强生成(Video-RAG)技术,这是一种无需额外训练、成本效益高的管道,它采用视觉对齐的辅助文本来帮助促进跨模态对齐,同时提供视觉内容之外的额外信息。具体来说,他们利用开源外部工具从纯视频数据(如音频、光学字符和对象检测)中提取视觉对齐信息,并以即插即用的方式将提取的信息作为辅助文本与视频帧和查询一起纳入现有的 LVLM。
Video-RAG 具有以下几个关键优势:(1)单次检索带来的轻量级低计算开销;(2)易于实施并与任何 LVLM 兼容;(3)在包括 Video-MME、MLVU 和 LongVideoBench 在内的长视频理解基准测试中取得显著、一致的性能提升。值得注意的是,当与 72B 模型一起使用时,模型比 Gemini-1.5-Pro 和 GPT-4o 等专有模型表现出更优越的性能。
论文链接:https://arxiv.org/abs/2411.13093
4. WebDreamer:基于模型的网络智能体规划
语言智能体(agent)在基于网页的任务自动化方面表现出了不错的潜力,尽管与人类相比,它们目前的反应式方法在很大程度上仍然表现不佳。虽然结合先进的规划算法,特别是树搜索方法,可以提高这些智能体的性能,但由于诸如确认购买等不可逆转的操作,直接在实时网站上实施树搜索会带来巨大的安全风险和实际限制。

