1. 斯坦福、谷歌团队推出首个视频自训练方法 Video-STaR
大型视觉语言模型(LVLM)的性能取决于其训练数据集的规模和质量。现有的视频指令微调数据集是通过用视频字幕提示大语言模型(LLM)来生成问答对的,缺乏多样性,大多是描述性的。与此同时,存在许多具有不同标签和监督的标签视频数据集,但将这些数据集集成到 LVLM 中并不容易。
在这项工作中,来自斯坦福大学和 Google Research 的研究团队提出了首个视频自训练方法——增强推理视频自训练(Video-STaR)。Video-STaR 允许利用任何标记的视频数据集进行视频指令微调。在 Video-STaR 中,LVLM 在指令生成和微调之间循环运行,他们发现:(1)LVLM 可以提高通用视频理解能力;(2)LVLM 可以在现有监督下适应新的下游任务。在生成过程中,LVLM 会被提示提出一个答案。然后只筛选出包含原始视频标签的答案,然后在生成的数据集上重新训练 LVLM。通过只对包含正确视频标签的生成答案进行训练,Video-STaR 利用这些现有视频标签作为视频指令微调的弱监督。
研究结果表明,Video-STaR 增强型 LVLM 在以下方面的性能有所提高:(1)通用视频 QA,TempCompass 的性能提高了 10%;(2)下游任务,Video-STaR 将 Kinetics700-QA 的准确率提高了 20%,将 FineDiving 的动作质量评估提高了 15%。
论文链接: https://arxiv.org/abs/2407.06189 项目地址: https://orrzohar.github.io/projects/video-star/
2. 清华团队提出智能体互联网(IoA)框架
大语言模型(LLM)的快速发展为开发能力极强的自主智能体(agent)奠定了基础。然而,现有的多智能体框架由于依赖于在自身生态系统中定义的智能体,往往难以整合具备各种能力的第三方智能体,它们在模拟分布式环境方面也面临挑战,因为大多数框架仅限于单设备设置。此外,这些框架通常依赖于硬编码的通信管道,限制了它们对动态任务要求的适应性。
受互联网概念的启发,来自清华大学的研究团队及其合作者提出了智能体互联网(IoA),这是一个新颖的框架,通过为基于 LLM 的多智能体协作提供灵活、可扩展的平台来解决上述问题。
IoA 引入了一个智能体集成协议、一个类似即时通讯的架构设计以及一个智能体组队和对话流控制的动态机制。通过对通用助理任务、具身 AI 任务和检索增强生成基准的广泛实验,他们证明了 IoA 的性能始终优于最先进的基准,展示了它促进异构智能体之间有效协作的能力。IoA 代表着在类似互联网的环境中连接不同智能体的一个步骤,在这种环境中,智能体可以无缝协作,实现更高的智能和能力。
论文链接: https://arxiv.org/abs/2407.07061 GitHub 地址: https://github.com/OpenBMB/IoA
3. VIMI:通过多模态指令将视频生成接地
现有的文本到视频扩散模型仅依赖纯文本编码器进行预训练。这种局限性源于缺乏大规模的多模态提示视频数据集,从而导致缺乏视觉基础,限制了其在多模态整合中的通用性和应用。
为了解决这个问题,来自 Snap、UC Merced 和卡内基梅隆大学的研究团队,利用检索方法将上下文示例与给定的文本提示配对,构建了一个大规模多模态提示数据集,然后利用两阶段训练策略,在同一模型中完成不同的视频生成任务。
首先,他们提出了一个多模态条件视频生成框架,用于在这些增强型数据集上进行预训练,从而建立一个基础视频生成模型。然后,他们在三个视频生成任务中对第一阶段的模型进行微调,并纳入多模态指令。这一过程进一步完善了模型处理不同输入和任务的能力,确保了多模态信息的无缝整合。经过这两个阶段的训练过程,VIMI 展示了多模态理解能力,能根据所提供的输入内容生成语境丰富的个性化视频。与之前的视觉基础视频生成方法相比,VIMI 可以合成具有大范围运动的一致且时间上连贯的视频,同时保留语义控制。最后,VIMI 还在 UCF101 基准上实现了文本到视频生成结果 SOTA。
论文链接: https://arxiv.org/abs/2407.06304 项目地址: https://snap-research.github.io/VIMI/


