1. 清华孙茂松团队提出'密度定律' densing law
大语言模型(LLM)的性能可随着模型规模的扩大而提高。然而,这种扩展给训练和推理效率带来了巨大挑战,特别是在资源有限的环境中部署 LLM 时,这种扩展趋势正变得越来越不可持续。
在这项工作中,来自清华大学和面壁智能的研究团队提出了'容量密度'(capacity density)的概念,作为评估不同规模 LLM 质量的新指标,并从有效性和效率两个方面描述了 LLM 的发展趋势。
为了计算给定目标 LLM 的容量密度,他们首先引入了一组参考模型,并根据这些参考模型的参数大小制定了一个 scaling law 来预测其下游性能。然后,他们将目标 LLM 的有效参数大小定义为参考模型实现同等性能所需的参数大小,并将容量密度正式定义为目标 LLM 的有效参数大小与实际参数大小之比。容量密度为评估模型的有效性和效率提供了一个统一的框架。
他们对近期开源基础 LLM 的进一步分析揭示了'密度定律'(densing law),即 LLM 的容量密度随着时间的推移呈指数增长。更具体地说,使用一些广泛使用的基准进行评估,LLM 的容量密度大约每三个月翻一番。该定律为指导未来的 LLM 开发提供了新的视角,强调了提高容量密度的重要性,从而以最小的计算开销获得更优的结果。
论文链接: https://arxiv.org/abs/2412.04315
2. 足球领域首个视觉语言基础模型 MatchVision
作为一项举世闻名的体育运动,足球吸引了全世界球迷的广泛关注。在这项工作中,来自上海交通大学的研究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。
具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,以及一个自动注释管道;(2)他们提出了足球领域的第一个视觉语言基础模型 MatchVision,它利用足球视频中的时空信息,在各种下游任务中表现出色;(3)他们在事件分类、解说生成和多视角犯规识别方面进行了广泛的实验和消融研究。MatchVision 在所有这些方面都表现出了 SOTA。
论文链接: https://arxiv.org/abs/2412.01820 项目地址: https://jyrao.github.io/UniSoccer/
3. Aguvis:首个完全自主的纯视觉 GUI agent
图形用户界面(GUI)对人机交互至关重要,但由于视觉环境的复杂性和多变性,GUI 任务的自动化仍具有挑战性。现有的方法通常依赖于 GUI 的文本表示,这在通用性、效率和可扩展性方面带来了限制。
在这项工作中,香港大学和 Salesforce 研究团队提出了一个可在各种平台上运行的基于纯视觉的统一自主 GUI agent 框架——Aguvis。这一方法利用了基于图像的观察和自然语言对视觉元素的基础指令,并采用了一致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI agent 轨迹数据集,整合了多模态推理和接地(grounding),并采用了两阶段训练管道,首先侧重于一般的 GUI 接地,然后是规划和推理。
通过全面的实验,他们证明了 Aguvis 在离线和实际在线场景中都超越了之前的 SOTA 方法,据介绍,它是首个能够独立执行任务而无需与外部闭源模型协作的完全自主纯视觉 GUI agent。
论文链接: https://arxiv.org/abs/2412.04454 项目地址: https://aguvis-project.github.io/
4. MV-Adapter:轻松生成多视角一致图像
现有的多视角图像生成方法通常会对预先训练好的文本到图像(T2I)模型进行修改,并需要进行全面微调,从而导致:(1)高计算成本,尤其是在使用大型基础模型和高分辨率图像时;(2)由于优化困难和高质量 3D 数据稀缺而导致图像质量下降。
在这项工作中,来自北京航空航天大学、VAST 和上海交通大学的研究团队首次提出了基于适配器的多视角图像生成解决方案,并介绍了 MV-Adapter,这是一种多功能即插即用适配器,可在不改变原始网络结构或特征空间的情况下增强 T2I 模型及其衍生物。通过更新较少的参数,MV-Adapter 可实现高效训练,并保留预训练模型中蕴含的先验知识,从而降低过拟合风险。为了在适配器中有效地模拟 3D 几何知识,他们引入了创新设计,包括重复的自注意层和并行注意力架构,使适配器能够继承预训练模型的先验知识,以模拟新的 3D 知识。此外,他们还提出了一种统一的条件编码器,可无缝集成相机参数和几何信息,从而促进基于文本和图像的 3D 生成和纹理制作等应用。


