Falcon2-11B 技术报告
Technology Innovation Institute 推出了一个在超过五万亿 token 上训练的基础模型 Falcon2-11B 及其多模态版本 Falcon2-11B-vlm。他们介绍了在 Falcon2-11B 训练过程中的发现,该训练采用了多阶段方法,其中早期阶段根据上下文的长度进行区分,最后阶段则使用了高质量数据集。
此外,他们还报告了在训练中期将 batch 规模扩大一倍的效果,以及学习率对训练损失峰值的影响。基础模型的下游任务在既定基准上进行了评估,包括多语言和代码数据集。基础模型在所有任务中都表现出很强的泛化能力,这使其适合下游微调使用案例。
对于 Falcon2-11B-vlm,他们展示了其在多个基准上的表现,并表明与类似规模的开源模型相比,这一模型获得了更高的平均分。
论文链接: https://arxiv.org/abs/2407.14885
苹果推出视频大语言模型 SlowFast-LaVA
苹果公司推出的 SlowFast-LaVA(简称 SF-LaVA)是一种无需训练的视频大语言模型(LLM),它可以在不超出常用 LLM 的 token 预算的情况下,同时捕捉详细的空间语义和长距离的时间上下文。
为此,模型采用了双流 SlowFast 输入设计,以有效的方式聚合采样视频帧的特征。具体来说,Slow 路径以较低的帧速率提取特征,同时尽可能多地保留空间细节(例如,使用 24x24 token);Fast 路径以较高的帧速率运行,但使用较大的空间池化步长(例如,下采样 6 倍)来关注运动线索。因此,这种设计能够充分捕捉有利于理解视频细节的空间和时间特征。
实验结果表明,SF-LaVA 在各种视频任务中的表现都优于现有的免训练方法。在某些基准测试中,SF-LaVA 的性能可与在视频数据集上进行微调的 SOTA 视频 LLM 媲美,甚至更好。
论文链接: https://arxiv.org/abs/2407.15841
谷歌推出可操纵的多目标微调通用框架 CLP
基于奖励的微调对于将语言政策与预期行为(如创造性和安全性)对齐至关重要。这方面的一个关键挑战是开发可操纵的语言模型,以灵活高效的方式权衡多个(相互冲突的)目标。
谷歌团队推出了一种针对多个目标对语言模型进行微调的通用框架 CLP。在多任务训练和参数高效微调技术的基础上,CLP 可以学习可操纵的模型,从而在推理时有效地权衡相互冲突的目标。值得注意的是,这并不需要训练或维护多个模型来实现不同目标之间的权衡。
一系列广泛的实验和分析表明,CLP 框架所学习的可操纵模型优于目前 SOTA 多目标微调方法,并在帕累托(Pareto)上占优势。
论文链接: https://arxiv.org/abs/2407.15762
GET-Zero:用于零样本实体泛化的图形实体 transformer
来自斯坦福大学的研究团队推出了一种用于学习体现感知控制策略的模型架构和训练程序 GET-Zero,该架构无需重新训练即可立即适应新的硬件变化。
团队提出了图形实体 transformer(GET),它利用体现图的连接性作为注意力机制中的学习结构偏差。团队利用行为克隆技术,将特定实体专家策略中的演示数据提炼为实体感知的 GET 模型,该模型以机器人的硬件配置为条件做出控制决策。
研究团队对一项灵巧的手部物体旋转任务进行了案例研究,使用了去掉关节和延长连接长度的四指机械手的不同配置。通过使用 GET 模型和自建模损失,GET-Zero 能够对图形结构和链接长度的未知变化进行零样本泛化,比基准方法提高了 20%。
论文链接: https://arxiv.org/abs/2407.15002 GitHub 链接: https://github.com/real-stanford/get\_zero 项目地址: https://get-zero-paper.github.io/
浙大团队推出 Odyssey:让智能体掌握开放世界技能
最近的一些研究深入探讨了如何构建适用于开放世界具身环境(如 Minecraft)的通用型智能体。尽管取得了一些成果,但现有工作主要集中在解决基本的程序任务上,如收集材料和制作工具,并将获取钻石任务视为最终目标。这种局限性源于智能体可采取的行动范围较窄,要求它们从头开始学习有效的长远策略。因此,在开放世界中发现多样化的游戏机会变得极具挑战性。


