1. 第一个人工智能科学家:15 美元成本写论文,水平达到机器学习顶会
通用人工智能(AGI)的巨大挑战之一是开发能够进行科学研究和发现新知识的智能体(agent)。虽然前沿模型已被用作人类科学家的辅助工具,如头脑风暴、编写代码或预测任务,但它们仍然只能完成科学过程的一小部分。
在这项工作中,来自 Sakana AI、英属哥伦比亚大学的研究团队提出了首个用于全自动科学发现的综合框架,使前沿大语言模型(LLM)能够独立开展研究并交流研究成果。他们提出的'人工智能科学家'(The AI Scientist)可以生成新颖的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文来描述其研究结果,然后运行模拟审查流程进行评估。原则上,这个过程可以重复进行,以开放式的方式迭代开发想法。他们将其应用于机器学习的三个不同子领域:扩散建模、基于 transformer 的语言建模和学习动力学,从而展示它的多功能性。每个想法都能实现并发展成为一篇完整的论文,每篇论文的成本不到 15 美元。
为了评估所生成的论文,他们设计并验证了一个自动评审员,结果表明该评审员在评估论文分数方面的表现接近人类。经自动审稿人评判,'人工智能科学家'可以生成超过顶级机器学习会议接受门槛的论文。
论文链接: https://arxiv.org/abs/2408.06292 GitHub 地址: https://github.com/SakanaAI/AI-Scientist
2. 贾佳亚团队提出高效可控图像视频生成方法
扩散模型在图像和视频生成方面都表现出卓越而强大的能力。为了对生成结果实现更强的控制,研究人员提出了 ControlNet、Adapters 和 ReferenceNet 等多个架构,从而集成调节控制。然而,目前的可控生成方法往往需要大量额外的计算资源,尤其是在视频生成方面,而且在训练方面面临挑战,或者控制能力较弱。
在这项工作中,贾佳亚团队提出了一种强大且高效的可控图像、视频生成方法——ControlNeXt。他们首先设计了一个更简单、更高效的架构,与基础模型相比,以最小的额外成本取代了复杂的分支模块。这种简洁的结构还允许该方法与其他 LoRA 权重无缝集成,无需额外训练即可改变风格。在训练方面,与其他方法相比,他们减少了多达 90% 的可学习参数。此外,他们还提出了另一种名为'交叉归一化(Cross Normalization)'的方法来替代'Zero-Convolution',从而实现快速、稳定的训练收敛。他们在图像和视频中使用不同的基础模型进行了各种实验,证明了该方法的鲁棒性。
论文链接: https://arxiv.org/abs/2408.06070 项目地址: https://pbihao.github.io/projects/controlnext/index.html
3. UC 伯克利推出 Body Transformer 架构
近年来,在自然语言处理和计算机视觉领域,transformer 架构已成为机器学习算法的实际标准。
尽管有显著的证据表明这种架构在机器人学习中得到了成功应用,但 UC 伯克利大学 Pieter Abbeel 团队认为,标准的 transformer 并未充分利用机器人学习问题的结构。因此,他们提出了 Body Transformer(BoT),这是一种通过提供引导学习过程的归纳偏差来利用机器人身体的架构。他们将机器人身体表示为传感器和致动器的图,并依靠掩码注意力在整个架构中汇集信息。在表示模仿或强化学习策略时,由此产生的架构在任务完成度、缩放特性和计算效率方面都优于标准的 transformer 和经典的多层感知器。
论文链接: https://arxiv.org/abs/2408.06316 项目地址: https://sferrazza.cc/bot_site/
4. VisualAgentBench:视觉基础智能体训练、评估新基准
大型多模态模型(LMMs)开创了人工智能的新纪元,它将语言和视觉的能力融合在一起,形成了能力极强的视觉基础智能体(Visual Foundation Agents)。据推测,这些智能体可以胜任各种任务,有可能接近通用人工智能(AGI)。然而,现有的基准未能充分挑战或展示 LMM 在复杂真实环境中的全部潜力。
为了填补这一空白,来自清华大学、俄亥俄州大大学、浙江大学和北京大学的研究团队推出了 VisualAgentBench(VAB),这是一个全面的、开创性的基准,专门用于在具身、图形用户界面和视觉设计等不同场景中训练和评估作为视觉基础智能体的 LMM。


