大模型前沿：13 篇必读论文精选

大模型前沿论文精选

以下是 13 篇近期重要的大模型论文摘要：

Meta：多'重复'，更能提升 transformer 性能

Meta 团队用算法生成的数据集研究了 transformer 的性能与训练示例重复次数的函数关系。在最大公约数、模态乘法和矩阵特征值这三个数学问题上，他们证明了在训练步骤数量固定的情况下，用较小的重复示例集训练出来的模型优于用较大的单次使用示例集训练出来的模型。他们还证明了两组训练——重复使用一小部分随机示例子集，同时对训练集的其余部分进行正常采样——能带来更快的学习速度和更好的性能。这突出表明，重复的好处，可能超过数据多样性的好处。

论文链接： https://arxiv.org/abs/2410.07041

渐进自回归视频扩散模型

当前的前沿视频扩散模型在生成高质量视频方面取得了显著的成果。然而，由于训练过程中计算量的限制，它们只能生成短视频片段，通常为 10 秒或 240 帧左右。在这项工作中，来自石溪大学和 Adobe Research 的研究团队展示了现有模型可以在不改变架构的情况下自然扩展为自回归视频扩散模型。

他们的主要想法是为潜帧分配逐渐增加的噪声水平，而不是单一的噪声水平，这样就能在潜帧之间实现细粒度条件，并在注意力窗口之间实现大面积重叠。这种渐进式视频去噪使他们的模型能够自回归地生成视频帧，而不会出现质量下降或场景突变。

论文链接： https://arxiv.org/abs/2410.08151 项目地址： https://desaixie.github.io/pa-vdm/

Agent S：像人一样使用计算机的开放智能体框架

Simular Research 团队提出了 Agent S，一个通过图形用户界面（GUI）实现与计算机自主交互的开放智能体框架，旨在通过自动化复杂的多步骤任务来改变人机交互。

Agent S 旨在解决计算机任务自动化中的三个关键挑战：获取特定领域的知识、规划较长的任务周期以及处理动态的非统一界面。为此，Agent S 引入了经验增强型分层规划，从多层次的外部知识搜索和内部经验检索中学习，促进高效的任务规划和子任务执行。此外，它还采用了一种智能体 - 计算机接口（ACI），以多模态大语言模型（MLLM）为基础，更好地激发图形用户界面智能体的推理和控制能力。

在 OSWorld 基准测试中进行的评估表明，Agent S 的成功率比基准高出 9.37%（相对提高 83.6%），达到了 SOTA。此外，Agent S 还在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛通用性。

论文链接： https://arxiv.org/abs/2410.08164 GitHub 地址： https://github.com/simular-ai/Agent-S

将 MLLM 作为检索器：用于具身智能体的交互式学习多模态检索

MLLM 智能体通过检索与任务相关的多模态轨迹数据，在复杂的具身任务中展现出了潜力。然而，目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性，而忽略了它们对手头特定任务的有效性。

为了解决这个问题，北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever（MART），通过利用交互数据来微调基于偏好学习的 MLLM Retriever，使 Retriever 充分考虑轨迹的有效性，并在未见任务中优先考虑它们，从而提高具身智能体的性能。他们还提出了'轨迹提取'（Trajectory Abstraction）机制，该机制利用 MLLM 的概括能力，在保留关键信息的同时用更少的 token 来表示轨迹，从而使智能体能够更好地理解轨迹。

各种环境下的实验结果表明，与基线方法相比，他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性，提出了在具身智能体中进行多模态检索的新范例。

论文链接： https://arxiv.org/abs/2410.03450

大模型前沿：13 篇必读论文精选

Meta：多'重复'，更能提升 transformer 性能

渐进自回归视频扩散模型

Agent S：像人一样使用计算机的开放智能体框架

将 MLLM 作为检索器：用于具身智能体的交互式学习多模态检索

更多推荐文章

相关免费在线工具

MathCoder2：使用数学代码持续预训练，提高数学推理能力

清华团队提出 Optima：优化基于 LLM 的多智能体系统的效能和效率

港科大团队提出'个性化视觉指令微调'

上海 AI Lab 团队提出基于物理常识的视频生成基准

北大、微软团队：利用合成偏好数据自提升大语言模型

苹果推出多模态大语言模型 MM-Ego

Mistral AI 发布 Pixtral-12B 技术报告

加州大学团队提出'多模态情境安全'挑战

Llamole：首个可交错生成文本和图形的 MLLM

更多推荐文章

相关免费在线工具

大模型前沿：13 篇必读论文精选

Meta：多'重复'，更能提升 transformer 性能

渐进自回归视频扩散模型

Agent S：像人一样使用计算机的开放智能体框架

将 MLLM 作为检索器：用于具身智能体的交互式学习多模态检索

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

MathCoder2：使用数学代码持续预训练，提高数学推理能力

清华团队提出 Optima：优化基于 LLM 的多智能体系统的效能和效率

港科大团队提出'个性化视觉指令微调'

上海 AI Lab 团队提出基于物理常识的视频生成基准

北大、微软团队：利用合成偏好数据自提升大语言模型

苹果推出多模态大语言模型 MM-Ego

Mistral AI 发布 Pixtral-12B 技术报告

加州大学团队提出'多模态情境安全'挑战

Llamole：首个可交错生成文本和图形的 MLLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具