大模型领域 10 篇必读论文精选

Meta 推出全新视频扩散模型 MarDini

来自 Meta 的研究团队及其合作者推出了 MarDini，这是一个全新的视频扩散模型系列，它将掩码自动回归（MAR）的优势整合到一个统一的扩散模型（DM）框架中。

在这里，MAR 处理时间规划，而 DM 则侧重于非对称网络设计中的空间生成：基于 MAR 的规划模型包含大部分参数，使用低分辨率输入为每个遮蔽帧生成规划信号；轻量级生成模型使用这些信号，通过扩散去噪生成高分辨率帧。MarDini 的 MAR 可以在任意帧位置的任意屏蔽帧数量上生成视频：一个模型可以处理视频插值（如屏蔽中间帧）、图生视频（如从第二帧开始屏蔽）和视频扩展（如屏蔽一半帧）。

高效的设计将大部分计算资源分配给了低分辨率规划模型，从而使计算成本高但重要的时空注意力在规模上变得可行。MarDini 为视频插值技术建立了新的 SOTA；同时，只需几个推理步骤，它就能高效生成与昂贵得多的高级图生视频模型相当的视频。

论文链接： https://arxiv.org/abs/2410.20280 项目地址： https://mardini-vidgen.github.io/

周靖人团队：扩散 Transformer 的上下文 LoRA

最近的研究探索了如何使用扩散 Transformer（DiTs），通过简单地串联图像中的注意力 token 来生成与任务无关的图像。然而，尽管使用了大量计算资源，生成图像的保真度仍未达到最佳。

在这项工作中，阿里云团队重新评估并简化了这一框架，假设文生图 DiTs 本身具有上下文生成功能，只需极少的微调即可激活。通过各种任务实验，他们定性地证明了现有的文本到图像 DiTs 无需任何微调即可有效地进行上下文生成。

在此基础上，他们提出了一个非常简单的管道来利用 DiTs 的上下文能力：（1）串联图像而不是 token；（2）对多幅图像执行联合字幕；（3）使用小数据集（例如 20∼100 个样本）而不是大数据集进行全参数微调，来应用特定任务的 LoRA 微调。他们将这些模型命名为 In-Context LoRA（IC-LoRA）。这种方法无需修改原始 DiT 模型，只需更改训练数据。值得注意的是，他们的管道能生成更符合提示的高保真图像集。

论文链接： https://arxiv.org/abs/2410.23775 项目地址： https://ali-vilab.github.io/In-Context-LoRA-Page/

综述：大语言模型的个性化

大语言模型（LLM）的个性化最近变得越来越重要，应用范围也越来越广泛，但大多数现有的个性化 LLM 工作要么完全集中在（a）个性化文本生成，要么（b）利用 LLM 进行与个性化相关的下游应用，如推荐系统。

在这项工作中，来自达特茅斯学院和 Adobe Research 的研究团队及其合作者，首次在这两个独立的主要方向之间架起了一座桥梁，为个性化 LLM 的使用引入了一个分类标准，并总结了其中的主要差异和挑战。

他们提供了个性化词法管理基础的形式化，巩固并扩展了词法管理个性化的概念，定义并讨论了个性化词法管理的个性化、使用和需求的新方面。然后，他们提出了个性化、个性化技术、数据集、评估方法和个性化 LLM 应用的系统分类法，从而将这些不同领域和使用场景的文献统一起来。最后，他们强调了有待解决的挑战和重要的开放性问题。

论文链接： https://arxiv.org/abs/2411.00027

综述：生成式 AI 应用中的用户界面设计与交互技术

生成式 AI 的应用已变得极为引人注目，而用户与 AI 之间的交互更是如此。目前的人机交互文献对人类如何与生成式 AI 进行交互进行了广泛的研究，但对用于创建这些应用的用户界面设计和模式缺乏具体的研究。

因此，来自加州大学的研究团队及其合作者提交了一份调查报告，全面介绍了人类如何与 AI 交互的分类标准，以及为满足各种相关用例的需求而设计的用户交互模式。他们主要关注用户引导式交互，调查由用户发起且不包含用户发出的任何隐含信号的交互。

通过这项调查，他们旨在创建一个不同用户交互模式的汇编，供设计人员和开发人员参考。同时，他们也努力降低那些试图进一步了解生成式 AI 应用设计的人的入门门槛。

论文链接： https://arxiv.org/abs/2410.22370

大模型领域 10 篇必读论文精选

Meta 推出全新视频扩散模型 MarDini

周靖人团队：扩散 Transformer 的上下文 LoRA

综述：大语言模型的个性化

综述：生成式 AI 应用中的用户界面设计与交互技术

更多推荐文章

相关免费在线工具

ROCKET-1：利用视觉 - 时空上下文提示掌握开放世界交互

清华、加州大学团队提出新型微调方法

苹果团队提出多模态大语言模型 Ferret-UI 2

GameGen-X：交互式开放世界游戏视频生成

VLM 能否引导我们看到更多，从而回答问题？

综述：GPT 在游戏中的应用潜力

更多推荐文章

相关免费在线工具

大模型领域 10 篇必读论文精选

Meta 推出全新视频扩散模型 MarDini

周靖人团队：扩散 Transformer 的上下文 LoRA

综述：大语言模型的个性化

综述：生成式 AI 应用中的用户界面设计与交互技术

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

ROCKET-1：利用视觉 - 时空上下文提示掌握开放世界交互

清华、加州大学团队提出新型微调方法

苹果团队提出多模态大语言模型 Ferret-UI 2

GameGen-X：交互式开放世界游戏视频生成

VLM 能否引导我们看到更多，从而回答问题？

综述：GPT 在游戏中的应用潜力

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具