Meta 推出全新视频扩散模型 MarDini
来自 Meta 的研究团队及其合作者推出了 MarDini,这是一个全新的视频扩散模型系列,它将掩码自动回归(MAR)的优势整合到一个统一的扩散模型(DM)框架中。
在这里,MAR 处理时间规划,而 DM 则侧重于非对称网络设计中的空间生成:基于 MAR 的规划模型包含大部分参数,使用低分辨率输入为每个遮蔽帧生成规划信号;轻量级生成模型使用这些信号,通过扩散去噪生成高分辨率帧。MarDini 的 MAR 可以在任意帧位置的任意屏蔽帧数量上生成视频:一个模型可以处理视频插值(如屏蔽中间帧)、图生视频(如从第二帧开始屏蔽)和视频扩展(如屏蔽一半帧)。
高效的设计将大部分计算资源分配给了低分辨率规划模型,从而使计算成本高但重要的时空注意力在规模上变得可行。MarDini 为视频插值技术建立了新的 SOTA;同时,只需几个推理步骤,它就能高效生成与昂贵得多的高级图生视频模型相当的视频。
论文链接: https://arxiv.org/abs/2410.20280 项目地址: https://mardini-vidgen.github.io/
周靖人团队:扩散 Transformer 的上下文 LoRA
最近的研究探索了如何使用扩散 Transformer(DiTs),通过简单地串联图像中的注意力 token 来生成与任务无关的图像。然而,尽管使用了大量计算资源,生成图像的保真度仍未达到最佳。
在这项工作中,阿里云团队重新评估并简化了这一框架,假设文生图 DiTs 本身具有上下文生成功能,只需极少的微调即可激活。通过各种任务实验,他们定性地证明了现有的文本到图像 DiTs 无需任何微调即可有效地进行上下文生成。
在此基础上,他们提出了一个非常简单的管道来利用 DiTs 的上下文能力:(1)串联图像而不是 token;(2)对多幅图像执行联合字幕;(3)使用小数据集(例如 20∼100 个样本)而不是大数据集进行全参数微调,来应用特定任务的 LoRA 微调。他们将这些模型命名为 In-Context LoRA(IC-LoRA)。这种方法无需修改原始 DiT 模型,只需更改训练数据。值得注意的是,他们的管道能生成更符合提示的高保真图像集。
论文链接: https://arxiv.org/abs/2410.23775 项目地址: https://ali-vilab.github.io/In-Context-LoRA-Page/
综述:大语言模型的个性化
大语言模型(LLM)的个性化最近变得越来越重要,应用范围也越来越广泛,但大多数现有的个性化 LLM 工作要么完全集中在(a)个性化文本生成,要么(b)利用 LLM 进行与个性化相关的下游应用,如推荐系统。
在这项工作中,来自达特茅斯学院和 Adobe Research 的研究团队及其合作者,首次在这两个独立的主要方向之间架起了一座桥梁,为个性化 LLM 的使用引入了一个分类标准,并总结了其中的主要差异和挑战。
他们提供了个性化词法管理基础的形式化,巩固并扩展了词法管理个性化的概念,定义并讨论了个性化词法管理的个性化、使用和需求的新方面。然后,他们提出了个性化、个性化技术、数据集、评估方法和个性化 LLM 应用的系统分类法,从而将这些不同领域和使用场景的文献统一起来。最后,他们强调了有待解决的挑战和重要的开放性问题。
论文链接: https://arxiv.org/abs/2411.00027
综述:生成式 AI 应用中的用户界面设计与交互技术
生成式 AI 的应用已变得极为引人注目,而用户与 AI 之间的交互更是如此。目前的人机交互文献对人类如何与生成式 AI 进行交互进行了广泛的研究,但对用于创建这些应用的用户界面设计和模式缺乏具体的研究。
因此,来自加州大学的研究团队及其合作者提交了一份调查报告,全面介绍了人类如何与 AI 交互的分类标准,以及为满足各种相关用例的需求而设计的用户交互模式。他们主要关注用户引导式交互,调查由用户发起且不包含用户发出的任何隐含信号的交互。
通过这项调查,他们旨在创建一个不同用户交互模式的汇编,供设计人员和开发人员参考。同时,他们也努力降低那些试图进一步了解生成式 AI 应用设计的人的入门门槛。
论文链接: https://arxiv.org/abs/2410.22370


