多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!
多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!
原创 辽宁小笨鸡养殖场 2024年11月05日 09:00 上海
Randomized Autoregressive Visual Generation
作者:Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
机构:bytedance
摘要:本文提出了用于视觉生成的随机自回归建模(RAR),它在图像生成任务上设置了新的最先进的性能,同时保持与语言建模框架的完全兼容性。拟议的风险评估报告很简单:在具有下一个令牌预测目标的标准自回归训练过程中,输入序列(通常以光栅形式排序)以概率R被随机排列成不同的因式分解顺序,其中R从1开始,并在训练过程中线性衰减到0。这种退火训练策略使模型能够学习最大化所有因子分解阶数的预期似然,从而有效地提高模型对双向上下文建模的能力。重要的是,RAR保留了自回归建模框架的完整性,确保与语言建模的完全兼容性,同时显着提高图像生成的性能。在ImageNet-256基准测试中,RAR的FID得分为1.48,不仅超过了现有的最先进的自回归图像生成器,而且还优于领先的基于扩散和基于掩码变换的方法。代码和模型将在上提供。
链接:http://arxiv.org/pdf/2411.00776v1
GameGen-X: Interactive Open-world Game Video Generation
作者:Haoxuan Che, Xuanhua He, Quande Liu, Cheng Jin, Hao Che
机构:港科大
摘要:我们介绍GameGen-X,第一个扩散Transformer模型专门设计用于生成和交互式控制开放世界的游戏视频。该模型通过模拟广泛的游戏引擎功能(如创新角色、动态环境、复杂动作和各种事件),促进了高质量的开放域生成。此外,它还提供交互式可控性,根据当前剪辑预测和更改未来内容,从而允许游戏模拟。为了实现这一愿景,我们首先从零开始收集并构建了一个开放世界视频游戏数据集。它是开放世界游戏视频生成和控制的第一个也是最大的数据集,其中包括来自150多个游戏的100多万个不同的游戏视频片段,并带有来自GPT-4 o的信息性字幕。GameGen-X经历了两个阶段的训练过程,包括基础模型预训练和指令调整。首先,通过文本到视频生成和视频延续对模型进行预训练,赋予其生成长序列、高质量开放域游戏视频的能力。此外,为了实现交互式可控性,我们设计了InstructNet来整合游戏相关的多模式控制信号专家。这允许模型根据用户输入调整潜在表示,在视频生成中首次统一角色交互和场景内容控制。在指令调优过程中,只有InstructNet会被更新,而预训练的基础模型会被冻结,从而实现交互式可控性的集成,而不会损失生成的视频内容的多样性和质量。
链接:http://arxiv.org/pdf/2411.00769v1
Unified Generative and Discriminative Training for Multi-modal Large Language Models
作者:Wei Chow, Juncheng Li, Qifan Yu, Kaihang Pan, Hao Fei, Zhiqi Ge, Shuai Yang, Siliang Tang, Hanwang Zhang, Qianru Sun
摘要:近年来,视觉语言模型(VLM)在两种主要范式下进行了训练。生成式训练使多模态大型语言模型(MLLM)能够处理各种复杂的任务,但诸如幻觉和弱对象识别等问题仍然存在。以CLIP等模型为例的判别式训练在zero-shot图像-文本分类和检索方面表现出色,但在需要细粒度语义区分的复杂场景中却表现不佳。本文通过提出一种统一的方法来解决这些挑战,该方法集成了两种范式的优势。考虑交错图像-文本序列作为输入样本的一般格式,我们引入了一种结构诱导的训练策略,该策略在输入样本和MLLM的隐藏状态之间施加语义关系。这种方法增强了MLLM捕获全局语义和区分细粒度语义的能力。通过利用动态时间规整框架内的动态序列对齐,并集成一个新的内核进行细粒度的语义区分,我们的方法有效地平衡了生成和判别任务。大量的实验证明了我们的方法的有效性,在多个生成任务,特别是那些需要认知和辨别能力的任务中取得了最先进的结果。此外,我们的方法在交错和细粒度检索任务中超越了区分基准。通过采用检索增强生成策略,我们的方法进一步提高了一个模型中的一些生成任务的性能,为未来的视觉语言建模研究提供了一个有前途的方向。
链接:http://arxiv.org/pdf/2411.00304v1
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model
作者: Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le
翻译摘要: 当前的视频语言模型(VLMs)严重依赖于视频和语言模式之间的实例级对齐,这呈现了两个主要的局限性:(1)视觉推理违背了人类在第一人称视角中进行的自然感知,导致缺乏推理解释;(2)学习在捕捉两种模态之间固有的细粒度关系方面受到限制。在本文中,我们从人类感知中获得灵感,探索了一种以自我为中心的视频表示的组合方法。我们引入了 HENASY(层次实体组装),包括一个时空标记分组机制,通过时间明确组装动态演变的场景实体并建模它们的关系以进行视频表示。通过利用组合结构理解,HENASY通过自由形式文本查询的视觉定位具有强大的解释能力。我们进一步探索了一系列多粒度对比损失,以促进以实体为中心的理解。这包括三种对齐类型:视频-解说、名词-实体、动词-实体对齐。我们的方法在定量和定性实验中展示了强大的解释能力;同时通过零次迁移或作为视频/文本表示,在五个下游任务上保持竞争性表现,包括视频/文本检索、动作识别、多项选择查询、自然语言查询和时刻查询。
发表日期: 2024-06-01T05:41:12Z
最新更新日期: 2024-11-01T16:26:40Z
链接: http://arxiv.org/abs/2406.00307v4
Video Diffusion Models are Training-free Motion Interpreter and Controller
作者: Zeqi Xiao, Yifan Zhou, Shuai Yang, Xingang Pan
翻译摘要: 视频生成的主要目标是模拟跨帧的真实和定制化运动,因此理解和控制运动成为一个关键话题。大多数基于扩散的视频运动研究关注于通过基于训练的范式来实现运动定制,然而,这需要大量的训练资源,并且需要为不同的模型重新训练。关键的是,这些方法没有探索视频扩散模型如何在其特征中编码跨帧运动信息,缺乏对其有效性的可解释性和透明度。为了回答这个问题,本文引入了一种新的视角来理解、定位和操纵视频扩散模型中的运动感知特征。通过使用主成分分析(PCA)进行分析,我们的工作揭示了视频扩散模型中已经存在稳健的运动感知特征。我们通过消除内容相关信息和过滤运动通道,提出了一种新的运动特征(MOFT)。MOFT提供了一系列独特的优势,包括能够以清晰的可解释性编码全面的运动信息,无需训练即可提取,以及在不同架构中的通用性。利用MOFT,我们提出了一种全新的无需训练的视频运动控制框架。我们的方法在生成自然和真实运动方面展示了具有竞争力的表现,提供了与架构无关的见解和在多种下游任务中的适用性。
发表日期: 2024-05-23T17:59:40Z
最新更新日期: 2024-11-01T12:46:26Z
链接: http://arxiv.org/abs/2405.14864v2
Improving Generalization in Visual Reasoning via Self-Ensemble
作者: Tien-Huy Nguyen, Quang-Khai Tran, Anh-Tuan Quang-Hoang
翻译摘要: 视觉推理的认知能力需要融合多模态感知处理、常识以及对世界的外部知识。近年来,已经提出了大量大型视觉语言模型(LVLMs),在不同领域和任务中展示了卓越的能力和非凡的常识推理能力。然而,训练这些LVLMs需要大量昂贵的资源。最近的方法,不是从零开始在多个大型数据集上训练LVLMs,而是专注于探索利用多个不同LVLMs的能力的方式,例如集成方法。在这项工作中,我们提出了自集成,这是一种新颖的方法,可以在不更新任何参数的情况下提高模型的泛化能力和视觉推理能力,这是一种无需训练的方法。我们的关键洞察是我们意识到LVLM本身可以进行集成,而不需要其他LVLMs,这有助于释放它们的内在能力。在各种基准测试上进行的广泛实验表明,我们的方法在SketchyVQA、Outside Knowledge VQA以及超出分布的VQA任务上实现了最先进的(SOTA)性能。
发表日期: 2024-10-28T10:04:40Z
最新更新日期: 2024-11-01T12:42:49Z
链接: http://arxiv.org/abs/2410.20883v2
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer
作者: Yongxin Zhu, Dan Su, Liqiang He, Linli Xu, Dong Yu
翻译摘要: 随着语音语言模型最近的进步取得了显著进展,它们在建模神经音频编解码器的长声学序列方面面临着巨大的挑战。在这篇论文中,我们引入了\textbf{G}enerative \textbf{P}re-trained \textbf{S}peech \textbf{T}ransformer(GPST),一种为高效语音语言建模设计的分层变换器。GPST将音频波形量化为两种不同类型的离散语音表示,并将它们整合到一个分层变换器架构中,从而实现统一的一阶段生成过程,并提高高分辨率音频生成能力。通过以端到端的无监督方式在大型演讲语料库上训练,GPST能够生成语法一致的具有不同说话者身份的语音。给定简短的3秒提示后,GPST可以生成自然而连贯的个性化语音,展示出在上下文中学习的能力。此外,我们的方法可以通过整合多语言语义标记和通用声学标记,轻松扩展到跨语言的口语生成。实验结果表明,GPST在词错误率、语音质量和说话者相似性方面显著优于现有的语音语言模型。代码可以在 \url{https://github.com/youngsheen/GPST} 上获得。
发表日期: 2024-06-03T04:16:30Z
最新更新日期: 2024-11-01T13:54:48Z
链接: http://arxiv.org/abs/2406.00976v2
CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models
作者: Wentao Liu, Qianjun Pan, Yi Zhang, Zhuo Liu, Ji Wu, Jie Zhou, Aimin Zhou, Qin Chen, Bo Jiang, Liang He
翻译摘要: 大型语言模型(LLMs)在数学推理方面取得了令人瞩目的成果,而数学推理是人类智能的基础技能。大多数先前的研究都集中在基于文本数学推理数据集(例如,MATH, GSM8K)的LLMs性能提升和评估上。最近,一些研究人员发布了英文多模态数学数据集(例如,MATHVISTA和MATH-V)以评估大型多模态模型(LMMs)的有效性。在本文中,我们发布了一个中文多模态数学(CMM-Math)数据集,包括基准测试和训练部分,以评估和提升LMMs的数学推理能力。CMM-Math包含超过28,000个高质量样本,涵盖多种问题类型(例如,多项选择、填空等),并提供了中国从小学到高中12年级的详细解决方案。具体地,视觉上下文可能出现在问题或观点中,这使得这个数据集更具挑战性。通过全面分析,我们发现,针对CMM-Math数据集的最先进的LMMs面临挑战,强调了进一步改进LMM开发的必要性。我们还提出了一个多模态数学LMM(Math-LMM)来处理包含多张图片和文本段组合输入的问题。我们使用三个阶段对我们的模型进行训练,包括基础预训练、基础微调和数学微调。广泛的实验表明,我们的模型通过与三个多模态数学数据集上的SOTA LMMs进行比较,有效地提高了数学推理性能。
发表日期: 2024-09-04T16:00:21Z
最新更新日期: 2024-11-01T02:21:13Z
链接: http://arxiv.org/abs/2409.02834v3
Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem
作者:Declan Campbell, Sunayana Rane, Tyler Giallanza, Nicolò De Sabbata, Kia Ghods, Amogh Joshi, Alexander Ku, Steven M. Frankland, Thomas L. Griffiths, Jonathan D. Cohen, Taylor W. Webb
摘要:最近的工作已经记录了最先进的视觉语言模型(VLM),包括多模态语言模型和文本到图像模型的性能显着的异质性。这些模型能够描述和生成各种复杂的自然图像,但它们在基本的多对象推理任务上表现出令人惊讶的失败-例如计数,定位和简单形式的视觉类比-人类以近乎完美的精度执行。为了更好地理解这种令人困惑的成功和失败模式,我们转向认知科学和神经科学中的绑定问题的理论解释,这是一个基本问题,当一组共享的表征资源必须用于表示不同的实体时(例如,以在图像中表示多个对象),从而需要使用串行处理以避免干扰。我们发现,许多令人费解的失败的国家的最先进的VLMs可以解释为由于绑定问题,这些故障模式是惊人的相似,在人类大脑中的快速,前馈处理所表现出的局限性。
链接:http://arxiv.org/pdf/2411.00238v1