多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!

多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!

多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!

原创 辽宁小笨鸡养殖场  2024年11月05日 09:00 上海

Randomized Autoregressive Visual Generation

作者:Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

机构:bytedance

www.zeeklog.com  - 多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!

摘要:本文提出了用于视觉生成的随机自回归建模(RAR),它在图像生成任务上设置了新的最先进的性能,同时保持与语言建模框架的完全兼容性。拟议的风险评估报告很简单:在具有下一个令牌预测目标的标准自回归训练过程中,输入序列(通常以光栅形式排序)以概率R被随机排列成不同的因式分解顺序,其中R从1开始,并在训练过程中线性衰减到0。这种退火训练策略使模型能够学习最大化所有因子分解阶数的预期似然,从而有效地提高模型对双向上下文建模的能力。重要的是,RAR保留了自回归建模框架的完整性,确保与语言建模的完全兼容性,同时显着提高图像生成的性能。在ImageNet-256基准测试中,RAR的FID得分为1.48,不仅超过了现有的最先进的自回归图像生成器,而且还优于领先的基于扩散和基于掩码变换的方法。代码和模型将在上提供。

链接:http://arxiv.org/pdf/2411.00776v1

GameGen-X: Interactive Open-world Game Video Generation

作者:Haoxuan Che, Xuanhua He, Quande Liu, Cheng Jin, Hao Che

机构:港科大

www.zeeklog.com  - 多模态 Arxiv 2024/11/4 | 字节跳动豆包团队最新图片生成模型,自回归算法全面超越扩散模型!

摘要:我们介绍GameGen-X,第一个扩散Transformer模型专门设计用于生成和交互式控制开放世界的游戏视频。该模型通过模拟广泛的游戏引擎功能(如创新角色、动态环境、复杂动作和各种事件),促进了高质量的开放域生成。此外,它还提供交互式可控性,根据当前剪辑预测和更改未来内容,从而允许游戏模拟。为了实现这一愿景,我们首先从零开始收集并构建了一个开放世界视频游戏数据集。它是开放世界游戏视频生成和控制的第一个也是最大的数据集,其中包括来自150多个游戏的100多万个不同的游戏视频片段,并带有来自GPT-4 o的信息性字幕。GameGen-X经历了两个阶段的训练过程,包括基础模型预训练和指令调整。首先,通过文本到视频生成和视频延续对模型进行预训练,赋予其生成长序列、高质量开放域游戏视频的能力。此外,为了实现交互式可控性,我们设计了InstructNet来整合游戏相关的多模式控制信号专家。这允许模型根据用户输入调整潜在表示,在视频生成中首次统一角色交互和场景内容控制。在指令调优过程中,只有InstructNet会被更新,而预训练的基础模型会被冻结,从而实现交互式可控性的集成,而不会损失生成的视频内容的多样性和质量。

链接:http://arxiv.org/pdf/2411.00769v1

Unified Generative and Discriminative Training for Multi-modal Large Language Models

作者:Wei Chow, Juncheng Li, Qifan Yu, Kaihang Pan, Hao Fei, Zhiqi Ge, Shuai Yang, Siliang Tang, Hanwang Zhang, Qianru Sun

摘要:近年来,视觉语言模型(VLM)在两种主要范式下进行了训练。生成式训练使多模态大型语言模型(MLLM)能够处理各种复杂的任务,但诸如幻觉和弱对象识别等问题仍然存在。以CLIP等模型为例的判别式训练在zero-shot图像-文本分类和检索方面表现出色,但在需要细粒度语义区分的复杂场景中却表现不佳。本文通过提出一种统一的方法来解决这些挑战,该方法集成了两种范式的优势。考虑交错图像-文本序列作为输入样本的一般格式,我们引入了一种结构诱导的训练策略,该策略在输入样本和MLLM的隐藏状态之间施加语义关系。这种方法增强了MLLM捕获全局语义和区分细粒度语义的能力。通过利用动态时间规整框架内的动态序列对齐,并集成一个新的内核进行细粒度的语义区分,我们的方法有效地平衡了生成和判别任务。大量的实验证明了我们的方法的有效性,在多个生成任务,特别是那些需要认知和辨别能力的任务中取得了最先进的结果。此外,我们的方法在交错和细粒度检索任务中超越了区分基准。通过采用检索增强生成策略,我们的方法进一步提高了一个模型中的一些生成任务的性能,为未来的视觉语言建模研究提供了一个有前途的方向。

链接:http://arxiv.org/pdf/2411.00304v1

HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model

作者: Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le

翻译摘要: 当前的视频语言模型(VLMs)严重依赖于视频和语言模式之间的实例级对齐,这呈现了两个主要的局限性:(1)视觉推理违背了人类在第一人称视角中进行的自然感知,导致缺乏推理解释;(2)学习在捕捉两种模态之间固有的细粒度关系方面受到限制。在本文中,我们从人类感知中获得灵感,探索了一种以自我为中心的视频表示的组合方法。我们引入了 HENASY(层次实体组装),包括一个时空标记分组机制,通过时间明确组装动态演变的场景实体并建模它们的关系以进行视频表示。通过利用组合结构理解,HENASY通过自由形式文本查询的视觉定位具有强大的解释能力。我们进一步探索了一系列多粒度对比损失,以促进以实体为中心的理解。这包括三种对齐类型:视频-解说、名词-实体、动词-实体对齐。我们的方法在定量和定性实验中展示了强大的解释能力;同时通过零次迁移或作为视频/文本表示,在五个下游任务上保持竞争性表现,包括视频/文本检索、动作识别、多项选择查询、自然语言查询和时刻查询。

发表日期: 2024-06-01T05:41:12Z

最新更新日期: 2024-11-01T16:26:40Z

链接: http://arxiv.org/abs/2406.00307v4

Video Diffusion Models are Training-free Motion Interpreter and Controller

作者: Zeqi Xiao, Yifan Zhou, Shuai Yang, Xingang Pan

翻译摘要: 视频生成的主要目标是模拟跨帧的真实和定制化运动,因此理解和控制运动成为一个关键话题。大多数基于扩散的视频运动研究关注于通过基于训练的范式来实现运动定制,然而,这需要大量的训练资源,并且需要为不同的模型重新训练。关键的是,这些方法没有探索视频扩散模型如何在其特征中编码跨帧运动信息,缺乏对其有效性的可解释性和透明度。为了回答这个问题,本文引入了一种新的视角来理解、定位和操纵视频扩散模型中的运动感知特征。通过使用主成分分析(PCA)进行分析,我们的工作揭示了视频扩散模型中已经存在稳健的运动感知特征。我们通过消除内容相关信息和过滤运动通道,提出了一种新的运动特征(MOFT)。MOFT提供了一系列独特的优势,包括能够以清晰的可解释性编码全面的运动信息,无需训练即可提取,以及在不同架构中的通用性。利用MOFT,我们提出了一种全新的无需训练的视频运动控制框架。我们的方法在生成自然和真实运动方面展示了具有竞争力的表现,提供了与架构无关的见解和在多种下游任务中的适用性。

发表日期: 2024-05-23T17:59:40Z

最新更新日期: 2024-11-01T12:46:26Z

链接: http://arxiv.org/abs/2405.14864v2

Improving Generalization in Visual Reasoning via Self-Ensemble

作者: Tien-Huy Nguyen, Quang-Khai Tran, Anh-Tuan Quang-Hoang

翻译摘要: 视觉推理的认知能力需要融合多模态感知处理、常识以及对世界的外部知识。近年来,已经提出了大量大型视觉语言模型(LVLMs),在不同领域和任务中展示了卓越的能力和非凡的常识推理能力。然而,训练这些LVLMs需要大量昂贵的资源。最近的方法,不是从零开始在多个大型数据集上训练LVLMs,而是专注于探索利用多个不同LVLMs的能力的方式,例如集成方法。在这项工作中,我们提出了自集成,这是一种新颖的方法,可以在不更新任何参数的情况下提高模型的泛化能力和视觉推理能力,这是一种无需训练的方法。我们的关键洞察是我们意识到LVLM本身可以进行集成,而不需要其他LVLMs,这有助于释放它们的内在能力。在各种基准测试上进行的广泛实验表明,我们的方法在SketchyVQA、Outside Knowledge VQA以及超出分布的VQA任务上实现了最先进的(SOTA)性能。

发表日期: 2024-10-28T10:04:40Z

最新更新日期: 2024-11-01T12:42:49Z

链接: http://arxiv.org/abs/2410.20883v2

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

作者: Yongxin Zhu, Dan Su, Liqiang He, Linli Xu, Dong Yu

翻译摘要: 随着语音语言模型最近的进步取得了显著进展,它们在建模神经音频编解码器的长声学序列方面面临着巨大的挑战。在这篇论文中,我们引入了\textbf{G}enerative \textbf{P}re-trained \textbf{S}peech \textbf{T}ransformer(GPST),一种为高效语音语言建模设计的分层变换器。GPST将音频波形量化为两种不同类型的离散语音表示,并将它们整合到一个分层变换器架构中,从而实现统一的一阶段生成过程,并提高高分辨率音频生成能力。通过以端到端的无监督方式在大型演讲语料库上训练,GPST能够生成语法一致的具有不同说话者身份的语音。给定简短的3秒提示后,GPST可以生成自然而连贯的个性化语音,展示出在上下文中学习的能力。此外,我们的方法可以通过整合多语言语义标记和通用声学标记,轻松扩展到跨语言的口语生成。实验结果表明,GPST在词错误率、语音质量和说话者相似性方面显著优于现有的语音语言模型。代码可以在 \url{https://github.com/youngsheen/GPST} 上获得。

发表日期: 2024-06-03T04:16:30Z

最新更新日期: 2024-11-01T13:54:48Z

链接: http://arxiv.org/abs/2406.00976v2

CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models

作者: Wentao Liu, Qianjun Pan, Yi Zhang, Zhuo Liu, Ji Wu, Jie Zhou, Aimin Zhou, Qin Chen, Bo Jiang, Liang He

翻译摘要: 大型语言模型(LLMs)在数学推理方面取得了令人瞩目的成果,而数学推理是人类智能的基础技能。大多数先前的研究都集中在基于文本数学推理数据集(例如,MATH, GSM8K)的LLMs性能提升和评估上。最近,一些研究人员发布了英文多模态数学数据集(例如,MATHVISTA和MATH-V)以评估大型多模态模型(LMMs)的有效性。在本文中,我们发布了一个中文多模态数学(CMM-Math)数据集,包括基准测试和训练部分,以评估和提升LMMs的数学推理能力。CMM-Math包含超过28,000个高质量样本,涵盖多种问题类型(例如,多项选择、填空等),并提供了中国从小学到高中12年级的详细解决方案。具体地,视觉上下文可能出现在问题或观点中,这使得这个数据集更具挑战性。通过全面分析,我们发现,针对CMM-Math数据集的最先进的LMMs面临挑战,强调了进一步改进LMM开发的必要性。我们还提出了一个多模态数学LMM(Math-LMM)来处理包含多张图片和文本段组合输入的问题。我们使用三个阶段对我们的模型进行训练,包括基础预训练、基础微调和数学微调。广泛的实验表明,我们的模型通过与三个多模态数学数据集上的SOTA LMMs进行比较,有效地提高了数学推理性能。

发表日期: 2024-09-04T16:00:21Z

最新更新日期: 2024-11-01T02:21:13Z

链接: http://arxiv.org/abs/2409.02834v3

Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem

作者:Declan Campbell, Sunayana Rane, Tyler Giallanza, Nicolò De Sabbata, Kia Ghods, Amogh Joshi, Alexander Ku, Steven M. Frankland, Thomas L. Griffiths, Jonathan D. Cohen, Taylor W. Webb

摘要:最近的工作已经记录了最先进的视觉语言模型(VLM),包括多模态语言模型和文本到图像模型的性能显着的异质性。这些模型能够描述和生成各种复杂的自然图像,但它们在基本的多对象推理任务上表现出令人惊讶的失败-例如计数,定位和简单形式的视觉类比-人类以近乎完美的精度执行。为了更好地理解这种令人困惑的成功和失败模式,我们转向认知科学和神经科学中的绑定问题的理论解释,这是一个基本问题,当一组共享的表征资源必须用于表示不同的实体时(例如,以在图像中表示多个对象),从而需要使用串行处理以避免干扰。我们发现,许多令人费解的失败的国家的最先进的VLMs可以解释为由于绑定问题,这些故障模式是惊人的相似,在人类大脑中的快速,前馈处理所表现出的局限性。

链接:http://arxiv.org/pdf/2411.00238v1

Read more

科普文:Java基础之算法系列【再哈希法(Rehashing):用SHA256+CRC32来手搓一个HashTable】

科普文:Java基础之算法系列【再哈希法(Rehashing):用SHA256+CRC32来手搓一个HashTable】

概叙 如何解决哈希冲突/哈希碰撞? 哈希碰撞(Hash Collision)是指在哈希函数的映射过程中,两个不同的输入映射到了同一个哈希值的情况。 解决哈希碰撞的方法有多种,以下是几种常见的方法: 1. ‌链地址法(Chaining)‌: * 这种方法将哈希表中每个槽的位置变成一个链表。当多个键的哈希值相同时,将它们存储在同一个链表中。 * 优点:简单易实现,扩展性好,处理大量数据时性能较为稳定。 * 缺点:如果碰撞频繁,链表会变长,导致查询性能下降。需要额外的内存来存储链表的指针。 * 改进:当链表长度超过一定阈值时,可以将链表转换为红黑树等数据结构,以提高查询性能(如Java 8中的HashMap所做的优化)。 1. ‌开放寻址法(Open Addressing)‌: * 这种方法在哈希表中寻找下一个空闲的槽位以存储发生碰撞的元素。常见的寻找方式有线性探查、平方探查和双重散列。 * 优点:不需要额外的内存来存储指针或链表结构。如果负载因子低,查找和插入的效率较高。 * 缺点:随着哈希表的填充度增加,探查的次数会增加,导致性能下降。删除元素时

By Ne0inhk
科普文:Java基础之算法系列【升级版:再哈希法(Rehashing)+链地址法(Chaining):用SHA256+CRC32来手搓一个HashTable】

科普文:Java基础之算法系列【升级版:再哈希法(Rehashing)+链地址法(Chaining):用SHA256+CRC32来手搓一个HashTable】

前面贴了两个简陋版的hashtable,这里再升级一下:支持拉链法解决哈希碰撞问题,支持自动缩放。 直接看代码: package com.zxx.study.algorithm.hash; import java.nio.charset.StandardCharsets; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import java.util.LinkedList; import java.util.zip.CRC32; /** * @author zhouxx * @create 2024-12-30 0:26 */ public class CustomHashTable2<K, V> { private static final int

By Ne0inhk
科普文:【哈希算法的扩展应用:HashRing哈希环、哈希切分、SimHash局部敏感哈希算法、GeoHash经纬度哈希、BloomFilter布隆过滤器、CuckooFilter布谷鸟过滤器等】

科普文:【哈希算法的扩展应用:HashRing哈希环、哈希切分、SimHash局部敏感哈希算法、GeoHash经纬度哈希、BloomFilter布隆过滤器、CuckooFilter布谷鸟过滤器等】

概叙 前面梳理了哈希,并完成了支持自动扩展和解决哈希冲突的hashtable,通过手写hashtable,可以更好的理解哈希。 哈希基本原理就是把任意长度的输入,通过Hash算法变成固定长度的输出(定长既是优点也是缺点,是哈希冲突产生的直接原因)。 这个映射的规则就是对应的Hash算法,而原始数据映射后的二进制串就是哈希值。日常开发、邮件交流、服务器管理、负载均衡、中间件等都会用到哈希。 * 签名用的MD5和SHA都是历史悠久的Hash算法。 * 垃圾邮件过滤。 * 计算机通信中用crc32来验证数据的完整性。 * elasticsearh、redis、mongodb都用hash来管控节点数、key的槽位、以及数据的存储。 这些操作的背后都是哈希在起作用,是hash算法的扩展技术。 这里梳理一下hash算法扩展技术:HashRing哈希环、哈希切分、SimHash局部敏感哈希、GeoHash经纬度哈希、Bloom Filter布隆过滤器、Cuckoo Filter布谷鸟过滤器、布隆米勒过滤器(布隆过滤器的加强版)、黑白名单过滤器、LRU(Least Recently

By Ne0inhk
科普文:Java基础之算法系列【文本相似度判定算法梳理】

科普文:Java基础之算法系列【文本相似度判定算法梳理】

为什么需要进行文本相似度判定? 其实这个问题和“文本相似度判定有那些应用场景?”是一样的,有文本相似度判定的应用场景,才需要进行相似度判定。 判断文本的相似度在信息处理、学术研究、内容推荐、搜索引擎优化、知识产权保护以及智能客服等多个领域都发挥着重要作用,是提升效率、保障公正性和促进创新的关键技术之一。 需要进行文本相似度判定的主要原因包括以下几点: ‌1. 提高信息检索效率‌:在搜索引擎、数据库或内容管理系统中,通过判断文本的相似度,可以快速找到与查询内容相关或重复的信息,从而提高检索效率,避免用户重复浏览或处理相同的信息‌。 ‌2. 辅助学术研究和教育评估‌:在学术领域,文本相似度检测被广泛应用于论文查重和学术评估中。它有助于识别抄袭行为,确保学术诚实性,并验证论文的原创性,从而维护学术研究的公正性和高质量‌。 ‌3. 支持内容推荐和个性化服务‌:在内容推荐系统中,通过分析用户偏好和历史行为,结合文本相似度检测,可以智能推荐相关联的信息或产品,提升用户体验,促进个性化服务的发展‌。 ‌4. 优化搜索引擎排名‌:网站管理员可以利用文本相似度检测来识别和优化网站上的重复内

By Ne0inhk