视觉模型智能涌现后, Scaling Law 不会到头

视觉模型智能涌现后, Scaling Law 不会到头

视觉模型智能涌现后, Scaling Law 不会到头

原创 王悦  2024年11月22日 09:31 广东

Vidu1.5 已拉开技术代差。

作者丨王   悦

编辑丨陈彩娴

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。

这释放的信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效,低精度的训练和推理正在使模型性能提升的边际效益递减。

Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆,但这并不意味着其末日真的来临。在多模态模型领域,由于多模态数据包含图像、视频、音频等多种类型,在信息丰富度、处理方法、应用领域方面均较为复杂,难以达到较大的训练规模体量,因此 Scaling Law 尚没有被真真切切地验证过。

然而,清华系大模型公司生数科技最新发布的 Vidu1.5 表明,多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up , Vidu 1.5 已经来到了「奇点」时刻,涌现出了「上下文能力」,能够理解记忆所输入的多主体信息,并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体,通过上传不同角度下的三张图片Vidu 1.5 能保证单主体形象的高度一致。

,时长00:08

Vidu 1.5 除了能对单个主体进行精确控制,也实现了多主体之间的一致性。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝的融合到一起,并实现自然交互。

,时长00:06

Vidu 在主体一致性方面取得种种突破,不仅是 Scaling Law 法则在发挥作用,根本原因在于其所采用的无微调、大一统的技术架构方案。当前的视频模型为了实现一致性,大多是采用在预训练的基础上再针对单个任务进行微调的 LoRA 方案,而 Vidu 的底层模型跳出业界主流方案,做出了开拓性的改变。

无独有偶,回顾大语言模型的发展历程,会发现从 GPT-2 到 GPT-3.5 发生质变的标志,也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说,Vidu 1.5的推出,开启了多模态大模型的 GPT-3.5 时刻。

Sora 自年初发布之后,再无其他迭代的新版本,其他家的视频生成创业团队也仿佛没了锚定的方向,大多是在 DiT 架构上进行些衍生性工作。对于这一现象,生数科技 CTO 鲍凡则表示:我们不会在 Sora 划定好的路线上去追赶,而是从一开始就在走自己的路,瞄准通用多模态大模型的目标,去实现相应的能力。

从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT,到首次实现用统一的架构处理泛化任务,生数有的不仅是先发优势,更是持续突破的能力。Vidu 和业界其他的视频生成模型相比,已经初步形成技术代差。

1

重新设计一个「底层架构」

实现主体一致性,是视频模型领域一块难啃的骨头。「这就好比,你知道发动机对于一辆汽车来讲很重要,也知道如果发动机有质的改变,那么汽车的性能也会随之提升,但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。

包括 Sora 在内,国内外的视频模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂,仅局限于实现人脸一致性的控制,难以保证细节、衣服、造型等细节,而且采用的是LoRA微调方案。

Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底, Vidu 上线之初就主打解决一致性问题,并能够较好地实现面部一致的控制;9月份全球首发「主体参照」功能,把对单主体的控制从面部拓展到整个单主体的形象上;11 月上线的 Vidu 1.5 则进一步提升,可以对单主体的不同视角进行高度精准控制,同时攻破多主体控制的难题。

也就是说,Vidu 在 7 月份上线之时就完成了很多视频生成模型当下正在攻克的事情。

从技术方案上看,其他家都还囿于预训练+LoRA 微调的方案,这种路线虽然成熟但也存在诸多缺点,诸如因数据构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念,通过统一的底层模型技术架构去完成,因此不需要单独再去进行数据的收集、标注、微调,只需要1到3张图就能输出高质量视频。

对比大语言模型的技术演进路线会发现,Vidu 有和大语言模型一致的设计哲学:类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens,Vidu 作为视频模型也会将所有问题都统一成视觉输入、视觉输出的 patches;在此基础上,再统一架构,Vidu 也像 大语言模型一样采用单个网络统一建模变长的输入和输出。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

「统一问题形式」是通用模型的起点。更难的地方在于统一架构,现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计,和 Sora 的 DiT 架构产生了本质区别,在架构上做到更统一。鲍凡坦言,开发这一架构的难度不亚于从头设计出一个 Transformer。

大一统架构的前身要追溯到 2022 年 9 月,彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,提出U-ViT 架构,比 Sora 的 DiT 架构提早了两个月,将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。

2023年3月,朱军教授课题组再次发布了一项 Unidiffuser 的工作,Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平,展示了在视觉任务下的优异能力,更重要是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后,而 OpenAI 则是将 DiT 应用于视频任务,生数作为初创团队则是先将 U-ViT 应用于图像任务,从算力集群规模要求更小的任务入手进行验证。

2024 年 4 月,生数的底层模型架构开始在 U-ViT 架构上做出改变,使得团队率先推出自研视频大模型Vidu,然后这种突破也一直持续着,在7月份正式全球上线的时候,Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布,基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。

回顾大语言模型发展过程,GPT-2 的核心思想是在预训练阶段让模型通过海量的文本数据进行无监督学习,不依赖于特定的任务;在预训练之后,GPT-2 使用特定领域的标注数据对模型进行细化调整,使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段,不再采用预训练加特定任务微调的模式,只需一个更简单高效的统一架构能够去支持多种文本任务,模型已经出现了强大的泛化能力。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

类似于从 GPT-2 到 GPT-3.5 ,实现了从预训练加特定任务微调到统一通用的技术架构,Vidu 1.5的推出,让视频模型正在经历 GPT-3.5 时刻。也就是说,其他家的视频模型还在 GPT-2 预训练+微调的阶段,生数的 Vidu 已经到了 GPT-3.5 的阶段。

2

视觉上下文时代的智能涌现

统一高效的底层技术架构是 Vidu 的根本所在,但其目前呈现的综合表现不仅是技术架构使然,更与视频模型的数据工程密不可分。

在人物特写画面中,Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅,不会出现面部僵硬或失真的现象。该视频中,小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论,数据对这些细节方面的精心调控非常重要。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头
www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

随着高质量数据的一同Scaling Up ,鲍凡坦言,在底层的视频生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体,将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色,这是之前没有预料到的能力。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

除此之外, Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二,这体现在对视频中角色、道具、场景的统一控制。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头
www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

这一现象的关键是解决了「多图灵活输入」的问题,类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中,先通过提示词给出一个角色设定,之后 Chatbot 就能以这个角色的口吻进行交互对话,这说明语言模型不仅仅处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

同样的,给视频模型一个主体照片作为 prompt,那么在下文中无论继续给出什么新指令,都能生出上文照片中主体相关的视频。可见,视频模型要想更稳定地生成一致主体,也需要理解前后输入的、相关联的文字或图片信息,进而根据这些信息生成一致、连贯且有逻辑的内容。

实际上,从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上,就已经兼容现在的多主体一致的架构,而多主体一致相比单主体一致需要更长的上下文长度,从而解决理解更多输入组合的关键问题。

接下来,生数的主攻方向依然会沿着上下文能力这一主线去迭代。「视频模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释,在模型中输入几段王家卫的电影切片,就可以生成一系列具有王家卫摄影技巧的视频片段;喂给模型一些经典打斗动作的视频,就能生出打斗技巧精妙、打戏画面精良的视频。

www.zeeklog.com  - 视觉模型智能涌现后, Scaling Law 不会到头

Vidu 在上下文能力方面的迭代也有自己的节奏:从初期仅能参考单一主体的面部特征,到现在能参考多个主体,之后预期可以实现参考拍摄技巧、运镜、调度更因素。在这个过程中,参考对象从具体到抽象,要求和难度逐渐提升。

因为目前还没有针对视频模型上下文能力的开源解决方案,所以它并不会像大语言模型一样,在一家做好 PMF 之后,其他家迅速跟上。从这一角度上来说,Vidu1.5 形成了自己的技术壁垒。

3

不止 Sora 一种答案

「无微调、大一统的技术架构被生数设计出来,视频模型的智能涌现先在 Vidu 上得以验证——这些是必然事件。」鲍凡说道。「因为我们团队成立之初的愿景,就是去做通用的多模态模型。」

生数科技从来没有走过单一的、针对具体任务进行微调的方案,这与统一高效的架构是相悖的。这也意味着,通用多模态模型是生数的基因所在。

年初 Sora 刚发布之时,各视频生成创业团队都在「大秀肌肉」,竞争一度十分激烈。然而行至年终,整个行业有些显得「后劲不足」,初创公司的进展鲜有较大突破。然而生数科技却在自己的路线上「精雕细琢」,不仅有规律地提升模型通用性,也不忽略镜头感、动态程度等视频画面细节。

Vidu 1.5 在基础模型层面便具备了对镜头运动的理解能力,能够生成如推拉摇移+顺/逆时针融合的复杂镜头,画面拥有较高表现力和流畅度。比如,输入提示词:模特拍摄,她被鲜花簇拥着,光线明亮且自然,镜头顺时针旋转推进拍摄,得到如下画面。

,时长00:03

在动态性方面,Vidu1.5 生成的视频动作幅度大且自然,同时新上线了动态控制功能,能准确的控制画面整体的动态程度。

,时长00:03

描述词:一个战士拿着枪在战场奔袭,大动态

,时长00:03

描述词:一个战士拿着枪在战场奔袭,中动态

,时长00:03

描述词:一个战士拿着枪在战场奔袭,小动态

除了视频能力外,Vidu 也在规划和布局 4D 模型、音频等更多模态。其中,基于视频模型衍生出来的4D 模型,未来能够对视频实现诸如「调整 6 度」的更加精确运镜控制。鲍凡表示,目前的初期阶段,团队会先单独验证多模态模型中的各个子领域,最后会整合在通用多模态大模型中。

,时长00:08

生数技术优势的愈发凸显,也给了其在国内视频模型竞争中的底气。但摆在其前面的挑战,还有快手、字节等大厂压倒性的资源优势。对此,鲍凡回复:当目标足够明确,并且做出的东西真正能够解决行业问题的时候,我们朝这个方向持续前进,最终结果总会是正确的。

对标世界范围内领先的 Sora,会发现生数与 Sora 的关注点并不相同。生数科技的定位是通用多模态大模型,而 Sora 更主张做世界模拟器,希望真实的模拟物理世界。虽然世界模拟器是多模态大模型的一个子问题,但生数的通用多模态大模型会强调解决更多实际问题。

生数并不会完全对标 Sora,更不会跟在 Sora 之后亦步亦趋。Vidu 证明了:视频模型不只于 Sora 这一个答案。

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk