AI 体操视频暴露物理缺陷,LeCun:视频生成模型并不懂物理
一段 AI 生成的体操视频近期引发近百万网友围观,视频中人物肢体扭曲、违反重力规律,甚至出现'大变活人'的诡异场景。这一现象不仅引发了普通用户的讨论,更在人工智能领域引发了关于'AI 是否理解物理规律'的深度争论。Meta 首席科学家 Yann LeCun 对此直接表态:视频生成模型根本不懂物理。


通过视频右上角的水印,此段视频正是由 Luma AI 推出的 Dream Machine 生成的。该模型一度被认为是'下一代'文生视频技术的代表。然而,这段视频展示出的问题却让人大跌眼镜。大伙儿看后纷纷坐不住,围绕此讨论的核心是:AI 视频生成模型是否真正理解了物理规律。
LeCun 的直接批评
Yann LeCun 在社交媒体上直接开麦评论道:
视频生成模型不理解基本物理知识。更不用说人体了。

华盛顿大学计算机科学教授 Pedro Domingos 也对此表示担忧,他认为 AGI(通用人工智能)可能并不会像一些人预期的那样即将到来。

畸变与离谱:从 Sora 到 Dream Machine
自 OpenAI 发布 Sora 以来,'AI 是否理解物理规律'这个话题就被越来越多人关注。Sora 曾生成过令人惊叹的视频,例如'寄居蟹用灯泡当外壳的夜间场面'。在这个例子中,海浪与沙滩的互动非常细腻,寄居蟹腿上的纤毛也活灵活现。对比真实拍摄的类似场景照片,除了灯泡没有电源不应该亮这一个明显破绽外,整体物理表现相当出色。


最近 Luma AI 的 Dream Machine 同样展示了强大的能力,生成的第一视角探废弃房子视频真实感拉满。由此,不少人认为 Sora、LUMA 等的视频生成模型已经理解了简单的物理规律。
然鹅,这次被放出的体操视频着实有点太离谱。不仅腿脚乱飞,频频上演大变活人:

就这高难度的空中悬浮翻跟头,也是牛顿都要被气活了的节奏:

以至于网友看后还表示,说恐怖大可不必,说搞笑还差不多。

如此抽象,LeCun 直接评论视频生成模型不会懂物理。他还进一步解释,Sora 或者其它视频生成模型都有类似的问题,视频生成技术无疑也肯定会随时间推移而进步。但核心观点在于:
真正理解物理的学习系统并不会具有生成性。就像鸟类、哺乳动物等比任何视频生成系统更了解物理。然而,它们都不能生成详细的视频。

类似还有另一种思考:即使 AI 视频生成模型之后会进化的很好,生成的视频质量'完美',那么就意味着它理解物理了?

LeCun 等的观点,立马引起网友的质疑:鸟和哺乳动物也会生成详细的视频,只不过是在大脑中生成无法将其具像化。然鹅,这种反驳并未说服 LeCun。

此外,还有不少人持反对意见。例如,谷歌 DeepMind/Brain 团队研究员 Lucas Beyer 就指出:这就像是展示一个由几年前的 Dall·E mini 生成的图像,然后称当前的图像生成方式注定失败一样。毕竟,之前生图模型生成的图像确实存在诸多瑕疵。
至于模型会生成如此离谱的视频?有网友认为是缺乏体操表演数据,还有网友认为是身体部位的模糊处理,使得模型无法理解人体结构,继而不能保证肢体动作的连贯性。

视频生成在计算上更为复杂,并且具有高度的上下文相关性,对详细标注的训练数据有更大的需求,这些需求现在还未得到充分满足。

前段时间 SD 3 翻车,同样对人体生成效果不好,网友也讨论过这一问题。过于严格的数据审核,可能误删了一些无害的成人图像,影响了模型对人体结构的理解。

其他模型的类似表现
除了 Luma AI 的 Dream Machine 生成体操视频大翻车,Runway 的 Gen-3 也出现了类似问题。

同款三头六臂:

同款空中悬浮绝活:

技术深度解析:为什么物理理解这么难?
当前主流的视频生成模型大多基于扩散模型(Diffusion Models)或 Transformer 架构。这些模型本质上是概率分布的学习者,它们通过海量数据学习像素之间的统计相关性,而非显式地学习物理引擎中的动力学方程。
1. 隐空间与物理规律的错位
在扩散模型中,图像和视频被压缩到隐空间(Latent Space)中进行去噪。这个过程虽然高效,但往往丢失了物体运动轨迹的精确物理约束。模型学会了'看起来像运动',但没有学会'符合物理的运动'。例如,当一个物体在空中时,模型可能无法准确预测其抛物线轨迹,导致人物突然悬浮或断肢。
2. 长时序一致性挑战
视频生成需要保持长时序的一致性。在几秒甚至几分钟的视频中,物体的位置、光照、阴影必须随时间连续变化。目前的模型在处理复杂交互(如人与环境的接触、衣物与身体的摩擦)时,容易在帧与帧之间产生跳变,导致肢体融合或消失。
3. 数据偏差与标注缺失
高质量的物理模拟需要带有物理标签的数据集,例如每个像素的速度场、力场信息。目前互联网上的视频数据大多是未标注的 RGB 序列。模型只能从视觉表象中学习,而无法直接感知背后的物理因果。此外,对于罕见动作(如高难度体操),训练数据稀缺,模型更容易产生幻觉。
未来展望:迈向真正的世界模型
LeCun 提出的'世界模型'(World Model)概念,旨在让 AI 具备对现实世界的内部表征能力,能够进行推理和预测,而不仅仅是生成像素。未来的研究方向可能包括:
- 结合符号推理:将神经网络的感知能力与符号系统的逻辑推理相结合,使模型能够理解因果关系。
- 引入物理引擎:在生成过程中嵌入简化的物理仿真模块,确保运动轨迹符合力学定律。
- 多模态预训练:利用文本、代码、传感器数据等多模态信息,构建更全面的物理知识库。
尽管当前模型仍存在缺陷,但随着算力的提升和数据集的完善,视频生成技术在物理一致性方面必将取得突破。然而,要实现真正的 AGI,仅仅依靠生成能力的提升是不够的,必须解决对物理世界的深层理解问题。
结语
AI 视频生成技术的快速发展令人兴奋,但此次体操视频的'翻车'事件提醒我们,当前的模型仍停留在模式匹配的初级阶段。理解物理规律是通往强人工智能的关键一步,也是业界需要攻克的硬骨头。随着研究的深入,我们有理由相信,未来的 AI 不仅能生成逼真的视频,更能理解视频背后的真实世界。