跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

AI 体操视频暴露物理缺陷，LeCun：视频生成模型并不懂物理 | 极客日志

编程语言AI算法

AI 体操视频暴露物理缺陷，LeCun：视频生成模型并不懂物理

综述由AI生成AI 生成的体操视频出现肢体扭曲、违反物理规律的现象，引发业界对视频生成模型是否理解物理世界的讨论。Yann LeCun 指出当前模型缺乏基本物理知识，属于生成性而非世界模型。文章探讨了 Sora、Dream Machine 等模型在物理模拟上的表现差异，分析了扩散模型在隐空间学习导致的物理约束缺失问题，以及数据标注不足的影响。同时介绍了 Runway Gen-3 等同类问题，并展望了结合符号推理与物理引擎的未来方向，强调理解物理规律是通往 AGI 的关键。

魔法巫师发布于 2025/2/7更新于 2026/6/418 浏览

AI 体操视频暴露物理缺陷，LeCun：视频生成模型并不懂物理

AI 体操视频暴露物理缺陷，LeCun：视频生成模型并不懂物理

一段 AI 生成的体操视频近期引发近百万网友围观，视频中人物肢体扭曲、违反重力规律，甚至出现'大变活人'的诡异场景。这一现象不仅引发了普通用户的讨论，更在人工智能领域引发了关于'AI 是否理解物理规律'的深度争论。Meta 首席科学家 Yann LeCun 对此直接表态：视频生成模型根本不懂物理。

AI 生成的体操视频中人物肢体扭曲

AI 生成的体操视频中人物动作变形

通过视频右上角的水印，此段视频正是由 Luma AI 推出的 Dream Machine 生成的。该模型一度被认为是'下一代'文生视频技术的代表。然而，这段视频展示出的问题却让人大跌眼镜。大伙儿看后纷纷坐不住，围绕此讨论的核心是：AI 视频生成模型是否真正理解了物理规律。

LeCun 的直接批评

Yann LeCun 在社交媒体上直接开麦评论道：

视频生成模型不理解基本物理知识。更不用说人体了。

LeCun 关于视频生成模型的评论截图

华盛顿大学计算机科学教授 Pedro Domingos 也对此表示担忧，他认为 AGI（通用人工智能）可能并不会像一些人预期的那样即将到来。

Pedro Domingos 的观点截图

畸变与离谱：从 Sora 到 Dream Machine

自 OpenAI 发布 Sora 以来，'AI 是否理解物理规律'这个话题就被越来越多人关注。Sora 曾生成过令人惊叹的视频，例如'寄居蟹用灯泡当外壳的夜间场面'。在这个例子中，海浪与沙滩的互动非常细腻，寄居蟹腿上的纤毛也活灵活现。对比真实拍摄的类似场景照片，除了灯泡没有电源不应该亮这一个明显破绽外，整体物理表现相当出色。

Sora 生成的寄居蟹视频

真实拍摄的场景对比

最近 Luma AI 的 Dream Machine 同样展示了强大的能力，生成的第一视角探废弃房子视频真实感拉满。由此，不少人认为 Sora、LUMA 等的视频生成模型已经理解了简单的物理规律。

然鹅，这次被放出的体操视频着实有点太离谱。不仅腿脚乱飞，频频上演大变活人：

Dream Machine 生成的异常肢体动作

就这高难度的空中悬浮翻跟头，也是牛顿都要被气活了的节奏：

违反重力的悬浮动作

以至于网友看后还表示，说恐怖大可不必，说搞笑还差不多。

抽象的 AI 生成视频

如此抽象，LeCun 直接评论视频生成模型不会懂物理。他还进一步解释，Sora 或者其它视频生成模型都有类似的问题，视频生成技术无疑也肯定会随时间推移而进步。但核心观点在于：

真正理解物理的学习系统并不会具有生成性。就像鸟类、哺乳动物等比任何视频生成系统更了解物理。然而，它们都不能生成详细的视频。

LeCun 关于世界模型与生成性的论述

类似还有另一种思考：即使 AI 视频生成模型之后会进化的很好，生成的视频质量'完美'，那么就意味着它理解物理了？

关于完美视频质量的质疑

LeCun 等的观点，立马引起网友的质疑：鸟和哺乳动物也会生成详细的视频，只不过是在大脑中生成无法将其具像化。然鹅，这种反驳并未说服 LeCun。

网友反驳 LeCun 的观点

此外，还有不少人持反对意见。例如，谷歌 DeepMind/Brain 团队研究员 Lucas Beyer 就指出：这就像是展示一个由几年前的 Dall·E mini 生成的图像，然后称当前的图像生成方式注定失败一样。毕竟，之前生图模型生成的图像确实存在诸多瑕疵。

至于模型会生成如此离谱的视频？有网友认为是缺乏体操表演数据，还有网友认为是身体部位的模糊处理，使得模型无法理解人体结构，继而不能保证肢体动作的连贯性。

人体结构模糊导致的错误

视频生成在计算上更为复杂，并且具有高度的上下文相关性，对详细标注的训练数据有更大的需求，这些需求现在还未得到充分满足。

训练数据需求的分析

前段时间 SD 3 翻车，同样对人体生成效果不好，网友也讨论过这一问题。过于严格的数据审核，可能误删了一些无害的成人图像，影响了模型对人体结构的理解。

SD3 人体生成问题

其他模型的类似表现

除了 Luma AI 的 Dream Machine 生成体操视频大翻车，Runway 的 Gen-3 也出现了类似问题。

Runway Gen-3 生成的异常画面

同款三头六臂：

Runway 生成的多肢体现象

同款空中悬浮绝活：

Runway 生成的悬浮现象

技术深度解析：为什么物理理解这么难？

当前主流的视频生成模型大多基于扩散模型（Diffusion Models）或 Transformer 架构。这些模型本质上是概率分布的学习者，它们通过海量数据学习像素之间的统计相关性，而非显式地学习物理引擎中的动力学方程。

1. 隐空间与物理规律的错位

在扩散模型中，图像和视频被压缩到隐空间（Latent Space）中进行去噪。这个过程虽然高效，但往往丢失了物体运动轨迹的精确物理约束。模型学会了'看起来像运动'，但没有学会'符合物理的运动'。例如，当一个物体在空中时，模型可能无法准确预测其抛物线轨迹，导致人物突然悬浮或断肢。

2. 长时序一致性挑战

视频生成需要保持长时序的一致性。在几秒甚至几分钟的视频中，物体的位置、光照、阴影必须随时间连续变化。目前的模型在处理复杂交互（如人与环境的接触、衣物与身体的摩擦）时，容易在帧与帧之间产生跳变，导致肢体融合或消失。

3. 数据偏差与标注缺失

高质量的物理模拟需要带有物理标签的数据集，例如每个像素的速度场、力场信息。目前互联网上的视频数据大多是未标注的 RGB 序列。模型只能从视觉表象中学习，而无法直接感知背后的物理因果。此外，对于罕见动作（如高难度体操），训练数据稀缺，模型更容易产生幻觉。

未来展望：迈向真正的世界模型

LeCun 提出的'世界模型'（World Model）概念，旨在让 AI 具备对现实世界的内部表征能力，能够进行推理和预测，而不仅仅是生成像素。未来的研究方向可能包括：

结合符号推理：将神经网络的感知能力与符号系统的逻辑推理相结合，使模型能够理解因果关系。
引入物理引擎：在生成过程中嵌入简化的物理仿真模块，确保运动轨迹符合力学定律。
多模态预训练：利用文本、代码、传感器数据等多模态信息，构建更全面的物理知识库。

尽管当前模型仍存在缺陷，但随着算力的提升和数据集的完善，视频生成技术在物理一致性方面必将取得突破。然而，要实现真正的 AGI，仅仅依靠生成能力的提升是不够的，必须解决对物理世界的深层理解问题。

结语

AI 视频生成技术的快速发展令人兴奋，但此次体操视频的'翻车'事件提醒我们，当前的模型仍停留在模式匹配的初级阶段。理解物理规律是通往强人工智能的关键一步，也是业界需要攻克的硬骨头。随着研究的深入，我们有理由相信，未来的 AI 不仅能生成逼真的视频，更能理解视频背后的真实世界。

目录

AI 体操视频暴露物理缺陷，LeCun：视频生成模型并不懂物理
LeCun 的直接批评
畸变与离谱：从 Sora 到 Dream Machine
其他模型的类似表现
技术深度解析：为什么物理理解这么难？
1. 隐空间与物理规律的错位
2. 长时序一致性挑战
3. 数据偏差与标注缺失
未来展望：迈向真正的世界模型
结语

💰 8折买阿里云服务器限时8折了解详情

Magick API 一键接入全球大模型注册送1000万token查看
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

基于 OpenClaw 搭建 QQ AI 办公机器人并配置邮件发送
Java 大厂实习面试高频考点：MySQL、Redis、并发与算法实战
前端首屏加载优化落地清单与实操指南
机场出租车调度问题的数学建模与 Python 仿真实现
Java IO 流进阶：字符流与字节流的深度应用
Android Studio 安装及核心组件配置指南（SDK、JDK、Gradle）
基于 Unity 与 AI 工具快速开发简易小游戏
FPGA 实现 OV5640 摄像头视频图像显示
macOS 本地部署 OpenClaw 智能体框架指南
使用 Trae 集成 Claude Code 实现本地 AI 编程环境搭建
VRM4U 插件完整指南：在 Unreal Engine 5 中高效处理 VRM 模型
Python 初级函数详解：参数传递与作用域规则
7 篇必读的大模型前沿论文精选
Windows 11 安装与卸载 Copilot 应用的多种方法
VS Code 禁用 GitHub Copilot 代码补全方法
Codex 跨平台安装与登录指南（Windows/macOS/Linux）
悬架系统与天棚控制算法详解
OpenClaw 集成 GitHub Copilot GPT-5.4 修复指南
全球老龄化背景下的护理机器人发展现状与趋势
Linux 部署 Ollama+Qwen+OpenClaw 对接飞书本地大模型

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online