大模型、Sora 与世界模型的关系及对自动驾驶的意义
探讨了人工智能大模型、Sora 及世界模型的核心概念与区别。大模型具备强大的表示与泛化能力,广泛应用于 NLP、CV 等领域;世界模型侧重于对物理世界的感知、理解与预测,是具身智能的关键;Sora 作为文生视频模型,被视为构建物理世界通用模拟器的探索路径。三者结合为自动驾驶提供了无需标注的自监督预训练方案,有望显著提升感知、预测及规划控制能力,推动行业向基础模型平台化发展。

探讨了人工智能大模型、Sora 及世界模型的核心概念与区别。大模型具备强大的表示与泛化能力,广泛应用于 NLP、CV 等领域;世界模型侧重于对物理世界的感知、理解与预测,是具身智能的关键;Sora 作为文生视频模型,被视为构建物理世界通用模拟器的探索路径。三者结合为自动驾驶提供了无需标注的自监督预训练方案,有望显著提升感知、预测及规划控制能力,推动行业向基础模型平台化发展。

人工智能大模型(Artificial Intelligence Large Model,简称 AI 大模型)是指具有庞大的参数规模和复杂程度的机器学习模型。通常指的是参数量非常大、数据量非常大的深度学习模型。
大模型通常由数百万到数十亿的参数组成,需要大量的数据和计算资源进行训练和推理。由于其巨大的规模,大模型具有非常强大的表示能力和泛化能力,可以在各种任务中表现出色,如语音识别、自然语言处理、计算机视觉等。
1)强大的表示能力 大模型可以学习非常复杂的模式和特征,从而能够处理各种复杂的任务。
2)泛化能力强 由于大模型在大量数据上进行训练,它们可以捕捉到普遍存在的模式,因此在处理新数据时具有较好的泛化能力。
3)多任务学习 一些大模型可以同时处理多个任务,例如图像分类和目标检测,或者自然语言处理中的文本分类和情感分析。
4)预训练和迁移学习 大模型可以在大规模数据上进行预训练,然后在其他数据集上进行微调,以适应特定的任务。这种迁移学习的方法可以大大减少在新任务上的训练时间和数据需求。
通过在大量的标注和未标注的数据上进行预训练,大模型可以从中捕获通用的知识和特征,并将其存储在参数中。然后通过对特定任务进行微调,大模型可以将预训练的知识迁移到下游任务中,极大地提高了模型的性能和泛化能力。
大模型的典型代表有 GPT-4、盘古、Switch Transformer 等,它们的参数量都达到了千亿甚至万亿的规模。除此之外,还有代码大模型、视觉大模型、多模态大模型等。
1)语言模型 语言模型是一种自然语言处理领域的深度学习模型,通过语言模型的应用,可以实现机器翻译、文本摘要、问答系统、情感分析等功能。例如,谷歌的 BERT 模型可以用于提高搜索引擎的搜索质量和广告质量;OpenAI 的 GPT 系列模型可以用于自动生成文章、对话和摘要等。
2)图像识别模型 图像识别模型是一种计算机视觉领域的深度学习模型,可以用于图像分类、目标检测、人脸识别等任务。例如,在医疗领域,图像识别模型可以用于诊断疾病和辅助手术;在安防领域,图像识别模型可以用于监控和人脸识别等。
3)语音识别模型 语音识别模型是一种语音信号处理领域的深度学习模型,可以将语音转换成文本,并支持语音到文本的转换、语音搜索、语音控制等功能。例如,谷歌助手、苹果的 Siri、亚马逊的 Alexa 等智能助手都使用了语音识别技术。
4)推荐模型 推荐模型是一种个性化推荐领域的深度学习模型,可以根据用户的历史行为和偏好,推荐相关的内容和服务。例如,在电商领域,推荐模型可以根据用户的购物历史和浏览行为,推荐相关的商品和优惠券;在新闻领域,推荐模型可以根据用户的阅读历史和兴趣,推荐相关的新闻和文章。
5)强化学习模型 强化学习模型是一种通过试错来学习行为的深度学习模型,可以用于游戏、自动驾驶等领域。例如,DeepMind 的 AlphaGo 可以用于玩围棋游戏;OpenAI 的 Dota2 AI 可以用于玩 Dota2 游戏。

与大模型相比,世界模型是一个更高级别的概念,它涉及到具身智能和现实世界的感知、理解和交互。世界模型试图通过对周围环境进行建模,使人工智能系统能够像人类一样理解和预测环境,从而做出相应的行动。
World Model 其本质是对视频中的丰富语义以及背后的物理规律进行学习,从而对物理世界的演化产生深刻理解。
举个例子,在人类的理解中,能够评估出一杯水的重量。当我们拿起一杯水时,大脑其实已经'预测'了应该用多大的力。于是,杯子被顺利拿起。但如果杯子是不透明有盖的而碰巧没有水呢?如果延续杯子有水的理解,我们就会用过大的力去拿杯子,此时发现很轻,我们立刻感觉到不对。对世界的理解里就会加上这么一条:杯子有可能是空的。于是,下次再'预测',就会对不同内容的杯子使用不同的力。
'不断理解,不断预测',这种理解世界的方式,是人类理解世界的方式。这种思维模式就叫做:世界模型。
人经历的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界。这就是人类与世界交互的方式:世界模型。

OpenAI 官方信息从未表示 Sora 是 world model,而是强调它是 world simulator。
Sora,美国人工智能研究公司 OpenAI 发布的人工智能文生视频大模型(但 OpenAI 并未单纯将其视为视频模型,而是作为'世界模拟器'),于 2024 年 2 月 15 日(美国当地时间)正式对外发布。
Sora 可以根据用户的文本提示创建最长 60 秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。
Sora 有别于其他 AI 视频模型的优势在于,既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
在原理上,Sora 主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取,将视图信息分解成更小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便 Sora 在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图片进行解码加码,由 Transformer 模型(即 ChatGPT 基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频内容。
尽管 Sora 的功能十分的强大,但其在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面 OpenAI Sora 都存在一定的问题。
(1)物理交互的不准确模拟: Sora 模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例,或者模型无法充分学习和理解这些复杂物理过程的底层原理。
(2)对象状态变化的不正确: 在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora 可能无法始终正确反映出变化。这表明模型可能在理解和预测对象状态变化的动态过程方面存在局限。
(3)长时视频样本的不连贯性: 在生成长时间的视频样本时,Sora 可能会产生不连贯的情节或细节,这可能是由于模型难以在长时间跨度内保持上下文的一致性。
(4)对象的突然出现: 视频中可能会出现对象的无缘无故出现,这表明模型在空间和时间连续性的理解上还有待提高。
world model 是用 Sora 能准确生成视频一个很重要的核心,比如人在苹果上咬了一口,并不总是能'咬就会有痕',sora'有时'也会出错。但通过训练,sora 会越来越准确。
Sora 的技术文档里有一句话:
Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
翻译过来就是:
我们的结果表明,大规模视频生成模型是一条很有希望构建物理世界通用模拟器的道路。
OpenAI 最终想做的,其实不是一个'文生视频'的工具,而是一个通用的'物理世界模拟器'。

基于 World Model 所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。
类比 GPT 为所有 NLP 问题提供了一个通用解,特斯拉、Wayve 等公司不约而同地在 2023 年推出 World Model,很大程度上是受到了 GPT 的启发。对于自动驾驶来说,World Model 是一个无需标注、自监督的预训练模型。可生成自动驾驶相关的连续帧视频场景。
目前,World Model 或仍处于 GPT-1 的阶段,但考虑到目前行业整体对'大模型'潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,World Model 从 0 到 1 的爆发或较 ChatGPT 更快(OpenAI 从 GPT-1 至 GPT-3.5 共历经 4 年)。
但考虑到更标准化的解决方案和更巨大的资金投入(资金需求或是这一代 BEV+Transformer 方案的数倍),行业内有望出现少数几家强大的 World Model 基础模型层平台方,以 SaaS 或 API 的方式为主机厂/运营方提供自动驾驶能力,行业格局和合作模式或将发生较大变化。
中短期来看,World Model 或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。
长期来看,World Model 有潜力成为自动驾驶乃至具身智能领域的基础模型。


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online