前言
李飞飞,斯坦福大学红杉讲席教授,以人为本人工智能研究院(HAI)院长,美国国家工程院院士。她在计算机视觉、机器学习及 AI+ 医疗保健领域有着深远影响,发明了 ImageNet 及其挑战赛,推动了大规模数据集在深度学习中的关键作用。
2024 年 12 月,由李飞飞创办的 World Labs 宣布向'空间智能'迈出第一步,致力于从单张图像生成三维世界。本文基于她的分享,深入探讨人工智能从语言理解向空间感知演进的核心逻辑。
一、从 ImageNet 到 World Labs:数据驱动的智能演进
1.1 ImageNet 的起源与挑战
ImageNet 的诞生源于 2006 年左右机器学习面临的过拟合挑战。当时研究界过度关注模型架构,忽视了数据质量与复杂性。李飞飞意识到,神经网络的能力受限于数据的规模与多样性。通过构建包含数百万张标注图像的 ImageNet,她证明了高质量数据是解锁模型性能的关键,这一理念奠定了现代深度学习的基础。
1.2 从 WordNet 到空间智能
早期对 WordNet 的研究让李飞飞认识到概念组织的重要性。随着技术发展,重点从二维图像识别转向三维空间理解。World Labs 的目标是使机器具备感知、理解并与三维物理和数字世界互动的能力,这被称为'空间智能'。
二、核心差异:语言模型与世界模型
2.1 表达维度的根本不同
大型语言模型(LLM)与世界模型(World Models)在底层逻辑上存在本质区别:
- 语言模型:主要在二维平面上表达概念。其基本单位是字母或单词(Token),侧重于符号之间的统计关联与语义推理。它擅长处理文本信息,但缺乏对物理世界的直接感知。
- 世界模型:旨在在三维空间中感知和行动。其基本单位是像素或体素(Voxel)。它不仅理解符号,更试图模拟物理规律、物体运动及环境交互,能够预测未来状态并规划行动路径。
2.2 训练目标与应用场景
语言模型的目标通常是预测下一个词,适用于对话、写作、代码生成等任务。而世界模型的目标是构建环境的内部表征,支持导航、机器人控制、自动驾驶及虚拟现实交互。例如,在自动驾驶中,车辆不仅需要理解交通标志(语言/视觉识别),更需要理解道路的空间结构、车辆动态及潜在风险(空间智能)。
三、空间智能:连接物理与数字的桥梁
空间智能被视为下一代人工智能的前沿。它模糊了现实体验与数字体验之间的界限,承诺打破虚拟与现实的隔阂。
3.1 技术意义
理解三维图像是人类、动物和机器视觉世界的第一步。通过标记和理解三维数据,系统能够构建环境的几何与语义地图。这对于增强现实(AR)、混合现实(MR)以及具身智能(Embodied AI)至关重要。
3.2 对人类互动的影响
空间智能将改变人类与技术的互动方式。未来的应用可能包括辅助复杂手术、优化物流调度、提供沉浸式教育体验等。通过将现实与数字融合,技术将成为人类能力的延伸,而非替代品。
四、以人为本的 AI 治理与发展
4.1 负责任的技术创新
李飞飞强调,AI 开发应建立在科学事实和方法论基础上,而非科幻想象。政策与治理需关注实际应用中的护栏设置,确保技术进步不会带来不可控的风险。这需要政府、行业及学术界的跨部门合作。
4.2 教育与民主化
为了让 AI 造福全社会,必须推动 AI 教育的普及。通过暑期课程、实习项目等方式,扩大来自不同背景(包括女性、农村地区)学生的参与机会。这不仅有助于培养多元化的人才社区,也能确保 AI 技术的发展方向符合公共利益。
4.3 能源与可持续性
AI 的发展离不开能源支持。李飞飞指出,全球能源结构的转型(从化石燃料向可持续能源)对 AI 的长期发展至关重要。技术创新应致力于提高能效,促进全球繁荣与共享利益。
五、总结与展望
当前 AI 正处于重要的转折点。虽然图灵测试、自动驾驶等挑战已取得显著进展,但仍需警惕'泡沫'风险。未来的 AI 愿景应是增强人类能动性,提升同理心与创造力。
世界模型的出现标志着 AI 从'理解语言'向'理解世界'的跨越。通过结合空间智能与语言智能,我们有望构建出更接近人类认知水平的通用人工智能(AGI)。这一进程需要持续的科学探索、合理的治理框架以及全社会的共同参与,以确保技术始终服务于人类的福祉。
六、常见问题解答
Q: 什么是空间智能? A: 空间智能是指处理三维空间的能力,体现了像人类一样的智能生物感知、导航并与环境互动的本能。它是超越语言交流的基本本地能力。


