前言
李飞飞,斯坦福大学红杉讲席教授,以人为本人工智能研究院(HAI)院长,美国国家工程院院士。她在计算机视觉、机器学习及 AI+ 医疗保健领域有着深远影响,发明了 ImageNet 及其挑战赛,推动了大规模数据集在深度学习中的关键作用。
本文基于斯坦福大学李飞飞教授的分享,探讨了人工智能从图像识别向空间智能演进的趋势。重点分析了大型语言模型与世界模型在数据表达、感知维度及交互方式上的本质差异。文章阐述了空间智能在连接物理与数字世界中的关键作用,强调了以人为本的 AI 治理、教育普及及能源可持续性的重要性,并展望了通用人工智能的未来发展方向。

李飞飞,斯坦福大学红杉讲席教授,以人为本人工智能研究院(HAI)院长,美国国家工程院院士。她在计算机视觉、机器学习及 AI+ 医疗保健领域有着深远影响,发明了 ImageNet 及其挑战赛,推动了大规模数据集在深度学习中的关键作用。
2024 年 12 月,由李飞飞创办的 World Labs 宣布向'空间智能'迈出第一步,致力于从单张图像生成三维世界。本文基于她的分享,深入探讨人工智能从语言理解向空间感知演进的核心逻辑。
ImageNet 的诞生源于 2006 年左右机器学习面临的过拟合挑战。当时研究界过度关注模型架构,忽视了数据质量与复杂性。李飞飞意识到,神经网络的能力受限于数据的规模与多样性。通过构建包含数百万张标注图像的 ImageNet,她证明了高质量数据是解锁模型性能的关键,这一理念奠定了现代深度学习的基础。
早期对 WordNet 的研究让李飞飞认识到概念组织的重要性。随着技术发展,重点从二维图像识别转向三维空间理解。World Labs 的目标是使机器具备感知、理解并与三维物理和数字世界互动的能力,这被称为'空间智能'。
大型语言模型(LLM)与世界模型(World Models)在底层逻辑上存在本质区别:
语言模型的目标通常是预测下一个词,适用于对话、写作、代码生成等任务。而世界模型的目标是构建环境的内部表征,支持导航、机器人控制、自动驾驶及虚拟现实交互。例如,在自动驾驶中,车辆不仅需要理解交通标志(语言/视觉识别),更需要理解道路的空间结构、车辆动态及潜在风险(空间智能)。
空间智能被视为下一代人工智能的前沿。它模糊了现实体验与数字体验之间的界限,承诺打破虚拟与现实的隔阂。
理解三维图像是人类、动物和机器视觉世界的第一步。通过标记和理解三维数据,系统能够构建环境的几何与语义地图。这对于增强现实(AR)、混合现实(MR)以及具身智能(Embodied AI)至关重要。
空间智能将改变人类与技术的互动方式。未来的应用可能包括辅助复杂手术、优化物流调度、提供沉浸式教育体验等。通过将现实与数字融合,技术将成为人类能力的延伸,而非替代品。
李飞飞强调,AI 开发应建立在科学事实和方法论基础上,而非科幻想象。政策与治理需关注实际应用中的护栏设置,确保技术进步不会带来不可控的风险。这需要政府、行业及学术界的跨部门合作。
为了让 AI 造福全社会,必须推动 AI 教育的普及。通过暑期课程、实习项目等方式,扩大来自不同背景(包括女性、农村地区)学生的参与机会。这不仅有助于培养多元化的人才社区,也能确保 AI 技术的发展方向符合公共利益。
AI 的发展离不开能源支持。李飞飞指出,全球能源结构的转型(从化石燃料向可持续能源)对 AI 的长期发展至关重要。技术创新应致力于提高能效,促进全球繁荣与共享利益。
当前 AI 正处于重要的转折点。虽然图灵测试、自动驾驶等挑战已取得显著进展,但仍需警惕'泡沫'风险。未来的 AI 愿景应是增强人类能动性,提升同理心与创造力。
世界模型的出现标志着 AI 从'理解语言'向'理解世界'的跨越。通过结合空间智能与语言智能,我们有望构建出更接近人类认知水平的通用人工智能(AGI)。这一进程需要持续的科学探索、合理的治理框架以及全社会的共同参与,以确保技术始终服务于人类的福祉。
Q: 什么是空间智能? A: 空间智能是指处理三维空间的能力,体现了像人类一样的智能生物感知、导航并与环境互动的本能。它是超越语言交流的基本本地能力。
Q: 为什么需要世界模型? A: 仅靠语言模型无法完全模拟物理世界的因果律。世界模型通过像素或体素进行建模,能更好地支持机器人操作、物理仿真及复杂决策任务。
Q: AGI 的含义是什么? A: 通用人工智能(AGI)指拥有执行多种智能任务能力的思维机器,不局限于特定任务。这是 AI 创始人的最初梦想,也是当前研究的长远目标。
Q: 如何确保 AI 向善? A: 将政策治理建立在科学数据上,实施类似汽车安全措施的监管框架,同时加强公众教育,避免投机极端,引导技术走向积极方向。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online