科研快报 |从特斯拉到科沃斯:具身智能让机器人成真!

科研快报 |从特斯拉到科沃斯:具身智能让机器人成真!

Prism Path

科   研   快   报
CS跨学科顶尖期刊论文资讯

-NO.2025018-

机器人技术中的人工智能路线图

A roadmap for AI in robotics

期刊:Nature Machine Intelligence(Q1/一区)

发布日期:2025年06月19日

DOI: 10.1038/s42256-025-01050-6

2025年最后一篇顶刊文章分享。我们借着一篇发表在《Nature Machine Intelligence》顶刊的论文,带大家聚焦于具身智能这个极具潜力的热门领域。

目录

一、论文观点概述

二、具身智能:概念与前沿应用

01 人形机器人

02 仓储/物流机器人

03 服务型机器人

三、具身智能实现的主要瓶颈

 01 感知与动作协同困难

 02 泛化能力弱

 03 训练成本高、风险大

 04 安全性与法规障碍

SPIE会议征稿中:IC-IPPR 2026


一、论文观点概述

论文首先回顾了自1990年代以来人工智能在机器人领域的成果与瓶颈,提出了一个分阶段的研究路线图。作者强调,机器人在物理世界中的感知与运动比纯数据分析更具挑战,需要针对具体的机器人设计、任务和环境调整AI模型。

短期与中期目标:

  • 建立大规模多样化数据集和模拟环境,以支持强化学习和仿真训练。
  • 开发将“拟合到极点”的大型AI模型(如大型语言模型、视觉-语言模型)用于高层次决策和人机交互,但必须解决它们容易产生幻觉、缺乏形式安全保证的问题。

文章指出,为了安全可靠地应用AI技术,需要将物理先验(物理定律、运动学等)和符号规划融入学习框架,以提高机器人控制的可解释性和稳定性。

作者还归纳了AI机器人发展的短期与长期挑战(如数据采集、连续学习、能源效率等),并强调这些方向会并行推进,而非严格线性完成。

长期挑战则聚焦于终身学习和迁移能力:目标是让机器人在其生命周期中持续学习并将经验迁移到新硬件、任务和环境中。例如,需要解决机器人如何判断传递什么知识、如何传递以及何时传递三个关键问题。上图所示,不同机器人的跨平台合作(如四足机器人到机械臂)依赖于共享表征和语义通信协议。

安全部署也是终极目标之一:机器人要在高维部分可观测环境中进行高效探索,又不得损伤人身或设备,需结合好奇心驱动和形式化约束的风险感知策略。此外,论文强调能源效率与可持续性:机器人应采用低功耗计算、可循环材料等技术为长远发展奠基。

总体而言,作者归纳了数据感知、强化学习、混合智能、终身学习等一系列研究方向,并以图表形式分阶段提出了各自的发展目标和关键路径。

二、具身智能:概念与前沿应用

这篇论文特别提出“具身智能”(Embodied Intelligence)作为重要方向,即机器人与环境的紧密互动能力。当前研究和产业界已出现多个应用实例:

01 人形机器人

特斯拉Optimus、Figure AI、Agility Robotics等公司正在推进类人机器人商业化。

例如,特斯拉最新演示中Optimus可平稳慢跑、自主感知电量并导航至充电桩完成充电
;还具备单次搬运11公斤重物、自主避障等能力(虽然部分演示仍需远程操作辅助)

Figure AI发布的第3代Robot「Figure 03」,在智能视觉、触觉和无线充电等方面实现改进,专为家庭场景和规模化生产设计。

Agility Robotics的双足机器人Digit已在仓储环境中实地部署:据报道,Digit已在GXO物流中心搬运了10万余个料箱,验证了其持续、高强度作业的可靠性;它的通用人形结构(两臂两足)允许其在同一流水线中完成多样化搬运任务,显示出比传统固定臂机器人更好的场景适应力。

02 仓储/物流机器人

现代物流中心大量采用自动化机器人。

亚马逊在部分仓库中测试多臂机器人系统“BlueJay”,可同时协调多只机械臂并行进行拣选、上架、合拢等操作,将原本三道装配线合并为一道,大幅提高效率。

此外,各类AGV/AMR叉车机器人也在普及:越来越多仓储空间部署无人驾驶叉车和移动机器人来运输货物。这些机器人利用激光SLAM、视觉导航等技术进行自主路径规划与动态避障,能同时处理多任务,减少拥堵并提高拣选效率。

随着算法成熟与成本下降,智能无人叉车的市场渗透率仍有很大提升空间。例如,中国叉车巨头杭叉集团近期推出了X1系列物流机器人(具22个自由度),旨在整合AGV与人形机器人技术。

03 服务型机器人

家务、接待和陪伴机器人正加速进入日常场景。家用清洁机器人(如科沃斯、石头等国产品牌,或美国产品iRobot)已经广泛普及,2023年中国家庭用户渗透率约8%,预计到2030年突破25%

这类机器人主要承担扫地、拖地等清洁任务,而烹饪辅助或陪伴类机器人增长势头更快。在酒店、餐饮等场所,人形服务机器人也开始应用:如灵犀X2擎朗XMAN-R1等产品可用于迎宾接待、倒酒斟茶、行李配送、环境清洁等场景。

业内预测,人形服务机器人将在2025年后逐步落地推广,到2030年全球市场规模将接近939亿美元。智能陪伴机器人方面,诸如索尼Aibo宠物狗Softbank Pepper等虽更偏向于娱乐功能,但也体现出机器人提供情感陪伴和社交服务的趋势。

三、具身智能实现的主要瓶颈

尽管应用场景不断丰富,实现真正的具身智能仍面临多重挑战:

 01 感知与动作协同困难

机器人需融合多模态传感信息并控制物理动作,这对算法提出高要求。

例如,论文图示的场景中,无人机与人形机器人在传递物体时,需要整合来自不同传感器、不同坐标系的空间信息并协同控制单手或双手动作。当前的视觉和触觉系统在复杂环境中仍难以提供稳定、实时的高质量感知,这导致机器人在真实世界中的动作规划和执行不够精准。

 02 泛化能力弱

很多策略只能适用于特定机器人平台、特定任务和环境。如何让一个机器人学到的技能能够迁移到新平台或新环境,是核心问题。

例如,在论文中指出,将一种机器人(如双臂人形)的抓取技能转移到单臂机械臂时,需要考虑不同的运动学约束和感知差异。现实中,训练数据往往不够广泛,导致学习算法对未知场景表现不佳,难以应对多变的实际情况。

 03 训练成本高、风险大

获取真实世界的训练数据既昂贵又耗时。机器人在物理环境中的试错代价高、存在损坏风险,因此当前多依赖仿真平台预训练,但仿真实际建模仍不完美,存在“仿真-现实差距”

论文提到,虽然域随机化等方法可以部分缩小差距,但要完全一致需要额外的真实数据校正,很难在短期内实现。此外,实现终身学习等目标还需要高性能计算硬件和存储支持,这进一步增加了系统开发和运行成本。 

 04 安全性与法规障碍

虽然避免讨论伦理问题,但技术层面上,AI驱动控制策略需满足安全可靠的规范。目前强化学习的探索阶段在真实环境中很难保证绝对安全。相关监管和认证框架也尚未完全建立,对快速发展的机器人应用形成一定制约。

综上,实现具身智能需要在感知算法、学习框架、系统集成等方面取得突破,并综合利用仿真、实验和符号推理等多种方法提高鲁棒性。


SPIE会议征稿中:IC-IPPR 2026

我们诚挚发起本次“2026年图像处理与模式识别国际会议 (IC-IPPR 2026)”的征稿,旨在汇聚全球顶尖学者、研发工程师与青年学子,共同搭建一个深度交流、碰撞思想、孕育合作的高端平台。

【组织单位】喀什大学、管理与技术大学(UMT)、新加坡机器人学会(RSS)

【会议出版】所有论文将由会议委员会的2-3名专家评审员进行评审。经过仔细的审查过程,所有被接受的论文都将发表在SPIE-The International Society for Optical Engineering《会议论文集》上,并提交给EI Compendex和Scopus进行索引。

【审稿流程】投稿 (全英WORD+PDF) - 稿件收到确认 (1个工作日) - 初审 (3个工作日内) - 告知结果 (接受/拒稿)

Read more

VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling

VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling

VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling * 【前言】论文简介 🍀 * 1、介绍(Introduction)🐳 * 2、视觉语言模型家族(The Families of VLMs) 🌟 * 2.1 基于Transformer的早期VLM工作(Early work on VLMs based on transformers) * 2.2 基于对比学习的VLM(Contrastive-based VLMs) * 2.2.1 CLIP * 2.3 掩码目标视觉语言模型(VLMs with masking objectives) * 2.3.1 FLAVA * 2.3.

最新 AI 论文盘点(2026-03-18):6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

最新 AI 论文盘点(2026-03-18):6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型 今天这批新论文里,我觉得有几条线特别值得看。 一条是 LLM / Agent 的记忆与长上下文,讨论怎么把“记住信息”和“真正用好上下文”这两件事拆开来做。 一条是医疗与真实场景评测,重点不再是静态 benchmark,而是更贴近临床和工作流的真实使用偏好。 还有一条是机器人与具身智能,不少工作开始把重点放在“少改模型、更多利用结构和搜索”上,而不是一味增大训练规模。 这篇挑 6 篇我认为更值得盘的论文,尽量少复述摘要,多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。 1. NextMem:给 LLM Agent 做“潜在事实记忆” 论文: NextMem: Towards Latent Factual

【Part 4 XR综合技术分享】第一节|技术上的抉择:三维实时渲染与VR全景视频的共生

【Part 4 XR综合技术分享】第一节|技术上的抉择:三维实时渲染与VR全景视频的共生

《VR 360°全景视频开发》专栏 将带你深入探索从全景视频制作到Unity眼镜端应用开发的全流程技术。专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360°全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。 📝 希望通过这个专栏,帮助更多朋友进入VR 360°全景视频的世界! Part 4|XR综合技术分享 最后一Part了,我将分享一些关于当前常用的XR综合技术,内容涵盖三维实时渲染与全景视频的共生、多模态交互体验的融合,以及AI如何深度赋能XR应用,推动智能化发展。同时畅想通向全感知XR智能沉浸时代的未来,探索如何通过更先进的技术不断提升用户体验。毕竟,360°全景视频仅是XR应用中的冰山一角。 第一节|技术上的抉择:三维实时渲染与VR全景视频的共生 文章目录 * 《VR 360°全景视频开发》专栏 * Part 4|XR综合技术分享 * 第一节|技术上的抉择:三维实时渲染与VR全景视频的共生 * 1、VR内容形态的分化与融合 * 1.1 三维实时渲染的发展 * 1.2

【保姆级教程】从零部署宇树 Unitree 机器人 ROS 2 环境 (Go2/B2/H1) (Humble + 真实硬件)

摘要 本文为希望在ROS 2 (Humble) 环境下开发宇树 (Unitree) 机器人(支持 Go2, B2, H1)的开发者提供了一篇详尽的、从零开始的部署指南。我们将首先在 Ubuntu 22.04 上安装 ROS 2 Humble,然后重点讲解如何配置 unitree_ros2 功能包,实现 ROS 2 节点与机器人底层 DDS 系统的直接通信。本教程基于官方文档,并针对 Humble 环境进行了优化,可跳过 Foxy 版本复杂的 CycloneDDS 编译步骤。 核心环境: * 操作系统: Ubuntu 22.04 (Jammy) * ROS 2 版本: Humble