IROS 2025 精选论文:从通用机器人到真实世界部署
IROS 2025 精选了 8 篇 Award Finalist 论文,涵盖双足机器人足球踢控、多机器人目标追踪、自然徒步导航、水下声学 SLAM、果实计数、通用神经运动规划、腿式操作机器人交互导航及大规模具身智能平台。研究趋势显示机器人领域正从单点突破转向系统智能与真实世界部署,强调规模化、泛化性、具身智能及主动交互能力。

IROS 2025 精选了 8 篇 Award Finalist 论文,涵盖双足机器人足球踢控、多机器人目标追踪、自然徒步导航、水下声学 SLAM、果实计数、通用神经运动规划、腿式操作机器人交互导航及大规模具身智能平台。研究趋势显示机器人领域正从单点突破转向系统智能与真实世界部署,强调规模化、泛化性、具身智能及主动交互能力。

链接:https://arxiv.org/pdf/2510.01843
主要内容:这篇论文聚焦于让双足机器人像人一样踢足球。在机器人足球比赛中,最大的难点之一是如何在激烈的动态动作中保持身体稳定,同时又能精确控制足球的方向与速度。以往的解决方案中,传统的基于位置控制的方法动作僵硬、灵活性差;强化学习虽具潜力,但在真实机器人上往往收敛慢、难以泛化。
作者提出了一种全新的时空优化轨迹规划方法(Spatial-Temporal Trajectory Optimization),灵感来自无人机运动规划领域。该方法让机器人能自主生成满足目标约束(位置、速度、加速度)的脚部轨迹,并在规划过程中同时优化摆动阶段的时间长度。这种优化让机器人在执行踢球动作时,不再是'直线摆腿',而是像人类那样有一个明显的回摆动作(backswing),在动能积累后完成更稳定、更有力的击球。
实验显示,这种方法的计算效率极高——轨迹规划时间低于 1 毫秒,同时在模拟与真实机器人实验中均展现出近乎 100% 的任务成功率,只要球门位于机器人正前方 -90° 到 90° 的范围内即可完成精准踢球。这意味着机器人不再只是机械执行动作,而开始具备了'像玩游戏一样'的空间与时间协调能力。

▲图 1|图中展示了整套控制框架的工作流程:操作员首先输入控制指令,包括期望的机器人线速度与角速度,以及目标踢球位置与速度。状态估计器实时计算机器人当前的位姿、角速度及足部状态。步态生成器据此输出自适应步态计划,随后 MPC 模块(模型预测控制)在结合控制指令与步态信息后求解最优接触力与扭矩。与此同时,足部规划器根据任务需求生成参考轨迹,用于执行踢球或常规行走。最终,系统根据参考轨迹与最优力矩计算出各关节的控制力,实现高精度的动作执行
链接:https://arxiv.org/pdf/2409.11230
主要内容:这篇论文针对多机器人在复杂甚至敌对环境下的目标追踪问题,提出了一种具备高鲁棒性(resilient)的协同控制框架。当多个机器人需要在未知区域中同时追踪多个目标时,环境中可能存在感知盲区与通信危险区(danger zones)——这些区域会导致传感器失效、通信中断,甚至系统短暂瘫痪。传统算法往往假设感知与通信稳定,一旦出现干扰或攻击,任务性能便急剧下降。
作者创新性地提出了一种带软随机约束(soft chance constraints)的非线性优化方法,使机器人能够在感知与通信风险下实现实时自适应协同决策。该方法允许机器人在探测到潜在危险后主动调整轨迹、逃离风险区域,从而在不牺牲任务效率的情况下维持系统整体稳定。框架可动态平衡'目标追踪性能'与'系统韧性',并根据不同类型的危险与故障概率自动调整协作策略。
在仿真与真实场景的多目标追踪实验中,该方法在面对临时通信中断或感知攻击时,依然保持了稳定的追踪效果,显著优于无自适应机制的传统方法,验证了其在真实环境中的实用性与鲁棒性。

▲图 2|图中展示了多机器人系统在存在通信与感知危险区的环境中进行目标追踪的实验场景。蓝色区域代表通信危险区,红色区域代表感知危险区;红色'+'表示感知攻击,蓝色'+'表示通信攻击。左图为真实实验的俯视图,右图为在相同条件下的仿真结果
链接:https://arxiv.org/pdf/2409.15671
主要内容:这篇论文聚焦于自然环境中的自主导航问题,特别是复杂且动态的徒步小径(hiking trails)。与结构化道路不同,山林步道会受到天气、植被生长、人类通行等因素影响,地形随时变化,给机器人带来巨大的感知与规划挑战。
作者提出了一种结合语义分割(Semantic Segmentation)与几何分析(Geometric Analysis)的新型自主导航方法。系统首先利用摄像头获取的图像提取地面语义信息(如土路、草地、障碍物等),再结合激光雷达的几何结构数据生成可通行性地图(Traversability Map)。基于这张地图,规划器能够在保证安全的前提下选择合适路径——既能沿着步道行进,又能在遇到障碍、塌陷或危险区域时灵活选择离开主路的安全捷径。
论文通过仿真和实地实验评估了语义与几何信息在可通行性分析中的权重平衡。最终在西弗吉尼亚大学的自然步道场景中进行了野外验证,结果显示该方法能在复杂林地环境中保持稳健导航,准确识别可通行区域并灵活规避障碍,为真实自然场景下的自主导航提供了可行路径。

▲图 3|图中展示了机器人在自然步道上进行实地测试的画面。机器人依托摄像头与激光雷达传感器生成的可通行性地图,实现了对复杂山路的自主导航,能够在林间地形变化和障碍物干扰下稳定前进
链接:https://arxiv.org/pdf/2507.23629
主要内容:这篇论文面向多机器人水下协同建图(SLAM)场景,提出了一个新一代的分布式鲁棒声学 SLAM 框架 —— DRACo-SLAM2。与以往依赖几何特征匹配的传统方法不同,水下环境光线受限、视觉信号衰减严重,声学成像(imaging sonar)成为主要感知手段。然而,声呐数据往往噪声高、结构模糊,导致跨机器人地图匹配与回环检测极具挑战。作者在原始 DRACo-SLAM 基础上提出两项关键改进:
● 对象图(Object Graph)表示:将声呐地图抽象为由检测到的关键对象构成的图结构,通过对象图匹配(Object Graph Matching)实现跨机器人之间的高效回环检测,而无需依赖几何先验信息。
● 增量式组一致测量集最大化(Incremental GCM)算法:在原有 PCM(Pairwise Consistent Measurement)基础上改进,能够有效处理相邻回环约束中存在相似配准误差的情况,使系统在噪声条件下仍能保持全局一致性。
实验在仿真与真实数据集上进行,包括美国商船学院(U.S. Merchant Marine Academy)的实地测试。结果表明,DRACo-SLAM2 显著提升了多机器人间的协作精度与通信效率,在复杂水下环境中实现了稳定可靠的分布式建图性能。

▲图 4|图中展示了 DRACo-SLAM2 在真实声呐数据上的实验结果。三台水下机器人在纽约国王角美国商船学院采集的数据集中协同建图,其优化后的轨迹与点云对齐在卫星图上。紫色线条表示机器人之间的测量约束,体现了系统在多机器人间实现的高一致性与稳健配准
链接:https://arxiv.org/pdf/2505.19863
主要内容:这篇论文提出了一种基于神经辐射场(Neural Radiance Fields, NeRF)与对比学习(Contrastive Learning)的通用果实计数方法 —— FruitNeRF++。相比前作 FruitNeRF 需要针对每种水果单独适配模型的局限,FruitNeRF++ 实现了真正的多水果通用计数(multi-fruit counting),可在未经特定训练的情况下处理不同类型的果树场景。
具体来说,FruitNeRF++ 在 RGB 图像与语义信息的基础上,引入由视觉基础模型(如 SAM 与 Detic)预测的实例掩码(instance masks),从而在神经场中同时构建外观场、语义场与实例场。这些实例掩码通过嵌入为实例特征向量,使得系统能够在三维空间中区分不同果实。通过对神经场进行体积采样,研究者提取出带有实例特征的三维点云,并利用无类别(fruit-agnostic)的聚类算法完成果实的自动计数。
在包含苹果、李子、柠檬、梨、桃子和芒果的合成数据集以及真实苹果园数据上,FruitNeRF++ 展现出较强的泛化性与准确性,能够在复杂树冠结构与光照变化下保持稳定表现,同时简化了模型部署和调参过程,为农业场景下的视觉 3D 感知提供了高效解决方案。

▲图 5|图中展示了 FruitNeRF++ 的整体流程。系统首先从果园图像中恢复相机的内外参,接着利用 SAM 与 Detic 模型提取任意果实类型的语义与实例掩码。随后,模型联合训练外观场、语义场与实例场,并通过三维点云聚类实现果实数量的精确统计
链接:https://arxiv.org/pdf/2409.05864
主要内容:这篇来自卡内基梅隆大学(CMU)的论文提出了一个面向多任务、多场景的通用神经运动规划器(Neural Motion Planner, Neural MP),旨在突破传统运动规划方法在复杂环境下计算耗时长、泛化性弱的问题。
传统规划器(如采样法与优化法)通常需要针对每个新任务从零开始搜索路径,尤其在高维、拥挤或动态场景中,往往需要数分钟才能找到一条可行路径。而人类在类似情境下能凭经验快速规划安全动作,这正是 Neural MP 希望模仿的能力。
Neural MP 的核心思路是:通过大规模数据驱动的学习,让模型具备'见多识广'的规划经验。研究团队在仿真中构建了大量复杂场景,利用传统规划器生成专家示范数据,再将这些数据蒸馏为一个反应式的通用神经策略网络(generalist neural policy)。在推理阶段,系统可基于当前环境快速生成无碰路径,并结合轻量级优化模块进行安全修正,从而实现真实世界中的稳定部署。
在包含 64 个任务、4 类不同环境的真实测试中,Neural MP 相比最先进的采样、优化和学习规划方法,分别提升了 23%、17% 和 79% 的成功率,并能在多样化场景中快速生成高质量路径,展现了'通用智能规划'的潜力。

▲图 6|图中展示了 Neural MP 在真实世界多场景中的表现。单一的神经网络策略即可在多种任务与环境中快速生成无碰路径,显著快于传统与基于学习的规划方法,并实现更高的成功率与泛化性能
链接:https://arxiv.org/pdf/2503.01474
主要内容:这篇论文提出了一种具备主动交互能力的腿式操作机器人导航框架(Interactive Navigation),核心思想是——当路径被可移动障碍物阻挡时,机器人不再'被动绕开',而是通过手臂推挤(arm-pushing)主动与环境交互,从而以更短的路径、高效地到达目标。
传统的交互式导航方法多依赖机器人自身的身体去推动障碍,但在狭窄空间中,这类方法容易受限于机器人尺寸,动作受阻、控制不稳。为此,作者引入了一种基于强化学习的手臂推挤控制器(Arm-Pushing Controller),并设计了两阶段奖励机制:
仿真结果表明,该两阶段策略可显著加速策略收敛并提升长时性能;真实实验进一步验证了框架的有效性,机器人能在复杂、拥挤的空间中主动'推开'障碍,从而实现更短路径与更快通行。

▲图 7|图中展示了腿式操作机器人在狭窄环境中利用学习型手臂推挤控制器进行主动导航的示意。右上角显示机器人通过手臂推动可移动障碍物,而红色曲线表示本方法生成的主动推挤路径,相比蓝色的传统无碰路径,能够更直接地抵达目标位置,从而显著缩短导航距离与时间
链接:https://arxiv.org/pdf/2503.06669
主要内容:这篇论文提出了一个面向通用具身智能(Embodied Intelligence)的大规模机器人操作平台——AgiBot World Colosseo。研究团队希望回答一个核心问题:如何通过规模化机器人数据,推动通用操作智能的发展。
AgiBot World 平台汇集了超过 100 万条操作轨迹、217 个任务、5 种部署场景,其数据规模较以往公开数据集提升了一个数量级。整个系统由标准化采集管线与人机协同验证机制驱动,确保了数据的多样性与高质量。平台支持从机械夹爪到灵巧手、从视觉到触觉的多模态扩展,使得机器人能够习得更精细的操控技能。
基于该平台,作者提出了新的通用策略模型 Genie Operator-1(GO-1),通过潜在动作表示(latent action representations)提升数据利用率,实现了性能随数据量规模化提升的规律。实验表明,基于 AgiBot World 预训练的策略在域内与跨域任务中均比 Open X-Embodiment 模型高出约 30% 的表现,并在真实复杂长时任务中实现 60%+ 的成功率,较 RDT 提升 32%。团队已开源完整数据、模型与工具链,以期构建开放、可扩展的具身智能生态。

▲图 8|图中展示了 AgiBot World Colosseo 平台的整体概况。该平台由上百台双臂仿人机器人组成,覆盖丰富多样的操作任务场景,构建了前所未有规模与多样性的数据体系。研究团队同时提出了通用策略模型 GO-1,通过潜在动作规划在大规模数据上实现性能可扩展性,相较以往方法提升约 32%


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online