IROS 2025 精选论文盘点|从通用机器人到真实世界部署

IROS 2025 精选论文盘点|从通用机器人到真实世界部署

目录

Like Playing a Video Game: Spatial-Temporal Optimization of Foot Trajectories for Controlled Football Kicking in Bipedal Robots

Resilient Multi-Robot Target Tracking with Sensing and Communication Danger Zones

Autonomous Hiking Trail Navigation via Semantic Segmentation and Geometric Analysis

DRACo-SLAM2: Distributed Robust Acoustic Communication-efficient SLAM for Imaging Sonar Equipped Underwater Robot Teams with Object Graph Matching

FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields

Neural MP: A Generalist Neural Motion Planner

Interactive Navigation for Legged Manipulators with Learned Arm-Pushing Controller

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems


在所有投稿中,最受关注的莫过于官方评选出的 Award Finalist Papers——这些作品代表了今年全球机器人研究的最高水平:

从双足机器人动态控制与规划优化,到多机器人协作与鲁棒感知;

从自然场景下的自主导航,到水下分布式 SLAM 与多模态环境建图;

再到农业感知、智能操作与大规模通用数据平台。

接下来,就让我们一起看看——在 IROS2025 这些顶尖成果中,全球机器人研究者为“具身智能的未来”带来了哪些全新思路与突破。

由于 finalist 数量众多,受篇幅所限,部分内容未作详细展开,各位读者朋友可在 IROS 官网搜索或阅读原文。

Like Playing a Video Game: Spatial-Temporal Optimization of Foot Trajectories for Controlled Football Kicking in Bipedal Robots

链接https://arxiv.org/pdf/2510.01843

主要内容:这篇论文聚焦于一个既有趣又极具挑战性的课题——让双足机器人像人一样踢足球。在机器人足球比赛中,最大的难点之一是如何在激烈的动态动作中保持身体稳定,同时又能精确控制足球的方向与速度。以往的解决方案中,传统的基于位置控制的方法动作僵硬、灵活性差;强化学习虽具潜力,但在真实机器人上往往收敛慢、难以泛化。

作者提出了一种全新的 时空优化轨迹规划方法(Spatial-Temporal Trajectory Optimization),灵感来自无人机运动规划领域。该方法让机器人能自主生成满足目标约束(位置、速度、加速度)的脚部轨迹,并在规划过程中同时优化摆动阶段的时间长度。这种优化让机器人在执行踢球动作时,不再是“直线摆腿”,而是像人类那样有一个明显的回摆动作(backswing),在动能积累后完成更稳定、更有力的击球。

实验显示,这种方法的计算效率极高——轨迹规划时间低于1毫秒,同时在模拟与真实机器人实验中均展现出近乎 100% 的任务成功率,只要球门位于机器人正前方 -90° 到 90° 的范围内即可完成精准踢球。这意味着机器人不再只是机械执行动作,而开始具备了“像玩游戏一样”的空间与时间协调能力。

▲图1|图中展示了整套控制框架的工作流程:操作员首先输入控制指令,包括期望的机器人线速度与角速度,以及目标踢球位置与速度。状态估计器实时计算机器人当前的位姿、角速度及足部状态。步态生成器据此输出自适应步态计划,随后 MPC 模块(模型预测控制)在结合控制指令与步态信息后求解最优接触力与扭矩。与此同时,足部规划器根据任务需求生成参考轨迹,用于执行踢球或常规行走。最终,系统根据参考轨迹与最优力矩计算出各关节的控制力,实现高精度的动作执行

Resilient Multi-Robot Target Tracking with Sensing and Communication Danger Zones

链接https://arxiv.org/pdf/2409.11230

主要内容:这篇论文针对多机器人在复杂甚至敌对环境下的目标追踪问题,提出了一种具备高鲁棒性(resilient)的协同控制框架。当多个机器人需要在未知区域中同时追踪多个目标时,环境中可能存在感知盲区与通信危险区(danger zones)——这些区域会导致传感器失效、通信中断,甚至系统短暂瘫痪。传统算法往往假设感知与通信稳定,一旦出现干扰或攻击,任务性能便急剧下降。

作者创新性地提出了一种带软随机约束(soft chance constraints)的非线性优化方法,使机器人能够在感知与通信风险下实现实时自适应协同决策。该方法允许机器人在探测到潜在危险后主动调整轨迹、逃离风险区域,从而在不牺牲任务效率的情况下维持系统整体稳定。框架可动态平衡“目标追踪性能”与“系统韧性”,并根据不同类型的危险与故障概率自动调整协作策略。

在仿真与真实场景的多目标追踪实验中,该方法在面对临时通信中断或感知攻击时,依然保持了稳定的追踪效果,显著优于无自适应机制的传统方法,验证了其在真实环境中的实用性与鲁棒性。

▲图2|图中展示了多机器人系统在存在通信与感知危险区的环境中进行目标追踪的实验场景。蓝色区域代表通信危险区,红色区域代表感知危险区;红色“+”表示感知攻击,蓝色“+”表示通信攻击。左图为真实实验的俯视图,右图为在相同条件下的仿真结果

Autonomous Hiking Trail Navigation via Semantic Segmentation and Geometric Analysis

链接https://arxiv.org/pdf/2409.15671

主要内容:这篇论文聚焦于自然环境中的自主导航问题,特别是复杂且动态的徒步小径(hiking trails)。与结构化道路不同,山林步道会受到天气、植被生长、人类通行等因素影响,地形随时变化,给机器人带来巨大的感知与规划挑战。

作者提出了一种结合语义分割(Semantic Segmentation)与几何分析(Geometric Analysis)的新型自主导航方法系统首先利用摄像头获取的图像提取地面语义信息(如土路、草地、障碍物等),再结合激光雷达的几何结构数据生成可通行性地图(Traversability Map)。基于这张地图,规划器能够在保证安全的前提下选择合适路径——既能沿着步道行进,又能在遇到障碍、塌陷或危险区域时灵活选择离开主路的安全捷径。

论文通过仿真和实地实验评估了语义与几何信息在可通行性分析中的权重平衡。最终在西弗吉尼亚大学的自然步道场景中进行了野外验证,结果显示该方法能在复杂林地环境中保持稳健导航,准确识别可通行区域并灵活规避障碍,为真实自然场景下的自主导航提供了可行路径。

▲图3|图中展示了机器人在自然步道上进行实地测试的画面。机器人依托摄像头与激光雷达传感器生成的可通行性地图,实现了对复杂山路的自主导航,能够在林间地形变化和障碍物干扰下稳定前进

DRACo-SLAM2: Distributed Robust Acoustic Communication-efficient SLAM for Imaging Sonar Equipped Underwater Robot Teams with Object Graph Matching

链接https://arxiv.org/pdf/2507.23629

主要内容:这篇论文面向多机器人水下协同建图(SLAM)场景,提出了一个新一代的分布式鲁棒声学 SLAM 框架 —— DRACo-SLAM2。与以往依赖几何特征匹配的传统方法不同,水下环境光线受限、视觉信号衰减严重,声学成像(imaging sonar)成为主要感知手段。然而,声呐数据往往噪声高、结构模糊,导致跨机器人地图匹配与回环检测极具挑战。作者在原始 DRACo-SLAM 基础上提出两项关键改进:

● 对象图(Object Graph)表示:将声呐地图抽象为由检测到的关键对象构成的图结构,通过对象图匹配(Object Graph Matching)**实现跨机器人之间的高效回环检测,而无需依赖几何先验信息。

● 增量式组一致测量集最大化(Incremental GCM)算法:在原有 PCM(Pairwise Consistent Measurement)基础上改进,能够有效处理相邻回环约束中存在相似配准误差的情况,使系统在噪声条件下仍能保持全局一致性。

实验在仿真与真实数据集上进行,包括美国商船学院(U.S. Merchant Marine Academy)的实地测试。结果表明,DRACo-SLAM2 显著提升了多机器人间的协作精度与通信效率,在复杂水下环境中实现了稳定可靠的分布式建图性能。

▲图4|图中展示了 DRACo-SLAM2 在真实声呐数据上的实验结果。三台水下机器人在纽约国王角美国商船学院采集的数据集中协同建图,其优化后的轨迹与点云对齐在卫星图上。紫色线条表示机器人之间的测量约束,体现了系统在多机器人间实现的高一致性与稳健配准

FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields

链接https://arxiv.org/pdf/2505.19863

主要内容

这篇论文提出了一种基于神经辐射场(Neural Radiance Fields, NeRF)与对比学习(Contrastive Learning)的通用果实计数方法 —— FruitNeRF++。相比前作 FruitNeRF 需要针对每种水果单独适配模型的局限,FruitNeRF++ 实现了真正的多水果通用计数(multi-fruit counting),可在未经特定训练的情况下处理不同类型的果树场景。

具体来说,FruitNeRF++ 在 RGB 图像与语义信息的基础上,引入由视觉基础模型(如 SAM 与 Detic)预测的实例掩码(instance masks),从而在神经场中同时构建外观场、语义场与实例场。这些实例掩码通过嵌入为实例特征向量,使得系统能够在三维空间中区分不同果实。通过对神经场进行体积采样,研究者提取出带有实例特征的三维点云,并利用无类别(fruit-agnostic)的聚类算法完成果实的自动计数。

在包含苹果、李子、柠檬、梨、桃子和芒果的合成数据集以及真实苹果园数据上,FruitNeRF++ 展现出较强的泛化性与准确性,能够在复杂树冠结构与光照变化下保持稳定表现,同时简化了模型部署和调参过程,为农业场景下的视觉 3D 感知提供了高效解决方案。

▲图5|图中展示了 FruitNeRF++ 的整体流程。系统首先从果园图像中恢复相机的内外参,接着利用 SAM 与 Detic 模型提取任意果实类型的语义与实例掩码。随后,模型联合训练外观场、语义场与实例场,并通过三维点云聚类实现果实数量的精确统计

Neural MP: A Generalist Neural Motion Planner

链接https://arxiv.org/pdf/2409.05864

主要内容

这篇来自卡内基梅隆大学(CMU)的论文提出了一个面向多任务、多场景的通用神经运动规划器(Neural Motion Planner, Neural MP),旨在突破传统运动规划方法在复杂环境下计算耗时长、泛化性弱的问题。

传统规划器(如采样法与优化法)通常需要针对每个新任务从零开始搜索路径,尤其在高维、拥挤或动态场景中,往往需要数分钟才能找到一条可行路径。而人类在类似情境下能凭经验快速规划安全动作,这正是 Neural MP 希望模仿的能力。

Neural MP 的核心思路是:通过大规模数据驱动的学习,让模型具备“见多识广”的规划经验。研究团队在仿真中构建了大量复杂场景,利用传统规划器生成专家示范数据,再将这些数据蒸馏为一个反应式的通用神经策略网络(generalist neural policy)。在推理阶段,系统可基于当前环境快速生成无碰路径,并结合轻量级优化模块进行安全修正,从而实现真实世界中的稳定部署。

在包含 64 个任务、4 类不同环境的真实测试中,Neural MP 相比最先进的采样、优化和学习规划方法,分别提升了 23%、17% 和 79% 的成功率,并能在多样化场景中快速生成高质量路径,展现了“通用智能规划”的潜力。

▲图6|图中展示了 Neural MP 在真实世界多场景中的表现。单一的神经网络策略即可在多种任务与环境中快速生成无碰路径,显著快于传统与基于学习的规划方法,并实现更高的成功率与泛化性能

Interactive Navigation for Legged Manipulators with Learned Arm-Pushing Controller

链接https://arxiv.org/pdf/2503.01474

主要内容

这篇论文提出了一种具备主动交互能力的腿式操作机器人导航框架(Interactive Navigation),核心思想是——当路径被可移动障碍物阻挡时,机器人不再“被动绕开”,而是通过手臂推挤(arm-pushing)主动与环境交互,从而以更短的路径、高效地到达目标。

传统的交互式导航方法多依赖机器人自身的身体去推动障碍,但在狭窄空间中,这类方法容易受限于机器人尺寸,动作受阻、控制不稳。为此,作者引入了一种基于强化学习的手臂推挤控制器(Arm-Pushing Controller),并设计了两阶段奖励机制

1. 第一阶段,引导操作臂到达合适的推挤区域,确保运动学上可行;

2. 第二阶段,维持末端执行器在稳定接触点处进行受控推挤,实现平稳移动而不致物体倾倒。

仿真结果表明,该两阶段策略可显著加速策略收敛并提升长时性能;真实实验进一步验证了框架的有效性,机器人能在复杂、拥挤的空间中主动“推开”障碍,从而实现更短路径与更快通行。

▲图7|图中展示了腿式操作机器人在狭窄环境中利用学习型手臂推挤控制器进行主动导航的示意。右上角显示机器人通过手臂推动可移动障碍物,而红色曲线表示本方法生成的主动推挤路径,相比蓝色的传统无碰路径,能够更直接地抵达目标位置,从而显著缩短导航距离与时间

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

链接https://arxiv.org/pdf/2503.06669

主要内容

这篇论文提出了一个面向通用具身智能(Embodied Intelligence)的大规模机器人操作平台——AgiBot World Colosseo。研究团队希望回答一个核心问题:如何通过规模化机器人数据,推动通用操作智能的发展

AgiBot World 平台汇集了超过 100 万条操作轨迹、217 个任务、5 种部署场景,其数据规模较以往公开数据集提升了一个数量级。整个系统由标准化采集管线与人机协同验证机制驱动,确保了数据的多样性与高质量。平台支持从机械夹爪到灵巧手、从视觉到触觉的多模态扩展,使得机器人能够习得更精细的操控技能。

基于该平台,作者提出了新的通用策略模型 Genie Operator-1(GO-1),通过潜在动作表示(latent action representations)提升数据利用率,实现了性能随数据量规模化提升的规律。实验表明,基于 AgiBot World 预训练的策略在域内与跨域任务中均比 Open X-Embodiment 模型高出约 30% 的表现,并在真实复杂长时任务中实现 60%+ 的成功率,较 RDT 提升 32%。团队已开源完整数据、模型与工具链,以期构建开放、可扩展的具身智能生态。

▲图8|图中展示了 AgiBot World Colosseo 平台的整体概况。该平台由上百台双臂仿人机器人组成,覆盖丰富多样的操作任务场景,构建了前所未有规模与多样性的数据体系。研究团队同时提出了通用策略模型 GO-1,通过潜在动作规划在大规模数据上实现性能可扩展性,相较以往方法提升约 32%

回顾 IROS 2025,可以发现机器人研究正进入一个新的阶段——从单点突破走向系统智能,从实验验证迈向真实落地。无论是能主动交互、感知环境的腿式机器人,还是跨任务协作的多机器人系统,抑或能在真实世界稳定运行的具身大模型,都在说明:机器人正在成为“可持续学习的智能体”。

如果要用几个关键词概括 2025 年的研究焦点,它们会是:

● Scalability(规模化):从小样本到百万级数据,从单机学习到多机器人协作;

● Generalization(泛化性):通用控制策略、跨场景适应与多模态融合成为主流方向;

● Embodiment(具身智能):感知、语言、动作一体化,强调“理解世界并在其中行动”;

● Interaction(交互):机器人不再被动避障,而是主动调整、推挤、合作,参与到真实物理世界;

● Real Deployment(真实部署):仿真与现实的界限逐渐模糊,越来越多工作在户外、自然或工业场景中验证。

这些趋势表明,机器人研究的重心正从“算法的优雅”转向“智能的可用”。

2025 年的 IROS,不仅展示了学术创新的广度,也标志着具身智能时代正加速成形——机器人,正在真正学会与世界互动

Award Finalists:https://ras.papercept.net/conferences/conferences/IROS25/program/IROS25_ContentListWeb_1.html#tuat1

Read more

FPGA入门:CAN总线原理与Verilog代码详解

FPGA入门:CAN总线原理与Verilog代码详解

目录 一、CAN 总线核心原理 1. 物理层特性 2. 协议层核心概念 (1)位时序 (2)帧结构(标准数据帧) (3)关键机制 二、FPGA 实现 CAN 的核心模块 三、Verilog 代码实现(以 50MHz 时钟、1Mbps 波特率为例) 1. 全局参数定义 2. 位时序模块(CAN Bit Timing Generator) 3. CRC 计算模块(CAN CRC Generator) 4. 发送模块(CAN Transmitter) 5. 接收模块(CAN Receiver)

机器人全身控制浅谈:理解 WBC 的原理

机器人全身控制浅谈:理解 WBC 的原理

概念 WBC(Whole-Body Control,全身控制)是什么?机器人是由“各关节”组成的,其不是“各关节各玩各的”而是一个耦合的整体。在某个时刻可能要做很多事情,比如保持平衡(重心别出圈)、手/脚要动作到目标位置、躯干姿态不能乱、关节不能超限、脚下不能打滑。这些都是一系列任务的组合。 WBC的核心就是把这些任务(目标)和约束(物理/安全)写进一个小型优化问题,在每个控制周期(几百hz~1Khz)求解,得到**“当下这毫秒,各关节应该怎么动/用多大力”**。 一句话总结就是WBC就是用优化的方法求解出要给“关节多少力“”以便让机器的各个关节一起配合完成多个目标,且不违反物理与安全约束。 原理 动力学方程 要解释WBC的原理,那必须绕不开动力学方程,这里就先对动力学方程做个简单介绍。 M(q)v˙+h(q,v)

openclaw配置飞书(Feishu)机器人(2026.03.07)

openclaw配置飞书(Feishu)机器人(2026.03.07)

前提:你已经安装好openclaw,配置好了大模型。 可借鉴我另一篇博文:https://mp.ZEEKLOG.net/mp_blog/creation/editor/157513751 一、配置openclaw channel 打开终端,输入: openclaw config 开始安装,需要等一会,安装好需要你填飞书的App ID和App Secret,先放着,等执行下面的步骤 然 二、配置飞书机器人 , 获取App ID和App Secret 安装流程如下链接,太长了,不想编辑了,完成版本发布。 https://www.feishu.cn/content/article/7613711414611463386 1.配置事件长连接时,需要在openclaw上安装飞书SDK(如果步骤一没执行会长连接失败) 2.当然以上配还是有问题的,

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

前言 今26年3.11,一投资人微信上跟我说,“ 周老师好!最近在搞什么模型?今天USC大学发布的这个模型,请您评估看看?” 我当时回复她道,“这个我这个星期,抽时间解读一下,到时候再说一下我的看法哦” 对于本文要解读的Ψ0 1. 首先,作者在大规模第一视角人类视频(约800 小时的人类视频数据),和30 小时的真实世界机器人数据上对一个 VLM 主干进行自回归预训练,以获得具有良好泛化能力的视觉-动作表征 2. 随后,再在高质量的人形机器人数据上后训练一个基于流(flow-based)的动作专家,用于学习精确的机器人关节控制 个人认为,该工作在理念创新上 确实 挺不错的 1. 以规模不大的“人类第一视角数据和真实机器人交互数据”预训练vlm 再后训练、微调 避免一味 堆数据,毕竟 数据 很难是个头 2. 全身摇操系统 看起来 也组合的不错 更重要的是,虽然目前市面上loco-mani方向的工作已经不少了