IROS 2025 精选论文盘点|从通用机器人到真实世界部署

IROS 2025 精选论文盘点|从通用机器人到真实世界部署

目录

Like Playing a Video Game: Spatial-Temporal Optimization of Foot Trajectories for Controlled Football Kicking in Bipedal Robots

Resilient Multi-Robot Target Tracking with Sensing and Communication Danger Zones

Autonomous Hiking Trail Navigation via Semantic Segmentation and Geometric Analysis

DRACo-SLAM2: Distributed Robust Acoustic Communication-efficient SLAM for Imaging Sonar Equipped Underwater Robot Teams with Object Graph Matching

FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields

Neural MP: A Generalist Neural Motion Planner

Interactive Navigation for Legged Manipulators with Learned Arm-Pushing Controller

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems


在所有投稿中,最受关注的莫过于官方评选出的 Award Finalist Papers——这些作品代表了今年全球机器人研究的最高水平:

从双足机器人动态控制与规划优化,到多机器人协作与鲁棒感知;

从自然场景下的自主导航,到水下分布式 SLAM 与多模态环境建图;

再到农业感知、智能操作与大规模通用数据平台。

接下来,就让我们一起看看——在 IROS2025 这些顶尖成果中,全球机器人研究者为“具身智能的未来”带来了哪些全新思路与突破。

由于 finalist 数量众多,受篇幅所限,部分内容未作详细展开,各位读者朋友可在 IROS 官网搜索或阅读原文。

Like Playing a Video Game: Spatial-Temporal Optimization of Foot Trajectories for Controlled Football Kicking in Bipedal Robots

链接https://arxiv.org/pdf/2510.01843

主要内容:这篇论文聚焦于一个既有趣又极具挑战性的课题——让双足机器人像人一样踢足球。在机器人足球比赛中,最大的难点之一是如何在激烈的动态动作中保持身体稳定,同时又能精确控制足球的方向与速度。以往的解决方案中,传统的基于位置控制的方法动作僵硬、灵活性差;强化学习虽具潜力,但在真实机器人上往往收敛慢、难以泛化。

作者提出了一种全新的 时空优化轨迹规划方法(Spatial-Temporal Trajectory Optimization),灵感来自无人机运动规划领域。该方法让机器人能自主生成满足目标约束(位置、速度、加速度)的脚部轨迹,并在规划过程中同时优化摆动阶段的时间长度。这种优化让机器人在执行踢球动作时,不再是“直线摆腿”,而是像人类那样有一个明显的回摆动作(backswing),在动能积累后完成更稳定、更有力的击球。

实验显示,这种方法的计算效率极高——轨迹规划时间低于1毫秒,同时在模拟与真实机器人实验中均展现出近乎 100% 的任务成功率,只要球门位于机器人正前方 -90° 到 90° 的范围内即可完成精准踢球。这意味着机器人不再只是机械执行动作,而开始具备了“像玩游戏一样”的空间与时间协调能力。

▲图1|图中展示了整套控制框架的工作流程:操作员首先输入控制指令,包括期望的机器人线速度与角速度,以及目标踢球位置与速度。状态估计器实时计算机器人当前的位姿、角速度及足部状态。步态生成器据此输出自适应步态计划,随后 MPC 模块(模型预测控制)在结合控制指令与步态信息后求解最优接触力与扭矩。与此同时,足部规划器根据任务需求生成参考轨迹,用于执行踢球或常规行走。最终,系统根据参考轨迹与最优力矩计算出各关节的控制力,实现高精度的动作执行

Resilient Multi-Robot Target Tracking with Sensing and Communication Danger Zones

链接https://arxiv.org/pdf/2409.11230

主要内容:这篇论文针对多机器人在复杂甚至敌对环境下的目标追踪问题,提出了一种具备高鲁棒性(resilient)的协同控制框架。当多个机器人需要在未知区域中同时追踪多个目标时,环境中可能存在感知盲区与通信危险区(danger zones)——这些区域会导致传感器失效、通信中断,甚至系统短暂瘫痪。传统算法往往假设感知与通信稳定,一旦出现干扰或攻击,任务性能便急剧下降。

作者创新性地提出了一种带软随机约束(soft chance constraints)的非线性优化方法,使机器人能够在感知与通信风险下实现实时自适应协同决策。该方法允许机器人在探测到潜在危险后主动调整轨迹、逃离风险区域,从而在不牺牲任务效率的情况下维持系统整体稳定。框架可动态平衡“目标追踪性能”与“系统韧性”,并根据不同类型的危险与故障概率自动调整协作策略。

在仿真与真实场景的多目标追踪实验中,该方法在面对临时通信中断或感知攻击时,依然保持了稳定的追踪效果,显著优于无自适应机制的传统方法,验证了其在真实环境中的实用性与鲁棒性。

▲图2|图中展示了多机器人系统在存在通信与感知危险区的环境中进行目标追踪的实验场景。蓝色区域代表通信危险区,红色区域代表感知危险区;红色“+”表示感知攻击,蓝色“+”表示通信攻击。左图为真实实验的俯视图,右图为在相同条件下的仿真结果

Autonomous Hiking Trail Navigation via Semantic Segmentation and Geometric Analysis

链接https://arxiv.org/pdf/2409.15671

主要内容:这篇论文聚焦于自然环境中的自主导航问题,特别是复杂且动态的徒步小径(hiking trails)。与结构化道路不同,山林步道会受到天气、植被生长、人类通行等因素影响,地形随时变化,给机器人带来巨大的感知与规划挑战。

作者提出了一种结合语义分割(Semantic Segmentation)与几何分析(Geometric Analysis)的新型自主导航方法系统首先利用摄像头获取的图像提取地面语义信息(如土路、草地、障碍物等),再结合激光雷达的几何结构数据生成可通行性地图(Traversability Map)。基于这张地图,规划器能够在保证安全的前提下选择合适路径——既能沿着步道行进,又能在遇到障碍、塌陷或危险区域时灵活选择离开主路的安全捷径。

论文通过仿真和实地实验评估了语义与几何信息在可通行性分析中的权重平衡。最终在西弗吉尼亚大学的自然步道场景中进行了野外验证,结果显示该方法能在复杂林地环境中保持稳健导航,准确识别可通行区域并灵活规避障碍,为真实自然场景下的自主导航提供了可行路径。

▲图3|图中展示了机器人在自然步道上进行实地测试的画面。机器人依托摄像头与激光雷达传感器生成的可通行性地图,实现了对复杂山路的自主导航,能够在林间地形变化和障碍物干扰下稳定前进

DRACo-SLAM2: Distributed Robust Acoustic Communication-efficient SLAM for Imaging Sonar Equipped Underwater Robot Teams with Object Graph Matching

链接https://arxiv.org/pdf/2507.23629

主要内容:这篇论文面向多机器人水下协同建图(SLAM)场景,提出了一个新一代的分布式鲁棒声学 SLAM 框架 —— DRACo-SLAM2。与以往依赖几何特征匹配的传统方法不同,水下环境光线受限、视觉信号衰减严重,声学成像(imaging sonar)成为主要感知手段。然而,声呐数据往往噪声高、结构模糊,导致跨机器人地图匹配与回环检测极具挑战。作者在原始 DRACo-SLAM 基础上提出两项关键改进:

● 对象图(Object Graph)表示:将声呐地图抽象为由检测到的关键对象构成的图结构,通过对象图匹配(Object Graph Matching)**实现跨机器人之间的高效回环检测,而无需依赖几何先验信息。

● 增量式组一致测量集最大化(Incremental GCM)算法:在原有 PCM(Pairwise Consistent Measurement)基础上改进,能够有效处理相邻回环约束中存在相似配准误差的情况,使系统在噪声条件下仍能保持全局一致性。

实验在仿真与真实数据集上进行,包括美国商船学院(U.S. Merchant Marine Academy)的实地测试。结果表明,DRACo-SLAM2 显著提升了多机器人间的协作精度与通信效率,在复杂水下环境中实现了稳定可靠的分布式建图性能。

▲图4|图中展示了 DRACo-SLAM2 在真实声呐数据上的实验结果。三台水下机器人在纽约国王角美国商船学院采集的数据集中协同建图,其优化后的轨迹与点云对齐在卫星图上。紫色线条表示机器人之间的测量约束,体现了系统在多机器人间实现的高一致性与稳健配准

FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields

链接https://arxiv.org/pdf/2505.19863

主要内容

这篇论文提出了一种基于神经辐射场(Neural Radiance Fields, NeRF)与对比学习(Contrastive Learning)的通用果实计数方法 —— FruitNeRF++。相比前作 FruitNeRF 需要针对每种水果单独适配模型的局限,FruitNeRF++ 实现了真正的多水果通用计数(multi-fruit counting),可在未经特定训练的情况下处理不同类型的果树场景。

具体来说,FruitNeRF++ 在 RGB 图像与语义信息的基础上,引入由视觉基础模型(如 SAM 与 Detic)预测的实例掩码(instance masks),从而在神经场中同时构建外观场、语义场与实例场。这些实例掩码通过嵌入为实例特征向量,使得系统能够在三维空间中区分不同果实。通过对神经场进行体积采样,研究者提取出带有实例特征的三维点云,并利用无类别(fruit-agnostic)的聚类算法完成果实的自动计数。

在包含苹果、李子、柠檬、梨、桃子和芒果的合成数据集以及真实苹果园数据上,FruitNeRF++ 展现出较强的泛化性与准确性,能够在复杂树冠结构与光照变化下保持稳定表现,同时简化了模型部署和调参过程,为农业场景下的视觉 3D 感知提供了高效解决方案。

▲图5|图中展示了 FruitNeRF++ 的整体流程。系统首先从果园图像中恢复相机的内外参,接着利用 SAM 与 Detic 模型提取任意果实类型的语义与实例掩码。随后,模型联合训练外观场、语义场与实例场,并通过三维点云聚类实现果实数量的精确统计

Neural MP: A Generalist Neural Motion Planner

链接https://arxiv.org/pdf/2409.05864

主要内容

这篇来自卡内基梅隆大学(CMU)的论文提出了一个面向多任务、多场景的通用神经运动规划器(Neural Motion Planner, Neural MP),旨在突破传统运动规划方法在复杂环境下计算耗时长、泛化性弱的问题。

传统规划器(如采样法与优化法)通常需要针对每个新任务从零开始搜索路径,尤其在高维、拥挤或动态场景中,往往需要数分钟才能找到一条可行路径。而人类在类似情境下能凭经验快速规划安全动作,这正是 Neural MP 希望模仿的能力。

Neural MP 的核心思路是:通过大规模数据驱动的学习,让模型具备“见多识广”的规划经验。研究团队在仿真中构建了大量复杂场景,利用传统规划器生成专家示范数据,再将这些数据蒸馏为一个反应式的通用神经策略网络(generalist neural policy)。在推理阶段,系统可基于当前环境快速生成无碰路径,并结合轻量级优化模块进行安全修正,从而实现真实世界中的稳定部署。

在包含 64 个任务、4 类不同环境的真实测试中,Neural MP 相比最先进的采样、优化和学习规划方法,分别提升了 23%、17% 和 79% 的成功率,并能在多样化场景中快速生成高质量路径,展现了“通用智能规划”的潜力。

▲图6|图中展示了 Neural MP 在真实世界多场景中的表现。单一的神经网络策略即可在多种任务与环境中快速生成无碰路径,显著快于传统与基于学习的规划方法,并实现更高的成功率与泛化性能

Interactive Navigation for Legged Manipulators with Learned Arm-Pushing Controller

链接https://arxiv.org/pdf/2503.01474

主要内容

这篇论文提出了一种具备主动交互能力的腿式操作机器人导航框架(Interactive Navigation),核心思想是——当路径被可移动障碍物阻挡时,机器人不再“被动绕开”,而是通过手臂推挤(arm-pushing)主动与环境交互,从而以更短的路径、高效地到达目标。

传统的交互式导航方法多依赖机器人自身的身体去推动障碍,但在狭窄空间中,这类方法容易受限于机器人尺寸,动作受阻、控制不稳。为此,作者引入了一种基于强化学习的手臂推挤控制器(Arm-Pushing Controller),并设计了两阶段奖励机制

1. 第一阶段,引导操作臂到达合适的推挤区域,确保运动学上可行;

2. 第二阶段,维持末端执行器在稳定接触点处进行受控推挤,实现平稳移动而不致物体倾倒。

仿真结果表明,该两阶段策略可显著加速策略收敛并提升长时性能;真实实验进一步验证了框架的有效性,机器人能在复杂、拥挤的空间中主动“推开”障碍,从而实现更短路径与更快通行。

▲图7|图中展示了腿式操作机器人在狭窄环境中利用学习型手臂推挤控制器进行主动导航的示意。右上角显示机器人通过手臂推动可移动障碍物,而红色曲线表示本方法生成的主动推挤路径,相比蓝色的传统无碰路径,能够更直接地抵达目标位置,从而显著缩短导航距离与时间

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

链接https://arxiv.org/pdf/2503.06669

主要内容

这篇论文提出了一个面向通用具身智能(Embodied Intelligence)的大规模机器人操作平台——AgiBot World Colosseo。研究团队希望回答一个核心问题:如何通过规模化机器人数据,推动通用操作智能的发展

AgiBot World 平台汇集了超过 100 万条操作轨迹、217 个任务、5 种部署场景,其数据规模较以往公开数据集提升了一个数量级。整个系统由标准化采集管线与人机协同验证机制驱动,确保了数据的多样性与高质量。平台支持从机械夹爪到灵巧手、从视觉到触觉的多模态扩展,使得机器人能够习得更精细的操控技能。

基于该平台,作者提出了新的通用策略模型 Genie Operator-1(GO-1),通过潜在动作表示(latent action representations)提升数据利用率,实现了性能随数据量规模化提升的规律。实验表明,基于 AgiBot World 预训练的策略在域内与跨域任务中均比 Open X-Embodiment 模型高出约 30% 的表现,并在真实复杂长时任务中实现 60%+ 的成功率,较 RDT 提升 32%。团队已开源完整数据、模型与工具链,以期构建开放、可扩展的具身智能生态。

▲图8|图中展示了 AgiBot World Colosseo 平台的整体概况。该平台由上百台双臂仿人机器人组成,覆盖丰富多样的操作任务场景,构建了前所未有规模与多样性的数据体系。研究团队同时提出了通用策略模型 GO-1,通过潜在动作规划在大规模数据上实现性能可扩展性,相较以往方法提升约 32%

回顾 IROS 2025,可以发现机器人研究正进入一个新的阶段——从单点突破走向系统智能,从实验验证迈向真实落地。无论是能主动交互、感知环境的腿式机器人,还是跨任务协作的多机器人系统,抑或能在真实世界稳定运行的具身大模型,都在说明:机器人正在成为“可持续学习的智能体”。

如果要用几个关键词概括 2025 年的研究焦点,它们会是:

● Scalability(规模化):从小样本到百万级数据,从单机学习到多机器人协作;

● Generalization(泛化性):通用控制策略、跨场景适应与多模态融合成为主流方向;

● Embodiment(具身智能):感知、语言、动作一体化,强调“理解世界并在其中行动”;

● Interaction(交互):机器人不再被动避障,而是主动调整、推挤、合作,参与到真实物理世界;

● Real Deployment(真实部署):仿真与现实的界限逐渐模糊,越来越多工作在户外、自然或工业场景中验证。

这些趋势表明,机器人研究的重心正从“算法的优雅”转向“智能的可用”。

2025 年的 IROS,不仅展示了学术创新的广度,也标志着具身智能时代正加速成形——机器人,正在真正学会与世界互动

Award Finalists:https://ras.papercept.net/conferences/conferences/IROS25/program/IROS25_ContentListWeb_1.html#tuat1

Read more

彻底弄懂Web Storage与Cookie:从机制到应用的全方位对比

彻底弄懂Web Storage与Cookie:从机制到应用的全方位对比

彻底弄懂Web Storage与Cookie:从机制到应用的全方位对比 * 引言 * 1. 什么是Cookie? * Cookie 的核心特性: * Cookie 流程图 * 2. 什么是Web Storage? * Web Storage 流程图 * 3. 核心区别深度解析(对标选项逐一解读) * a. 存储容量 * b. 网络流量(带宽浪费) * c. 作用域与跨域 * d. API 易用性 * e. 设计初衷 * f. 历史兼容与封装 * 4. 总结对比表 * 5. 应用场景建议 * 什么时候选 Cookie? * 什么时候选 Web Storage? * 6. 结语 🌺The Begin🌺点点关注,收藏不迷路🌺 引言 在前端开发中,

DeepSeek-R1-Distill-Qwen-1.5B从零部署:vLLM+Open-WebUI环境搭建教程

DeepSeek-R1-Distill-Qwen-1.5B从零部署:vLLM+Open-WebUI环境搭建教程 1. 为什么这款“小钢炮”值得你花30分钟装一遍 你有没有试过在一台只有4GB显存的旧笔记本上,跑一个数学推理能力接近80分(MATH数据集)、还能写Python函数、支持JSON输出、响应速度超过200 tokens/s的模型?不是幻想——DeepSeek-R1-Distill-Qwen-1.5B 就是这么个“反常识”的存在。 它不是参数堆出来的巨无霸,而是用80万条高质量R1推理链,对通义千问Qwen-1.5B做深度蒸馏后的成果。15亿参数,fp16整模仅3.0 GB;量化到GGUF-Q4后压缩至0.8 GB,连树莓派5或RK3588嵌入式板卡都能稳稳扛住。更关键的是:Apache 2.0协议,商用免费,不设门槛。 这不是“能跑就行”的玩具模型。它在MATH上拿80+、HumanEval超50、推理链保留率85%,日常写脚本、解方程、读文档、调API完全够用。

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

一、Atlas 300I Duo推理卡相关安装步骤 由于显存的瓶颈,48G的Atlas 300I Duo推理卡是没办法跑得起来DeepSeek-R1-Distill-Qwen-32B大语言模型的,这里换了一张96G版本的Atlas 300I Duo推理卡来跑,32B大语言模组除了对显存有要求,对服务器本身的内存条也有要求,在加载的过程中需要较大的内存,这里服务器的内存条内存为128GB 1.1 服务器系统与内核说明 服务器系统版本内核版本内存条内存S5000CKylin V104.19.90-89.11.v2401.ky10.aarch64128GB P.S.服务器安装好系统后先不要执行yum update -y更新,否则内核版本会从4.19.90-89.11升级到4.19.90-89.21,Atlas 300I Duo推理卡的driver包会安装失败 1.2 系统环境说明 本服务器IP地址:192.168.2.71 登录用户:

《Web 自动化测试入门:从概念到百度搜索实战全拆解》

《Web 自动化测试入门:从概念到百度搜索实战全拆解》

一、自动化的核心概念 1. 定义:通过自动方式替代人工操作完成任务,生活中常见案例(自动洒水机、自动洗手液、超市闸机)体现了 “减少人力消耗、提升效率 / 质量” 的特点。 2. 软件自动化测试的核心目的: * 用于回归测试:软件迭代新版本时,验证新增功能是否影响历史功能的正常运行。 3. 常见面试题解析: * 自动化测试不能完全取代人工测试:需人工编写脚本,且功能变更后需维护更新,可靠性未必优于人工。 * 自动化测试不能 “大幅度降低工作量”:仅能 “一定程度” 减少重复工作,需注意表述的严谨性。 二、自动化测试的分类 自动化是统称,包含多种类型,核心分类及说明如下: 分类说明接口自动化针对软件接口的测试,目的是验证接口的功能、性能、稳定性等。UI 自动化 针对软件界面的测试,包含: 1. 移动端自动化:通过模拟器在电脑上编写脚本,测试手机应用;稳定性较差(受设备、