机器人操作(RM)是自主系统与环境物理交互并改变环境的核心能力。在众多学习范式中,模仿学习(IL)因能让机器人通过人类演示快速掌握复杂技能而备受关注。本综述系统回顾了基于模仿学习的机器人操作策略(RMP),重点分析代表性研究的技术实现、分类体系及演进历程。
策略分类体系
从控制策略角度,现有 RMP 主要分为动作生成和任务规划两大类。
1. 动作生成策略 根据动作类型分为连续动作和离散动作。
-
连续动作:主流方法包括扩散模型、流匹配和朴素回归。
- 扩散模型:如 Diffusion Policy (DP),将控制构建为条件去噪过程。后续发展出 3D Diffusion Policy 增强空间推理,EquiDiff 引入等变性提升数据效率。基础模型结合扩散,如 Octo、DiVLA,利用大规模视觉 - 语言知识实现通用行为。
- 流匹配:相比扩散模型推理更快。FMP 首次结合 VLM 的 affordance 与流匹配;π0 将预训练 VLM 与流匹配结合,继承互联网语义知识;GraspVLA 整合自回归感知与流匹配动作生成,展现零样本泛化能力。
- 朴素回归:认为视觉编码器负责特征提取,动作头仅需简单 MLP 回归。MVP、RoboUniView 等工作验证了自监督视觉预训练的有效性,OpenVLAOFT 进一步探索了 VLA 微调的关键设计。
-
离散动作:优势在于缩小解空间,但精度受限。
- 自回归模型:Gato、RT-1/2、PaLM-E 等将 Transformer 扩展至具身领域,实现多模态输入到动作输出的端到端映射。ACT 将低频控制打包为动作块提高效率;CoT-VLA 引入思维链推理增强规划能力。
- 朴素分类:HULC、BridgeVLA 将动作视为分类任务,PerAct 使用体素网格预测离散动作,SAM-E 利用 SAM 提取特征辅助预测。
2. 任务规划器策略
- 生成模型:SEDF 将抓取与运动规划解耦;A0 引入分层感知 affordance 扩散模型。
- 朴素分类:PerAct 及其改进版 RVT、Act3D,利用 3D 点云或体素进行位置预测。
- Affordance 预测:Clipport、RAM 等利用物体交互先验指导规划,3D-LOTUS 集成 VLM 提高泛化。
应用场景与基准测试
当前研究涵盖单任务、多任务及真实场景优化。常用基准包括 CALVIN(长时域指令)、RLBench(多样化任务)、LIBERO(语言条件任务)、Meta-World(元学习)及 Open-X Embodiment(大规模真实数据)。评估指标除成功率外,还包括任务完成时间、SPL(路径长度加权成功)及泛化性能下降值。
关键挑战与展望
尽管进展显著,该领域仍面临多重挑战:
- 泛化能力不足:策略对特定场景敏感,难以适应动态非结构化环境中的物体变化或光照干扰。
- 配置多样性:不同机器人硬件导致输入输出空间差异大,缺乏统一的基础模型适配方案。
- 基准标准化缺失:现有基准覆盖范围有限或部署困难,阻碍了跨研究的公平比较。
- 数据依赖:高质量专家数据采集成本高,需探索无动作数据预训练及数据增强技术。
- 协作与灵巧性:双臂协作和高自由度操作仍处于早期阶段。
未来方向包括设计仿生基础模型、利用 CoT 与 Affordance 先验知识、以及开发更高效的采样与持续学习策略,以推动可扩展、通用的具身智能发展。


