
LIBERO 是什么?
LIBERO 是一个基于 Robosuite 框架构建的综合性基准测试平台,专门用于研究多任务和终身机器人学习中的知识迁移问题。它聚焦于机器人操作任务,这类任务通常需要两类核心知识:陈述性知识(关于物体和空间关系)以及程序性知识(关于运动和行为)。

核心机制与算法
任务生成与基准设计
LIBERO 提供了一个程序化生成管道,理论上可以生成无限数量的操作任务。系统目前包含 130 个任务,分为四个主要套件,每个套件都设计了受控的分布偏移,以测试不同维度的迁移能力。
学习框架
由于任务通常使用稀疏奖励函数(仅完成任务时获得 +1 奖励),LIBERO 主要采用模仿学习。平台提供了高质量的人类遥操作演示数据集供模型训练。
策略网络架构
LIBERO 实现了三种视觉运动策略网络,均继承自 BasePolicy 基类,通过行为克隆从人类演示中学习:
- BCRNNPolicy:基于 RNN 的行为克隆策略,利用 LSTM 处理时序信息。
- BCTransformerPolicy:基于 Transformer 的策略,使用自注意力机制捕捉长程依赖。
- BCViLTPolicy:基于视觉 - 语言 Transformer 的策略,采用双层 Transformer 分别处理空间和时序信息。
终身学习算法
为了应对持续学习中的灾难性遗忘,LIBERO 集成了五种主流算法:
- Sequential (base):顺序微调基线,按顺序在每个任务上训练,无防遗忘机制。
- Experience Replay (ER):经验回放,维护旧任务数据缓冲区,混合新旧数据训练。
- Elastic Weight Consolidation (EWC):弹性权重巩固,通过 Fisher 信息矩阵保护重要参数。
- PackNet:渐进式网络剪枝,为每个任务分配不同的网络子集。
- Multitask:多任务学习基线,所有任务同时训练。
任务套件详解
LIBERO 共包含 130 个任务,分为四个主要套件,支持 21 种不同的任务顺序排列以评估算法在不同序列下的表现。
1. LIBERO-Spatial(空间关系迁移)
这 10 个任务的核心目标一致(将黑碗放到盘子上),但初始位置各异,旨在测试智能体对空间关系的泛化能力。例如:拾取盘子和小碗之间的黑碗、拾取桌子中央的黑碗等。
2. LIBERO-Object(物体知识迁移)
这 10 个任务要求将不同物体放入篮子,涉及多种物体识别与抓取策略。包括字母汤罐头、奶油奶酪、番茄酱、牛奶、巧克力布丁等常见物品。
3. LIBERO-Goal(目标导向迁移)
这 10 个任务涉及不同的操作目标,如打开柜子抽屉、将酒瓶放到架子顶部、将碗推到炉子前面等,测试智能体对特定目标的达成能力。


