LIBERO 数据集:终身机器人学习与知识迁移基准

核心架构与任务设计
LIBERO 是一个基于 robosuite 框架构建的综合性基准测试平台,专为研究多任务和终身机器人学习中的知识迁移而设计。它聚焦于机器人操作任务,涵盖陈述性知识与程序性知识两大维度。
LIBERO 提供了程序化生成管道,理论上可生成无限数量的操作任务。系统内置 130 个任务,分为四个主要套件,每个套件都引入了受控的分布偏移以测试迁移能力:
- LIBERO-Spatial/Object/Goal:分别侧重空间关系、物体识别与目标导向知识的迁移。
- LIBERO-100:包含 100 个需要纠缠知识迁移的操作任务。
其中 LIBERO-100 进一步细分为用于预训练的 LIBERO-90 和用于测试下游持续学习性能的 LIBERO-10。这 10 个测试任务来自不同场景,涉及复杂的复合操作,例如将特定物品放入篮子、打开抽屉或关闭微波炉等。
任务套件详解
1. LIBERO-Spatial(空间关系迁移)
这 10 个任务都涉及将黑碗放到盘子上,但黑碗的初始位置不同,包括拾取盘子和小碗之间、桌子中央、饼干盒上、木柜顶部抽屉等多种场景。
2. LIBERO-Object(物体知识迁移)
这 10 个任务都是将不同物体放入篮子,涉及字母汤罐头、奶油奶酪、沙拉酱、烧烤酱、番茄酱、黄油、牛奶、巧克力布丁及橙汁等常见物品。
3. LIBERO-Goal(目标导向迁移)
这 10 个任务涉及不同的操作目标,如打开柜子中间抽屉、将碗放到炉子、酒瓶放至柜子顶部、打开炉子或将奶油奶酪放入碗中等。
4. LIBERO-10(综合测试套件)
这 10 个任务来自不同场景,涉及复合操作,例如客厅场景中将两种物品同时放入篮子,厨房场景中打开炉子并放置摩卡壶,或书房场景中将书放入收纳盒后部隔间等。
学习框架与算法
由于任务通常使用稀疏奖励函数(仅完成任务时获得 +1 奖励),LIBERO 采用模仿学习作为主要方法,利用高质量的人类遥操作演示数据进行训练。
视觉运动策略网络
系统实现了三种主要的行为克隆策略,均继承自 BasePolicy 基类,主要区别在于时序建模方式:
- bc_rnn_policy:基于 RNN 的行为克隆,使用 LSTM 处理时序信息。
- bc_transformer_policy:基于 Transformer 的行为克隆,利用自注意力机制捕捉依赖。
- bc_vilt_policy:基于视觉 - 语言 Transformer 的行为克隆,采用双层 Transformer 分别处理空间和时序信息。
终身学习算法
为了应对终身学习中的灾难性遗忘问题,LIBERO 集成了五种经典算法:
- Sequential (base):顺序微调基线,无防遗忘机制,按顺序在每个任务上训练策略网络。
- Experience Replay (ER):经验回放算法,维护旧任务数据缓冲区,混合训练防止遗忘。
- Elastic Weight Consolidation (EWC):弹性权重巩固,通过 Fisher 信息矩阵保护重要参数不被修改。
- Packnet:渐进式网络剪枝,为每个任务分配网络的不同子集,任务结束后进行剪枝。
- Multitask:多任务学习基线,所有任务同时训练。


