
LIBERO 是什么
LIBERO 是一个基于 robosuite 框架构建的综合性基准测试平台,专门用于研究多任务和终身机器人学习中的知识迁移。它聚焦于机器人操作任务,要求智能体掌握两类核心知识:
- 陈述性知识:理解物体属性及空间关系。
- 程序性知识:掌握具体的运动控制与行为序列。
核心原理与任务设计
任务生成机制
系统内置了程序化生成管道,理论上可生成无限数量的操作任务。目前包含 130 个任务,分为四个套件,每个套件都设计了受控的分布偏移以测试迁移能力:
- LIBERO-Spatial/Object/Goal:分别侧重特定类型知识的迁移。
- LIBERO-100:包含 100 个需要纠缠知识迁移的操作任务。
学习框架
由于任务通常使用稀疏奖励函数(仅任务完成时获得 +1 奖励),LIBERO 主要采用模仿学习。系统提供了高质量的人类遥操作演示数据集供模型训练。
策略网络架构
LIBERO 实现了三种视觉运动策略网络,均继承自 BasePolicy 基类:
bc_rnn_policy:基于 RNN 的行为克隆策略。bc_transformer_policy:基于 Transformer 的行为克隆策略。bc_vilt_policy:基于视觉 - 语言 Transformer 的行为克隆策略。
这三种网络的主要区别在于时序建模方式:RNN 使用 LSTM,Transformer 使用自注意力机制,而 ViLT 则采用双层 Transformer 分别处理空间和时序信息。
此外,系统支持五种终身学习算法:
base:顺序微调(基线)。er:经验回放(Experience Replay)。ewc:弹性权重巩固(Elastic Weight Consolidation)。packnet:渐进式网络架构方法。multitask:多任务学习(基线)。
任务套件概览
LIBERO 共包含 130 个任务,分为四个主要套件。其中 LIBERO-100 进一步划分为 LIBERO-90(预训练)和 LIBERO-10(下游持续学习测试)。系统支持 21 种不同的任务顺序排列,用于评估算法在不同序列下的表现。
1. LIBERO-Spatial(空间关系迁移)
这 10 个任务的核心目标都是将黑碗放到盘子上,但初始位置各异,例如拾取盘子与小碗之间的黑碗、桌子中央的黑碗、木柜抽屉内的黑碗等。重点考察对空间相对位置的适应能力。
2. LIBERO-Object(物体知识迁移)
任务均为将不同物体放入篮子,涉及字母汤罐头、奶油奶酪、沙拉酱、番茄酱、黄油、牛奶等多种物品。旨在测试模型对不同物体属性的泛化能力。
3. LIBERO-Goal(目标导向迁移)
涉及多样化的操作目标,如打开柜子中间抽屉、将酒瓶放到架子顶部、打开炉子、将碗推到炉子前等。重点评估目标导向行为的灵活性。
4. LIBERO-10(综合测试套件)
来自不同场景的复合操作任务,例如客厅场景中同时放入两种物品、厨房场景中打开炉子并放置摩卡壶、书房场景中整理书籍等。用于最终的性能评估。


