
为什么选择 LIBERO
LIBERO 是一个基于 robosuite 框架构建的综合性基准测试平台,专为研究多任务和终身机器人学习中的知识迁移而设计。它聚焦于机器人操作任务,要求智能体掌握两类核心知识:
- 陈述性知识:理解物体属性与空间关系。
- 程序性知识:掌握具体的运动控制与行为序列。
核心机制
任务生成与分布偏移
系统内置一个程序化生成管道,理论上可生成无限数量的操作任务。目前包含 130 个标准任务,分为四个套件,每个套件都设计了受控的分布偏移以测试迁移能力:
- LIBERO-Spatial/Object/Goal:分别专注于特定类型知识的迁移评估。
- LIBERO-100:包含 100 个需要迁移纠缠知识的复杂操作任务。
学习框架与策略
由于任务通常使用稀疏奖励函数(仅任务完成时获得 +1 奖励),LIBERO 主要采用模仿学习。平台提供高质量的人类遥操作演示数据集用于训练。
视觉运动策略网络支持三种主流架构:
bc_rnn_policy:基于 RNN 的行为克隆。bc_transformer_policy:基于 Transformer 的行为克隆。bc_vilt_policy:基于视觉 - 语言 Transformer 的行为克隆。
终身学习算法
为了应对持续学习中的遗忘问题,LIBERO 实现了五种经典算法:
base:顺序微调基线,无防遗忘机制。er(Experience Replay):经验回放,维护旧任务数据缓冲区。ewc(Elastic Weight Consolidation):弹性权重巩固,保护重要参数。packnet:渐进式网络剪枝,为不同任务分配子网。multitask:多任务学习基线,所有任务同时训练。
任务套件详解
LIBERO 共包含 130 个任务,划分为四个主要部分。其中 LIBERO-100 进一步细分为 LIBERO-90(预训练)和 LIBERO-10(下游测试)。
空间关系迁移 (LIBERO-Spatial)
这 10 个任务的核心逻辑一致:将黑碗放到盘子上,但初始位置各异。例如从饼干盒、木柜抽屉、炉子或桌子中央拾取。这种设计旨在测试智能体对空间相对关系的泛化能力。
物体知识迁移 (LIBERO-Object)
任务目标统一为将物体放入篮子,但物体种类多达 10 种,包括字母汤罐头、奶油奶酪、番茄酱、黄油、牛奶等。重点在于识别不同物体并执行正确的抓取动作。
目标导向迁移 (LIBERO-Goal)
涉及更复杂的操作目标,如打开柜子抽屉、将酒瓶放至架子、将盘子推至炉前等。这类任务考验智能体对操作意图的理解及长程规划能力。
综合测试 (LIBERO-10)
来自客厅、厨房、书房等不同场景,涉及复合操作。例如'将白色杯子放到左边盘子,黄白杯子放到右边盘子'或'打开炉子并将摩卡壶放上去'。这些任务用于评估模型在未见场景下的持续学习能力。
系统还支持 21 种不同的任务顺序排列,允许研究者评估算法在不同序列下的鲁棒性。


