LIBERO 数据集详解:终身机器人学习与知识迁移基准

核心作用与定位
LIBERO 是一个基于 robosuite 框架构建的综合性基准测试平台,专为研究多任务和终身机器人学习中的知识迁移而设计。它聚焦于机器人操作任务,这类任务通常涉及两类关键知识的协同:
- 陈述性知识:关于物体属性及空间关系的理解。
- 程序性知识:关于具体运动轨迹和行为的执行能力。
核心原理与框架
任务生成与基准设计
LIBERO 提供了一个程序化生成管道,理论上可以生成无限数量的操作任务。系统目前包含 130 个任务,分为四个主要套件,每个套件都设计了受控的分布偏移以测试迁移能力:
- LIBERO-Spatial/Object/Goal:分别专注于特定类型知识的迁移测试。
- LIBERO-100:包含 100 个需要迁移纠缠知识的复杂操作任务。
在学习方法上,由于任务通常使用稀疏奖励函数(仅任务完成时获得 +1 奖励),系统主要采用模仿学习。这意味着我们需要依赖高质量的人类遥操作演示数据集来训练策略网络。
算法与策略架构
在视觉运动策略方面,LIBERO 实现了三种主流的行为克隆策略网络:
bc_rnn_policy:基于 RNN 的传统序列建模。bc_transformer_policy:利用 Transformer 捕捉长程依赖。bc_vilt_policy:结合视觉与语言信息的 Transformer 变体。
针对终身学习算法,系统内置了五种经典方案供对比:
base:顺序微调基线,无防遗忘机制。er(Experience Replay):经验回放,通过缓存旧数据混合训练。ewc(Elastic Weight Consolidation):弹性权重巩固,保护重要参数。packnet:渐进式网络剪枝,为不同任务分配子网。multitask:多任务学习基线,所有任务同时训练。
任务套件概览
LIBERO 共包含 130 个任务,划分为四个主要部分:
- LIBERO-Spatial(10 个任务):侧重空间关系迁移,例如将黑碗放到盘子上,但初始位置各异。
- LIBERO-Object(10 个任务):侧重物体知识迁移,如将不同罐头或酱料放入篮子。
- LIBERO-Goal(10 个任务):侧重目标导向迁移,涉及开抽屉、放瓶子等复合动作。
- LIBERO-100(100 个任务):综合测试套件,细分为用于预训练的 LIBERO-90 和用于测试下游持续学习性能的 LIBERO-10。
以 LIBERO-10 为例,这些任务来自不同场景,涉及复合操作,比如'客厅场景:将字母汤和番茄酱都放入篮子'或'厨房场景:打开炉子并将摩卡壶放上去'。系统还支持 21 种不同的任务顺序排列,用于评估算法在不同序列下的鲁棒性。
算法与网络架构详解
终身学习算法逻辑
这里简单梳理一下几种核心算法的工作流,方便大家理解其背后的设计思路:


