
背景与定位
LIBERO 是一个基于 robosuite 框架构建的综合基准测试平台,专为多任务和终身机器人学习中的知识迁移研究而设计。它聚焦于机器人操作任务,这类任务通常涉及两类核心知识:
- 陈述性知识:关于物体属性及空间关系的理解
- 程序性知识:关于运动控制与行为序列的执行
这种设计使得研究者能够系统性地评估智能体在不同分布偏移下的泛化能力。
核心机制
任务生成与分布偏移
LIBERO 提供了一个程序化生成管道,理论上可生成无限数量的操作任务。系统目前包含 130 个任务,分为四个主要套件,每个套件都引入了受控的分布偏移以测试迁移效果:
- LIBERO-Spatial/Object/Goal:分别专注于特定类型知识的迁移验证
- LIBERO-100:包含 100 个需要迁移纠缠知识的复杂操作任务
学习框架与策略
由于任务奖励函数较为稀疏(仅任务完成时获得 +1 奖励),系统采用模仿学习作为主要训练范式,依赖高质量的人类遥操作演示数据。
在视觉运动策略网络方面,LIBERO 实现了三种主流架构:
bc_rnn_policy:基于 RNN 的行为克隆策略bc_transformer_policy:基于 Transformer 的行为克隆策略bc_vilt_policy:基于视觉 - 语言 Transformer 的行为克隆策略
同时支持五种经典的终身学习算法:
base:顺序微调(基线)er:经验回放(Experience Replay)ewc:弹性权重巩固(Elastic Weight Consolidation)packnet:渐进式网络架构方法multitask:多任务学习(基线)
任务套件设计
LIBERO 共包含 130 个任务,划分为四个主要部分:
- LIBERO-Spatial(10 个任务):侧重空间关系迁移,例如将黑碗从不同位置拾取并放到盘子上。
- LIBERO-Object(10 个任务):侧重物体知识迁移,如将不同物品(汤罐头、黄油等)放入篮子。
- LIBERO-Goal(10 个任务):侧重目标导向迁移,涉及打开抽屉、放置酒瓶等多样化操作。
- LIBERO-100(100 个任务):综合测试套件,进一步细分为 LIBERO-90(预训练)和 LIBERO-10(下游持续学习测试)。
其中 LIBERO-10 的任务来自不同场景,涉及复合操作,例如在客厅场景中同时处理多个物体,或在厨房场景中组合开炉与放置摩卡壶的动作。
算法与策略架构
终身学习算法解析
顺序微调 (Sequential / base)
这是所有终身学习算法的基础类。原理很简单:按顺序在每个任务上训练策略网络,不采取任何防止遗忘的机制。每个任务开始时初始化优化器,通过 observe() 方法学习数据点,包括计算损失、反向传播及参数更新。


