为什么选择 LIBERO

LIBERO 是一个基于 robosuite 框架构建的综合基准测试平台,专门用于研究多任务和终身机器人学习中的知识迁移。它关注两类核心知识:关于物体和空间关系的陈述性知识,以及关于运动和行为的过程性知识。
核心设计思路
任务生成与分布偏移
系统提供了一个程序化生成管道,理论上可以生成无限数量的操作任务。目前包含 130 个任务,分为四个套件,每个套件都引入了受控的分布偏移,方便我们观察模型在不同场景下的泛化能力:
- LIBERO-Spatial/Object/Goal:专注于特定类型知识的迁移验证
- LIBERO-100:包含 100 个需要迁移纠缠知识的操作任务
学习框架与策略
由于任务通常使用稀疏奖励函数(仅任务完成时获得 +1 奖励),LIBERO 主要采用模仿学习作为训练方法,依赖高质量的人类遥操作演示数据。
视觉运动策略网络实现了三种主流架构:
bc_rnn_policy:基于 RNN 的行为克隆bc_transformer_policy:基于 Transformer 的行为克隆bc_vilt_policy:基于视觉 - 语言 Transformer 的行为克隆
同时支持五种经典的终身学习算法:
base:顺序微调(基线)er:经验回放(Experience Replay)ewc:弹性权重巩固(Elastic Weight Consolidation)packnet:渐进式网络剪枝multitask:多任务学习(基线)
任务套件详解
LIBERO 共包含 130 个任务,分为四个主要套件。其中 LIBERO-100 进一步细分为预训练的 LIBERO-90 和测试下游持续学习性能的 LIBERO-10。
1. LIBERO-Spatial(空间关系迁移)
这 10 个任务的核心逻辑一致:将黑碗放到盘子上,但初始位置不同。比如从桌子中央、饼干盒上、木柜抽屉中等不同位置拾取。这种设计旨在评估模型对空间相对位置的适应能力。
2. LIBERO-Object(物体知识迁移)
任务目标统一为将物体放入篮子,但物体种类各异,包括字母汤罐头、奶油奶酪、番茄酱、黄油、牛奶等。这里考察的是模型对不同物体属性的识别与操作泛化。
3. LIBERO-Goal(目标导向迁移)
涉及更复杂的操作目标,例如打开柜子中间抽屉、将酒瓶放到架子顶部、打开炉子等。这类任务要求模型理解动作序列与最终状态的关系。
4. LIBERO-10(综合测试)
来自不同场景的复合操作,例如客厅场景中同时放入两种物品,或厨房场景中打开炉子并放置摩卡壶。这 10 个任务用于评估模型在混合场景下的持续学习能力。
系统还支持 21 种不同的任务顺序排列,用于全面评估算法在不同序列下的表现。
算法与网络架构
终身学习算法原理
顺序微调 (Sequential)
这是所有算法的父类。原理很简单:按顺序在每个任务上训练策略网络,不采取任何防遗忘机制。每个任务开始时初始化优化器,通过 observe() 方法学习数据点。实际运行时会发现,随着任务增加,旧任务的性能会迅速下降。


