LIBERO 数据集：终身机器人学习与知识迁移基准

LIBERO 框架概览

核心架构与任务设计

LIBERO 是一个基于 robosuite 框架构建的综合性基准测试平台，专为研究多任务和终身机器人学习中的知识迁移而设计。它聚焦于机器人操作任务，涵盖陈述性知识与程序性知识两大维度。

LIBERO 提供了程序化生成管道，理论上可生成无限数量的操作任务。系统内置 130 个任务，分为四个主要套件，每个套件都引入了受控的分布偏移以测试迁移能力：

LIBERO-Spatial/Object/Goal：分别侧重空间关系、物体识别与目标导向知识的迁移。
LIBERO-100：包含 100 个需要纠缠知识迁移的操作任务。

其中 LIBERO-100 进一步细分为用于预训练的 LIBERO-90 和用于测试下游持续学习性能的 LIBERO-10。这 10 个测试任务来自不同场景，涉及复杂的复合操作，例如将特定物品放入篮子、打开抽屉或关闭微波炉等。

任务套件详解

1. LIBERO-Spatial（空间关系迁移）

这 10 个任务都涉及将黑碗放到盘子上，但黑碗的初始位置不同，包括拾取盘子和小碗之间、桌子中央、饼干盒上、木柜顶部抽屉等多种场景。

2. LIBERO-Object（物体知识迁移）

这 10 个任务都是将不同物体放入篮子，涉及字母汤罐头、奶油奶酪、沙拉酱、烧烤酱、番茄酱、黄油、牛奶、巧克力布丁及橙汁等常见物品。

3. LIBERO-Goal（目标导向迁移）

这 10 个任务涉及不同的操作目标，如打开柜子中间抽屉、将碗放到炉子、酒瓶放至柜子顶部、打开炉子或将奶油奶酪放入碗中等。

4. LIBERO-10（综合测试套件）

这 10 个任务来自不同场景，涉及复合操作，例如客厅场景中将两种物品同时放入篮子，厨房场景中打开炉子并放置摩卡壶，或书房场景中将书放入收纳盒后部隔间等。

学习框架与算法

由于任务通常使用稀疏奖励函数（仅完成任务时获得 +1 奖励），LIBERO 采用模仿学习作为主要方法，利用高质量的人类遥操作演示数据进行训练。

视觉运动策略网络

系统实现了三种主要的行为克隆策略，均继承自 BasePolicy 基类，主要区别在于时序建模方式：

bc_rnn_policy：基于 RNN 的行为克隆，使用 LSTM 处理时序信息。
bc_transformer_policy：基于 Transformer 的行为克隆，利用自注意力机制捕捉依赖。
bc_vilt_policy：基于视觉 - 语言 Transformer 的行为克隆，采用双层 Transformer 分别处理空间和时序信息。

终身学习算法

为了应对终身学习中的灾难性遗忘问题，LIBERO 集成了五种经典算法：

Sequential (base)：顺序微调基线，无防遗忘机制，按顺序在每个任务上训练策略网络。
Experience Replay (ER)：经验回放算法，维护旧任务数据缓冲区，混合训练防止遗忘。
Elastic Weight Consolidation (EWC)：弹性权重巩固，通过 Fisher 信息矩阵保护重要参数不被修改。
Packnet：渐进式网络剪枝，为每个任务分配网络的不同子集，任务结束后进行剪枝。
Multitask：多任务学习基线，所有任务同时训练。

LIBERO 数据集：终身机器人学习与知识迁移基准