终身机器人学习数据集 LIBERO 详解

在这里插入图片描述

1 LIBERO 的作用

在这里插入图片描述

LIBERO 是一个用于研究多任务和终身机器人学习中知识迁移的综合基准测试平台，基于 robosuite 框架构建。它专注于机器人操作任务，需要两类知识：

陈述性知识：关于物体和空间关系的知识
程序性知识：关于运动和行为的知识

2 核心原理

任务生成与基准设计

LIBERO 提供了一个程序化生成管道，原则上可以生成无限数量的操作任务。系统包含 130 个任务，分为四个任务套件，每个套件都有受控的分布偏移：

LIBERO-Spatial/Object/Goal：专注于特定类型知识的迁移
LIBERO-100：包含需要迁移纠缠知识的 100 个操作任务

学习框架

系统采用模仿学习作为主要学习方法，因为任务使用稀疏奖励函数（任务完成时获得 +1 奖励）。LIBERO 提供高质量的人类遥操作演示数据集用于训练。

算法与策略架构

LIBERO 实现了三种视觉运动策略网络：

bc_rnn_policy：基于 RNN 的行为克隆策略
bc_transformer_policy：基于 Transformer 的行为克隆策略
bc_vilt_policy：基于视觉 - 语言 Transformer 的行为克隆策略

以及五种终身学习算法：

base：顺序微调（基线）
er：经验回放（Experience Replay）
ewc：弹性权重巩固（Elastic Weight Consolidation）
packnet：渐进式网络架构方法
multitask：多任务学习（基线）

3 任务套件概览

LIBERO 包含130 个任务，分为四个主要任务套件：

LIBERO-Spatial（10 个任务）
LIBERO-Object（10 个任务）
LIBERO-Goal（10 个任务）
LIBERO-100（100 个任务）

LIBERO-100 进一步分为LIBERO-90（90 个任务，用于预训练）和LIBERO-10（10 个任务，用于测试下游持续学习性能）。

3.1 LIBERO-Spatial（空间关系迁移）

在这里插入图片描述

1 LIBERO 的作用

在这里插入图片描述

LIBERO 是一个用于研究多任务和终身机器人学习中知识迁移的综合基准测试平台，基于 robosuite 框架构建。它专注于机器人操作任务，需要两类知识：

陈述性知识：关于物体和空间关系的知识
程序性知识：关于运动和行为的知识

2 核心原理

任务生成与基准设计

LIBERO-Spatial/Object/Goal：专注于特定类型知识的迁移
LIBERO-100：包含需要迁移纠缠知识的 100 个操作任务

学习框架

算法与策略架构

LIBERO 实现了三种视觉运动策略网络：

bc_rnn_policy：基于 RNN 的行为克隆策略
bc_transformer_policy：基于 Transformer 的行为克隆策略
bc_vilt_policy：基于视觉 - 语言 Transformer 的行为克隆策略

以及五种终身学习算法：

base：顺序微调（基线）
er：经验回放（Experience Replay）
ewc：弹性权重巩固（Elastic Weight Consolidation）
packnet：渐进式网络架构方法
multitask：多任务学习（基线）

3 任务套件概览

LIBERO 包含130 个任务，分为四个主要任务套件：

LIBERO-Spatial（10 个任务）
LIBERO-Object（10 个任务）
LIBERO-Goal（10 个任务）
LIBERO-100（100 个任务）

LIBERO-100 进一步分为LIBERO-90（90 个任务，用于预训练）和LIBERO-10（10 个任务，用于测试下游持续学习性能）。

终身机器人学习数据集 LIBERO 详解

1 LIBERO 的作用

2 核心原理

任务生成与基准设计

学习框架

算法与策略架构

3 任务套件概览

3.1 LIBERO-Spatial（空间关系迁移）

终身机器人学习数据集 LIBERO 详解

1 LIBERO 的作用

2 核心原理

任务生成与基准设计

学习框架

算法与策略架构

3 任务套件概览

3.1 LIBERO-Spatial（空间关系迁移）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 LIBERO-Object（物体知识迁移）

3.3 LIBERO-Goal（目标导向迁移）

3.4 LIBERO-10（综合测试套件）

3.5 LIBERO-90

4 框架算法详解

4.1 终身学习算法

1. Sequential (base)

2. Experience Replay (ER)

3. Elastic Weight Consolidation (EWC)

4. PackNet

5. Multitask

4.2 神经网络架构

1. BCRNNPolicy

2. BCTransformerPolicy

3. BCViLTPolicy

5 待解决的问题

5.1. 知识迁移评估

5.2. 灾难性遗忘

5.3. 前向和后向迁移

6 实验评估方法

6.1 评估指标

6.2 实验流程

6.3 计算效率

7 下载及安装

7.1 项目下载

7.2 数据集下载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具