G3M：基于图生成建模的视频预训练机器人操作

论文：Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊：IEEE Transactions on Robotics (TRO 2026)
单位：北京理工大学
DOI: 10.1109/TRO.2026.3658211

一、问题背景：视频数据能不能替代昂贵的机器人动作数据？

在机器人模仿学习（Imitation Learning）中，一个核心瓶颈是：

高质量 action-labeled 机器人数据采集成本极高
人工示教效率低
跨机器人迁移困难

相比之下：

人类操作视频海量存在
无标注视频易获取
包含丰富的物理与行为知识

问题在于：

视频没有动作标签，如何转化为可用于策略学习的监督信号？

这篇 TRO 2026 论文提出了一种非常有意思的解决方案：

二、方法核心：从视频帧构建图结构

在这里插入图片描述

核心思想：

不再从'像素预测像素'，
而是从'图'预测'图'。

传统视频预训练方法的问题：

在 pixel-level 建模
忽略物体之间结构关系
难以表达拓扑与交互
sim-to-real gap 大

G3M 的核心改进是：

将视频帧抽象为图结构
预训练模型生成未来图
使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图：

1️⃣ Object Vertices（物体节点）

分割模型提取 mask
在物体区域均匀采样点
表示物体状态

2️⃣ Visual Action Vertices（视觉动作节点）

创新点在这里。

不是直接用机器人关节状态，而是：

人类视频 → 提取指尖关键点
机器人视频 → 提取 gripper 关键交互点

这本质上是在建模：

物体与'交互点'的拓扑关系

这样可以实现：

跨机器人迁移
跨人机迁移
抽象'操作本质'

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点：

难点 1：物体属性差异

软体、刚体、弹性物体行为不同。

做法：

使用历史 H 帧图
GNN 提取对象特征
LSTM 建模时间依赖

G3M：基于图生成建模的视频预训练机器人操作

G3M：基于图生成建模的视频预训练机器人操作

一、问题背景：视频数据能不能替代昂贵的机器人动作数据？

二、方法核心：从视频帧构建图结构

三、Graph 表示设计

1️⃣ Object Vertices（物体节点）

2️⃣ Visual Action Vertices（视觉动作节点）

四、Property-Aware Hierarchical Graph Modeling

难点 1：物体属性差异

更多推荐文章

相关免费在线工具

难点 2：局部结构 vs 长距离依赖

五、Graph-Image Interaction

六、使用 Diffusion 生成未来图

七、Graph-Guided Policy

八、实验结果

1️⃣ LIBERO 130 任务

2️⃣ 真实机器人实验

3️⃣ 跨机器人迁移

九、核心贡献总结

十、方法思考

更多推荐文章

相关免费在线工具

G3M：基于图生成建模的视频预训练机器人操作

G3M：基于图生成建模的视频预训练机器人操作

一、问题背景：视频数据能不能替代昂贵的机器人动作数据？

二、方法核心：从视频帧构建图结构

三、Graph 表示设计

1️⃣ Object Vertices（物体节点）

2️⃣ Visual Action Vertices（视觉动作节点）

四、Property-Aware Hierarchical Graph Modeling

难点 1：物体属性差异

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

难点 2：局部结构 vs 长距离依赖

五、Graph-Image Interaction

六、使用 Diffusion 生成未来图

七、Graph-Guided Policy

八、实验结果

1️⃣ LIBERO 130 任务

2️⃣ 真实机器人实验

3️⃣ 跨机器人迁移

九、核心贡献总结

十、方法思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具