G3M:基于图生成建模的视频预训练机器人操作
论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
一、问题背景:视频数据能不能替代昂贵的机器人动作数据?
在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:
- 高质量 action-labeled 机器人数据采集成本极高
- 人工示教效率低
- 跨机器人迁移困难
相比之下:
- 人类操作视频海量存在
- 无标注视频易获取
- 包含丰富的物理与行为知识
问题在于:
视频没有动作标签,如何转化为可用于策略学习的监督信号?
这篇 TRO 2026 论文提出了一种非常有意思的解决方案:
二、方法核心:从视频帧构建图结构

核心思想:
不再从'像素预测像素',
而是从'图'预测'图'。
传统视频预训练方法的问题:
- 在 pixel-level 建模
- 忽略物体之间结构关系
- 难以表达拓扑与交互
- sim-to-real gap 大
G3M 的核心改进是:
- 将视频帧抽象为图结构
- 预训练模型生成未来图
- 使用生成图指导控制策略
三、Graph 表示设计
每一帧构建图:
1️⃣ Object Vertices(物体节点)
- 分割模型提取 mask
- 在物体区域均匀采样点
- 表示物体状态
2️⃣ Visual Action Vertices(视觉动作节点)
创新点在这里。
不是直接用机器人关节状态,而是:
- 人类视频 → 提取指尖关键点
- 机器人视频 → 提取 gripper 关键交互点
这本质上是在建模:
物体与'交互点'的拓扑关系
这样可以实现:
- 跨机器人迁移
- 跨人机迁移
- 抽象'操作本质'
四、Property-Aware Hierarchical Graph Modeling
论文解决两个难点:
难点 1:物体属性差异
软体、刚体、弹性物体行为不同。
做法:
- 使用历史 H 帧图
- GNN 提取对象特征
- LSTM 建模时间依赖


