TRO 2026 G3M:基于图生成建模的视频预训练机器人操作
在机器人模仿学习中,高质量动作数据稀缺且采集成本高昂,而人类操作视频却海量存在。核心挑战在于如何从无标注视频中提取监督信号。北京理工大学提出的 G3M(Graph-to-Graphs Generative Modeling)框架提供了一种新思路:不再局限于像素级预测,而是转向图结构生成。
核心思路:从像素到拓扑
传统方法往往忽略物体间的结构关系,导致 sim-to-real 差距大。G3M 将视频帧抽象为图,通过生成未来图来指导控制策略。每一帧构建包含两类节点:
- 物体节点:利用分割模型提取 mask,采样表示物体状态。
- 视觉动作节点:不依赖关节状态,而是提取指尖或夹爪交互点。这本质上是建模物体与'交互点'的拓扑关系,实现了跨机器人甚至人机迁移。
属性感知分层图建模
针对软体、刚体等行为差异及长距离依赖问题,模型采用分层结构:
- 使用历史帧图结合 GNN 与 LSTM 自动预测物体属性,无需手动标注物理参数。
- 构建局部节点与全局 Root 节点的双向连接,既保留精细结构又建模空间关系。
图 - 像交互与扩散生成
为了对齐空间域与像素域,引入 2D 位置编码并通过交叉注意力机制建立桥梁:
Ẑh = CrossAttention(Zh + PEh, Zo + PEo)
未来状态具有多模态特性,因此采用 Diffusion Transformer (DiT) 预测顶点位置,边则根据距离自动构建。这种设计相当巧妙,避免了复杂的几何约束。
策略学习与实验效果
策略输入融合未来图序列、当前图像及本体感知,先预测未来结构再学习到达该结构的动作。在 LIBERO 130 任务中,仅用 20% 标注数据即超越 ATM、UniPi 等方法,平均提升超 19%。真实机器人实验鲁棒性增强显著,Franka 到 UR 的跨机器人迁移提升更是超过 35%,证明了图表示对'交互本质'的有效捕捉。
这种方法将视频预训练升级为结构级建模,利用图的归纳偏置抽象交互点,是机器人学习领域值得关注的方向。


