TRO 2026 G3M：基于图生成建模的视频预训练机器人操作

在机器人模仿学习中，高质量动作数据稀缺且采集成本高昂，而人类操作视频却海量存在。核心挑战在于如何从无标注视频中提取监督信号。北京理工大学提出的 G3M（Graph-to-Graphs Generative Modeling）框架提供了一种新思路：不再局限于像素级预测，而是转向图结构生成。

核心思路：从像素到拓扑

传统方法往往忽略物体间的结构关系，导致 sim-to-real 差距大。G3M 将视频帧抽象为图，通过生成未来图来指导控制策略。每一帧构建包含两类节点：

物体节点：利用分割模型提取 mask，采样表示物体状态。
视觉动作节点：不依赖关节状态，而是提取指尖或夹爪交互点。这本质上是建模物体与'交互点'的拓扑关系，实现了跨机器人甚至人机迁移。

属性感知分层图建模

针对软体、刚体等行为差异及长距离依赖问题，模型采用分层结构：

使用历史帧图结合 GNN 与 LSTM 自动预测物体属性，无需手动标注物理参数。
构建局部节点与全局 Root 节点的双向连接，既保留精细结构又建模空间关系。

图 - 像交互与扩散生成

为了对齐空间域与像素域，引入 2D 位置编码并通过交叉注意力机制建立桥梁：

Ẑh = CrossAttention(Zh + PEh, Zo + PEo)

未来状态具有多模态特性，因此采用 Diffusion Transformer (DiT) 预测顶点位置，边则根据距离自动构建。这种设计相当巧妙，避免了复杂的几何约束。

策略学习与实验效果

策略输入融合未来图序列、当前图像及本体感知，先预测未来结构再学习到达该结构的动作。在 LIBERO 130 任务中，仅用 20% 标注数据即超越 ATM、UniPi 等方法，平均提升超 19%。真实机器人实验鲁棒性增强显著，Franka 到 UR 的跨机器人迁移提升更是超过 35%，证明了图表示对'交互本质'的有效捕捉。

这种方法将视频预训练升级为结构级建模，利用图的归纳偏置抽象交互点，是机器人学习领域值得关注的方向。

TRO 2026 G3M：基于图生成建模的视频预训练机器人操作