最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作
最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作
论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。
一、问题背景:视频数据能不能替代昂贵的机器人动作数据?
在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:
- 高质量 action-labeled 机器人数据采集成本极高
- 人工示教效率低
- 跨机器人迁移困难
相比之下:
- 人类操作视频海量存在
- 无标注视频易获取
- 包含丰富的物理与行为知识
问题在于:
视频没有动作标签,如何转化为可用于策略学习的监督信号?
这篇TRO 2026论文提出了一种非常有意思的解决方案:
G3M:Graph-to-Graphs Generative Modeling

核心思想:
不再从“像素预测像素”,
而是从“图”预测“图”。
二、方法核心:从视频帧构建图结构
传统视频预训练方法的问题:
- 在 pixel-level 建模
- 忽略物体之间结构关系
- 难以表达拓扑与交互
- sim-to-real gap 大
G3M 的核心改进是:
- 将视频帧抽象为图结构
- 预训练模型生成未来图
- 使用生成图指导控制策略
三、Graph 表示设计
每一帧构建图:
1️⃣ Object Vertices(物体节点)
- 分割模型提取 mask
- 在物体区域均匀采样点
- 表示物体状态
2️⃣ Visual Action Vertices(视觉动作节点)
创新点在这里。
不是直接用机器人关节状态,而是:
- 人类视频 → 提取指尖关键点
- 机器人视频 → 提取 gripper 关键交互点
这本质上是在建模:
物体与“交互点”的拓扑关系
这样可以实现:
- 跨机器人迁移
- 跨人机迁移
- 抽象“操作本质”
四、Property-Aware Hierarchical Graph Modeling
论文解决两个难点:
难点1:物体属性差异
软体、刚体、弹性物体行为不同。
做法:
- 使用历史H帧图
- GNN提取对象特征
- LSTM建模时间依赖
- 自动预测物体属性
这样无需手动标注物理参数。
难点2:局部结构 vs 长距离依赖
提出 Hierarchical Graph:
- 局部节点
- 聚类形成全局 root 节点
- root-to-root fully connected
- leaf-to-root 双向连接
实现:
- 保留局部精细结构
- 同时建模全局空间关系
五、Graph-Image Interaction
Graph embedding 在空间域
Image embedding 在像素域
如何对齐?
论文提出:
- 为 graph 和 image 加 2D positional encoding
- 使用 cross-attention 建立空间-像素桥梁
核心公式:
Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 实现:
空间-像素语义对齐
六、使用 Diffusion 生成未来图
未来状态是多模态的。
因此采用:
- Diffusion Transformer (DiT)
预测:
p(G_t:t+F | Z_graph, Z_img, Z_text)
只生成:
- 顶点位置
- 边根据距离自动构建
这是一个非常优雅的设计。
七、Graph-Guided Policy
策略输入:
- 未来图序列
- 当前图像
- 机器人 proprioception
通过 Transformer 融合后输出动作。
本质:
先预测未来结构
再让策略学习如何到达该结构
八、实验结果
1️⃣ LIBERO 130任务
- 仅用 20% action-labeled 数据
- 超越 ATM、UniPi 等方法
- 平均提升 >19%
2️⃣ 真实机器人实验
- 提升 >23%
- 显著增强鲁棒性
3️⃣ 跨机器人迁移
Franka → UR:
- 提升 >35%
说明图表示确实学到了“交互本质”。
九、核心贡献总结
- 提出 Graph-to-Graphs 视频预训练框架
- 引入 Action-informed transferable graph
- 提出 property-aware hierarchical graph modeling
- 设计 graph-image interaction 机制
- 显著提升低数据场景性能
十、方法思考
G3M 的真正价值在于:
- 把视频预训练从“像素级预测”升级为“结构级建模”
- 利用图的 relational inductive bias
- 抽象交互点而非依赖机器人形态
这是一种非常值得关注的方向。
更多技术拆解
本文为论文技术结构梳理版本。
如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):
👉 公众号文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在公众号里做了更详细的模块拆解与实验分析。
作者:石去皿
公众号:AI软开笔记