G3M:基于图生成建模的视频预训练机器人操作
该论文提出 G3M 框架,通过图对图的生成建模实现视频预训练机器人操作。核心在于将视频帧抽象为图结构,引入视觉动作节点以建模物体交互拓扑,支持跨机器人及人机迁移。方法包含属性感知分层图建模、图图像交互机制及扩散模型生成未来状态。实验表明在 LIBERO 130 任务及真实机器人场景中显著优于现有方法,尤其在低数据标注情况下表现突出。

该论文提出 G3M 框架,通过图对图的生成建模实现视频预训练机器人操作。核心在于将视频帧抽象为图结构,引入视觉动作节点以建模物体交互拓扑,支持跨机器人及人机迁移。方法包含属性感知分层图建模、图图像交互机制及扩散模型生成未来状态。实验表明在 LIBERO 130 任务及真实机器人场景中显著优于现有方法,尤其在低数据标注情况下表现突出。

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation 期刊:IEEE Transactions on Robotics (TRO 2026) 单位:北京理工大学 DOI: 10.1109/TRO.2026.3658211
在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:
相比之下:
问题在于:
视频没有动作标签,如何转化为可用于策略学习的监督信号?
这篇 TRO 2026 论文提出了一种非常有意思的解决方案。

核心思想:
不再从'像素预测像素', 而是从'图'预测'图'。
传统视频预训练方法的问题:
G3M 的核心改进是:
每一帧构建图:
创新点在这里。
不是直接用机器人关节状态,而是:
这本质上是在建模:
物体与'交互点'的拓扑关系
这样可以实现:
论文解决两个难点:
软体、刚体、弹性物体行为不同。
做法:
这样无需手动标注物理参数。
提出 Hierarchical Graph:
实现:
Graph embedding 在空间域 Image embedding 在像素域
如何对齐?
论文提出:
核心公式:
Ẑh = CrossAttention(Zh + PEh, Zo + PEo)
实现:
空间 - 像素语义对齐
未来状态是多模态的。
因此采用:
预测:
p(G_t:t+F | Z_graph, Z_img, Z_text)
只生成:
这是一个非常优雅的设计。
策略输入:
通过 Transformer 融合后输出动作。
本质:
先预测未来结构 再让策略学习如何到达该结构
Franka → UR:
说明图表示确实学到了'交互本质'。
G3M 的真正价值在于:
这是一种非常值得关注的方向。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online