最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景:视频数据能不能替代昂贵的机器人动作数据?

在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:

  • 高质量 action-labeled 机器人数据采集成本极高
  • 人工示教效率低
  • 跨机器人迁移困难

相比之下:

  • 人类操作视频海量存在
  • 无标注视频易获取
  • 包含丰富的物理与行为知识

问题在于:

视频没有动作标签,如何转化为可用于策略学习的监督信号?

这篇TRO 2026论文提出了一种非常有意思的解决方案:


G3M:Graph-to-Graphs Generative Modeling

在这里插入图片描述

核心思想:

不再从“像素预测像素”,
而是从“图”预测“图”。

二、方法核心:从视频帧构建图结构

传统视频预训练方法的问题:

  • 在 pixel-level 建模
  • 忽略物体之间结构关系
  • 难以表达拓扑与交互
  • sim-to-real gap 大

G3M 的核心改进是:

  1. 将视频帧抽象为图结构
  2. 预训练模型生成未来图
  3. 使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图:

1️⃣ Object Vertices(物体节点)

  • 分割模型提取 mask
  • 在物体区域均匀采样点
  • 表示物体状态

2️⃣ Visual Action Vertices(视觉动作节点)

创新点在这里。

不是直接用机器人关节状态,而是:

  • 人类视频 → 提取指尖关键点
  • 机器人视频 → 提取 gripper 关键交互点

这本质上是在建模:

物体与“交互点”的拓扑关系

这样可以实现:

  • 跨机器人迁移
  • 跨人机迁移
  • 抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点:

难点1:物体属性差异

软体、刚体、弹性物体行为不同。

做法:

  • 使用历史H帧图
  • GNN提取对象特征
  • LSTM建模时间依赖
  • 自动预测物体属性

这样无需手动标注物理参数。


难点2:局部结构 vs 长距离依赖

提出 Hierarchical Graph:

  • 局部节点
  • 聚类形成全局 root 节点
  • root-to-root fully connected
  • leaf-to-root 双向连接

实现:

  • 保留局部精细结构
  • 同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐?

论文提出:

  • 为 graph 和 image 加 2D positional encoding
  • 使用 cross-attention 建立空间-像素桥梁

核心公式:

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 

实现:

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用:

  • Diffusion Transformer (DiT)

预测:

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成:

  • 顶点位置
  • 边根据距离自动构建

这是一个非常优雅的设计。


七、Graph-Guided Policy

策略输入:

  • 未来图序列
  • 当前图像
  • 机器人 proprioception

通过 Transformer 融合后输出动作。

本质:

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

  • 仅用 20% action-labeled 数据
  • 超越 ATM、UniPi 等方法
  • 平均提升 >19%

2️⃣ 真实机器人实验

  • 提升 >23%
  • 显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR:

  • 提升 >35%

说明图表示确实学到了“交互本质”。


九、核心贡献总结

  1. 提出 Graph-to-Graphs 视频预训练框架
  2. 引入 Action-informed transferable graph
  3. 提出 property-aware hierarchical graph modeling
  4. 设计 graph-image interaction 机制
  5. 显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于:

  • 把视频预训练从“像素级预测”升级为“结构级建模”
  • 利用图的 relational inductive bias
  • 抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。


更多技术拆解

本文为论文技术结构梳理版本。

如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):

👉 公众号文章链接:

https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ

我在公众号里做了更详细的模块拆解与实验分析。


作者:石去皿
公众号:AI软开笔记

Read more

OpenCode:开源版Claude Code来了,附Windows客户端

OpenCode:开源版Claude Code来了,附Windows客户端

大家好,我是 Ai 学习的老章 今天给大家介绍一个我最近在用的 AI 编程神器 —— OpenCode。4.6万 Star,500+ 贡献者,每月被 65 万开发者使用。这货基本上就是开源版的 Claude Code,而且完全不绑定任何一家模型提供商! 简介 OpenCode 是一个 100% 开源的 AI 编程智能体,可以在终端、桌面应用或 IDE 里使用。 和 Claude Code 有什么区别?官方自己也说了: * 完全开源:代码全在 GitHub 上,想怎么改就怎么改 * 不绑定模型:Claude、GPT、Gemini、DeepSeek 甚至本地模型都能用,75+ 个 LLM

By Ne0inhk
Github如何上传项目(超详细小白教程)

Github如何上传项目(超详细小白教程)

目录 * 一、Github与Git * 二、git的下载安装 * 三、Github的注册 * 四、Github的上传 * 1.GitHub的上传原理 * 2.远程仓库的申请 * 3.本地仓库的关联 * 4.项目的首次上传 * 5.上传时的常见错误 一、Github与Git 1.Git 是一个免费的开源分布式版本控制系统,你可以使用它来跟踪文件中的更改。你可以在 Git 中处理所有类型的项目。使用 Git,你可以将更改添加到代码中,然后在准备好时提交(或保存)它们。这意味着你还可以返回之前所做的更改。开发者常将 Git 与 GitHub 一起使用。 2.GitHub是一个基于git的代码托管平台,在github上可以建立仓库用于存放项目。GitHub 是一个免费的开源系统,所以我们可以在上面找到有用的资料,也可以保存自己做的一些开源项目,以供别人参考,当然GIthub也提供了付费的私人仓库,以供有人需要将一些不公开的项目放入云端仓库,

By Ne0inhk
用 Rust 构建 Git 提交历史可视化工具

用 Rust 构建 Git 提交历史可视化工具

在软件开发中,版本控制系统的历史记录往往承载着项目的演进脉络。然而,当项目规模扩大、分支增多时,纯文本的 git log 输出很难直观地展现提交之间的复杂关系。今天,我想分享一个用 Rust 构建的轻量级工具 —— git-graph-rs,它能把 Git 仓库的提交历史转换为可视化的图结构,为代码审查、项目复盘和工程决策提供直观的支持。 目录 * 为什么需要可视化? * 技术方案的选择 * 1. 利用系统 Git 命令 * 2. 模块化的 Rust 架构 * 3. 双格式输出策略 * 核心实现解析 * Git 数据获取的艺术 * 图结构的一致性保证 * 合并提交的可视化区分 * 工程化思维体现 * 错误处理的前置化 * 参数设计的克制 * 输出格式的稳定性 * 实际应用场景 * 1. CI/CD 集成 * 2. 代码审查辅助 * 3. 项目文档化

By Ne0inhk
OpenManus开源自主规划智能体解析

OpenManus开源自主规划智能体解析

OpenManus 开源自主规划智能体详解 OpenManus 是一款聚焦“自主任务执行”的开源智能体项目,核心价值在于打破传统智能体对人工干预的依赖,能够自主拆解复杂任务、规划执行路径,并在隔离环境中调用多样化工具完成目标,适用于数据爬取、代码编写、多步骤办公自动化等复杂场景。以下从核心定义、核心架构、实现原理、关键能力、适用场景与优势五个维度展开详解: 一、核心定义:具备“自主决策+工具执行”的开源智能体 OpenManus 的本质是一款以“自主规划”为核心的智能体框架,其核心特征可概括为: * 开源属性:代码完全开放,支持开发者二次定制、扩展功能模块(如新增工具、优化规划逻辑),适配不同行业场景的个性化需求; * 自主执行能力:无需用户拆分任务步骤,仅需输入最终目标(如“爬取某行业TOP10企业近3年营收数据并生成可视化图表”),即可自主完成规划、执行、反馈全流程; * 隔离化工具调用:基于虚拟机环境运行工具操作(如代码执行、网络爬虫),避免本地环境冲突或安全风险,保障任务执行的稳定性与安全性;

By Ne0inhk