最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景:视频数据能不能替代昂贵的机器人动作数据?

在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:

  • 高质量 action-labeled 机器人数据采集成本极高
  • 人工示教效率低
  • 跨机器人迁移困难

相比之下:

  • 人类操作视频海量存在
  • 无标注视频易获取
  • 包含丰富的物理与行为知识

问题在于:

视频没有动作标签,如何转化为可用于策略学习的监督信号?

这篇TRO 2026论文提出了一种非常有意思的解决方案:


G3M:Graph-to-Graphs Generative Modeling

在这里插入图片描述

核心思想:

不再从“像素预测像素”,
而是从“图”预测“图”。

二、方法核心:从视频帧构建图结构

传统视频预训练方法的问题:

  • 在 pixel-level 建模
  • 忽略物体之间结构关系
  • 难以表达拓扑与交互
  • sim-to-real gap 大

G3M 的核心改进是:

  1. 将视频帧抽象为图结构
  2. 预训练模型生成未来图
  3. 使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图:

1️⃣ Object Vertices(物体节点)

  • 分割模型提取 mask
  • 在物体区域均匀采样点
  • 表示物体状态

2️⃣ Visual Action Vertices(视觉动作节点)

创新点在这里。

不是直接用机器人关节状态,而是:

  • 人类视频 → 提取指尖关键点
  • 机器人视频 → 提取 gripper 关键交互点

这本质上是在建模:

物体与“交互点”的拓扑关系

这样可以实现:

  • 跨机器人迁移
  • 跨人机迁移
  • 抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点:

难点1:物体属性差异

软体、刚体、弹性物体行为不同。

做法:

  • 使用历史H帧图
  • GNN提取对象特征
  • LSTM建模时间依赖
  • 自动预测物体属性

这样无需手动标注物理参数。


难点2:局部结构 vs 长距离依赖

提出 Hierarchical Graph:

  • 局部节点
  • 聚类形成全局 root 节点
  • root-to-root fully connected
  • leaf-to-root 双向连接

实现:

  • 保留局部精细结构
  • 同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐?

论文提出:

  • 为 graph 和 image 加 2D positional encoding
  • 使用 cross-attention 建立空间-像素桥梁

核心公式:

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 

实现:

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用:

  • Diffusion Transformer (DiT)

预测:

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成:

  • 顶点位置
  • 边根据距离自动构建

这是一个非常优雅的设计。


七、Graph-Guided Policy

策略输入:

  • 未来图序列
  • 当前图像
  • 机器人 proprioception

通过 Transformer 融合后输出动作。

本质:

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

  • 仅用 20% action-labeled 数据
  • 超越 ATM、UniPi 等方法
  • 平均提升 >19%

2️⃣ 真实机器人实验

  • 提升 >23%
  • 显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR:

  • 提升 >35%

说明图表示确实学到了“交互本质”。


九、核心贡献总结

  1. 提出 Graph-to-Graphs 视频预训练框架
  2. 引入 Action-informed transferable graph
  3. 提出 property-aware hierarchical graph modeling
  4. 设计 graph-image interaction 机制
  5. 显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于:

  • 把视频预训练从“像素级预测”升级为“结构级建模”
  • 利用图的 relational inductive bias
  • 抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。


更多技术拆解

本文为论文技术结构梳理版本。

如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):

👉 公众号文章链接:

https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ

我在公众号里做了更详细的模块拆解与实验分析。


作者:石去皿
公众号:AI软开笔记

Read more

【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

前言 本文主要介绍我最近开发的一个个人实战项目,“基于深度学习的人脸门禁+ IPC 智能安防监控系统”,全程满帧流畅运行。这个项目我目前全网搜了一圈,还没发现有相关类型的开源项目。这个项目只要稍微改进下,就可以变成市面上目前流行的三款产品,人脸识别门禁系统、IPC 安防和 NVR。在最下面会有视频演示。 本项目适用于瑞芯微 Rockchip 系列的板端,开源链接在文章最下面。 功能 人脸门禁系统 * 人靠近自动亮屏,人走自动息屏 * 支持人脸识别 * 支持录入人脸,并进行人脸配对(极速配对 < 0.2S) IPC 智能安防监控系统 * 支持通过 onvif 实时查看摄像头画面 * 支持实时目标检测(支持高达80种物体检测) * 支持录像 * 支持检测到人时自动录像 * 支持检测到人时自动报警 用到的硬件 * 野火鲁班猫4 RK3588S2 * IMX415 800W 4k 摄像头 * RTL8822CE Wifi+BT

AI员工——OpenCode、OpenClaw+Ollama的安装与配置

AI员工——OpenCode、OpenClaw+Ollama的安装与配置

人工智能(AI)相关的知识内容解析https://coffeemilk.blog.ZEEKLOG.net/article/details/158647749?spm=1001.2014.3001.5502 一、OpenCode的介绍与安装配置  1.1、OpenCode介绍 OpenCode的介绍序号Opencode介绍说明1opencode是什么OpenCode是一款开源AI编码代理工具,可在终端(TUI)、桌面应用和 IDE扩展中使用,支持多种大语言模型、上下文感知,主打隐私优先。2opencode的定位 《1》不是IDE插件,而是独立智能体(Agent),可理解上下文,规划任务、执行代码修改并验证结果。 《2》不是大语言模型本身,而是模型调度层,支持75+的大语言模型提供商(如:Claude、GPT、Gemini、本地的Llama、Qwen等)。 《3》采用MIT协议开源,社区活跃。

AI率30%、20%、10%到底哪个才是标准?各高校要求汇总

AI率30%、20%、10%到底哪个才是标准?各高校要求汇总 开篇:这个问题真的让人头大 “我们学校AI率要求多少来着?” 这大概是2025-2026年毕业季里,各论文群被问到最多的问题了。我在三个不同的考研/论文群里潜水,几乎每天都能看到有人在问这个问题。而且更让人焦虑的是,大家的回答还经常不一样——有人说30%以下就行,有人说必须20%以下,还有人信誓旦旦说他们学校要求10%以下。 到底哪个才是标准?答案是:没有统一标准。 对,你没看错。目前国内高校对论文AI率的要求并没有一个全国统一的规定,每个学校、甚至每个学院都可能有自己的标准。但是,经过我大量的信息搜集和整理,还是能找到一些规律的。今天就来好好捋一捋。 目前主流的三档标准 根据我收集到的信息,国内高校的AIGC检测标准大致可以分为三个档次: 第一档:30%以下(宽松型) 这是目前最常见的标准线,大概有40%左右的高校采用这个标准。 这意味着什么:你的论文中,AI生成的内容占比不能超过30%。换句话说,有将近三分之一的内容可以是AI辅助生成的(当然不建议这么理解,往下看就知道了)

C# 使用豆包 AI 模型实现首尾帧模式的视频生成

C# 使用豆包 AI 模型实现首尾帧模式的视频生成

体验 欲诚其意者,先致其知,致知在格物。人生太多体验,有悲有喜,有好有坏。没有实践就没有发言权,没有亲自尝试就不要轻易否定,适合你的才是最好的。最近在火山引擎火山方舟平台模型广场中看到豆包推出最强视频生成模型 Doubao-Seedance-1.0-pro,于是也想体验一下其魅力如何。模型提供多种生成方式,被其中一项 “首尾帧” 模式所吸引,即提供首图和尾图两张照片,并结合 AI 对话描述生成结果视频。本文则主要讲述如何使用C#调用平台API实现视频生成功能。 调用 API 前需要注册火山引擎帐号并获得 API 开发密钥。 火山引擎注册地址如下:https://console.volcengine.com/auth/login 选择火山方舟 -> API Key 管理 ->  创建 API Key 即可,请注意编辑权限以保证能够调用对应功能的 API