最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景:视频数据能不能替代昂贵的机器人动作数据?

在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:

  • 高质量 action-labeled 机器人数据采集成本极高
  • 人工示教效率低
  • 跨机器人迁移困难

相比之下:

  • 人类操作视频海量存在
  • 无标注视频易获取
  • 包含丰富的物理与行为知识

问题在于:

视频没有动作标签,如何转化为可用于策略学习的监督信号?

这篇TRO 2026论文提出了一种非常有意思的解决方案:


G3M:Graph-to-Graphs Generative Modeling

在这里插入图片描述

核心思想:

不再从“像素预测像素”,
而是从“图”预测“图”。

二、方法核心:从视频帧构建图结构

传统视频预训练方法的问题:

  • 在 pixel-level 建模
  • 忽略物体之间结构关系
  • 难以表达拓扑与交互
  • sim-to-real gap 大

G3M 的核心改进是:

  1. 将视频帧抽象为图结构
  2. 预训练模型生成未来图
  3. 使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图:

1️⃣ Object Vertices(物体节点)

  • 分割模型提取 mask
  • 在物体区域均匀采样点
  • 表示物体状态

2️⃣ Visual Action Vertices(视觉动作节点)

创新点在这里。

不是直接用机器人关节状态,而是:

  • 人类视频 → 提取指尖关键点
  • 机器人视频 → 提取 gripper 关键交互点

这本质上是在建模:

物体与“交互点”的拓扑关系

这样可以实现:

  • 跨机器人迁移
  • 跨人机迁移
  • 抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点:

难点1:物体属性差异

软体、刚体、弹性物体行为不同。

做法:

  • 使用历史H帧图
  • GNN提取对象特征
  • LSTM建模时间依赖
  • 自动预测物体属性

这样无需手动标注物理参数。


难点2:局部结构 vs 长距离依赖

提出 Hierarchical Graph:

  • 局部节点
  • 聚类形成全局 root 节点
  • root-to-root fully connected
  • leaf-to-root 双向连接

实现:

  • 保留局部精细结构
  • 同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐?

论文提出:

  • 为 graph 和 image 加 2D positional encoding
  • 使用 cross-attention 建立空间-像素桥梁

核心公式:

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 

实现:

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用:

  • Diffusion Transformer (DiT)

预测:

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成:

  • 顶点位置
  • 边根据距离自动构建

这是一个非常优雅的设计。


七、Graph-Guided Policy

策略输入:

  • 未来图序列
  • 当前图像
  • 机器人 proprioception

通过 Transformer 融合后输出动作。

本质:

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

  • 仅用 20% action-labeled 数据
  • 超越 ATM、UniPi 等方法
  • 平均提升 >19%

2️⃣ 真实机器人实验

  • 提升 >23%
  • 显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR:

  • 提升 >35%

说明图表示确实学到了“交互本质”。


九、核心贡献总结

  1. 提出 Graph-to-Graphs 视频预训练框架
  2. 引入 Action-informed transferable graph
  3. 提出 property-aware hierarchical graph modeling
  4. 设计 graph-image interaction 机制
  5. 显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于:

  • 把视频预训练从“像素级预测”升级为“结构级建模”
  • 利用图的 relational inductive bias
  • 抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。


更多技术拆解

本文为论文技术结构梳理版本。

如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):

👉 公众号文章链接:

https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ

我在公众号里做了更详细的模块拆解与实验分析。


作者:石去皿
公众号:AI软开笔记

Read more

无人机避障新思路:手把手教你用APF-RRT*算法实现高效轨迹规划(附Python代码)

无人机避障新思路:手把手教你用APF-RRT*算法实现高效轨迹规划(附Python代码) 去年夏天,我在一个无人机巡检项目里遇到了一个棘手的问题:传统的RRT算法在复杂林地环境中规划路径时,经常“卡”在密集的树木之间,要么采样效率低下导致规划时间过长,要么生成的路径曲折得让无人机像喝醉了一样左右摇摆。团队尝试了各种参数调整,效果都不理想。直到我们把人工势场法的引导机制引入到双向RRT*算法中,情况才发生了根本性转变——不仅规划速度提升了近70%,生成的路径也平滑了许多。 这种结合了APF(人工势场法)和双向RRT的混合算法,如今已经成为许多无人机开发者解决复杂环境路径规划的秘密武器。它巧妙地将APF的方向引导优势与RRT的渐进最优特性结合起来,同时利用双向搜索大幅提升收敛速度。今天,我就从工程实践的角度,带你一步步实现这个算法,分享我在实际项目中积累的参数调优经验,并提供可直接运行的Python代码。 1. 理解APF-RRT*算法的核心思想 在开始写代码之前,我们需要先弄清楚这个混合算法到底解决了什么问题。传统的RRT算法虽然概率完备,但在复杂环境中存在明显的局限性:随机采

【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC

【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC

YOLO26:实时目标检测的关键架构改进与性能基准测试 摘要 本研究对Ultralytics YOLO26进行了全面分析,重点阐述了其在实时边缘目标检测领域的关键架构改进与性能基准测试结果。YOLO26于2025年9月发布,是YOLO系列中最新、最先进的模型,专为在边缘设备和低功耗设备上实现高效能、高精度和部署就绪性而设计。论文依次详细介绍了YOLO26的架构创新,包括移除分布焦点损失(DFL)、采用端到端无非极大值抑制(NMS)推理、集成渐进式损失(ProgLoss)和小目标感知标签分配(STAL),以及引入MuSGD优化器以实现稳定收敛。除架构外,该研究将YOLO26定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、旋转检测和分类任务。我们在NVIDIA Jetson Nano和Orin等边缘设备上对YOLO26进行了性能基准测试,并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13以及基于Transformer的检测器进行了对比。论文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及INT8/

【Web3】NFT 元数据去中心化存储与智能合约集成实战

【Web3】NFT 元数据去中心化存储与智能合约集成实战

在开发非同质化代币(NFT)项目时,资产数据的安全性与不可篡改性是核心考量指标。为防止底层数据受到中心化机构的人为干预,业界普遍采用去中心化网络来托管核心资产。本文将结合实际工程流,深入探讨 NFT 元数据(Metadata)的存储逻辑,并提供与之匹配的智能合约集成方案。 笔记来自:17小时最全Web3教程:ERC20,NFT,Hardhat,CCIP跨链_哔哩哔哩_bilibili,十分推荐大家学习该课程! 目录 一、 深入解析通证生态与 NFT 元数据机制 1. 通证生态解析 2. NFT构建与元数据机制 二、 以太坊存储困境与去中心化网络选型 三、 基于 IPFS 的元数据(Metadata)构建流 四、 智能合约集成与 Remix 快捷部署 一、 深入解析通证生态与 NFT 元数据机制 1. 通证生态解析 资产在区块链上的数字化表达主要分为同质化通证与非同质化通证。

OpenDroneMap (ODM) 无人机影像三维模型重建安装及使用快速上手

OpenDroneMap (ODM) 无人机影像三维模型重建安装及使用快速上手

1 文档概述 本文档是指导用户从零开始,使用 OpenDroneMap 对无人机采集的影像数据进行处理,生成三维点云、数字表面模型(DSM)、正射影像图(Orthomosaic)等成果。 本文档的预期读者为拥有无人机航拍影像(JPG/PNG格式)并希望进行三维建模的用户。 2.1 系统运行环境要求 - 操作系统:Windows 10/11, macOS, 或 Linux (推荐 Ubuntu)。 - CPU:多核心处理器(4核以上推荐,8核或更多更佳)(处理200张以上影像建议16GB+)。 - 内存 (RAM):至少 16GB,处理大面积区域建议 32GB 或以上。 - 硬盘空间:预留充足的存储空间。原始影像、中间文件和最终成果会占用大量空间。建议准备 影像大小的10-20倍