最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景:视频数据能不能替代昂贵的机器人动作数据?

在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:

  • 高质量 action-labeled 机器人数据采集成本极高
  • 人工示教效率低
  • 跨机器人迁移困难

相比之下:

  • 人类操作视频海量存在
  • 无标注视频易获取
  • 包含丰富的物理与行为知识

问题在于:

视频没有动作标签,如何转化为可用于策略学习的监督信号?

这篇TRO 2026论文提出了一种非常有意思的解决方案:


G3M:Graph-to-Graphs Generative Modeling

在这里插入图片描述

核心思想:

不再从“像素预测像素”,
而是从“图”预测“图”。

二、方法核心:从视频帧构建图结构

传统视频预训练方法的问题:

  • 在 pixel-level 建模
  • 忽略物体之间结构关系
  • 难以表达拓扑与交互
  • sim-to-real gap 大

G3M 的核心改进是:

  1. 将视频帧抽象为图结构
  2. 预训练模型生成未来图
  3. 使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图:

1️⃣ Object Vertices(物体节点)

  • 分割模型提取 mask
  • 在物体区域均匀采样点
  • 表示物体状态

2️⃣ Visual Action Vertices(视觉动作节点)

创新点在这里。

不是直接用机器人关节状态,而是:

  • 人类视频 → 提取指尖关键点
  • 机器人视频 → 提取 gripper 关键交互点

这本质上是在建模:

物体与“交互点”的拓扑关系

这样可以实现:

  • 跨机器人迁移
  • 跨人机迁移
  • 抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点:

难点1:物体属性差异

软体、刚体、弹性物体行为不同。

做法:

  • 使用历史H帧图
  • GNN提取对象特征
  • LSTM建模时间依赖
  • 自动预测物体属性

这样无需手动标注物理参数。


难点2:局部结构 vs 长距离依赖

提出 Hierarchical Graph:

  • 局部节点
  • 聚类形成全局 root 节点
  • root-to-root fully connected
  • leaf-to-root 双向连接

实现:

  • 保留局部精细结构
  • 同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐?

论文提出:

  • 为 graph 和 image 加 2D positional encoding
  • 使用 cross-attention 建立空间-像素桥梁

核心公式:

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 

实现:

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用:

  • Diffusion Transformer (DiT)

预测:

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成:

  • 顶点位置
  • 边根据距离自动构建

这是一个非常优雅的设计。


七、Graph-Guided Policy

策略输入:

  • 未来图序列
  • 当前图像
  • 机器人 proprioception

通过 Transformer 融合后输出动作。

本质:

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

  • 仅用 20% action-labeled 数据
  • 超越 ATM、UniPi 等方法
  • 平均提升 >19%

2️⃣ 真实机器人实验

  • 提升 >23%
  • 显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR:

  • 提升 >35%

说明图表示确实学到了“交互本质”。


九、核心贡献总结

  1. 提出 Graph-to-Graphs 视频预训练框架
  2. 引入 Action-informed transferable graph
  3. 提出 property-aware hierarchical graph modeling
  4. 设计 graph-image interaction 机制
  5. 显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于:

  • 把视频预训练从“像素级预测”升级为“结构级建模”
  • 利用图的 relational inductive bias
  • 抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。


更多技术拆解

本文为论文技术结构梳理版本。

如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):

👉 公众号文章链接:

https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ

我在公众号里做了更详细的模块拆解与实验分析。


作者:石去皿
公众号:AI软开笔记

Read more

GLM-4.7-Flash开发者案例:低代码集成AI能力的API对接实践

GLM-4.7-Flash开发者案例:低代码集成AI能力的API对接实践 1. 为什么需要低代码集成AI能力 作为开发者,你可能经常遇到这样的场景:产品经理突然提出要给应用添加智能对话功能,或者老板要求在下周上线一个AI客服系统。传统做法需要研究模型部署、API对接、服务架构,整个过程复杂且耗时。 GLM-4.7-Flash的出现改变了这一现状。这个300亿参数的大模型不仅能力强大,更重要的是提供了开箱即用的API服务,让开发者能够用最少的代码快速集成AI能力。想象一下,只需要几行Python代码,就能让你的应用具备与人类自然对话的能力。 2. GLM-4.7-Flash技术优势解析 2.1 混合专家架构的高效推理 GLM-4.7-Flash采用MoE(混合专家)架构,这是一个很聪明的设计。简单来说,就像有一个专家团队,每次只让最合适的专家来处理你的问题,而不是动用整个团队。这样既保证了模型的能力,又大大提高了推理速度。 在实际测试中,这个设计让响应速度提升了40%以上。对于需要实时交互的应用场景,这种速度提升意味着用户体验的质的飞跃。 2.2 针对中文场景的深度优

MacOS 安装 OpenClaw 并接入飞书机器人(保姆级教程 + 常见问题解决)

MacOS 安装 OpenClaw 并接入飞书机器人(保姆级教程 + 常见问题解决)

MacOS 安装 OpenClaw 并接入飞书机器人(保姆级教程 + 常见问题解决) 在 AI Agent 和自动化工具越来越普及的今天,越来越多开发者希望拥有一个 能够自动处理任务、接入团队协作工具的 AI 助手。 最近OpenClaw火的一塌糊涂,我也跟风研究了一下这个开源项目。它可以理解为一个 可扩展的 AI Agent 框架,支持接入各种工具、自动执行任务,并且可以和企业协作平台(如飞书)打通,实现 AI 自动回复、自动化工作流。 本文将带大家 从 0 开始,在 MacOS 上安装 OpenClaw,并接入飞书机器人。 同时我也整理了自己在安装过程中遇到的 终端报错问题与完整解决方案,让你一次性避坑。 本文包含: * MacOS 安装 OpenClaw * 接入飞书机器人 * 配置开机自启 * 终端报错解决(

Reachy Mini创客实践指南:从零打造你的开源机器人

Reachy Mini创客实践指南:从零打造你的开源机器人 【免费下载链接】reachy_miniReachy Mini's SDK 项目地址: https://gitcode.com/GitHub_Trending/re/reachy_mini 开源机器人技术正以前所未有的速度走进创客工作室和家庭实验室。Reachy Mini作为一款完全开源的桌面机器人平台,为机器人入门爱好者提供了从硬件组装到软件编程的完整实践路径。本文将带你逐步掌握3D打印部件制造、传感器系统集成和运动控制调试的核心技能,最终完成属于自己的智能交互机器人。 理解机器人核心架构:从机械结构到电子系统 Reachy Mini的设计采用模块化架构,主要由三大功能单元构成:稳定的底盘基础、六自由度头部运动平台和集成多传感器的智能交互系统。这种分层设计不仅降低了组装难度,更为后续功能扩展提供了便利。 底盘系统承担机器人的整体支撑和旋转功能,通过单个高性能电机实现360度水平转动。头部运动机构采用六自由度并联结构,能够向六个方向灵活转动,这种设计相比传统串联机械臂具有更高的结构刚度和运动精度。智能交互系统则集

Flutter 三方库 eip55 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、符合 Web3 标准的以太坊地址校验与防串改引擎

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 eip55 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、符合 Web3 标准的以太坊地址校验与防串改引擎 在鸿蒙(OpenHarmony)系统的区块链钱包应用、数字资产管理工具(如鸿蒙版 NFT 浏览器)或需要处理加密货币转账的场景中,如何确保用户输入的以太坊(Ethereum)地址既符合基本格式,又通过了大小写混合的校验和(Checksum)验证,防止因为单个字符手误导致的资产永久丢失?eip55 为开发者提供了一套工业级的、基于 EIP-55 提案的地址转换与验证方案。本文将深入实战其在鸿蒙 Web3 安全基座中的应用。 前言 什么是 EIP-55?它是由以太坊创始人 Vitalik Buterin 提出的地址校验和提案。通过在地址字符串中引入特定的。大小写混合模式(基于 Keccak-256 哈希)