论文阅读-RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation

目录

1. 论文概要

1.1 题目

1.2 作者

1.3作者单位及邮箱

1.4 摘要

2.研究问题

2.1研究问题1

2.2研究问题2

3.主要贡献

3.1提出GSS(Geometric‑priorSkillSelector)

3.2提出ARGN(Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol)

3.3综合真实机器人评估

4.研究方法

4.1 GSS (Geometric-prior Skill Selector)

4.1.1动机(Motivation)

4.1.2GSS的两个阶段

4.1.3GSS的流程示例

4.2 ARGN (Adaptive Recur sive Gaussian Network)

4.2.1动机(Motivation)

4.2.2 ARGN 框架


1. 论文概要

1.1 题目

RGMP:面向通用型(可泛化)人形机器人操作的循环几何先验多模态策略

论文原文链接:https://arxiv.org/abs/2511.09141
Code —https://github.com/xtli12/RGMP.git (代码开源链接)

1.2 作者

1.3作者单位及邮箱

第一作者单位:武汉大学计算机科学学院

通讯邮箱:{xtli312,wenkehuang,yemang,jxuan,miao.li}@whu.edu.cn

1.4 摘要

人形机器人在执行多样化人类级技能方面展现出巨大潜力。然而,当前研究主要依赖于数据驱动的方法,这些方法需要大规模训练数据集才能实现鲁棒的多模态决策能力与可泛化(generalizable)的视觉运动控制。此类方法因忽视未知场景中的几何推理能力,且对训练数据中机器人-目标关系的建模效率低下,导致训练资源被大量浪费,引发广泛担忧。

为应对这些局限性,本文提出递归几何先验多模态策略(RGMP)——一个端到端的框架,它将几何语义技能推理数据高效的视觉运动控制相统一。在感知能力方面,我们设计了几何先验技能选择器(Geometric-prior Skill Selector),该模块将几何归纳偏置注入视觉语言模型中,仅需极少量的空间常识调优,即可为未见场景生成自适应的技能序列。为实现数据高效的机器人运动合成,我们引入了自适应递归高斯网络(Adaptive Recursive Gaussian Network),该网络将机器人-物体交互参数化为一个紧凑的高斯过程层次结构,通过递归编码多尺度空间关系,即使从稀疏演示数据中也能生成灵巧且数据高效的运动轨迹。

在我们的人形机器人平台桌面双臂机器人上的评估表明,RGMP框架在泛化测试中取得了87%的任务成功率,并且其数据效率达到当前最优模型的5倍(此指标如何计算的?)。这一性能凸显了其卓越的跨领域泛化能力,为开发更具通用性和数据效率的机器人系统铺平了道路。

问题1:

提出的RGMP框架如何将几何语义技能推理与数据高效视觉运动控制相结合?

问题2:

在感知能力方面,我们设计了几何先验技能选择器(Geometric-prior Skill Selector),该模块将几何归纳偏置注入视觉语言模型中,仅需极少量的空间常识调优,即可为未见场景生成自适应的技能序列。如何具体实现的?

问题3:

为实现数据高 效机器人运动合成,我们引入自适应递归高斯网络,将 机器人‑物体交互参数化为高斯过程的紧凑层次结构,该结构递归编码多尺度空间关系,即使从稀疏演示中也能 生成灵巧、数据高效的运动合成。如何具体实现的?

2.研究问题

当前研究主要依赖数据驱动方法,需要大量训练数据集才能实现稳健的多模态决策能力泛化视觉运动控制。这些方法因忽视未见场景中的几何推理以及训练数据中机器人‑目标关系的低效建模而引发担忧,导致训练资源严重浪费。

2.1研究问题1

传统的视觉语言模型(VLMs)如PaLM‑E 和 指令BLIP 在从语言‑视 觉输入中解析语义意图方面展现出显著能力。这些模型利用大规模预训练生成基于视觉观察的任务计划,但它们将抽象指令与情境适宜的机器人技能关联的能力仍然受限。

例如,当面对未见场景中形状 各异的靶标时,这些模型在技能选择(如抓取与捏取)的歧义解析上存在困难。

原因:空间物体几何(如 边界框、形状)与语义任务规范之间整合不足,而在动态环境中,技能可行性依赖于泛化的空间推理,这一差距被进一步放大。

由此,提出研究问题1:

I) How can robots leverage spatial geometric reasoning to enable feasible skill selection?

机器人如何利用空间‑几何推理 来 支持 可行的技能选择?

2.2研究问题2

从有限的演示中学习精确的动作策略仍然是一个开放性的挑战。

现有研究:虽然扩散模型(diffusion models 基于Transformer的架构轨迹生成方面显示出潜力,但它们对大量训练数据(10k+轨迹) 的依赖以及计算复杂度(1–5Hz推理速率)限制了实际部署。模仿学习方法(Zhang等人, 2018年)通过利用人类先验知识部分缓解了这一问题,但它们往往过拟合于演示特定的特征(泛化能力弱),在未见过的物体上仅达到 40–60%的成功率。

关键:任务不变的视觉特征(例如基于上下文的特征)与任务特定的运动模式进行解耦。

由此,提出研究问题2:

II) Howcanthe inherent mechanisms of robot learn the gen eralized ability with limited demonstrations?

机器人的内在机制如何通过有限的演示学习泛化能力

3.主要贡献

3.1提出GSS(Geometric‑priorSkillSelector)

一个几何先验技能选择器:

通过低秩几何适配器增强视觉语言模型(VLM),从预训练库中选择参数化技 能。通过注入形状级别的常识,GSS优先选择满足潜在几何约束 条件的技能,从而实现与人类对齐的推理,而无需特定任务的微调。

3.2提出ARGN(Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol)

一个自适应递归高斯网络(即插即用的数据高效视觉运动模型):

通过自适应衰减机制旋转嵌入(RoPE)来调节潜在表示,以捕获时间一 致潜在空间中方向性空间依赖关系。分层融合模块保留多尺度视觉线索,并将它们输入到高斯混合编码器中,该编码器将6‑自由度轨迹分解为紧凑的全协方差混合,从而在严重数据稀缺的情况下实现显式的目标条件密度建模。

3.3综合真实机器人评估

RGMP在两个物理机器人平 台上进行严格评估,通过联合耦合几何语义推理与递归高斯特 征重新加权,展现出鲁棒性能。与扩散策略相比,RGMP在 泛化测试中实现87%的成功率,并表现出5×更高的数据效 率。

4.研究方法

RGMP(Recurrent Geometric-prior Multimodal Policy)

循环几何先验多模态策略:

一个端到端的框架,将几何语义技能推理数据高效的视觉运动控制相结合。

框架的整体输入:

(1)人类的自然语音指令

(2)机器人的视觉感知(图像)

框架的整体输出:

(1)机器人执行任务的语音?

(2)机器人的任务执行

此框架包含两个核心组件

(1)GSS (Geometric-prior Skill Selector) 

使用几何常识语言指令视觉线索转换为可执行技能。

(2)ARGN (Adaptive Recur sive Gaussian Network)

处理视觉输入预测操作动作策略学习直接从RGB中推断3D空间关系,通过将视觉线索动作关联起来,依赖于高效的隐式表示而不是显式3D重建。

4.1 GSS (Geometric-prior Skill Selector)

几何先验技能选择器

提升机器人的感知能力:几何归纳偏置注入视觉语言模型,通过极少的空间常识微调生成适用于未见场景的适应性技能序列。

4.1.1动机(Motivation)

机器人领域,一个关键挑战在未见场景中对形状各异的物体进行细粒度技能选择(例如,抓取与捏取)。

目前研究:传统视觉语言模型(VLMs)能够实现目标识别和定位,由于忽略了几何先验和视觉-动作映射,导致无法将语义观察应用到准确的动作。

这促使我们开创性提出GSS框架,它通过新的几何-对象分解机制几何推理语义任务规划联系起来。

4.1.2GSS的两个阶段

第一个阶段:(调用两次VLM)

使用VLM来解析人类的语音指令 I,使机器人能够在观察到的图像中识别和定位目标对象(标注边界框)。-------->输出O

第二个阶段:

基于第一阶段获得的边界框系统分析目标对象的常识信息,包括其相对位置及其形状信息「来 自Yolov8n‑seg(Yaseen2024)模型ϕ()。-------->行动计划(actionplan)P

随后,机器人系统根据GSS的输出[行动计划(actionplan)P]技能库中选择预训练的技能模型(从Grasp抓取、Lift up提升、Pinch捏取三个预训练的技能模型中选择

规划函数通过以下方式运行:



P是生成的行动计划(actionplan),

I表示当前用户指令,

O是 当前视觉观察(由VLM用边界框标注的 RGB图像),

C代表一个预定义的上下文(指令、提示和常识),它由n个示例组成,以实现上下文学习。

预定义的上下文C 示例如下图:

4.1.3GSS的流程示例

当指令是“我想芬达”时,GSS流程如下:

(1)遵循上下文“请在指令中框定目标对象”来从各种其他物品中识别芬达”,

(2)应用 YOLOv8n‑seg来获取芬达的形状信息

(3)VLM随后通过将其已建立的上下文框架C基于几何的先验推理相结合来合成行动计划(action plan)P。

4.2 ARGN (Adaptive Recur sive Gaussian Network)

自适应递归高斯网络

实现数据高效机器人运动合成:机器人‑物体交互参数化为高斯过程的紧凑层次结构,该结构递归编码多尺度空间关系,即使从稀疏演示中也能生成灵巧、数据高效的运动合成。

4.2.1动机(Motivation)

在机器人任务中,从机器人的视觉视角理解空间关系至关重要。

机器人必须识别场景中的哪些部分对应其末端执行器的位置。

目前研究:先前方法由于视觉运动表示学习中的固有局限性,往往难以揭示未见场景中不同图像区域之间的潜在关系,这限制了泛化能力。

为解决此问题,我们提出了ARGN框架,该框架旨在自适应地建模机器人在未见环境中与目标物体之间的全面空间依赖关系,同时在训练数据有限的情况下减轻过拟合问题

4.2.2 ARGN 框架

ARGN应用递归操作以建立全局连接,该连接建立了观测图像的空间记忆

这种记忆机制能够识别与任务执行最相关的末端执行器位置。然而,递归计算本质上会遭受梯度消失问题,增加训练难度,并需要大量数据来缓解这一限制。

为解决此问题,我们提出了一 种自适应衰减机制(AdaptiveDecayMechanism,ADM),以动态控 制历史记忆衰减率,防止关键空间记忆的消失,并自适应地增强任务关键区域的权重。

第一阶段:

输入F0由空间混合模块处理,其中 ADM生成内容自适应衰减因子W来调节记忆保留。

Read more

OpenClaw深度技术白皮书:AI智能体执行引擎的全面解析

OpenClaw深度技术白皮书:AI智能体执行引擎的全面解析

目录 * 技术架构深度解析 * 能力矩阵详细拆解 * 行部署运维实战指南 * 成本模型与优化策略 * 安全攻防与风险控制 * 生态与未来演进 1. 技术架构深度解析 1.1 核心架构分层 OpenClaw采用模块化的六层架构设计,每一层都承担着特定的职责: ┌─────────────────────────────────────┐ │   Layer 6: 交互层 (Interaction)      │ ← API、WebUI、IM接口、语音 ├─────────────────────────────────────┤ │   Layer 5: 任务编排层 (Orchestration) │ ← 任务规划、分解、依赖管理 ├─────────────────────────────────────┤ │   Layer 4: 记忆层 (Memory)           │ ← 短期对话记忆、长期向量记忆 ├─────────────────────────────────────┤ │   Layer 3: 推理引擎层 (Reasoning)

Chrome 的 OptGuideOnDeviceModel (本地AI模型)可以删除吗?4GB 占用的解决方法

Chrome 的 OptGuideOnDeviceModel (本地AI模型)可以删除吗?4GB 占用的解决方法

Chrome 的 OptGuideOnDeviceModel(本地AI模型)可以删除吗?4GB 占用的解决方法 关键词: Chrome占用空间大、OptGuideOnDeviceModel是什么、weights.bin是什么文件、Chrome 4GB 文件删除、Chrome Gemini Nano、本地AI模型关闭方法、Chrome清理空间教程 一、事情是怎么发生的? 前几天在清理 Mac 空间时,我发现 Chrome 目录下面突然多了一个 4GB 的文件。 路径是: ~/Library/Application Support/Google/Chrome/OptGuideOnDeviceModel/2025.8.11.1/ 里面有个: weights.bin (约 4GB) 第一反应是: Chrome 什么时候开始偷偷下这么大的文件了? 很多人都会担心一个问题:

人工智能:大模型分布式训练与高效调参技术实战

人工智能:大模型分布式训练与高效调参技术实战

人工智能:大模型分布式训练与高效调参技术实战 1.1 本章学习目标与重点 💡 学习目标:掌握大语言模型分布式训练的核心原理、主流框架使用方法,以及高效调参策略,能够解决大模型训练过程中的算力瓶颈和效果优化问题。 💡 学习重点:理解数据并行、张量并行、流水线并行的技术差异,掌握基于DeepSpeed的分布式训练实战,学会使用超参数搜索提升模型性能。 1.2 大模型训练的核心挑战 1.2.1 单卡训练的算力瓶颈 💡 大语言模型的参数量动辄数十亿甚至上万亿,单张GPU的显存和计算能力完全无法满足训练需求。以LLaMA-2-70B模型为例: * FP32精度下,模型参数本身就需要约280GB显存,远超单张消费级或企业级GPU的显存容量。 * 训练过程中还需要存储梯度、优化器状态等数据,实际显存占用是模型参数的3-4倍。 * 单卡训练的计算速度极慢,训练一轮可能需要数月时间,完全不具备工程可行性。 1.2.2 大模型训练的核心需求 为了高效完成大模型训练,我们需要解决以下三个核心问题: 1. 显存扩容:通过并行技术,将模型参数和计算任务分布到多张GPU上,突破

2026最新 OpenClaw 手机端部署与实战:旧手机秒变 AI 智能终端(Android/iOS 双平台全覆盖)

作为喜欢新鲜技术、热爱 AI 开发的 ZEEKLOG 博主,我必须说:OpenClaw 是2026年最值得在手机上跑一遍的开源 AI Agent。它不只是聊天,而是能真·执行任务的本地 AI 助手,手机端更是把“随时随地自动化”拉满。本文将详细拆解 OpenClaw 手机端的应用场景、部署步骤、实战玩法及避坑技巧,全程干货,读者一看就会、一跑就成。 一、OpenClaw 是什么?为什么要在手机上跑? OpenClaw 是2026年 GitHub 爆火的开源自托管 AI 执行网关,前身是 Clawdbot / Moltbot,主打“一句话让 AI 帮你完成真实操作”,核心能力包括发消息、整理文件、控制设备、自动化任务等,区别于普通对话式 AI,