对于视觉驱动的机器人操作,主动感知的核心是将摄像头移到信息更丰富的观测位置,从而为下游任务提供高质量输入。但现有方法大多依赖迭代优化——耗时耗力,而且与特定任务的目标绑得太紧,换个场景就很难复用。
我们设计了一个通用的单样本多模态框架,直接预测最优视角,只用一次重观察就提升感知质量。它的整体流程是:先基于任务相关的质量函数,从大量候选视角中筛选出最优视角作为标签,再利用域随机化构造大规模训练数据,最后训练一个多模态网络(MVP-Net)来预测相机位姿调整。整个流程无需人工标注,可以快速适应不同任务。接下来,我们以视角受限环境下的机器人抓取为例,验证框架的有效性。
背景与动机
姿态估计的局限
基于深度学习的抓取姿态估计在桌面场景中进步很快,无论是以截断符号距离场(TSDF)还是点云作为输入的方法,都能在俯视视角下取得不错的成功率。可一旦放进冰箱、橱柜这类半封闭环境,问题就来了:没有俯视视角,初始相机位姿又很随机,训练数据和实际场景之间的巨大差异让大多数模型都靠不住。这时候,选择一个最优观察视角,给模型提供更丰富的信息输入,就成了关键。
主动感知的现状
针对视角受限的抓取,主动感知能够持续移动相机以获取更多物体信息。已有的方案包括:由遮挡线索驱动的闭环次优视点规划,逐步更新场景重建并在线决策观察还是执行;或是基于 affordance 的次优视点方法,通过预测未观测视点的抓取 affordance 分布来规划下一视点;还有神经抓取场,将抓取分布建模为在线神经场,瞄准高不确定性区域。但它们普遍有两个缺点:一是需要多步优化才能达到理想视点,增加耗时和运动成本;二是与抓取任务深度耦合,迁移到其他任务很困难。
人类在执行日常任务时,往往会先调整自己的身体位置,将注意力集中到任务目标上,这个过程通常一步到位。这种单样本的视点调整能力,来自长期积累的经验,能直接判断哪个视角对目标感知最有利。相比之下,现有的机器人系统还缺乏这种能力,更没有一个统一的框架来建模。

框架概览
我们提出的框架学的是一个映射 π:(O, L) → T,即根据当前观测 O 和自然语言指令 L,直接输出相机位姿调整 T。实现分为三个阶段:数据合成、感知预处理和网络预测。下面的图展示了整体流程。

合成数据集构建
我们用 Isaac Sim 来加速数据构建,它提供逼真的渲染和域随机化,能高保真、大规模地收集合成数据。关键是无需人工标注。
定义最优视角
先在 Isaac Sim 中为每个物体生成 1500 个随机初始视角(相机位置都在物体周围、指向物体中心),记录 RGB-D 图像和相机姿态。然后根据任务相关的视角质量函数对它们打分。以抓取为例,使用 Economic Grasp 模型对每个视角的点云进行五次抓取姿态检测,取前 10 个得分的平均值作为该视角的质量。这样对 65 个物体类别,共生成了 97.5k 张图像、487.5k 次抓取检测和 480 万个抓取姿态。

观察得分分布,它在三维空间和二维投影上都是连续的,说明可以用神经网络在连续空间里优化这个问题。对每个物体,取得分最高的 800 个视点进行 DBSCAN 聚类,把最大聚类的质心作为该物体在此时的最优观测视点 t_best。




