单样本多模态主动感知：直接预测最优视角

对于视觉驱动的机器人操作，主动感知的核心是将摄像头移到信息更丰富的观测位置，从而为下游任务提供高质量输入。但现有方法大多依赖迭代优化——耗时耗力，而且与特定任务的目标绑得太紧，换个场景就很难复用。

我们设计了一个通用的单样本多模态框架，直接预测最优视角，只用一次重观察就提升感知质量。它的整体流程是：先基于任务相关的质量函数，从大量候选视角中筛选出最优视角作为标签，再利用域随机化构造大规模训练数据，最后训练一个多模态网络（MVP-Net）来预测相机位姿调整。整个流程无需人工标注，可以快速适应不同任务。接下来，我们以视角受限环境下的机器人抓取为例，验证框架的有效性。

背景与动机

姿态估计的局限

基于深度学习的抓取姿态估计在桌面场景中进步很快，无论是以截断符号距离场（TSDF）还是点云作为输入的方法，都能在俯视视角下取得不错的成功率。可一旦放进冰箱、橱柜这类半封闭环境，问题就来了：没有俯视视角，初始相机位姿又很随机，训练数据和实际场景之间的巨大差异让大多数模型都靠不住。这时候，选择一个最优观察视角，给模型提供更丰富的信息输入，就成了关键。

主动感知的现状

针对视角受限的抓取，主动感知能够持续移动相机以获取更多物体信息。已有的方案包括：由遮挡线索驱动的闭环次优视点规划，逐步更新场景重建并在线决策观察还是执行；或是基于 affordance 的次优视点方法，通过预测未观测视点的抓取 affordance 分布来规划下一视点；还有神经抓取场，将抓取分布建模为在线神经场，瞄准高不确定性区域。但它们普遍有两个缺点：一是需要多步优化才能达到理想视点，增加耗时和运动成本；二是与抓取任务深度耦合，迁移到其他任务很困难。

人类在执行日常任务时，往往会先调整自己的身体位置，将注意力集中到任务目标上，这个过程通常一步到位。这种单样本的视点调整能力，来自长期积累的经验，能直接判断哪个视角对目标感知最有利。相比之下，现有的机器人系统还缺乏这种能力，更没有一个统一的框架来建模。

图 1: 人类主动感知行为示意

框架概览

我们提出的框架学的是一个映射 π：(O, L) → T，即根据当前观测 O 和自然语言指令 L，直接输出相机位姿调整 T。实现分为三个阶段：数据合成、感知预处理和网络预测。下面的图展示了整体流程。

图 2: 整体主动感知框架流程

合成数据集构建

我们用 Isaac Sim 来加速数据构建，它提供逼真的渲染和域随机化，能高保真、大规模地收集合成数据。关键是无需人工标注。

定义最优视角

先在 Isaac Sim 中为每个物体生成 1500 个随机初始视角（相机位置都在物体周围、指向物体中心），记录 RGB-D 图像和相机姿态。然后根据任务相关的视角质量函数对它们打分。以抓取为例，使用 Economic Grasp 模型对每个视角的点云进行五次抓取姿态检测，取前 10 个得分的平均值作为该视角的质量。这样对 65 个物体类别，共生成了 97.5k 张图像、487.5k 次抓取检测和 480 万个抓取姿态。

图 3: 模拟场景与视角采样