One2Any: One-Reference 6D Pose Estimation for Any Object
ABSTRACT
由于依赖完整的 3D 模型、多视角图像,或仅在特定物体类别上进行训练,6D 物体位姿估计在许多应用中仍然具有挑战性。这些要求使得模型难以泛化到新物体——尤其是在既没有 3D 模型也没有多视角图像可用的情况下。为了解决这一问题,我们提出了一种新的方法 One2Any:它仅使用一张参考 RGB-D 图像与一张查询 RGB-D 图像,就能在不需要该物体 3D 模型、多视角数据或类别约束等先验知识的情况下,估计物体的相对 6 自由度(DOF)位姿。
我们将物体位姿估计视为一个编码—解码过程:首先,从单一参考视角中获取一个全面的参考物体位姿嵌入(ROPE),该嵌入编码了物体的形状、朝向与纹理信息。利用该嵌入,一个基于 U-Net 的位姿解码模块为新的视角生成参考物体坐标(ROC),从而实现快速且准确的位姿估计。这种简单的编码—解码框架使得我们的模型可以在任意成对(pair-wise)的位姿数据上进行训练,从而支持大规模训练,并展现出很强的可扩展性。在多个基准数据集上的实验表明,我们的模型对新物体具有良好的泛化能力,以更低的计算开销实现了当前最先进(state-of-the-art)的精度与鲁棒性,甚至可与那些需要多视角或 CAD 输入的方法相媲美。
1. Introduction
6D 物体位姿估计是计算机视觉中的一项重要任务,因为它在机器人、混合现实以及通用场景理解等领域具有广泛应用。然而,现有方法仍然在很大程度上受到泛化能力不足、运行速度有限以及输入条件严格等问题的制约。
现有的 6D 物体位姿估计方法可以根据其所需输入类型进行分类。在基于模型的方法中,推理阶段需要使用参考物体的完整 3D 模型来支持位姿估计;而多视角方法则使用大量(8–200 张)参考图像,以间接方式编码物体的 3D 形状。尽管这些方法效果良好,但在缺乏多视角数据或高质量 3D 模型的场景中并不实用,而这种情况在新颖或未见过的物体中非常常见。相比之下,直接进行绝对位姿回归的方法通过监督学习绕开了大量参考数据的需求,但通常缺乏对未见物体的泛化能力。
我们的目标是在仅给定一张参考 RGB-D 图像的情况下估计任意物体的位姿,这是当前方法面临的一种极具挑战性的设置。为了克服在稀疏视角条件下显式重建和 2D 匹配的局限性,我们提出学习一种基于参考编码的条件建模方式。近期在 3D 生成领域的进展表明,当在大规模数据集上进行训练时,潜空间扩散模型可以在位姿、深度及其他信息的条件约束下进行图像或 3D 生成。基于这一观察,我们提出了一种基于潜空间扩散架构的方法,该方法能够从单一参考视角中学习稳健且全面的条件表示,用于捕获物体的纹理、形状和朝向先验,从而进行位姿估计。
在本文中,我们将新物体位姿估计表述为一个条件位姿生成问题:即在给定一个未见物体的新视角时,在条件化的参考位姿空间中生成该物体的位姿。我们的模型由两个分支组成:一个实例编码分支,用于将给定的 RGB-D 参考图像编码为参考物体位姿嵌入(Reference Object Pose Embedding ROPE);以及一个物体位姿解码(Object Pose Decoding OPD)分支,它结合查询图像和 ROPE,从任意视角解码物体的位姿。
我们并未直接估计旋转和平移,而是引入了一种适合该架构的中间稠密表示。受归一化物体坐标空间(Normalized Object Coordinate Space NOCS)的启发,该方法使用一个规范的物体姿态来为同一类别内的物体定义 2D–3D 对应关系,我们通过定义参考物体坐标(Reference Object Coordinate ROC)来放宽对规范坐标系的要求,使其表示在参考相机坐标系下的归一化物体坐标。
图 1:在仅给定一张 RGB-D 图像作为未见物体的参考视角时,我们的方法估计该物体在查询图像中的位姿,并以参考图像为相对坐标。该方法能够有效应对大幅度的视角变化。
我们的模型基于一个预训练的潜空间扩散模型,并对其进行微调,使其在 ROPE 条件约束下输出 ROC。利用生成的 ROC 以及目标物体的深度信息,我们通过 Kabsch–Umeyama 算法高效地计算物体位姿。此外,为了实现更快的推理速度,我们绕过扩散过程,以前向传播的方式运行 U-Net,从而使得该方法能够实现接近实时的运行速度,并显著快于现有方法。
2. Related Works
新物体位姿估计根据所需输入的不同,可以划分为三种主要设置:基于模型的方法、多视角方法以及单视角方法。我们的方法属于第三类,即仅使用一张参考视图和一张查询视图来估计物体位姿。
Model-based novel object pose estimation
CAD 模型在位姿估计任务中被广泛使用。实例级方法在训练和测试阶段依赖同一个 CAD 模型,并利用 2D–3D 对应关系进行位姿估计。类别级方法(如基于 NOCS 的方法),学习一个归一化的规范空间,用于在同一物体类别内进行位姿对齐。然而,这类方法受限于特定实例或类别,对新物体的适应能力较弱。近期的一些工作通过'渲染—比较'策略来解决新物体位姿估计问题,在测试阶段从 CAD 模型生成多个视角。尽管这些方法效果显著,但其计算开销较大,而且为未见过的真实世界物体获取 CAD 模型仍然具有挑战性。
Multi-view novel object pose estimation
不依赖 CAD 模型的无模型方法近年来逐渐受到关注。这些方法转而使用多视角图像或视频序列作为监督信号来进行新物体位姿估计。OnePose、OnePose++ 和 Gen6D 等方法利用 RGB 视频序列进行运动恢复结构(SfM),重建未见物体的粗略 3D 结构,并估计查询图像中的位姿。RelPose++ 和 PoseDiffusion 通过引入捆绑调整(bundle adjustment)学习,将该思路扩展到稀疏视角场景。然而,这类方法计算开销较大,当参考帧数量少于 10 张时,性能会明显下降。


