One2Any: 单参考任意物体 6D 位姿估计方法解析

综述由AI生成一种名为 One2Any 的新方法，用于解决任意物体的单参考 6D 位姿估计问题。该方法仅需一张参考 RGB-D 图像和一张查询 RGB-D 图像，无需 3D 模型、多视角数据或类别约束即可估计物体的相对 6 自由度位姿。核心创新在于将位姿估计视为编码 - 解码过程：首先通过参考物体编码器（ROE）从参考图中提取包含形状、朝向和纹理信息的参考物体位姿嵌入（ROPE）；随后利用基于 U-Net 的物体位姿解码（OPD）模块，结合 ROPE 条件生成参考物体坐标（ROC）图。ROC 是一种中间稠密表示，旨在避免传统特征匹配在遮挡或无纹理情况下的失效。实验表明，该方法在多个基准数据集上展现了优秀的泛化能力和鲁棒性，计算开销低且推理速度快，达到了当前最先进水平。

灵魂伴侣发布于 2026/4/5更新于 2026/5/2226 浏览

One2Any: One-Reference 6D Pose Estimation for Any Object

ABSTRACT

由于依赖完整的 3D 模型、多视角图像，或仅在特定物体类别上进行训练，6D 物体位姿估计在许多应用中仍然具有挑战性。这些要求使得模型难以泛化到新物体——尤其是在既没有 3D 模型也没有多视角图像可用的情况下。为了解决这一问题，我们提出了一种新的方法 One2Any：它仅使用一张参考 RGB-D 图像与一张查询 RGB-D 图像，就能在不需要该物体 3D 模型、多视角数据或类别约束等先验知识的情况下，估计物体的相对 6 自由度（DOF）位姿。

我们将物体位姿估计视为一个编码—解码过程：首先，从单一参考视角中获取一个全面的参考物体位姿嵌入（ROPE），该嵌入编码了物体的形状、朝向与纹理信息。利用该嵌入，一个基于 U-Net 的位姿解码模块为新的视角生成参考物体坐标（ROC），从而实现快速且准确的位姿估计。这种简单的编码—解码框架使得我们的模型可以在任意成对（pair-wise）的位姿数据上进行训练，从而支持大规模训练，并展现出很强的可扩展性。在多个基准数据集上的实验表明，我们的模型对新物体具有良好的泛化能力，以更低的计算开销实现了当前最先进（state-of-the-art）的精度与鲁棒性，甚至可与那些需要多视角或 CAD 输入的方法相媲美。

1. Introduction

6D 物体位姿估计是计算机视觉中的一项重要任务，因为它在机器人、混合现实以及通用场景理解等领域具有广泛应用。然而，现有方法仍然在很大程度上受到泛化能力不足、运行速度有限以及输入条件严格等问题的制约。

现有的 6D 物体位姿估计方法可以根据其所需输入类型进行分类。在基于模型的方法中，推理阶段需要使用参考物体的完整 3D 模型来支持位姿估计；而多视角方法则使用大量（8–200 张）参考图像，以间接方式编码物体的 3D 形状。尽管这些方法效果良好，但在缺乏多视角数据或高质量 3D 模型的场景中并不实用，而这种情况在新颖或未见过的物体中非常常见。相比之下，直接进行绝对位姿回归的方法通过监督学习绕开了大量参考数据的需求，但通常缺乏对未见物体的泛化能力。

我们的目标是在仅给定一张参考 RGB-D 图像的情况下估计任意物体的位姿，这是当前方法面临的一种极具挑战性的设置。为了克服在稀疏视角条件下显式重建和 2D 匹配的局限性，我们提出学习一种基于参考编码的条件建模方式。近期在 3D 生成领域的进展表明，当在大规模数据集上进行训练时，潜空间扩散模型可以在位姿、深度及其他信息的条件约束下进行图像或 3D 生成。基于这一观察，我们提出了一种基于潜空间扩散架构的方法，该方法能够从单一参考视角中学习稳健且全面的条件表示，用于捕获物体的纹理、形状和朝向先验，从而进行位姿估计。

在本文中，我们将新物体位姿估计表述为一个条件位姿生成问题：即在给定一个未见物体的新视角时，在条件化的参考位姿空间中生成该物体的位姿。我们的模型由两个分支组成：一个实例编码分支，用于将给定的 RGB-D 参考图像编码为参考物体位姿嵌入（Reference Object Pose Embedding ROPE）；以及一个物体位姿解码（Object Pose Decoding OPD）分支，它结合查询图像和 ROPE，从任意视角解码物体的位姿。

我们并未直接估计旋转和平移，而是引入了一种适合该架构的中间稠密表示。受归一化物体坐标空间（Normalized Object Coordinate Space NOCS）的启发，该方法使用一个规范的物体姿态来为同一类别内的物体定义 2D–3D 对应关系，我们通过定义参考物体坐标（Reference Object Coordinate ROC）来放宽对规范坐标系的要求，使其表示在参考相机坐标系下的归一化物体坐标。

图 1：在仅给定一张 RGB-D 图像作为未见物体的参考视角时，我们的方法估计该物体在查询图像中的位姿，并以参考图像为相对坐标。该方法能够有效应对大幅度的视角变化。

我们的模型基于一个预训练的潜空间扩散模型，并对其进行微调，使其在 ROPE 条件约束下输出 ROC。利用生成的 ROC 以及目标物体的深度信息，我们通过 Kabsch–Umeyama 算法高效地计算物体位姿。此外，为了实现更快的推理速度，我们绕过扩散过程，以前向传播的方式运行 U-Net，从而使得该方法能够实现接近实时的运行速度，并显著快于现有方法。

新物体位姿估计根据所需输入的不同，可以划分为三种主要设置：基于模型的方法、多视角方法以及单视角方法。我们的方法属于第三类，即仅使用一张参考视图和一张查询视图来估计物体位姿。

Model-based novel object pose estimation

CAD 模型在位姿估计任务中被广泛使用。实例级方法在训练和测试阶段依赖同一个 CAD 模型，并利用 2D–3D 对应关系进行位姿估计。类别级方法（如基于 NOCS 的方法），学习一个归一化的规范空间，用于在同一物体类别内进行位姿对齐。然而，这类方法受限于特定实例或类别，对新物体的适应能力较弱。近期的一些工作通过'渲染—比较'策略来解决新物体位姿估计问题，在测试阶段从 CAD 模型生成多个视角。尽管这些方法效果显著，但其计算开销较大，而且为未见过的真实世界物体获取 CAD 模型仍然具有挑战性。

Multi-view novel object pose estimation

不依赖 CAD 模型的无模型方法近年来逐渐受到关注。这些方法转而使用多视角图像或视频序列作为监督信号来进行新物体位姿估计。OnePose、OnePose++ 和 Gen6D 等方法利用 RGB 视频序列进行运动恢复结构（SfM），重建未见物体的粗略 3D 结构，并估计查询图像中的位姿。RelPose++ 和 PoseDiffusion 通过引入捆绑调整（bundle adjustment）学习，将该思路扩展到稀疏视角场景。然而，这类方法计算开销较大，当参考帧数量少于 10 张时，性能会明显下降。

One2Any: 单参考任意物体 6D 位姿估计方法解析

One2Any: One-Reference 6D Pose Estimation for Any Object

ABSTRACT

1. Introduction

Model-based novel object pose estimation

Multi-view novel object pose estimation

更多推荐文章

相关免费在线工具

Single-view novel object pose estimation

3. Method

3.1. Overview

3.2. Reference Object Coordinate (ROC)

3.3. Reference Object Pose Embedding

3.4. Object Pose Decoding with ROPE

3.5. Pose Estimation from ROC Map

4. Experimental Results

4.1. Training Details

更多推荐文章

相关免费在线工具

One2Any: 单参考任意物体 6D 位姿估计方法解析

One2Any: One-Reference 6D Pose Estimation for Any Object

ABSTRACT

1. Introduction

2. Related Works

Model-based novel object pose estimation

Multi-view novel object pose estimation

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Single-view novel object pose estimation

3. Method

3.1. Overview

3.2. Reference Object Coordinate (ROC)

3.3. Reference Object Pose Embedding

3.4. Object Pose Decoding with ROPE

3.5. Pose Estimation from ROC Map

4. Experimental Results

4.1. Training Details

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具