Pos3R: 无需训练的未见物体 6D 位姿估计方法解析 | 极客日志

编程语言AI算法

Pos3R: 无需训练的未见物体 6D 位姿估计方法解析

Pos3R 提出一种利用 3D 基础模型 MASt3R 进行未见物体 6D 位姿估计的无训练框架。该方法通过渲染少量模板并结合 MASt3R 生成的三维一致特征，实现高效的 2D-3D 对应匹配。实验表明，Pos3R 在 BOP 挑战赛多个数据集上表现优于其他无训练方法，且能与精化技术结合提升精度，为复杂场景下的物体定位提供了鲁棒解决方案。

林间仙子发布于 2026/3/24更新于 2026/7/2943 浏览

Pos3R: 6D Pose Estimation for Unseen Objects Made Easy

文章概括

引用：

@inproceedings{deng2025pos3r, title={Pos3R: 6D Pose Estimation for Unseen Objects Made Easy}, author={Deng, Weijian and Campbell, Dylan and Sun, Chunyi and Zhang, Jiahao and Kanitkar, Shubham and Shaffer, Matt E and Gould, Stephen}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference}, pages={16818--16828}, year={2025}}

核心动机： 基础模型显著降低了对任务特定训练的需求，但现有 6D 位姿估计方法要么仍需训练，要么忽视了 3D 基础模型的收益。Pos3R 利用 3D 重建基础模型 MASt3R，无需额外训练即可从单张 RGB 图像估计任意物体的 6D 位姿。

1. Introduction

六维（6D）物体位姿估计——即确定物体相对于相机的精确位置和朝向的任务——在机器人、增强现实以及自主系统等应用中至关重要。可靠的位姿估计能够支持诸如物体操作、抓取和装配等关键任务。

传统方法通常依赖于针对特定物体或类别定制的学习型模型，虽然能够取得较高精度，但在泛化到新类别或未见过的物体时往往表现不佳。在动态变化且数据稀缺的环境中，这种局限性尤为突出。

技术背景：什么是 6D 位姿？

要输出两样东西：

位置（translation）：物体中心在相机坐标系里在哪里（x,y,z）

朝向（rotation）：物体怎么转的（绕 x/y/z 轴转多少）

合在一起就是一个刚体变换 $T_{c\leftarrow o} = [R|t]$。难点在于相机看到的是 2D 图像，你要从 2D 恢复 3D 的'位置 + 方向'，这是典型的'信息不够'问题，必须借助几何约束、多视角/模板或强特征。

为克服上述限制，近年来研究逐渐转向基于模型的方法，旨在无需针对具体物体训练的情况下，将位姿估计泛化到未见过的物体。这类方法通常采用两阶段流程：首先在场景中检测并定位物体，其次通过'渲染 - 对比'（render-and-compare）过程，将检测到的物体区域与一组模板模型进行匹配。

近年来无训练（training-free）方法的出现提供了一种有前景的替代方案。诸如 DINOv2 等基础模型已展现出强大的零样本能力。然而，仅靠 2D 特征，在'平面外旋转'上会出问题。

平面内旋转与平面外旋转示意

图 1：平面内旋转与平面外旋转示意，以及 DINOv2 与 MASt3R 在对应关系质量上的对比。由于 2D 特征的局限性，DINOv2 呈现出稀疏且不一致的对应关系，尤其在平面外旋转情况下更为明显。相比之下，MASt3R 在两类旋转下都能提供稠密且稳定的对应关系。

受此启发，我们提出 Pos3R，一种仅使用 RGB 输入、无需训练的未见物体 6D 位姿估计方法。Pos3R 利用 3D 基础模型 MASt3R 进行位姿估计，而无需任何额外训练。其核心在于测试图像裁剪区域与由 CAD 模型渲染得到的模板图像之间的匹配过程。MASt3R 在该场景下能够生成高质量的二维对应关系，使 Pos3R 能够构建位姿估计所需的 2D-3D 对应关系，并利用 PnP-RANSAC 算法完成位姿求解。

Pos3R 的核心流程

：为 CAD 物体生成少量但覆盖充分的模板（40 张/物体），覆盖平面内与平面外旋转。

Pos3R: 无需训练的未见物体 6D 位姿估计方法解析

Pos3R: 6D Pose Estimation for Unseen Objects Made Easy

文章概括

1. Introduction

Pos3R 的核心流程

更多推荐文章

相关免费在线工具

3. 6D Pose Estimation with Pos3R

3.1. Task Definition

3.2. Training-Free Pipeline

3.2.1. Template Rendering

3.2.2. Image Matching

3.2.3. Pose Fitting

4. Experiments

4.1. Experimental Setup

4.2. Comparison With the State of the Art

4.3. Component Analysis

5. Conclusion

更多推荐文章

相关免费在线工具

Pos3R: 无需训练的未见物体 6D 位姿估计方法解析

Pos3R: 6D Pose Estimation for Unseen Objects Made Easy

文章概括

1. Introduction

Pos3R 的核心流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Related Work

3. 6D Pose Estimation with Pos3R

3.1. Task Definition

3.2. Training-Free Pipeline

3.2.1. Template Rendering

3.2.2. Image Matching

3.2.3. Pose Fitting

4. Experiments

4.1. Experimental Setup

4.2. Comparison With the State of the Art

4.3. Component Analysis

5. Conclusion

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具