跳到主要内容
Pos3R: 无需训练的未见物体 6D 位姿估计方法解析 | 极客日志
编程语言 AI 算法
Pos3R: 无需训练的未见物体 6D 位姿估计方法解析 综述由AI生成 Pos3R 提出一种利用 3D 基础模型 MASt3R 进行未见物体 6D 位姿估计的无训练框架。该方法通过渲染少量模板并结合 MASt3R 生成的三维一致特征,实现高效的 2D-3D 对应匹配。实验表明,Pos3R 在 BOP 挑战赛多个数据集上表现优于其他无训练方法,且能与精化技术结合提升精度,为复杂场景下的物体定位提供了鲁棒解决方案。
林间仙子 发布于 2026/3/24 更新于 2026/5/23 20 浏览Pos3R: 6D Pose Estimation for Unseen Objects Made Easy
文章概括
引用:
@inproceedings {deng2025pos3r, title={Pos3R: 6 D Pose Estimation for Unseen Objects Made Easy}, author={Deng, Weijian and Campbell, Dylan and Sun, Chunyi and Zhang, Jiahao and Kanitkar, Shubham and Shaffer, Matt E and Gould, Stephen}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference}, pages={16818 --16828 }, year={2025 }}
核心动机: 基础模型显著降低了对任务特定训练的需求,但现有 6D 位姿估计方法要么仍需训练,要么忽视了 3D 基础模型的收益。Pos3R 利用 3D 重建基础模型 MASt3R,无需额外训练即可从单张 RGB 图像估计任意物体的 6D 位姿。
1. Introduction
六维(6D)物体位姿估计——即确定物体相对于相机的精确位置和朝向的任务——在机器人、增强现实以及自主系统等应用中至关重要。可靠的位姿估计能够支持诸如物体操作、抓取和装配等关键任务。
传统方法通常依赖于针对特定物体或类别定制的学习型模型,虽然能够取得较高精度,但在泛化到新类别或未见过的物体时往往表现不佳。在动态变化且数据稀缺的环境中,这种局限性尤为突出。
技术背景:什么是 6D 位姿?
要输出两样东西:
位置(translation) :物体中心在相机坐标系里在哪里(x,y,z)
朝向(rotation) :物体怎么转的(绕 x/y/z 轴转多少)
合在一起就是一个刚体变换 $T_{c\leftarrow o} = [R|t]$。难点在于相机看到的是 2D 图像,你要从 2D 恢复 3D 的'位置 + 方向',这是典型的'信息不够'问题,必须借助几何约束、多视角/模板或强特征。
为克服上述限制,近年来研究逐渐转向基于模型的方法,旨在无需针对具体物体训练的情况下,将位姿估计泛化到未见过的物体。这类方法通常采用两阶段流程:首先在场景中检测并定位物体,其次通过'渲染 - 对比'(render-and-compare)过程,将检测到的物体区域与一组模板模型进行匹配。
近年来无训练(training-free)方法的出现提供了一种有前景的替代方案。诸如 DINOv2 等基础模型已展现出强大的零样本能力。然而,仅靠 2D 特征,在'平面外旋转'上会出问题。
图 1:平面内旋转与平面外旋转示意,以及 DINOv2 与 MASt3R 在对应关系质量上的对比。由于 2D 特征的局限性,DINOv2 呈现出稀疏且不一致的对应关系,尤其在平面外旋转情况下更为明显。相比之下,MASt3R 在两类旋转下都能提供稠密且稳定的对应关系。
受此启发,我们提出 Pos3R,一种仅使用 RGB 输入、无需训练的未见物体 6D 位姿估计方法。Pos3R 利用 3D 基础模型 MASt3R 进行位姿估计,而无需任何额外训练。其核心在于测试图像裁剪区域与由 CAD 模型渲染得到的模板图像之间的匹配过程。MASt3R 在该场景下能够生成高质量的二维对应关系,使 Pos3R 能够构建位姿估计所需的 2D-3D 对应关系,并利用 PnP-RANSAC 算法完成位姿求解。
Pos3R 的核心流程
:为 CAD 物体生成少量但覆盖充分的模板(40 张/物体),覆盖平面内与平面外旋转。
模板渲染
图像匹配 :用 MASt3R 做'真实裁剪图 ↔ 模板图'的高质量对应(Dense Correspondence)。
2D-3D 升级 :把 2D-2D 匹配升级为 2D-3D 对应(利用渲染记录)。
PnP-RANSAC 求解 :最终输出 6D 位姿。
提出了 Pos3R,利用 3D 基础模型 MASt3R、无需训练且更具鲁棒性的方法。
借助 MASt3R 稳定的稠密对应关系,每个物体仅使用 40 个精心布置的模板即可覆盖平面内与平面外旋转,在 BOP 挑战赛中取得了优异表现。
2. Related Work Seen Object Pose Estimation
已见物体位姿估计通常针对模型训练阶段已经见过的特定物体。常见方法包括基于对应关系、基于模板的策略以及基于回归的方法。这些实例特定的方法通常需要针对新物体实例重新训练,限制了泛化能力。
Unseen Object Pose Estimation
为提升灵活性,许多方法致力于在无需针对特定物体训练的情况下泛化到新的物体实例。大致可分为基于人工参考视图的方法和基于 CAD 模型的方法。我们的工作基于 CAD 模型的方法,专注于一种无需训练的未见物体位姿估计流程。
Training-Free Object Pose Estimation
传统上,6D 物体位姿估计通常通过建立 3D–2D 对应关系,然后使用 PnP 算法完成求解。近年来,利用基础模型特征进行位姿估计逐渐受到关注。我们的工作探索了一种仅使用 RGB 输入、无需训练的未见物体位姿估计方法。
3. 6D Pose Estimation with Pos3R
3.1. Task Definition 给定一个查询物体的三维模型 $Q$,以及一张包含该物体的 RGB 图像 $I \in \mathbb{R}^{H \times W \times 3}$,在相机内参 $K$ 已知的情况下,任务是估计物体 $Q$ 相对于相机参考坐标系的 6D 位姿。目标是求解三维空间中的六自由度变换 $T = (R, t)$。
分割后的物体区域 $I_m = M \odot I$ 通过对二值分割掩码 $M$ 与图像 $I$ 进行逐元素相乘得到,从而仅保留物体 $Q$ 的可见部分。
图 2:Pos3R 中 6D 位姿估计流程概览。(1)模板渲染;(2)图像匹配;(3)位姿拟合。
3.2. Training-Free Pipeline 遵循未见物体 6D 位姿估计的标准基于模型流程,Pos3R 由两个组件构成:目标检测与位姿估计。我们将各组件保持冻结(参数不更新),避免任何针对特定物体或特定任务的训练。
在目标检测部分 ,我们使用 CNOS 为每个目标实例生成分割掩码与物体身份标识,从而在 RGB 图像 $I$ 中定位目标分割区域 $I_m$。
在 6D 位姿估计部分 ,我们在图 2 中展示了三个步骤。具体而言,给定一组由带纹理的 CAD 模型渲染得到的模板,Pos3R 使用 3D 基础模型 MASt3R 从目标分割区域 $I_m$ 以及每个模板中提取特征,并通过建立 2D–3D 对应关系,结合 PnP-RANSAC 算法来估计六自由度变换 $T = (R, t)$。
3.2.1. Template Rendering 使用带纹理的三维 CAD 模型,我们从不同朝向渲染物体的模板。渲染过程遵循标准光栅化方法,采用黑色背景和固定光照设置。渲染相机采用与测试相机相同的内参 $K$,并且渲染得到的模板与测试图像 $I$ 的尺寸一致。在每个模板中,物体始终保持居中。此外,还记录了渲染模板中每个像素在三维 CAD 模型坐标系下对应的三维位置,从而能够建立 2D–3D 对应关系。
Template Configuration
为降低对大规模模板库的依赖,Pos3R 利用 3D 基础模型 MASt3R,其能够在不同视角下生成三维一致的特征。这使得 Pos3R 能够在无需数百个模板或复杂选择机制的情况下,有效应对平面外旋转。我们使用一组八个基础模板,记为 ${I_i}_{i=1}^8$,用于覆盖关键朝向。这些模板对应的相机位置被放置在以 CAD 模型为中心的立方体顶点处。
为解决平面内(轴向)旋转引起、可能影响对应质量的歧义问题,我们对每个基础模板施加受控的旋转变化。对于每个模板 $I_i$,我们绕相机主轴生成 $T$ 个旋转,每个旋转由角度 $\theta_k=\frac{2\pi k}{T},\quad k=0,\dots,T-1$ 定义。在实验中,我们设置 $T=5$ 以平衡效率与精度,从而得到一组旋转增强模板 ${I_{i,k}}_{k=1}^5$。总计 $8 \times 5 = 40$ 张模板。
3.2.2. Image Matching MASt3R as an Image Matcher
我们的方法基于 MASt3R,该模型能够在两张输入图像 $I_a$ 与 $I_b$ 之间同时执行局部三维重建与像素级匹配。从概念上讲,MASt3R 可视为一个映射函数 $f(I_a, I_b) = \text{Dec}(\text{Enc}(I_a), \text{Enc}(I_b))$。
利用这些局部特征表示,图像之间的对应关系通过 fastNN 算法来确定。该算法首先在均匀的像素网格上初始化种子点,并通过迭代细化这些种子,从而在特征图 $D_a$ 与 $D_b$ 之间高效建立高质量的双向对应关系。最终得到的 $I_a$ 与 $I_b$ 之间的双向像素匹配对表示为 $M_{a,b} = {(y_a^c, y_b^c)}{c=1}^{|M {a,b}|}$。
Similarity-Based Template Selection
不同于需要数百个模板的方法,Pos3R 仅需四十个模板即可完成模板选择。我们并未依赖经过训练的模板选择网络,而是采用一种基于匹配对应关系相似度的、简单且无需训练的方法。
对于每个旋转增强模板 $I_{i,k}$,我们获取目标区域 $I_m$ 与模板 $I_{i,k}$ 之间的双向像素匹配对。对于 $M_{m,i,k}$ 中的每一对匹配像素 $(y_m^p, y_{i,k}^p)$,我们从 MASt3R 生成的特征图 $D_m$ 和 $D_{i,k}$ 中提取对应的局部特征。我们将每一对匹配特征的相似度定义为 $S(f_m^p, f_{i,k}^p) = f_m^p \cdot f_{i,k}^p$。
为计算目标分割区域 $I_m$ 与每个模板变体 $I_{i,k}$ 之间的整体相似度,我们对所有匹配对的相似度进行聚合:
$$\text{sim}(I_m, I_{i,k}) = \sum_{p=1}^{|M_{m,i,k}|} S(f_m^p, f_{i,k}^p).$$
在计算完每个 $\text{sim}(I_m, I_{i,k})$ 后,我们选择相似度得分最高的模板:
$$(i_{\text{opt}}, k_{\text{opt}}) = \underset{i \in {1,\dots,8}, k \in {1,\dots,5}}{\operatorname{arg,max}} \text{sim}(I_m, I_{i,k}).$$
最终选定的模板 $I_{i_{\text{opt}}, k_{\text{opt}}}$ 被作为与目标分割区域最接近的匹配,用于后续的位姿估计过程。
3.2.3. Pose Fitting 在选定合适的模板 $I_{i_{\text{opt}}, k_{\text{opt}}}$ 后,我们继续估计位姿 $T_m = (R_m, t_m)$。该过程依赖一组 2D–3D 对应关系 $\mathcal{C}{t {\text{final}}} = {(y_m^j, P^j)}_{j=1}^{|M|}$。
为求得 $T_m$,我们求解透视 n 点(Perspective-n-Point, PnP)问题,其目标是最小化重投影误差:
$$\operatorname{arg\ min}{R_m, t_m} \sum {j=1}^{|M|} \left|| y_m^j - \pi(R_m P^j + t_m) |\right|^2,$$
其中 $\pi$ 是投影函数。
为增强对离群点的鲁棒性,我们采用高效 PnP(EPnP)算法,并结合基于 RANSAC 的拟合策略。在该策略中,我们从 $\mathcal{C}{t {\text{final}}}$ 中随机抽取四组对应关系形成子集,并迭代地应用 PnP,从而生成多个位姿假设。对于每个假设,我们统计内点数量,内点定义为重投影误差小于预设阈值 $\epsilon$ 的对应关系:
$$\text{inliers} = \left| \left{ j : \left|| y_m^j - \pi(R_m P^j + t_m) \right| < \epsilon \right} |\right|.$$
最终,我们将内点数量最多的假设选作最终的粗位姿估计 $T_m$。
4. Experiments 在本节中,我们首先介绍实验设置。随后,我们在 BOP 挑战赛的七个核心数据集上,将我们的方法与以往方法进行对比评估。最后,我们通过消融实验分析方法中不同配置对性能的影响。
4.1. Experimental Setup 评测数据集 我们在 BOP 挑战赛的七个核心数据集上评估我们的方法,包括:LineMod Occlusion(LM-O)、T-LESS、TUD-L、ICBIN、ITODD、HomebrewedDB(HB)以及 YCB-Video(YCB-V)。这些数据集共包含 132 个不同物体和 19,048 个测试实例。
评测指标 我们采用 BOP 位姿评测协议对 6D 物体定位进行评估,该协议通过三种误差指标衡量位姿精度:可见表面差异(VSD)、最大对称性感知表面距离(MSSD)以及最大对称性感知投影距离(MSPD)。总体 AR 分数为三种指标的平均值。
位姿精化 为展示 Pos3R 能够与渲染 - 对比类精化技术相结合,我们将 MegaPose 中的精化方法应用于我们的结果。
4.2. Comparison With the State of the Art 我们将 Pos3R 与无训练方法和基于训练的方法进行对比。在粗位姿估计任务中,Pos3R 的性能优于其他无训练方法,在大多数数据集上取得了最高的平均精度和稳定的优异表现。例如,Pos3R 在 TUD-L、HB 和 YCB-V 数据集上取得了最高的 AR,整体平均 AR 达到 39.5。此外,Pos3R 的运行时间仅为 1.4 秒,展现出显著的效率优势。
在使用 MegaPose 的精化模块后,Pos3R 依然保持了较强的竞争力。尽管 Pos3R 并非为精化过程而专门设计,但在多个数据集上,其精化后的精度可与 MegaPose 及其他经过精化的方法相当。
4.3. Component Analysis Pose Estimation Using Predicted 3D Models 基于模型的未见物体位姿估计方法通常需要精确且带纹理的 3D 模型。为降低这一要求,我们使用 Wonder3D 从单张参考图像预测生成 3D 模型。结果表明,无论在位姿精化前还是精化后,Pos3R 的 AR 得分均高于 MegaPose 和 GigaPose。
Template Selection Technique 在实验中,我们采用对应关系匹配相似度作为主要的模板选择方法。基于内点数的模板选择方法具有较好的效果,而基于相似度得分的选择方式性能最佳。
Impact of In-Plane Rotation and 3D Consistency on Pose Estimation 表 3 评估了在七个数据集上,引入平面内(轴向)旋转和 3D 一致性特征对位姿估计性能的影响。我们的方法 Pos3R 通过结合受控的平面内旋转以及 MASt3R 基础模型提供的 3D 一致性特征,在所有数据集上均取得了最高精度。
Qualitative Results of 6D Pose Estimation 图 5 展示了 Pos3R 在多个具有挑战性的数据集上的位姿估计结果。Pos3R 在多样化的物体类型、尺度和纹理条件下均表现出良好的鲁棒性。然而,在严重遮挡的场景中,Pos3R 的表现仍有改进空间。
5. Conclusion 本文提出了 Pos3R,一种无需训练、仅使用 RGB 输入的未见物体 6D 位姿估计框架。通过利用 3D 基础模型 MASt3R,Pos3R 能够生成鲁棒且具备 3D 一致性的特征,从而有效处理平面内与平面外旋转。在不依赖大规模数据集或针对特定物体训练的情况下,Pos3R 为无训练研究提供了一个强有力的基线方法。BOP 挑战赛上的实验表明,Pos3R 在粗位姿估计方面优于其他无训练方法,并且在与 MegaPose 精化模块结合时,能够取得与精化类方法相当的竞争性结果。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online