Metric3D v2: 零样本单目度量深度与表面法线估计基础模型
摘要
Metric3D v2 是一个几何基础模型,用于从一幅图像中进行零样本深度和表面法线估计,这对度量 3D 恢复至关重要。虽然深度和法线在几何上是相关的,并且高度互补,但它们存在不同的挑战。最先进的(SoTA)单目深度方法通过学习仿射不变深度来实现零样本泛化,同时,由于缺乏大规模标记数据,SoTA 法线估计方法的零样本性能有限。为了解决这些问题,我们提出了度量深度估计和表面法线估计的解决方案。
对于度量深度估计,我们指出,零样本单视图模型的关键在于解决各种相机模型和大规模数据训练的度量模糊性。我们提出了一个规范的相机空间转换模块(CSTM),它明确地解决了模糊性问题,可以毫不费力地插入到现有的单目模型中。
对于表面法向估计,我们提出了一个联合深度 - 法向优化模块,从度量深度中提取多样化的数据知识,使法向估计器能够超越法向标签进行学习。配备了这些模块,我们的深度 - 法向模型可以使用超过 1600 万张图像进行稳定训练来自数千个带有不同类型注释的相机模型,导致零样本泛化到具有看不见的相机设置的野外图像。
引言
单目度量深度和表面法线估计是从单个图像中预测绝对距离和表面方向的任务。作为重要的 3D 表示,深度和法线在几何上是相关的并且高度互补。虽然度量深度在捕获大规模数据方面表现出色,与度量深度相比,表面法线提供了对局部几何的上级保留,并且没有度量模糊性。这些独特的属性呈现深度和各种计算机视觉应用中不可或缺的表面法线,包括 3D 重建,神经渲染(NeRF),自动驾驶和机器人。
目前,社区仍然缺乏一个强大的、可概括的几何基础模型能够从单个图像生成高质量的度量深度和表面法线。度量深度估计和表面法线估计面临着不同的挑战。现有的深度估计方法分为学习度量深度,相对深度和仿射不变深度。尽管度量深度方法在各种基准测试中取得了令人印象深刻的准确性,它们必须使用相同的相机本质对数据集进行训练和测试。
一个折衷的方法是学习相对深度,它只表示一个点离另一个点更远或更近。学习仿射不变深度在上述两类方法之间找到了一个折衷,即深度达到未知的尺度和位移。问题是未知的偏移会导致 3D 重建失真,非度量深度无法满足各种下游应用。同时,这些模型不能生成表面法线。
与传感器捕获的地面实况(GT)不同,这些注释是从精心和密集重建的场景中导出的,其对捕获设备和场景都具有极其严格的要求。数据源主要包括合成创建或 3D 室内重建。真实的和多样化的室外场景是非常罕见的。受此标签缺陷的限制,SoTA 表面法线方法通常与强大的零样本泛化相斗争。
方法
规范相机空间变换 (CSTM)
考虑针孔相机模型,其内参数公式为:
$$ K = \begin{bmatrix} f/\delta & 0 & u_0 \ 0 & f/\delta & v_0 \ 0 & 0 & 1 \end{bmatrix} $$
其中 $f$ 是焦距(以微米为单位),$\delta$ 是像素大小(以微米为单位),并且 $(u_0, v_0)$ 是主中心。$f = \hat{f}/\delta$ 是像素表示的焦距。
针对不同相机焦距导致的度量歧义(相同成像尺寸对应不同真实距离),提出两种变换方式,将异构数据映射至统一规范空间(焦距固定为 1000 像素):
- CSTM-label: 按 $\omega_d = f^c / f$ 缩放真实深度标签,图像不变。推理时按 $1/\omega_d$ 还原为原相机度量深度。核心作用是直接消除深度标签的焦距歧义。
- CSTM-image: 按 $\omega_r = f^c / f$ 缩放图像/光心,同步缩放深度标签。推理时按 $1/\omega_r$ 将深度 resize 至原图尺寸。核心作用是模拟规范相机成像效果,对齐输入分布。
联合深度 - 法向量优化
针对法向量标注稀缺解决方案:联合深度 - 法向量优化模块,利用深度标注的规模优势,通过 循环精修块(ConvGRU) 实现深度与法向量的迭代协同优化,法向量学习来源包括:
- 少量真实法向量标注;
- 深度 - 法向量一致性约束:通过深度反投影的 3D 点云计算伪法向量,约束预测法向量的几何合理性;
- 特征级知识蒸馏:将深度编码器的强表征能力迁移至法向量分支。
损失函数设计
- 深度损失: $L = L_{silog} + L_{PWN} + L_{VNL} + L_{RPNL}$。随机提议归一化损失(RPNL):随机裁剪 32 个局部 patch 做中位数归一化,避免全图归一化挤压细粒度深度差异。
- 法向量损失: $L_n + w_{d-n}L_{d-n}$。有标注时用不确定性感知损失,无标注时用深度 - 法向量一致性损失。



