Metric3D v2: 零样本单目度量深度与表面法线估计几何基础模型 | 极客日志

PythonAI算法

Metric3D v2: 零样本单目度量深度与表面法线估计几何基础模型

Metric3D v2 是一款面向单目图像的零样本度量深度与表面法向量联合估计的几何基础模型。针对度量深度的相机内参歧义和表面法向量的标注稀缺问题，提出了规范相机空间转换模块（CSTM）和联合深度 - 法向量优化模块。模型基于超 1600 万张图像训练，在多个深度与法向量基准上达到 SOTA，并赋能 3D 重建、单目 SLAM 等下游任务。

不羁发布于 2026/4/6更新于 2026/7/649 浏览

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

Abstract

Metric3D v2 是一个几何基础模型，用于从一幅图像中进行零样本深度和表面法线估计，这对度量 3D 恢复至关重要。虽然深度和法线在几何上是相关的，并且高度互补，但它们存在不同的挑战。最先进的（SoTA）单目深度方法通过学习仿射不变深度来实现零样本泛化，同时，由于缺乏大规模标记数据，SoTA 法线估计方法的零样本性能有限。为了解决这些问题，我们提出了度量深度估计和表面法线估计的解决方案。

对于度量深度估计，我们指出，零样本单视图模型的关键在于解决各种相机模型和大规模数据训练的度量模糊性。我们提出了一个规范的相机空间转换模块，它明确地解决了模糊性问题，可以毫不费力地插入到现有的单目模型中。

对于表面法向估计，我们提出了一个联合深度 - 法向优化模块，从度量深度中提取多样化的数据知识，使法向估计器能够超越法向标签进行学习。配备了这些模块，我们的深度 - 法向模型可以使用超过 1600 万张图像进行稳定训练来自数千个带有不同类型注释的相机模型，导致零样本泛化到具有看不见的相机设置的野外图像。

我们的方法目前在度量深度，仿射不变深度以及表面法线预测的各种零样本和非零样本基准上排名第一。值得注意的是，我们在包括 NYUv2 和 KITTI 在内的各种深度基准上超过了超新的 MarigoldDepth 和 DepthAnything。我们的方法能够在随机收集的互联网图像上准确恢复度量 3D 结构，为合理的单图像计量铺平了道路。

潜在的好处延伸到下游任务，只需插入我们的模型即可显著改善。例如，我们的模型缓解了单眼 SLAM 的尺度漂移问题，从而实现高质量的度量尺度密集映射。这些应用突出了 Metric3D v2 模型作为几何基础模型的多功能性。

Introduction

单目度量深度和表面法线估计是从单个图像中预测绝对距离和表面方向的任务。作为重要的 3D 表示，深度和法线在几何上是相关的并且高度互补。虽然度量深度在捕获大规模数据方面表现出色，与度量深度相比，表面法线提供了对局部几何的上级保留，并且没有度量模糊性。这些独特的属性呈现深度和各种计算机视觉应用中不可或缺的表面法线，包括 3D 重建，神经渲染（NeRF），自动驾驶和机器人。目前，社区仍然缺乏一个强大的，可概括的几何基础模型能够从单个图像生成高质量的度量深度和表面法线。

度量深度估计和表面法线估计面临着不同的挑战。现有的深度估计方法分为学习度量深度，相对深度和仿射不变深度。尽管度量深度方法在各种基准测试中取得了令人印象深刻的准确性，他们必须使用相同的相机本质对数据集进行训练和测试。因此，度量深度方法的训练数据集通常很小，因为很难使用一个相同的相机收集覆盖不同场景的大型数据集。其结果是，所有这些模型在零样本测试中的泛化能力都很差，更不用说测试图像的相机参数也可能变化。

一个折衷的方法是学习相对深度，它只表示一个点离另一个点更远或更近。相对深度的应用非常有限。学习仿射不变深度在上述两类方法之间找到了一个折衷，即深度达到未知的尺度和位移。对于大规模数据，它们在训练过程中解耦了度量信息，并实现了令人印象深刻的鲁棒性和泛化能力，例如 MiDaS，DPT，LeReS，HDN。问题是未知的偏移会导致 3D 重建失真，非度量深度无法满足各种下游应用。

同时，这些模型不能生成表面法线。尽管将深度提升到 3D 点云可以做到这一点，但它对预测深度的准确性和精细细节提出了很高的要求。否则，各种伪影将保留在这种转换的法线中。例如，图 2 显示了来自 Marigold 深度的噪声法线，它在产生高分辨率精细深度方面表现出色。而不是直接转换，最先进的（SoTA）表面法线估计方法倾向于训练高质量法线注释的估计器。

与传感器捕获的地面实况（GT）不同，这些注释是从精心和密集重建的场景中导出的，其对捕获设备和场景都具有极其严格的要求。数据源主要包括合成创建或 3D 室内重建。真实的和多样化的室外场景是非常罕见的。受此标签缺陷的限制，SoTA 表面法线方法通常与强大的零样本泛化相斗争。这项工作致力于通过开发零样本，单视图，度量深度的多任务基础模型来解决这些挑战，和表面法线估计。

我们针对零样本度量深度和表面法线估计的挑战提出了有针对性的解决方案。对于度量尺度恢复，我们首先分析了单目深度估计中的度量模糊问题，并研究了深度方面的不同相机参数，包括像素大小，焦距和传感器大小。我们观察到焦距是精确度量恢复的关键因素。通过设计，仿射不变深度方法在训练过程中没有考虑焦距信息。如 3.1 节所示，仅从图像外观来看，不同的焦距可能会导致度量模糊，因此它们在训练中解耦了深度尺度。为了解决焦距变化的问题，CamConv 对网络中的相机模型进行编码，这迫使网络从图像外观中隐式地理解相机模型，然后将成像大小与真实世界的大小联系起来。

然而，训练数据包含有限的图像和摄像机类型，这对数据多样性和网络容量提出了挑战。我们在训练中提出了一种规范的摄像机变换方法，灵感来自人体重建方法的规范姿势空间。我们将所有的训练数据转换到一个规范的相机空间，在这个空间中，处理后的图像被粗略地认为是由同一个相机捕获的。

为了实现这种转换，我们提出了两种不同的方法。第一种方法试图调整图像外观以模拟规范相机，而另一种方法则转换 GT 标签以进行监督。相机模型不在网络中编码，使我们的方法易于适用于现有架构。在推理过程中，采用去规范变换来恢复度量信息。为了进一步提高深度精度，我们提出了一种随机建议归一化损失。它受到尺度移位不变损失的启发解耦深度尺度以强调单个图像的分布。然而，它们在整个图像上执行，这不可避免地挤压了细粒度的深度差异。我们建议从图像中随机裁剪几个补丁，并对其实施尺度平移不变损失。我们的损失强调了单个图像的局部几何形状和分布。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

变换方式	训练阶段操作	推理阶段操作	核心作用
CSTM-label	按 $\omega_d=f^c/f$ 缩放真实深度标签，图像不变	按 $1/\omega_d$ 还原为原相机度量深度	直接消除深度标签的焦距歧义
CSTM-image	按 $\omega_r=f^c/f$ 缩放图像 / 光心，同步缩放深度标签	按 $1/\omega_r$ 将深度 resize 至原图尺寸	模拟规范相机成像效果，对齐输入分布

对比维度	Metric3D v1	Metric3D v2
核心目标	单任务：零样本度量深度估计（仅输出真实物理尺度深度）	多任务：零样本度量深度 + 表面法向量联合估计（同时输出深度与法向量，解决法向量标注稀缺问题）
模型架构	编码器：ConvNeXt（Tiny/Large，ImageNet22K 预训练）解码器：Hourglass（无循环精修）	编码器：ConvNeXt + ViT（DINOv2 预训练，含 Small/Large/Giant2）解码器：Hourglass + DPT（新增 ConvGRU 循环精修块，迭代优化深度与法向量）
关键创新模块	1. 规范相机空间变换（CSTM，两种方式）2. 随机提议归一化损失（RPNL）	1. 保留 CSTM/RPNL2. 新增联合深度 - 法向量优化模块（利用深度标注蒸馏法向量知识，支持无标注法向量学习）3. 新增不确定性感知损失（适配法向量标注质量差异）
数据集规模与类型	训练数据：11 个数据集，超 800 万张图像（仅深度标注，覆盖上万种相机）测试数据：7 个零样本基准	训练数据：16 个数据集，超 1600 万张图像（含 1000 万张法向量标注，新增户外深度 / 法向量数据）测试数据：16 个基准（新增 5 个法向量零样本基准）
性能表现	深度基准 SOTA（如 NYUv2 零样本 δ₁=0.975，KITTI 零样本 AbsRel=0.052）无法输出法向量	1. 深度性能超越 v1（NYUv2 零样本 δ₁=0.980，KITTI 零样本 AbsRel=0.039）2. 法向量基准 SOTA（NYUv2 零样本 30° 精度 = 0.881，ScanNet 法向量中位误差 = 5.0°）
下游应用边界	支持 3D 场景重建、单目 SLAM（缓解尺度漂移）	扩展至：1. 野外场景计量（结合法向量提升尺寸测量精度）2. Neural Rendering（法向量辅助 NeRF 训练）3. 自动驾驶 360° 环视重建（多相机法向量一致性约束）

crop_size：裁剪尺寸（如 (616, 1064)），根据显存和输入图像比例调整，大尺寸提高精度但消耗更多资源
depth_normalize：深度归一化范围（如 (0.1, 200)），根据实际场景深度范围设定，范围不匹配会导致预测截断或精度下降
focal_length（默认 1000.0）：焦距参数，根据实际相机参数调整，直接影响 3D 点云重建精度
图像尺寸：推理时的输入尺寸，平衡精度和速度需求，大尺寸提高精度但降低推理速度；归一化参数：均值 [123.675, 116.28, 103.53] 和标准差 [58.395, 57.12, 57.375]，一般保持默认，除非有特殊需求，不匹配会导致特征提取偏差
Metric3D 支持两种数据格式：图像文件夹模式：直接指定包含图像的文件夹路径；JSON 注释文件模式：通过 JSON 文件指定每张图像的相关参数
- cam_in: 相机内参 [fx, fy, cx, cy]；rgb: RGB 图像路径；depth: 真实深度图路径（可选，仅用于评估）；depth_scale: 深度图缩放因子。
Metric3D 提供了多种预训练模型配置文件，位于 mono/configs 目录下：ConvNeXt 模型：HourglassDecoder/convtiny.0.3_150.py, HourglassDecoder/convlarge.0.3_150.py；ViT 模型：HourglassDecoder/vit.raft5.small.py, HourglassDecoder/vit.raft5.large.py
推理完成后，会在 show_dirs 目录下生成结果，包含：可视化图像：合并显示原始图像、预测深度图和真实深度图（如果有）；点云文件：PLY 格式的 3D 点云文件；日志文件：包含评估指标的日志
项目内置了多种可视化工具：深度图着色：使用 colormap 将灰度深度图转换为彩色图像，点云可视化：生成 PLY 格式的 3D 点云文件，可用 MeshLab 等软件查看，表面法线可视化：将表面法线转换为 RGB 颜色显示
相机內参矩阵 IntrinsicMatrix 核心参数焦距-f 像素尺寸 (dx,dy) 主点坐标 (u8,v8) 参数物理意义 f/dx:x 轴像素焦距 f/dy:y 轴像素焦距 1/dx:x 方向像素密度标定方法 MATLAB 工具包 Opencv 标定
相机内外参描述了相机从三维世界坐标到二维图像坐标的几何映射关系。相机内参描述相机本身的光学特性，与相机在世界坐标系中的位置无关。
- fx（水平焦距）：表示相机在水平方向的焦距，单位为像素；计算公式：fx = f * mx，其中 f 是物理焦距（mm），mx 是水平像素密度（pixel/mm）。典型值：手机相机 800-2000 像素，专业相机 1000-5000 像素，控制水平方向的缩放，决定物体在图像中的宽度大小
- fy（垂直焦距）：表示相机在垂直方向的焦距，单位为像素；计算公式：fy = f * my，其中 my 是垂直像素密度（pixel/mm）；理想情况下 fx ≈ fy，但实际可能存在微小差异；作用：控制垂直方向的缩放，决定物体在图像中的高度大小
- 主点参数，cx（主点 X 坐标）：光轴与图像平面的交点的 X 坐标，单位为像素；理想值：cx = image_width / 2；实际值可能偏移，反映镜头装配误差；作用：定义图像的光学中心，影响透视投影的中心位置。cy（主点 Y 坐标）：光轴与图像平面的交点的 Y 坐标，单位为像素；理想值：cy = image_height / 2；偏移量通常在几个像素以内，与 cx 一起确定光学中心，影响图像的对称性
- 畸变系数：
  - 径向畸变系数（由镜头曲率引起）：k1（一阶径向畸变）：主要畸变系数，影响最大，k1 > 0：桶形畸变（图像中心向外凸），k1 < 0：枕形畸变（图像中心向内凹），典型值：-0.5 到 +0.5；k2（二阶径向畸变）：高阶校正项，补偿 k1 无法修正的畸变，数值通常比 k1 小一个数量级，典型值：-0.1 到 +0.1；k3（三阶径向畸变）：极高阶项，仅在严重畸变时使用，多数情况下接近 0，典型值：-0.01 到 +0.01
  - 切向畸变系数（由镜头装配不平行引起）：p1（切向畸变系数 1）：校正由于镜头与传感器不平行导致的畸变，影响图像的倾斜和不对称，典型值：-0.01 到 +0.01。p2（切向畸变系数 2）：与 p1 配合校正切向畸变，通常数值较小，典型值：-0.01 到 +0.01
- 内参矩阵
  - fx, fy：分别控制 x 和 y 方向的缩放
  - cx, cy：定义投影中心的偏移
  - 对角线形式表示 x、y 方向独立缩放
  - 右上角为 0 表示像素是矩形的（无倾斜）
相机外参描述相机相对于世界坐标系的位置和姿态。
- 旋转矩阵 R是 3×3 正交矩阵，描述相机坐标系相对于世界坐标系的旋转关系。
- 正交矩阵：R^T * R = I（转置等于逆矩阵）；行列式：det® = 1；每行和每列都是单位向量。
- 平移向量 t是 3×1 向量，描述相机原点在世界坐标系中的位置。
- tx：相机沿世界坐标系 X 轴的位移（米或毫米）；ty：相机沿世界坐标系 Y 轴的位移；tz：相机沿世界坐标系 Z 轴的位移。
- 外参通常表示为齐次变换矩阵：

[R|t] = [r11 r12 r13 tx] [r21 r22 r23 ty] [r31 r32 r33 tz] [0 0 0 1] (4x4 齐次形式)
t = [tx] [ty] [tz]
R = [r11 r12 r13] [r21 r22 r23] [r31 r32 r33]
K = [fx 0 cx] [0 fy cy] [0 0 1 ]

{"files":[{"cam_in":[707.0493,707.0493,604.0814,180.5066],"rgb":"data/kitti_demo/rgb/0000000050.png","depth":"data/kitti_demo/depth/0000000050.png","depth_scale":256.0},...]}

变换方式	处理逻辑（训练阶段）	源码关键参数	作用
CSTM-label	1. 计算缩放比 $\omega_d=f^c/f$（$f^c=1000$ 像素为规范焦距）；2. 深度标签 $D^$ 缩放为 $D_c^=\omega_d \cdot D^*$；3. 图像保持不变	`canonical_focal=1000`	直接对齐深度标签的度量尺度，消除焦距歧义
CSTM-image	1. 计算缩放比 $\omega_r=f^c/f$；2. 图像 resize 为 $I_c=T(I,\omega_r)$，主点同步缩放为 $(\omega_r u_0, \omega_r v_0)$；3. 深度标签仅 resize（无数值缩放）	`img_size=(512,960)`（ConvNet）`img_size=(616,1064)`（ViT）	模拟规范相机的成像效果，对齐输入图像分布

下游任务	集成逻辑	核心价值
3D 场景重建	输入 Metric3D 深度 + COLMAP 相机位姿，生成稠密点云	无需逐帧尺度对齐，重建误差比 LeReS 降低 40%
单目 SLAM	将 Metric3D 深度作为 Droid-SLAM 的初始深度先验	缓解尺度漂移，平移误差从 33.9% 降至 1.44%
野外计量	点云生成后，用 Meshlab 测量目标尺寸（如无人机翼展）	实测尺寸与 GT 误差 < 0.3m，优于 ZoeDepth
自动驾驶 360° 重建	融合 6 个车载相机的 Metric3D 深度，生成全景点云	多相机深度无尺度不一致，适配自动驾驶环境建模

任务	指标	计算逻辑	优劣判定
度量深度	AbsRel（绝对相对误差）	AbsRel = $\frac{1}{N}\sum\frac{D-D^}{D^}$	越小越好，反映整体深度偏差
	δ1/δ2/δ3（阈值精度）	$\delta_i=\text{ratio of } \max(\frac{D}{D^},\frac{D^}{D})<1.25^i$	越大越好，δ1>0.98 为 SOTA 水平
	RMS（均方根误差）	RMS = $\sqrt{\frac{1}{N}\sum(D-D^*)^2}$	越小越好，反映深度的数值偏差
表面法向量	30° 精度	法向量与 GT 的夹角 < 30° 的像素占比	越大越好，v2 可达 0.881（NYUv2 零样本）
	中位角度误差	法向量夹角的中位数	越小越好，v2 可达 7.0°（NYUv2 零样本）
3D 重建	Chamfer L1 距离	预测点云与 GT 点云的平均最近邻距离	越小越好，v2 最低达 0.036（NYUv2）
	F-score	距离阈值内的匹配点占比	越大越好，v2 可达 0.814（NYUv2）
SLAM 适配	平移漂移 $t_{rel}$	轨迹的平均相对平移误差	越小越好，Droid-SLAM+Ours 从 33.9% 降至 1.44%

损失类型	公式（核心）	目标关联	侧重点
$L_{silog}$（尺度不变对数损失）	$L_{silog}=\frac{1}{N}\sum(\log D-\log D^)^2 - \frac{1}{N^2}(\sum(\log D-\log D^))^2$	解决深度的尺度歧义，适配多相机数据	全局深度尺度一致性
$L_{PWN}$（成对法向量损失）	约束局部邻域内法向量的一致性	提升深度的几何合理性（v1）/ 法向量平滑性（v2）	局部几何结构
$L_{VNL}$（虚拟法向量损失）	从深度生成虚拟法向量并约束	深度→法向量的几何关联	深度 - 法向量一致性（v1 基础）
$L_{RPNL}$（随机提议归一化损失）	对 32 个局部 patch 做中位数归一化，约束 patch 内深度分布	弥补全图归一化的局部深度差异挤压	近景 / 边缘的深度细节
$L_n$（不确定性感知损失，v2 新增）	对法向量 GT 施加加权损失，权重为预测不确定性	适配法向量标注的噪声	法向量标注的鲁棒性
$L_{d-n}$（深度 - 法向量一致性损失，v2 新增）	约束预测法向量与深度生成的伪法向量的相似度	利用深度标注弥补法向量标注不足	无标注场景的法向量泛化

模块	核心作用	源码关键参数	参数影响
规范焦距 $f^c$	定义统一度量空间	`canonical_focal=1000`	$f^c=1000$ 时 AbsRel 最低（19.82%），过大 / 过小会导致误差升高
ViT 预训练权重	提升跨场景泛化	`pretrained=dino_v2_reg`	DINOv2 预训练比 ImageNet 提升 NYUv2 δ1 3% 以上
ConvGRU 迭代步数	优化深度 - 法向量一致性	`iters=4`（ViT-S）/`8`（ViT-G）	步数 = 4 时精度 / 速度平衡，步数 = 8 时法向量误差降低 0.5°

Metric3D v2: 零样本单目度量深度与表面法线估计几何基础模型

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

Abstract

Introduction

更多推荐文章

相关免费在线工具

Method

Ambiguity Issues in Metric Depth Estimation

Canonical Camera Transformation

Jointly optimizing depth and normal

Supervision

Experiments

Zero-shot Generalization

Applications Based on Our Method

Ablation Study

Conclusion

核心架构设计

训练阶段可调参数

数据准备

前向传递

更多推荐文章

相关免费在线工具

Metric3D v2: 零样本单目度量深度与表面法线估计几何基础模型

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

Abstract

Introduction

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Related Work

Method

Ambiguity Issues in Metric Depth Estimation

Canonical Camera Transformation

Jointly optimizing depth and normal

Supervision

Experiments

Zero-shot Generalization

Applications Based on Our Method

Ablation Study

Conclusion

核心架构设计

训练阶段可调参数

数据准备

前向传递

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具