跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Metric3D v2: 零样本度量深度与表面法线联合估计模型解析

Metric3D v2 是面向单目图像的零样本度量深度与表面法向量联合估计几何基础模型。针对度量深度的相机内参歧义和表面法向量的标注稀缺两大痛点,提出规范相机空间转换模块(CSTM)和联合深度 - 法向优化模块。基于 1600 万张图像训练,覆盖上万种相机模型。在 NYUv2、KITTI 等基准上取得 SOTA 性能,有效缓解单目 SLAM 尺度漂移,支持 3D 场景重建及野外计量等下游任务。

XiaoPingzi发布于 2026/4/7更新于 2026/5/2518 浏览
Metric3D v2: 零样本度量深度与表面法线联合估计模型解析

Metric3D v2: 零样本度量深度与表面法线联合估计

概述

Metric3D v2 是一个面向单目图像的几何基础模型,用于从一幅图像中进行零样本度量深度和表面法线估计。该模型针对度量深度的相机内参歧义和表面法向量的标注稀缺两大痛点,提出了规范相机空间转换模块(CSTM)和联合深度 - 法向优化模块。基于超过 1600 万张图像训练,覆盖上万种相机模型,在多种基准上取得 SOTA 性能。

核心挑战

度量深度歧义

不同相机的焦距差异会导致'相同成像尺寸对应不同真实距离'的度量歧义。例如,焦距 26mm、深度 2m 与焦距 52mm、深度 4m 的成像一致。现有仿射不变深度方法(如 MiDaS、LeReS)解耦了度量信息,无法输出真实物理尺度。

法向量标注稀缺

高质量法向量标注依赖密集 3D 重建,仅室内场景有充足数据,户外标注不足 2 万张,而深度标注超 948.8 万张。现有方法在跨场景零样本测试中,法向量角度误差显著升高。

方法论

规范相机空间变换 (CSTM)

为解决焦距变化引起的度量模糊,提出 CSTM 将异构数据映射至统一规范空间(实验中固定规范焦距 fc = 1000 像素)。

  • CSTM-label:直接对深度标签进行缩放。计算缩放因子 ωd = fc / f,将真实深度标签 D* 按比例缩放至规范空间 Dc* = ωd · D*。推理时按倒数还原为原相机的真实物理深度。
  • CSTM-image:对输入图像进行缩放,模拟规范相机的成像效果。图像 I 按 ωr = fc / f 进行 resize,同时调整主点坐标。深度标签仅做尺寸对齐不做数值缩放。

实验表明,CSTM-label 性能更优,无 CSTM 时模型难以收敛,零样本 AbsRel 会从 0.083 暴增至 0.584。

联合深度 - 法向优化模块

利用深度标注的规模优势,通过循环精修块(ConvGRU)实现深度与法向量的迭代协同优化。法向量学习来源包括:

  1. 少量真实法向量标注;
  2. 深度 - 法向量一致性约束:通过深度反投影的 3D 点云计算伪法向量;
  3. 特征级知识蒸馏:将深度编码器的强表征能力迁移至法向量分支。

损失函数设计

  • 深度损失:Ld = L_PWN + L_VNL + L_silog + L_RPNL。其中随机提议归一化损失(RPNL)随机裁剪 32 个局部 patch 做中位数归一化,避免全图归一化挤压细粒度深度差异。
  • 法向量损失:有标注时用不确定性感知损失 Ln(·),无标注时用深度 - 法向量一致性损失 Ld-n(D, N)。
  • 总损失:L = wdLd + wnLn + wd-n*Ld-n,权重分别为 0.5, 1, 0.01。

模型架构与训练配置

  • 编码器:支持 ConvNeXt-Large(ImageNet22K 预训练)和 ViT 系列(DINOv2 预训练)。
  • 解码器:ConvNeXt 搭配 Hourglass 解码器,ViT 搭配 DPT 解码器,ViT 模型额外增加 4-8 轮循环精修。
  • 训练配置:48 张 A100 GPU、batch size=192、初始学习率 0.0001、训练 80 万次迭代。

实验结果

深度与法线基准

在 NYUv2、KITTI 等基准上,Metric3D v2 在零样本场景下表现优异:

  • NYUv2 深度 δ₁达 0.980。
  • KITTI 深度 AbsRel 低至 0.039。
  • 法向量 30° 精度超 0.88。

下游应用

  • 3D 场景重建:无需逐帧尺度对齐,重建误差比 LeReS 降低 40%。
  • 单目 SLAM:作为 Droid-SLAM 的深度先验,平移漂移从 33.9% 降至 1.44%。
  • 野外计量:实测尺寸与 GT 误差 < 0.3m,优于 ZoeDepth。
  • 结论

    Metric3D v2 通过规范相机空间变换消除了不同相机内参导致的度量深度歧义,并通过联合优化模块解决了法向量标注稀缺问题。该模型能够整合超过 1600 万个样本进行训练,实现了零样本可移植性和显著提高的准确性,可作为单目感知的几何基础模型应用于 3D 视觉任务。

    目录

    1. Metric3D v2: 零样本度量深度与表面法线联合估计
    2. 概述
    3. 核心挑战
    4. 度量深度歧义
    5. 法向量标注稀缺
    6. 方法论
    7. 规范相机空间变换 (CSTM)
    8. 联合深度 - 法向优化模块
    9. 损失函数设计
    10. 模型架构与训练配置
    11. 实验结果
    12. 深度与法线基准
    13. 下游应用
    14. 结论
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 法律 NLP 实战:合同分析、文本分类与案例检索
    • FPGA 验证核心:全方位解析 AXI Verification IP (AXI VIP)
    • Web 核心架构与服务器安全基础
    • 动态规划时间复杂度和空间复杂度计算方法
    • RoboChallenge 发布具身智能年度报告:4 万次真机评测揭示模型真实能力
    • AI 时代核心概念解析:OpenClaw、Agent、Skill、Token 与 LLM
    • AI Agent 中的 Skills 是什么?有什么用?
    • 数据结构:二叉树经典习题讲解
    • Git 安装与基础配置指南
    • 从高原到云端:一名青海学子的 AI 农业创业实践
    • 法律领域自然语言处理(NLP)应用与实战
    • Stable Yogi 皮衣生成工具在动漫展会 VR 展厅的应用
    • AI 产品经理入门:大模型关键知识与落地逻辑
    • C++ 哈希表封装实战:模拟实现 unordered_map 与 unordered_set
    • Vue 组件开发中的枚举值验证:从 Type 属性错误说起
    • SpringBoot 核心模块 Java 源码规模统计
    • C++ 标准库 count 用法详解
    • Boost C++ 库实战:构建高性能即时通讯服务器
    • 大模型推理中的张量并行:详解 4 种通信计算重叠模式
    • STC 单片机摄像头图像处理优化与搜线算法实战

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online