Meta ShapeR：基于随机拍摄视频的 3D 物体生成技术解析

Meta 近期开源了 ShapeR 项目，该项目利用基于对象多模态数据的 Rectified Flow Transformer，将普通图像序列转换为完整的度量场景重建。

即从随手拍的视频或照片中恢复真实物体的 3D 模型（Mesh）。

简单来说，用户拿着手机绕着一个物体拍摄一圈（图片序列或视频帧序列），ShapeR 会结合以下多模态条件喂给生成模型，最终得到物体的 metric 3D mesh（带真实尺度）：

核心概念解析如下：

SLAM (Simultaneous Localization and Mapping) 是 ShapeR 的地基核心，通过算法解决摄像头在陌生环境中的定位和建图。简单来说：

通俗而言，用 SLAM 可以得到'摄影师的足迹'和'物体的骨架'，具体包括：

稀疏点云：相当于在物体上抓取最明显的特征点（如桌角、把手尖），锁定物体的真实尺寸和空间位置。

相机位姿：记录手持设备绕物体走动时每一步的具体位置和镜头朝向。

SLAM 的核心依赖于几何学的三角测量和概率学的误差优化。当设备移动时，SLAM 对比前后两帧画面，配合 IMU 传感器提供的移动距离，通过视差算出每个特征点在三维空间中的精确坐标。若误差积累过大，回环检测会在回到原点时强制拉回偏差。

SLAM 是将硬件数据（IMU 加速度、摄像头像素变化）转化为几何约束的基础，广泛应用于 ARCore、ARKit、机器人及 XR 领域。

物体检测与实例分割简单说就是'自动抠图'和'聚光灯'。若拍摄的是整个房间但只想重建桌上的茶壶，算法需自动在背景中圈出目标。

更多推荐文章