从一系列图像中重建 3D 物体和建筑物是计算机视觉中众所周知的一类问题,这类问题也被称为运动推断结构 (Structure-from-Motion, SfM)。
SfM 在摄影和文化遗产保护方面有着多种应用(如:让人们在浏览器中探索复活节岛上的神秘石像),并为 Google 地图中的多个服务提供支持,例如从街景和航拍图像创建 3D 模型。在这些示例中,操作员通常在受控条件下获取图像。虽然这样能够保证数据在图像和最终重建外观效果上高度统一,但也导致无法同时从多个地点获取图像,以及从多个视角查看对象。如果可以借助 SfM 技术,获取互联网上免费提供的大量非结构化图像集合,而不是使用有严格控制条件的图像,是否能更好展现这个丰富多彩的世界呢?
如何加速对这一主题以及更好地利用已公开的大量数据的研究,我们与 UVIC、CTU 和 EPFL 展开合作,发表了题为《跨宽基线的图像匹配:从论文到实践》(Image Matching across Wide Baselines: From Paper to Practice) 的论文,其中提出了用于评估 3D 重建方法的全新公开基准。在 CVPR 2019 举行的首次图像匹配:局部特征及其他研讨会的结果基础上,该项目现已包含超过 25,000 张图像,每张图像都包含准确的成像方位信息(地点和方向)。该数据以及论文提出的开源基准是 CVPR 2020 举办的 2020 年图像匹配挑战赛的基础内容,两者都已公开。
从混乱的图像中恢复 3D 结构
Google 地图已开始使用用户提供的图像来告知游客热门景点或者更新营业时间。然而,使用这种类型的数据来构建 3D 模型要困难得多,因为用户提供的图像往往有不同的视角、光照和天气条件、人物和车辆的遮挡以及偶尔会出现的用户滤镜。下方的示例将着重说明用户拍摄的罗马特雷维喷泉图像的多样性:
特雷维喷泉的不同视角:来自图像匹配挑战赛数据集中的部分示例
通常,要想使用 SfM 重建 3D 场景,首先要确定这些图像中的哪些部分捕获了场景中相同的物理点,如窗户的一角。这一点可通过使用 局部特征(即图像在不同视图中都能可靠识别出的显著位置)来实现。局部特征包含捕获景点四周外观的简短描述向量(模型表征)。通过比较这些描述符,可以用两张或多张图像,在图像位置的像素坐标之间建立可能的对应关系,并通过三角测量来还原点的 3D 位置。然后,可以一同估算


