AnySplat: 无位姿前馈式 3DGS 重建技术解析
基于多视图立体视觉(MVS)的重建方法目前主要集中于 3R 系列,这类纯数据驱动的方法通常只能得到稠密点云。然而在实际应用中,我们更关注 3D 高斯泼溅(3DGS)。此前已有不少尝试将 3R-based pipeline 与连通 GS 结合,如早期的 InstantSplat、后续的 Splat3R 和 NoPosPlat,但效果往往不够稳定。AnySplat 作为浙大 FLARE 之后的新工作,在多个维度上实现了突破。
该工作的核心亮点在于两点:首先,CVPR 2025 的最佳论文 VGGT 证明了其架构的有效性,AnySplat 在此基础上对 VGGT 进行了蒸馏,显著提升了 pipeline 的效果;其次,AnySplat 引入八叉树进行高斯球压缩,不仅增强了视图扩展性,还大幅加速了推理过程,解决了以往 pixel-wise 模型计算量过大的问题。
1. 简介
3D 基础模型(VGGT、Dust3r、Fast3R)的最新进展改变了从 2D 图像重建 3D 场景的方式。这些方法能在几秒钟内将密集点云从单视图推断至数千个视图,简化甚至消除了传统多阶段重建管道。

如图 1 所示,AnySplat 是一种面向无约束、无位姿标注多视角图像的前馈式新视角合成网络。该网络采用几何变换器将输入图像编码为高维特征,继而解码为高斯参数与相机位姿。为提升效率,创新性地引入了可微分体素化模块,将像素级高斯基元合并为体素级高斯体,在保持渲染质量的同时减少 30%-70% 冗余基元。针对现实场景中 3D 标注噪声问题,设计了新型自监督知识蒸馏框架,从预训练的 VGGT 骨干网络提取相机与几何先验作为外部监督。这使得 AnySplat 无需任何三维运动恢复结构(SfM)或多视图立体(MVS)监督,仅依赖未标定图像即可完成训练。
我们在九个多样化大规模数据集上训练 AnySplat,使模型接触广泛的几何与外观变化。实验表明,该方法在未见数据集上展现出卓越的零样本泛化能力:相较当前最优的前馈式与优化基方法,AnySplat 能实现更优质的新视角合成效果、更一致的几何结构、更精确的位姿估计以及更快的推理速度。
核心贡献包括:
- 前馈式重建与渲染:模型可直接处理未标定的多视角输入,同步预测 3D 高斯基元及其相机内外参数,其重建质量不仅超越现有前馈方法,在复杂场景下甚至优于基于优化的传统流程。
- 高效自监督知识蒸馏:通过创新的端到端训练框架,从预训练 VGGT 模型中提取几何先验,无需任何 3D 标注即可实现高保真渲染与强化的多视角一致性,在 8-16 块 GPU 上训练时间短于 1 天。
- 可微分体素导向的高斯剪枝:定制化的体素化策略可剔除 30%-70% 的高斯基元而不损渲染质量,形成统一的计算高效模型,从容应对稀疏与密集拍摄场景。
2. 通用 3D 重建现状
最近提出的几种通用三维重建方法大致可分为两类:需要已知相机参数的位姿感知方法(pose-aware),以及同时推断几何和相机位姿的位姿无关方法(pose-free)。
Pose-aware Generalizable model: 这类方法能够从已标定的图像及其对应位姿快速重建三维模型。主要分为三种技术路线:
- 基于 3D 高斯泼溅的技术(Pixelsplat、Mvsplat、Mvsplat360、Freesplat、Depthsplat),直接预测 3D 高斯基元作为场景表示;
- 基于神经网络的框架(Quark、Lvsm),使用神经网络推断新视角图像的外观而无需任何 3D 表示;
- 新兴的 LRM 架构系列(Lrm、Gs-lrm)。尽管这些位姿感知重建方法显著减少了优化时间,但由于需要准确的图像位姿作为输入,其广泛应用仍然受限。
Pose-free Generalizable model: 位姿无关通用方法仅依赖图像作为输入,其中大多数方法在重建三维模型的同时预测图像位姿。DUSt3R 及其扩展 MASt3R 使用单一的大规模模型替代传统的多阶段流程,联合预测深度并将其融合为密集场景。CUT3R、VGGT 和 Fast3R 等最新方法,通过级联 Transformer 模块在一次前向传播中联合推断相机位姿、点轨迹和场景几何,在精度和运行时间上都取得了显著提升。尽管展现了高效扩展三维资产重建的潜力,但它们普遍存在纹理表征不足和多视角错位问题,影响了新视角合成性能。





















