AnySplat: 无位姿前馈式 3DGS 重建技术解析

AnySplat 提出一种面向无约束多视角图像的前馈式新视角合成网络。通过引入可微分体素化模块压缩高斯基元，结合从预训练 VGGT 模型蒸馏的几何先验，实现了无需 SfM 或 MVS 监督的高效训练。该方法在稀疏与密集视图下均展现出优越的零样本泛化能力，推理速度显著提升，为规模化无约束拍摄场景下的三维重建提供了新方案。

虚拟内存发布于 2026/3/210 浏览

AnySplat: 无位姿前馈式 3DGS 重建技术解析

基于多视图立体视觉（MVS）的重建方法目前主要集中于 3R 系列，这类纯数据驱动的方法通常只能得到稠密点云。然而在实际应用中，我们更关注 3D 高斯泼溅（3DGS）。此前已有不少尝试将 3R-based pipeline 与连通 GS 结合，如早期的 InstantSplat、后续的 Splat3R 和 NoPosPlat，但效果往往不够稳定。AnySplat 作为浙大 FLARE 之后的新工作，在多个维度上实现了突破。

该工作的核心亮点在于两点：首先，CVPR 2025 的最佳论文 VGGT 证明了其架构的有效性，AnySplat 在此基础上对 VGGT 进行了蒸馏，显著提升了 pipeline 的效果；其次，AnySplat 引入八叉树进行高斯球压缩，不仅增强了视图扩展性，还大幅加速了推理过程，解决了以往 pixel-wise 模型计算量过大的问题。

1. 简介

3D 基础模型（VGGT、Dust3r、Fast3R）的最新进展改变了从 2D 图像重建 3D 场景的方式。这些方法能在几秒钟内将密集点云从单视图推断至数千个视图，简化甚至消除了传统多阶段重建管道。

文章配图

如图 1 所示，AnySplat 是一种面向无约束、无位姿标注多视角图像的前馈式新视角合成网络。该网络采用几何变换器将输入图像编码为高维特征，继而解码为高斯参数与相机位姿。为提升效率，创新性地引入了可微分体素化模块，将像素级高斯基元合并为体素级高斯体，在保持渲染质量的同时减少 30%-70% 冗余基元。针对现实场景中 3D 标注噪声问题，设计了新型自监督知识蒸馏框架，从预训练的 VGGT 骨干网络提取相机与几何先验作为外部监督。这使得 AnySplat 无需任何三维运动恢复结构（SfM）或多视图立体（MVS）监督，仅依赖未标定图像即可完成训练。

我们在九个多样化大规模数据集上训练 AnySplat，使模型接触广泛的几何与外观变化。实验表明，该方法在未见数据集上展现出卓越的零样本泛化能力：相较当前最优的前馈式与优化基方法，AnySplat 能实现更优质的新视角合成效果、更一致的几何结构、更精确的位姿估计以及更快的推理速度。

核心贡献包括：

前馈式重建与渲染：模型可直接处理未标定的多视角输入，同步预测 3D 高斯基元及其相机内外参数，其重建质量不仅超越现有前馈方法，在复杂场景下甚至优于基于优化的传统流程。
高效自监督知识蒸馏：通过创新的端到端训练框架，从预训练 VGGT 模型中提取几何先验，无需任何 3D 标注即可实现高保真渲染与强化的多视角一致性，在 8-16 块 GPU 上训练时间短于 1 天。
可微分体素导向的高斯剪枝：定制化的体素化策略可剔除 30%-70% 的高斯基元而不损渲染质量，形成统一的计算高效模型，从容应对稀疏与密集拍摄场景。

2. 通用 3D 重建现状

最近提出的几种通用三维重建方法大致可分为两类：需要已知相机参数的位姿感知方法（pose-aware），以及同时推断几何和相机位姿的位姿无关方法（pose-free）。

Pose-aware Generalizable model：这类方法能够从已标定的图像及其对应位姿快速重建三维模型。主要分为三种技术路线：

基于 3D 高斯泼溅的技术（Pixelsplat、Mvsplat、Mvsplat360、Freesplat、Depthsplat），直接预测 3D 高斯基元作为场景表示；
基于神经网络的框架（Quark、Lvsm），使用神经网络推断新视角图像的外观而无需任何 3D 表示；
新兴的 LRM 架构系列（Lrm、Gs-lrm）。尽管这些位姿感知重建方法显著减少了优化时间，但由于需要准确的图像位姿作为输入，其广泛应用仍然受限。

Pose-free Generalizable model：位姿无关通用方法仅依赖图像作为输入，其中大多数方法在重建三维模型的同时预测图像位姿。DUSt3R 及其扩展 MASt3R 使用单一的大规模模型替代传统的多阶段流程，联合预测深度并将其融合为密集场景。CUT3R、VGGT 和 Fast3R 等最新方法，通过级联 Transformer 模块在一次前向传播中联合推断相机位姿、点轨迹和场景几何，在精度和运行时间上都取得了显著提升。尽管展现了高效扩展三维资产重建的潜力，但它们普遍存在纹理表征不足和多视角错位问题，影响了新视角合成性能。