ParkGaussian:首个面向泊车场景的 3D 高斯泼溅重建方案
论文链接:https://arxiv.org/abs/2601.01386 项目主页:https://github.com/wm-research/ParkGaussian
小米汽车联合杭州电子科技大学提出 ParkGaussian 框架,这是首个将 3D 高斯泼溅融入泊车场景重建的方案。研究构建了包含四台环视鱼眼相机数据的基准数据集 ParkRecon3D,并提出车位感知重建策略,利用车位检测器增强关键区域合成质量。实验表明该方法在重建质量和下游车位检测任务对齐度上均优于现有方法,解决了地下停车场无 GPS 信号及复杂几何结构的挑战,为自动泊车系统提供了可靠的仿真工具。
论文链接:https://arxiv.org/abs/2601.01386 项目主页:https://github.com/wm-research/ParkGaussian
高斯泼溅的风,刮到了自驾的每个角落。
小米汽车联合杭州电子科技大学在泊车场景重建中提出了 ParkGaussian。相比英伟达 3DGUT 和 OmniRe 提升挺大。
泊车是自动驾驶系统(ADS)的关键任务,在车位拥挤且无 GPS 信号的环境中面临独特挑战。现有研究主要集中于二维车位感知、建图与定位,而三维重建领域的探索仍显不足——该技术对于捕捉泊车场景中的复杂空间几何结构至关重要。单纯提升重建泊车场景的视觉质量并不能直接助力自动泊车,因为泊车系统的核心入口是车位感知模块。
为解决这些局限,小米汽车联合杭州电子科技大学构建了首个专为泊车场景重建设计的基准数据集 ParkRecon3D,其包含来自四台已完成外参标定的环视鱼眼相机的传感器数据,以及密集的车位标注信息。在此基础上,本文提出了 ParkGaussian 框架,这是首个将 3D 高斯 Splatting(3DGS)融入泊车场景重建的方案。为进一步提升重建结果与下游车位检测任务的对齐度,本文引入了车位感知重建策略,利用现有泊车感知方法增强车位区域的合成质量。在 ParkRecon3D 上的实验表明,ParkGaussian 实现了最先进的重建质量,且能更好地保障下游任务的感知一致性。
自动泊车是自动驾驶系统(ADS)的重要组成部分。与通常在结构化且具备 GPS 信号的环境中进行的道路行驶不同,泊车场景往往发生在狭窄的地下空间、拥挤的车位以及昏暗的光照条件下。这些因素给精准感知与定位带来了挑战,凸显了针对泊车场景研发专用技术的必要性。
早期研究主要聚焦于泊车感知,尤其是车位检测,旨在通过环视图像识别并定位车位。这些方法通常采用逆透视映射(IPM)将多视角鱼眼图像转换为鸟瞰图(BEV)表示,进而实现车位感知。在这些检测模块的基础上,后续研究探索了泊车场景下的同步定位与地图构建(SLAM)技术——车位地标被用作可靠参考,以提升无 GPS 信号、视觉特征重复环境中的定位鲁棒性。近年来,部分研究提出了端到端框架,可从传感器输入中联合学习感知、规划与控制能力,并基于在 CARLA 仿真器中采集的仿真泊车数据集进行训练。
尽管这些方法在仿真泊车规划任务中表现有效,但 CARLA 仿真器与真实泊车环境之间仍存在较大差距。这一差距表明,需要一个高保真仿真器来评估复杂泊车场景下的车位感知与闭环规划性能。
为弥合仿真与真实环境之间的鸿沟,近期研究日益关注通过四维场景建模实现真实驾驶仿真,包括针对道路级场景的重建与生成方法。在重建领域,早期方法基于神经辐射场(NeRF)构建街道场景表示,开启了驾驶环境重建的初步探索,但这些方法存在效率低下的问题。基于 3D 高斯 Splatting(3DGS)的最新研究显著提升了渲染速度,其通过框监督或自监督方式实现动态街道场景的建模。在生成领域,基于扩散模型与可控生成框架的最新模型可根据场景布局或文本描述合成街道场景。
这些方法在典型的道路行驶场景中实现了照片级的合成质量。在此基础上,部分研究进一步开发了强化学习流水线与闭环仿真系统,用于自动驾驶系统的训练与评估。
然而,现有驾驶仿真器主要聚焦于道路行驶场景建模,而对泊车场景仿真的探索仍较为匮乏。此外,以往的重建方法过分强调视觉保真度,却忽视了仿真的核心目标——生成与感知对齐的合成数据,以真实评估下游模型的性能与局限。对于自动泊车而言,车位检测模块是系统的核心入口,因此确保车位相关区域的视觉保真度与下游感知模型的对齐至关重要。
为解决这些问题,本文首先构建了名为 ParkRecon3D 的基准数据集(图 1),专为泊车场景重建设计。该数据集基于 AVM-SLAM 的开源数据集扩展而来,包含在地下停车场中由四台已标定鱼眼相机采集的传感器数据。ParkRecon3D 提供了超过 4 万帧同步传感器数据和 6 万个车位标注,且所有相机均完成外参标定。基于该基准数据集,本文提出了 ParkGaussian 框架——首个适配环视鱼眼图像的 3D 高斯 Splatting 重建方案,可实现高质量的泊车场景三维重建。此外,本文引入了车位感知重建策略,通过两种广泛使用的车位检测方法(DMPR-PS 和 GCN-Parking)以可学习的方式识别车位区域。该策略不仅提升了车位区域的合成质量,还增强了与下游感知任务的对齐性,为自动泊车系统提供了可靠的仿真工具。

本文的主要贡献如下:
本节首先介绍 ParkRecon3D 基准数据集的构建,随后回顾 3D 高斯泼溅(3DGS)的基础理论及其与 3DGUT 的扩展方法,最后详细阐述构成 ParkGaussian 核心的 IPM 投影与车位感知重建模块。

目前尚无专门针对停车环境 3D 重建的基准数据集,因此本文基于 AVM-SLAM 所使用的开源数据集进行重组与扩展,构建了 ParkRecon3D。数据采集于一个面积约为 220 米×110 米、包含 430 余个停车位的地下停车场。实验车辆搭载了量产级环视监控系统,车身前后左右四个方位均安装有鱼眼相机,每个相机以 10Hz 的频率采集图像,分辨率为 1280×960。该系统还能通过四视角鱼眼输入合成分辨率为 1354×1632 的逆透视映射(IPM)图像。数据集包含四个具有代表性的场景,涵盖了多种停车布局。
为给重建提供精确的几何参考,本文采用 COLMAP 对四个鱼眼相机的外参进行校准,而非依赖在地下环境中噪声较大的轮式编码器和 IMU 里程计。针对停车位感知任务,本文遵循相关标注协议,在 BEV 域手动标注车位角点,为车位级检测提供高质量监督信息。基于这些数据,本文构建了首个专为停车场景 3D 重建设计的基准数据集 ParkRecon3D,包含超过 40K 帧同步多鱼眼图像、60K 个经过人工验证的停车位标注以及校准后的外参数据。该基准数据集将向学术界公开,作为地下停车环境中 3D 重建模型训练与评估的综合数据集。
3D 高斯泼溅是一种先进的 3D 场景表示方法,通过一组 3D 高斯球来描述场景。其概率密度函数定义为:
$$ p(x) = \mathcal{N}(x; \mu, \Sigma) $$
其中,$\mu$ 为均值,即 3D 高斯球在世界坐标系中的坐标;$\Sigma$ 为协方差矩阵,可分解为 $\Sigma = R S S^T$,其中 $R$ 为旋转矩阵,$S$ 为缩放矩阵,由旋转四元数存储。对于像素颜色,为高斯球分配球谐函数(SH)与不透明度,根据高斯球与相机的距离进行深度排序,再通过 alpha 混合计算像素颜色:
$$ C = \sum_{i=1}^{N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) $$
原始 3D 高斯泼溅依赖 EWA 泼溅公式,通过一阶雅可比矩阵对相机投影进行线性化处理。但对于畸变严重的鱼眼相机,这种方法精度较低,且需要针对不同相机推导专属雅可比矩阵,不适用于多相机环视系统。为解决这一问题,本文将 3DGUT 中使用的无迹变换(UT)投影作为替代方案集成到 3D 高斯泼溅中。
UT 投影无需对非线性投影 $y = f(x)$ 进行线性化,而是通过少量 sigma 点近似 3D 高斯:
$$ x_i = \mu + \gamma_i \sqrt{(d+\lambda)\Sigma} $$
其中,$d$ 为维度,$\lambda$ 为缩放参数。这些 sigma 点通过 $f(\cdot)$ 进行精确投影,最终 2D 高斯足迹的均值和协方差计算如下:
$$ \mu_2 = \frac{1}{2d+1} \sum_{i=0}^{2d} y_i, \quad \Sigma_2 = \frac{1}{2d+1} \sum_{i=0}^{2d} (y_i - \mu_2)(y_i - \mu_2)^T $$
这种基于 UT 的投影无需为每个鱼眼相机模型推导雅可比矩阵,在强畸变条件下能生成更稳定的 2D 高斯足迹。在 ParkGaussian 中,该模块使 3D 高斯泼溅能够直接基于环视鱼眼图像进行训练,显著提升了地下停车场景中的几何稳定性。
大多数停车位检测模型基于鸟瞰图(BEV)图像而非原始鱼眼图像运行,因此直接从 3D 高斯泼溅渲染得到的鱼眼视图无法被下游检测器使用。为此,本文通过一个完全可微分的逆透视映射(IPM)模块,将渲染的环视鱼眼图像转换为统一的 BEV 表示。
参考 AVP-SLAM 的方法,对每个环视相机进行离线校准,获取内参矩阵 $K$ 和外参 $T$。首先通过逆鱼眼模型 $\pi^{-1}$ 将鱼眼像素 $u$ 反投影到相机坐标系下的射线,随后与车辆坐标系中的地面平面($z=0$)相交:
$$ X_c = s \cdot K^{-1} u, \quad X_v = T \cdot X_c $$
其中 $X_v$ 为车辆坐标系下的地面点,$s$ 为尺度因子,用于确保点落在地面平面上。
之后,将四个鱼眼相机得到的地面点融合到标准 BEV 平面。给定合成 IPM 图像的内参矩阵 $K_{ipm}$,每个点被重新投影到 BEV 像素坐标:
$$ u_{ipm} = K_{ipm} \cdot [X_v]_{xy} $$
生成的统一 BEV 图与现有停车位检测器的几何假设保持一致。IPM 的所有步骤均以闭式形式表示,并实现为可微分操作,使得下游检测模型的梯度能够反向传播到 3D 高斯表示中,从而使重建过程能够直接朝着下游停车位感知目标进行优化。
基于可微分 IPM 映射,本文进一步提出车位感知重建策略,将预训练停车位检测器的任务驱动监督信号直接注入 3D 高斯泼溅的优化过程。该策略促使高斯基元编码车位关键几何信息,使重建结果不仅具备 photometric 准确性,还能为下游感知提供结构保真度。
从 3D 高斯泼溅渲染得到环视鱼眼图像后,可微分 IPM 算子生成合成 IPM 图像 $I_r$。同时,利用相同的 IPM 映射,基于带标注的 ParkRecon3D 数据构建真实 IPM 图像 $I_g$。将预训练的停车位检测器应用于这两个 IPM 图像,提取与任务相关的结构特征。本文采用两种广泛使用的方法,并在 ParkRecon3D 上进行微调。在重建优化过程中,感知网络保持冻结状态,以提供稳定、无漂移的引导。
以 DMPR-PS 为例,将真实 IPM 图像和渲染 IPM 图像输入同一网络:
$$ F_t = Net(I_g), \quad F_s = Net(I_r) $$
其中 $F_t$ 和 $F_s$ 分别表示教师和学生特征图,均包含角点置信度、方向场和偏移预测。本文的目标是使从渲染 IPM 中提取的结构特征接近真实 IPM 的特征,因此将 $F_t$ 作为教师信号,$F_s$ 作为学生表示。利用 $F_t$ 和 $F_s$ 的角点置信度通道构建车位感知权重图,引导重建过程聚焦于车位关键几何结构。
设 $C_t$ 和 $C_s$ 分别为 $F_t$ 和 $F_s$ 的车位角点置信度通道,通过一个可微分的塑形函数将这些置信度图转换为连续的车位感知权重:
$$ W = \sigma(\frac{C - \theta}{\tau}) $$
其中 $\tau$ 为温度参数,用于控制掩码的平滑度;$\theta$ 为置信度阈值;$\sigma$ 为 Sigmoid 函数,实现线性塑形。该转换生成软掩码 $W_t$ 和 $W_s$,将监督焦点集中在高置信度车位角点周围。
基于软掩码 $W_t$ 和 $W_s$,构建混合车位感知权重图,平衡来自真实检测的可靠几何监督与来自渲染预测的自适应线索:
$$ W_{mix} = \text{stop_gradient}(W_t) \odot W_s + (1 - \text{stop_gradient}(W_t)) \odot W_t $$
该公式实现两个目的:一是通过 stop_gradient 算子防止学生权重被直接更新,避免出现均匀低置信度等退化解,确保梯度仅通过重建路径传播;二是通过混合教师监督的稳定性和学生预测的自适应性,使模型能够聚焦于不同帧中可能变化的车位关键几何区域。
最终得到的混合权重被上采样至渲染 IPM 图像的分辨率,随后反投影到每个环视鱼眼相机中,确保车位感知监督在 IPM 空间和原始鱼眼相机空间中均能一致应用。
GCN-Parking 在 DMPR-PS 的基础上进行扩展,额外预测检测角点之间的车位边缘。设 $E_t$ 和 $E_s$ 分别为从真实 IPM 图像和渲染 IPM 图像中得到的教师和学生边缘得分矩阵。对于每个图像,选择前 top-K 个边缘候选(实验中 K=10),对于每个边缘 $k$,定义对应角点位置 $p_i$ 和 $p_j$ 之间的线段:
$$ L_k = { (1-t)p_i + t p_j | t \in [0, 1] } $$
通过宽度为 $w$、包含 $n$ 个采样点的高斯管,将每个边缘栅格化到 IPM 网格:
$$ G_k(u, v) = \exp(-\frac{dist((u,v), L_k)^2}{2\sigma^2}) $$
聚合所有选定边缘,得到教师和学生边缘权重图 $W_t^e$ 和 $W_s^e$,采用与角点掩码类似的混合方式:
$$ W_{mix}^e = \text{stop_gradient}(W_t^e) \odot W_s^e + (1 - \text{stop_gradient}(W_t^e)) \odot W_t^e $$
将其与基于 DMPR-PS 的掩码结合,形成最终车位感知权重:
$$ W_{final} = W_{mix} + W_{mix}^e $$
该权重在重建过程中同时强调角点和车位边界。
在优化过程中,ParkGaussian 首先通过原始 3D 高斯泼溅的光度渲染损失训练 20000 次迭代,随后结合对齐损失和车位感知损失再训练 10000 次迭代。
给定渲染鱼眼视图 $I_r$ 和真实图像 $I_g$,采用标准 3D 高斯泼溅的光度目标函数:
$$ L_{rgb} = || I_r - I_g ||_1 $$
将渲染 IPM 图和真实 IPM 图输入车位检测模型,得到学生和教师置信度场 $C_r$ 和 $C_g$。进一步正则化教师和学生权重在教师 top-k 区域的空间分布,设 $P_t$ 和 $P_s$ 为归一化分布:
$$ P_t = \frac{W_t}{\sum W_t}, \quad P_s = \frac{W_s}{\sum W_s} $$
对齐损失计算如下:
$$ L_{align} = KL(P_t || P_s) $$
混合结构权重在 IPM 域和相机域对重建进行监督。首先,加权 IPM 一致性损失促使渲染 IPM 图与真实 IPM 图匹配:
$$ L_{ipm} = || W_{ipm} \odot (I_r - I_g) ||_1 $$
随后,将相同权重反投影到每个相机,调制 RGB 重建误差:
$$ L_{cam} = || W_{cam} \odot (I_r - I_g) ||_1 $$
其中 $W_{cam}$ 为反投影到相机空间的权重。这两项共同构成车位感知重建目标,强调与停车位结构对齐的几何信息。
ParkGaussian 优化过程中使用的总损失为:
$$ L_{total} = \lambda_1 L_{rgb} + \lambda_2 L_{ipm} + \lambda_3 L_{cam} $$
其中 $\lambda_1, \lambda_2, \lambda_3$ 为损失权重,通过实验确定。
基线方法:在重建任务中,本文仅与经过明确验证可适用于停车环境的方法进行对比。遵循以往实验方案,本文采用主要针对鱼眼相机环境的 OmniRe、3DGUT 和 Self-Cali-GS 作为重建基线。在停车位检测任务中,本文选择基于环视系统的方法作为基线(这类方法与基于单目相机的方法不同),并对其进行微调以更好地适配本文的基准数据集。训练过程中,本文使用基准数据集中的四个场景,每个场景采样 100 帧四通道环视鱼眼输入图像;每 10 帧进行一次评估,计算相关指标。对于感知模型,本文使用对应帧的真实逆透视映射(IPM)图像训练两个检测网络。更多实验细节可参考附录。
评估指标:本文在 Self-Cali-GS、OmniRe、3DGUT 以及本文的方法上测试地下车库场景,计算整幅图像的峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)指标,以评估地下车库的复杂条件对 3D 重建的影响。对于下游的停车位检测任务,本文采用 DMPR-PS 和 GCN-Parking 两种方法,从合成的鸟瞰图(BEV)角度计算精确率(Precision)和召回率(Recall),以评估重建场景的检测指标。
停车位关键点的精确率和召回率定义如下:假设标记的真实停车位入口点为 $P_{gt}$,识别出的停车位入口点为 $P_{pred}$。若两点满足特定距离条件,且置信度达到阈值,则判定为真阳性;否则为假阳性;若均不满足上述条件,则判定为假阴性(其中距离阈值可调整)。在此基础上,引入由停车入口点构建的停车位角度信息,通过判断是否满足 $|\theta_{pred} - \theta_{gt}| < \delta$ 或其他预设角度条件(角度阈值可调整),即可计算预测停车位的精确率和召回率。
实现细节:本文的 ParkGaussian 框架基于 PyTorch 实现,在单块 NVIDIA RTX 4090 GPU 上使用 Adam 优化器训练 30,000 次迭代。对于 3D 高斯属性,本文采用 3DGS 和 3DGUT 中使用的学习率调度策略,其中位置学习率按指数衰减至初始值的 1%。本文还采用了 GSplat 中实现的马尔可夫链蒙特卡洛优化策略,以提高收敛性和重建稳定性。高斯基元从 ParkRecon3D 的 COLMAP 稀疏点云初始化,其余所有超参数均遵循方法部分的描述。

实验结果表明,ParkGaussian 在 ParkRecon3D 基准数据集上取得了最先进的性能。以往的方法性能较差,原因在于它们仅强调视觉保真度,而忽略了仿真的核心目标。为更直观地理解模型的重建性能,本文将本文的方法与以往工作的结果进行了并列视觉对比。结果显示,在地下车库的固有约束下,尽管 3DGUT 和 Self-Cali-GS 能够构建整体场景的空间拓扑结构,但它们在细节表示的鲁棒性方面存在明显局限;OmniRe 的重建质量显著较差,所有视角均出现严重模糊和结构丢失。
相比之下,本文的方法通过引入车位感知重建策略(利用停车位检测器提升任务关键车位区域的重建保真度),在所有视角下都与真实场景实现了高度视觉对齐,能够实现更精确的场景重建。
实验结果表明,本文的车位感知重建策略大幅提升了停车位检测性能。两个感知网络在本文的重建模型上运行时,均取得了接近真实场景的检测性能;并且在重建过程中融入感知模块后,两种方法的性能都有了显著提升。本文还提供了真实图像上的检测结果与基于本文重建模型渲染图像的检测结果的视觉对比。从视觉上可以观察到,本文的方法既保持了全局场景的高保真重建,又准确再现了停车位的细粒度结构。



本文进行了全面的消融实验,以剖析车位感知重建框架中各个组件的作用。实验评估了五个变体:(1)无车位感知线索的直接 IPM 监督;(2)仅使用感知输出的特征级监督;(3)使用真实 IPM 特征的仅教师加权;(4)使用渲染 IPM 特征的仅学生加权;(5)融合教师 - 学生加权与分布对齐的完整车位感知设计。

消融实验结果揭示了所提车位感知策略有效性的若干重要见解:首先,单纯应用 IPM 空间损失会导致重建质量不佳,且停车位检测性能极弱,这主要是因为多视图投影在视图边界处产生冲突,给 IPM 域引入了额外噪声;特征级监督虽然提升了渲染分数,但仍无法恢复可靠的车位几何结构,这表明感知模型和重建模型的优化目标并不一致,它们的特征分布差异显著,导致重建几何偏离了感知网络所需的结构;仅教师加权和仅学生加权都通过将监督集中在与车位相关的区域,大幅提升了性能,但两者表现出互补特性——仅教师加权提供稳定但适应性较弱的监督,而仅学生加权能够适应渲染预测但更容易受到噪声影响;本文的完整车位感知策略通过融合教师 - 学生加权并施加分布对齐约束,在两个场景中均取得了最佳结果,不仅实现了最高的渲染质量,还通过使重建与感知模型对齐,显著提升了下游任务的精确率和召回率,这表明将结构先验与预测一致性相结合对于稳健的停车感知重建至关重要。
ParkRecon3D 仍面临地下停车场环境的若干固有挑战,包括室内镜面反射、高度重复纹理,以及弱光环境下长曝光导致的运动模糊。这些特征难以精确建模,将在未来的研究工作中进一步解决。

本文提出了 ParkRecon3D —— 全新的框架,将 3D GS 与车位重建策略相结合,用于高质量停车场场景建模。基于所提出的 ParkRecon3D 基准数据集,该方法在地下停车场环境中实现了精准高效的 3D 重建,同时提升了车位区域的合成质量。ParkRecon3D 为未来自动驾驶泊车系统的开发与评估提供了可靠基础。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online