1. 概述
ST-GS 通过引入时空信息增强基于高斯的占用预测范式。
- 给定 τ 帧连续的环视图像 { I^t }{t=1}^τ,首先使用共享的图像编码器提取多视图 2D 特征 { X^t }{t=1}^τ。
- 生成一组 3D 高斯嵌入 { Q^t }_{t=1}^τ,作为可学习查询自适应地采样和聚合图像特征,以建立 3D 表达。
- 指导性空间聚合(GISA)策略通过双模式注意力机制建立 2D 视觉特征和 3D 高斯嵌入之间的桥梁:
- 高斯指导的注意力(GGA)使用 3D 高斯属性细化局部特征采样;
- 视图指导的注意力(VGA)通过沿相机射线自适应采样,利用跨视图空间 - 语义连续性。
- 使用门控空间特征聚合(GSFA)模块生成最终的参考点。
- 为进一步提高时间一致性,几何感知的时间融合(GATF)使用自车运动变换显式跨帧对齐高斯嵌入,并通过门控时间特征融合(GTFF)模块选择性地将相关历史信息聚合到当前帧表达。
- 使用轻量级 GS 头部,将增强的高斯嵌入解码为高斯基元,并通过高斯到体素的溅射生成密集语义占用体素。
2. 指导性空间聚合
为充分利用相机视角下的空间先验,本文提出 GISA,通过动态确定嵌入如何关注图像特征并从中查询相关信息,连接 2D 视觉特征和 3D 高斯嵌入。GISA 使用双模式注意力机制,引入两类互补参考点,从而进行更有效的空间特征采样。
给定 2D 图像特征图 X 和两类参考点的集合 P,单帧高斯嵌入 Q = { Q_i ∈ R^D }_{i=1}^K 被可变形注意力操作更新为 Q^: Q^ = DeformAttn(Q, X, P_2D), P_2D = Warp(P, K^{cam}, T^{cam})
其中 Warp 为投影函数,P_2D 为投影点,K^{cam}, T^{cam} 为相机内外参。
2.1 高斯指导的注意力
GGA 利用高斯编码场景结构属性这一特性,使用高斯参数生成自适应采样偏移量。如图 (a) 所示,使用高斯均值和协方差作为几何指导,生成与高斯椭球分布对齐的偏移量。
对每个高斯,在高斯坐标系 G_L 内初始化 M 个网格分布的采样偏移量 P^{G_L} = { P_i^{G_L} ∈ R^3 }_{i=1}^M,将其缩放后与学习到的偏移量组成局部采样偏移量 ΔP^{G_L}: ΔP^{G_L} = s^G P^{G_L} + Φ_Δ(Q_i)
其中 s^G 为调节采样半径的可学习缩放因数,Φ_Δ 为采样偏移量预测器。
为将局部偏移量转化到感知坐标系下,使用相应的旋转 R^G 与缩放 S^G 变换来得到最终的偏移量: ΔP^G = R^G S^G ΔP^{G_L}
2.2 视图指导的注意力
与 GGL 使用均匀采样不同,本文还适应 VGA 沿相机视线方向生成偏移量,从而利用跨视图几何先验,进行多视图重叠区域的特征之间更有效的信息聚合。
如图 (b) 所示,对每个高斯,在局部视图坐标系 V_L(y-z 平面)下的 2D 网格上初始化一组采样偏移量 P^{V_L} = { P_i^{V_L} ∈ R^3 }_{i=1}^M。此外,也从高斯嵌入预测偏移量。局部采样偏移量可按下式获得: ΔP^{V_L} = s^V P^{V_L} + Φ_Δ(Q_i)
其中 s^V 为可学习标量。随后基于高斯中心的水平角 θ 计算旋转矩阵 R^V(θ),将 V_L 坐标系转化到感知坐标系: R^V(θ) = [ cos θ -sin θ 0; sin θ cos θ 0; 0 0 1 ]
最终的 VGA 偏移量 ΔP^V = R^V(θ) ΔP^{V_L}
2.3 门控空间特征聚合
为了更好地利用两个注意力的优势,本文使用 GSFA 模块,使用基于注意力的门控机制动态平衡 GGA 和 VGA 的贡献。
给定 ΔP^G, ΔP^V 和上下文感知的偏移量 ΔP^{ctx}=Φ_Δ(Q_i),首先将其映射到隐空间得到隐嵌入 F_G, F_V, F_{ctx}。随后将其沿特征拼接并通过 sigmoid 函数 σ 生成门控参数 λ_S ∈ [0,1]^{K×M}。
最终的聚合偏移量为 ΔP = λ_S ⊙ ΔP^G + (1 - λ_S) ⊙ ΔP^V
其中 ⊙ 为按元素乘法。最后,根据高斯均值 m_i 加上偏移量 ΔP 得到参考点 P。
3. 几何感知的时间融合
为充分利用自动驾驶场景的历史信息,使用 GATF 建模时间依赖性,以增强当前帧高斯的表达能力。通过显式使用自车运动建立跨帧的几何对应关系,并选择性地聚合相关历史信息,GATF 能大幅提升多帧特征对齐和时间一致性。
3.1 帧间几何对应
帧间精确的几何对应是有效时间融合的前提。为处理采样点的时间错位,本文显式地将历史帧参考点与当前帧参考点对齐。
使用自车运动信息,将当前帧 τ 的参考点 P^τ 变换到历史帧 τ' ∈ [1, τ-1] 坐标系下: P^{τ'} = T^{τ→τ'} P^τ


