【论文笔记】ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting
原文链接:https://arxiv.org/abs/2509.16552v1
1. 概述
ST-GS通过引入时空信息增强基于高斯的占用预测范式。
- 给定 τ \tau τ帧连续的环视图像 { I t } t = 1 τ \{I^t\}_{t=1}^\tau {It}t=1τ,首先使用共享的图像编码器提取多视图2D特征 { X t } t = 1 τ \{X^t\}_{t=1}^\tau {Xt}t=1τ。
- 生成一组3D高斯嵌入 { Q t } t = 1 τ \{Q^t\}_{t=1}^\tau {Qt}t=1τ,作为可学习查询自适应地采样和聚合图像特征,以建立3D表达。
- 指导性空间聚合(GISA)策略通过双模式注意力机制建立2D视觉特征和3D高斯嵌入之间的桥梁:
- 高斯指导的注意力(GGA)使用3D高斯属性细化局部特征采样;
- 视图指导的注意力(VGA)通过沿相机射线自适应采样,利用跨视图空间-语义连续性。
- 使用门控空间特征聚合(GSFA)模块生成最终的参考点。
- 为进一步提高时间一致性,几何感知的时间融合(GATF)使用自车运动变换显式跨帧对齐高斯嵌入,并通过门控时间特征融合(GTFF)模块选择性地将相关历史信息聚合到当前帧表达。
- 使用轻量级GS头部,将增强的高斯嵌入解码为高斯基元,并通过高斯到体素的溅射生成密集语义占用体素。
2. 指导性空间聚合
为充分利用相机视角下的空间先验,本文提出GISA,通过动态确定嵌入如何关注图像特征并从中查询相关信息,连接2D视觉特征和3D高斯嵌入。GISA使用双模式注意力机制,引入两类互补参考点,从而进行更有效的空间特征采样。
给定2D图像特征图 X X X和两类参考点的集合 P P P,单帧高斯嵌入 Q = { Q i ∈ R D } i = 1 K Q=\{Q_i\in\mathbb R^D\}_{i=1}^K Q={Qi∈RD}i=1K被可变形注意力操作更新为 Q ^ \hat Q Q^:
Q ^ = D e f o r m A t t n ( Q , X , P 2 D ) , P 2 D = W a r p ( P , K c a m , T c a m ) \hat Q=DeformAttn(Q,X,P_{2D}),\\P_{2D}=Warp(P,K^{cam},T^{cam}) Q^=DeformAttn(Q,X,P2D),P2D=Warp(P,Kcam,Tcam)
其中 W a r p Warp Warp为投影函数, P 2 D P_{2D} P2D为投影点, K c a m , T c a m K^{cam},T^{cam} Kcam,Tcam为相机内外参。
2.1 高斯指导的注意力
GGA利用高斯编码场景结构属性这一特性,使用高斯参数生成自适应采样偏移量。如图(a)所示,使用高斯均值和协方差作为几何指导,生成与高斯椭球分布对齐的偏移量。
对每个高斯,在高斯坐标系 G L G_L GL内初始化 M M M个网格分布的采样偏移量 P G L = { P i G L ∈ R 3 } i = 1 M P^{G_L}=\{P_i^{G_L}\in\mathbb R^3\}_{i=1}^M PGL={PiGL∈R3}i=1M,将其缩放后与学习到的偏移量组成局部采样偏移量 Δ P G L \Delta P^{G_L} ΔPGL:
Δ P G L = s G P G L + Φ Δ ( Q i ) \Delta P^{G_L}=s^GP^{G_L}+\Phi_\Delta(Q_i) ΔPGL=sGPGL+ΦΔ(Qi)
其中 s G s^G sG为调节采样半径的可学习缩放因数, Φ Δ \Phi_\Delta ΦΔ为采样偏移量预测器。
为将局部偏移量转化到感知坐标系下,使用相应的旋转 R G R^G RG与缩放 S G S^G SG变换来得到最终的偏移量:
Δ P G = R G S G Δ P G L \Delta P^G=R^GS^G\Delta P^{G_L} ΔPG=RGSGΔPGL
2.2 视图指导的注意力
与GGL使用均匀采样不同,本文还适应VGA沿相机视线方向生成偏移量,从而利用跨视图几何先验,进行多视图重叠区域的特征之间更有效的信息聚合。
如图(b)所示,对每个高斯,在局部视图坐标系 V L V_L VL(y-z平面)下的2D网格上初始化一组采样偏移量 P V L = { P i V L ∈ R 3 } i = 1 M P^{V_L}=\{P_i^{V_L}\in\mathbb R^3\}_{i=1}^M PVL={PiVL∈R3}i=1M。此外,也从高斯嵌入预测偏移量。局部采样偏移量可按下式获得:
Δ P V L = s V P V L + Φ Δ ( Q i ) \Delta P^{V_L}=s^VP^{V_L}+\Phi_\Delta(Q_i) ΔPVL=sVPVL+ΦΔ(Qi)
其中 s V s^V sV为可学习标量。随后基于高斯中心的水平角 θ \theta θ计算旋转矩阵 R V ( θ ) R^V(\theta) RV(θ),将 V L V_L VL坐标系转化到感知坐标系:
R V ( θ ) = [ cos θ − sin θ 0 sin θ cos θ 0 0 0 1 ] R^V(\theta)=\begin{bmatrix}\cos\theta&-\sin\theta&0\\\sin\theta&\cos\theta&0\\0&0&1\end{bmatrix} RV(θ)=cosθsinθ0−sinθcosθ0001
最终的VGA偏移量
Δ P V = R V ( θ ) Δ P V L \Delta P^V=R^V(\theta)\Delta P^{V_L} ΔPV=RV(θ)ΔPVL
2.3 门控空间特征聚合
为了更好地利用两个注意力的优势,本文使用GSFA模块,使用基于注意力的门控机制动态平衡GGA和VGA的贡献。
给定 Δ P G , Δ P V \Delta P^G,\Delta P^V ΔPG,ΔPV和上下文感知的偏移量 Δ P c t x = Φ Δ ( Q i ) \Delta P^{ctx}=\Phi_\Delta(Q_i) ΔPctx=ΦΔ(Qi),首先将其映射到隐空间得到隐嵌入 F G , F V , F c t x F_G,F_V,F_{ctx} FG,FV,Fctx。随后将其沿特征拼接并通过sigmoid函数 σ \sigma σ生成门控参数 λ S ∈ [ 0 , 1 ] K × M \lambda_S\in[0,1]^{K\times M} λS∈[0,1]K×M。
最终的聚合偏移量为
Δ P = λ S ⊙ Δ P G + ( 1 − λ S ) ⊙ Δ P V \Delta P=\lambda_S\odot\Delta P^G+(1-\lambda_S)\odot\Delta P^V ΔP=λS⊙ΔPG+(1−λS)⊙ΔPV
其中 ⊙ \odot ⊙为按元素乘法。最后,根据高斯均值 m i m_i mi加上偏移量 Δ P \Delta P ΔP得到参考点 P P P。
3. 几何感知的时间融合
为充分利用自动驾驶场景的历史信息,使用GATF建模时间依赖性,以增强当前帧高斯的表达能力。通过显式使用自车运动建立跨帧的几何对应关系,并选择性地聚合相关历史信息,GATF能大幅提升多帧特征对齐和时间一致性。
3.1 帧间几何对应
帧间精确的几何对应是有效时间融合的前提。为处理采样点的时间错位,本文显式地将历史帧参考点与当前帧参考点对齐。
使用自车运动信息,将当前帧 τ \tau τ的参考点 P τ P^\tau Pτ变换到历史帧 τ ′ ∈ [ 1 , τ − 1 ] \tau'\in[1,\tau-1] τ′∈[1,τ−1]坐标系下:
P τ ′ = T τ → τ ′ P τ P^{\tau'}=T^{\tau\rightarrow\tau'}P^\tau Pτ′=Tτ→τ′Pτ
3.2 门控时间特征融合
给定多帧高斯嵌入 Q = { Q ^ t } t = 1 τ ∈ R τ × K × D Q=\{\hat Q^t\}_{t=1}^\tau\in\mathbb R^{\tau\times K\times D} Q={Q^t}t=1τ∈Rτ×K×D,目标是选择性地将历史信息聚合到当前帧,同时减轻 因遮挡或动态物体产生的特征不一致 的影响。
本文引入轻量级GTFF模块自适应地将历史高斯嵌入融入当前帧。首先通过时间权重预测器预测自适应融合门控参数 λ T ∈ [ 0 , 1 ] K × D \lambda_T\in[0,1]^{K\times D} λT∈[0,1]K×D:
λ T = σ ( M L P ( Q ) ) \lambda_T=\sigma(MLP(Q)) λT=σ(MLP(Q))
λ T \lambda_T λT建模了历史嵌入对当前帧的贡献,用于生成门控嵌入 Q ~ τ \tilde Q^\tau Q~τ:
Q ~ τ = Q ^ τ + λ T ⊙ Q ^ τ \tilde Q^\tau=\hat Q^\tau+\lambda_T\odot\hat Q^\tau Q~τ=Q^τ+λT⊙Q^τ
当前帧最终的高斯嵌入 Q τ ∈ R K × D Q^\tau\in\mathbb R^{K\times D} Qτ∈RK×D可由残差细化得到:
Q τ = L N ( Q ^ τ + M L P ( Q ~ τ ) ) Q^\tau=LN(\hat Q^\tau+MLP(\tilde Q^\tau)) Qτ=LN(Q^τ+MLP(Q~τ))
4. 训练损失
通过高斯到体素溅射获取语义占用预测后,使用交叉熵损失和Lovasz-Softmax损失优化每个块的输出。