ST-GS: 基于时空高斯泼溅的视觉 3D 语义占用预测论文笔记

ST-GS 方法通过引入时空信息增强基于高斯的占用预测范式，用于视觉驱动的 3D 语义占用预测。该方法利用共享图像编码器提取多视图特征，生成 3D 高斯嵌入作为查询。核心模块包括指导性空间聚合（GISA），通过高斯指导注意力（GGA）和视图指导注意力（VGA）实现 2D 特征与 3D 嵌入的桥梁；门控空间特征聚合（GSFA）动态平衡两种注意力贡献。此外，几何感知时间融合（GATF）显式对齐跨帧高斯嵌入并选择性聚合历史信息，增强时间一致性。最终通过轻量级头部解码为高斯基元并溅射生成密集语义占用体素，优化使用交叉熵和 Lovasz-Softmax 损失。

利刃发布于 2026/4/7更新于 2026/5/2213 浏览

1. 概述

ST-GS 通过引入时空信息增强基于高斯的占用预测范式。

给定 τ 帧连续的环视图像 { I^t }{t=1}^τ，首先使用共享的图像编码器提取多视图 2D 特征 { X^t }{t=1}^τ。
生成一组 3D 高斯嵌入 { Q^t }_{t=1}^τ，作为可学习查询自适应地采样和聚合图像特征，以建立 3D 表达。
指导性空间聚合（GISA）策略通过双模式注意力机制建立 2D 视觉特征和 3D 高斯嵌入之间的桥梁：
- 高斯指导的注意力（GGA）使用 3D 高斯属性细化局部特征采样；
- 视图指导的注意力（VGA）通过沿相机射线自适应采样，利用跨视图空间 - 语义连续性。
使用门控空间特征聚合（GSFA）模块生成最终的参考点。
为进一步提高时间一致性，几何感知的时间融合（GATF）使用自车运动变换显式跨帧对齐高斯嵌入，并通过门控时间特征融合（GTFF）模块选择性地将相关历史信息聚合到当前帧表达。
使用轻量级 GS 头部，将增强的高斯嵌入解码为高斯基元，并通过高斯到体素的溅射生成密集语义占用体素。

2. 指导性空间聚合

为充分利用相机视角下的空间先验，本文提出 GISA，通过动态确定嵌入如何关注图像特征并从中查询相关信息，连接 2D 视觉特征和 3D 高斯嵌入。GISA 使用双模式注意力机制，引入两类互补参考点，从而进行更有效的空间特征采样。

给定 2D 图像特征图 X 和两类参考点的集合 P，单帧高斯嵌入 Q = { Q_i ∈ R^D }_{i=1}^K 被可变形注意力操作更新为 Q^： Q^ = DeformAttn(Q, X, P_2D), P_2D = Warp(P, K^{cam}, T^{cam})

其中 Warp 为投影函数，P_2D 为投影点，K^{cam}, T^{cam} 为相机内外参。

2.1 高斯指导的注意力

GGA 利用高斯编码场景结构属性这一特性，使用高斯参数生成自适应采样偏移量。如图 (a) 所示，使用高斯均值和协方差作为几何指导，生成与高斯椭球分布对齐的偏移量。

对每个高斯，在高斯坐标系 G_L 内初始化 M 个网格分布的采样偏移量 P^{G_L} = { P_i^{G_L} ∈ R^3 }_{i=1}^M，将其缩放后与学习到的偏移量组成局部采样偏移量 ΔP^{G_L}： ΔP^{G_L} = s^G P^{G_L} + Φ_Δ(Q_i)

其中 s^G 为调节采样半径的可学习缩放因数，Φ_Δ 为采样偏移量预测器。

为将局部偏移量转化到感知坐标系下，使用相应的旋转 R^G 与缩放 S^G 变换来得到最终的偏移量： ΔP^G = R^G S^G ΔP^{G_L}

2.2 视图指导的注意力

与 GGL 使用均匀采样不同，本文还适应 VGA 沿相机视线方向生成偏移量，从而利用跨视图几何先验，进行多视图重叠区域的特征之间更有效的信息聚合。

如图 (b) 所示，对每个高斯，在局部视图坐标系 V_L（y-z 平面）下的 2D 网格上初始化一组采样偏移量 P^{V_L} = { P_i^{V_L} ∈ R^3 }_{i=1}^M。此外，也从高斯嵌入预测偏移量。局部采样偏移量可按下式获得： ΔP^{V_L} = s^V P^{V_L} + Φ_Δ(Q_i)

其中 s^V 为可学习标量。随后基于高斯中心的水平角 θ 计算旋转矩阵 R^V(θ)，将 V_L 坐标系转化到感知坐标系： R^V(θ) = [ cos θ -sin θ 0; sin θ cos θ 0; 0 0 1 ]

最终的 VGA 偏移量 ΔP^V = R^V(θ) ΔP^{V_L}

2.3 门控空间特征聚合

为了更好地利用两个注意力的优势，本文使用 GSFA 模块，使用基于注意力的门控机制动态平衡 GGA 和 VGA 的贡献。

给定 ΔP^G, ΔP^V 和上下文感知的偏移量 ΔP^{ctx}=Φ_Δ(Q_i)，首先将其映射到隐空间得到隐嵌入 F_G, F_V, F_{ctx}。随后将其沿特征拼接并通过 sigmoid 函数 σ 生成门控参数 λ_S ∈ [0,1]^{K×M}。

最终的聚合偏移量为 ΔP = λ_S ⊙ ΔP^G + (1 - λ_S) ⊙ ΔP^V

其中 ⊙ 为按元素乘法。最后，根据高斯均值 m_i 加上偏移量 ΔP 得到参考点 P。

3. 几何感知的时间融合

为充分利用自动驾驶场景的历史信息，使用 GATF 建模时间依赖性，以增强当前帧高斯的表达能力。通过显式使用自车运动建立跨帧的几何对应关系，并选择性地聚合相关历史信息，GATF 能大幅提升多帧特征对齐和时间一致性。

3.1 帧间几何对应

帧间精确的几何对应是有效时间融合的前提。为处理采样点的时间错位，本文显式地将历史帧参考点与当前帧参考点对齐。

使用自车运动信息，将当前帧 τ 的参考点 P^τ 变换到历史帧 τ' ∈ [1, τ-1] 坐标系下： P^{τ'} = T^{τ→τ'} P^τ

ST-GS: 基于时空高斯泼溅的视觉 3D 语义占用预测论文笔记

1. 概述

2. 指导性空间聚合

2.1 高斯指导的注意力

2.2 视图指导的注意力

2.3 门控空间特征聚合

3. 几何感知的时间融合

3.1 帧间几何对应

更多推荐文章

相关免费在线工具

3.2 门控时间特征融合

4. 训练损失

更多推荐文章

相关免费在线工具

ST-GS: 基于时空高斯泼溅的视觉 3D 语义占用预测论文笔记

1. 概述

2. 指导性空间聚合

2.1 高斯指导的注意力

2.2 视图指导的注意力

2.3 门控空间特征聚合

3. 几何感知的时间融合

3.1 帧间几何对应

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 门控时间特征融合

4. 训练损失

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具