【论文笔记】ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

【论文笔记】ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

原文链接:https://arxiv.org/abs/2509.16552v1

1. 概述

在这里插入图片描述


ST-GS通过引入时空信息增强基于高斯的占用预测范式。

  1. 给定 τ \tau τ帧连续的环视图像 { I t } t = 1 τ \{I^t\}_{t=1}^\tau {It}t=1τ​,首先使用共享的图像编码器提取多视图2D特征 { X t } t = 1 τ \{X^t\}_{t=1}^\tau {Xt}t=1τ​。
  2. 生成一组3D高斯嵌入 { Q t } t = 1 τ \{Q^t\}_{t=1}^\tau {Qt}t=1τ​,作为可学习查询自适应地采样和聚合图像特征,以建立3D表达。
  3. 指导性空间聚合(GISA)策略通过双模式注意力机制建立2D视觉特征和3D高斯嵌入之间的桥梁:
    • 高斯指导的注意力(GGA)使用3D高斯属性细化局部特征采样;
    • 视图指导的注意力(VGA)通过沿相机射线自适应采样,利用跨视图空间-语义连续性。
  4. 使用门控空间特征聚合(GSFA)模块生成最终的参考点。
  5. 为进一步提高时间一致性,几何感知的时间融合(GATF)使用自车运动变换显式跨帧对齐高斯嵌入,并通过门控时间特征融合(GTFF)模块选择性地将相关历史信息聚合到当前帧表达。
  6. 使用轻量级GS头部,将增强的高斯嵌入解码为高斯基元,并通过高斯到体素的溅射生成密集语义占用体素。

2. 指导性空间聚合

为充分利用相机视角下的空间先验,本文提出GISA,通过动态确定嵌入如何关注图像特征并从中查询相关信息,连接2D视觉特征和3D高斯嵌入。GISA使用双模式注意力机制,引入两类互补参考点,从而进行更有效的空间特征采样。

给定2D图像特征图 X X X和两类参考点的集合 P P P,单帧高斯嵌入 Q = { Q i ∈ R D } i = 1 K Q=\{Q_i\in\mathbb R^D\}_{i=1}^K Q={Qi​∈RD}i=1K​被可变形注意力操作更新为 Q ^ \hat Q Q^​:
Q ^ = D e f o r m A t t n ( Q , X , P 2 D ) , P 2 D = W a r p ( P , K c a m , T c a m ) \hat Q=DeformAttn(Q,X,P_{2D}),\\P_{2D}=Warp(P,K^{cam},T^{cam}) Q^​=DeformAttn(Q,X,P2D​),P2D​=Warp(P,Kcam,Tcam)

其中 W a r p Warp Warp为投影函数, P 2 D P_{2D} P2D​为投影点, K c a m , T c a m K^{cam},T^{cam} Kcam,Tcam为相机内外参。

2.1 高斯指导的注意力

GGA利用高斯编码场景结构属性这一特性,使用高斯参数生成自适应采样偏移量。如图(a)所示,使用高斯均值和协方差作为几何指导,生成与高斯椭球分布对齐的偏移量。

对每个高斯,在高斯坐标系 G L G_L GL​内初始化 M M M个网格分布的采样偏移量 P G L = { P i G L ∈ R 3 } i = 1 M P^{G_L}=\{P_i^{G_L}\in\mathbb R^3\}_{i=1}^M PGL​={PiGL​​∈R3}i=1M​,将其缩放后与学习到的偏移量组成局部采样偏移量 Δ P G L \Delta P^{G_L} ΔPGL​:
Δ P G L = s G P G L + Φ Δ ( Q i ) \Delta P^{G_L}=s^GP^{G_L}+\Phi_\Delta(Q_i) ΔPGL​=sGPGL​+ΦΔ​(Qi​)

其中 s G s^G sG为调节采样半径的可学习缩放因数, Φ Δ \Phi_\Delta ΦΔ​为采样偏移量预测器。

为将局部偏移量转化到感知坐标系下,使用相应的旋转 R G R^G RG与缩放 S G S^G SG变换来得到最终的偏移量:
Δ P G = R G S G Δ P G L \Delta P^G=R^GS^G\Delta P^{G_L} ΔPG=RGSGΔPGL​

在这里插入图片描述

2.2 视图指导的注意力

与GGL使用均匀采样不同,本文还适应VGA沿相机视线方向生成偏移量,从而利用跨视图几何先验,进行多视图重叠区域的特征之间更有效的信息聚合。

如图(b)所示,对每个高斯,在局部视图坐标系 V L V_L VL​(y-z平面)下的2D网格上初始化一组采样偏移量 P V L = { P i V L ∈ R 3 } i = 1 M P^{V_L}=\{P_i^{V_L}\in\mathbb R^3\}_{i=1}^M PVL​={PiVL​​∈R3}i=1M​。此外,也从高斯嵌入预测偏移量。局部采样偏移量可按下式获得:
Δ P V L = s V P V L + Φ Δ ( Q i ) \Delta P^{V_L}=s^VP^{V_L}+\Phi_\Delta(Q_i) ΔPVL​=sVPVL​+ΦΔ​(Qi​)

其中 s V s^V sV为可学习标量。随后基于高斯中心的水平角 θ \theta θ计算旋转矩阵 R V ( θ ) R^V(\theta) RV(θ),将 V L V_L VL​坐标系转化到感知坐标系:
R V ( θ ) = [ cos ⁡ θ − sin ⁡ θ 0 sin ⁡ θ cos ⁡ θ 0 0 0 1 ] R^V(\theta)=\begin{bmatrix}\cos\theta&-\sin\theta&0\\\sin\theta&\cos\theta&0\\0&0&1\end{bmatrix} RV(θ)=​cosθsinθ0​−sinθcosθ0​001​​

最终的VGA偏移量
Δ P V = R V ( θ ) Δ P V L \Delta P^V=R^V(\theta)\Delta P^{V_L} ΔPV=RV(θ)ΔPVL​

2.3 门控空间特征聚合

为了更好地利用两个注意力的优势,本文使用GSFA模块,使用基于注意力的门控机制动态平衡GGA和VGA的贡献。

给定 Δ P G , Δ P V \Delta P^G,\Delta P^V ΔPG,ΔPV和上下文感知的偏移量 Δ P c t x = Φ Δ ( Q i ) \Delta P^{ctx}=\Phi_\Delta(Q_i) ΔPctx=ΦΔ​(Qi​),首先将其映射到隐空间得到隐嵌入 F G , F V , F c t x F_G,F_V,F_{ctx} FG​,FV​,Fctx​。随后将其沿特征拼接并通过sigmoid函数 σ \sigma σ生成门控参数 λ S ∈ [ 0 , 1 ] K × M \lambda_S\in[0,1]^{K\times M} λS​∈[0,1]K×M。

最终的聚合偏移量为
Δ P = λ S ⊙ Δ P G + ( 1 − λ S ) ⊙ Δ P V \Delta P=\lambda_S\odot\Delta P^G+(1-\lambda_S)\odot\Delta P^V ΔP=λS​⊙ΔPG+(1−λS​)⊙ΔPV

其中 ⊙ \odot ⊙为按元素乘法。最后,根据高斯均值 m i m_i mi​加上偏移量 Δ P \Delta P ΔP得到参考点 P P P。

3. 几何感知的时间融合

为充分利用自动驾驶场景的历史信息,使用GATF建模时间依赖性,以增强当前帧高斯的表达能力。通过显式使用自车运动建立跨帧的几何对应关系,并选择性地聚合相关历史信息,GATF能大幅提升多帧特征对齐和时间一致性。

3.1 帧间几何对应

帧间精确的几何对应是有效时间融合的前提。为处理采样点的时间错位,本文显式地将历史帧参考点与当前帧参考点对齐。

使用自车运动信息,将当前帧 τ \tau τ的参考点 P τ P^\tau Pτ变换到历史帧 τ ′ ∈ [ 1 , τ − 1 ] \tau'\in[1,\tau-1] τ′∈[1,τ−1]坐标系下:
P τ ′ = T τ → τ ′ P τ P^{\tau'}=T^{\tau\rightarrow\tau'}P^\tau Pτ′=Tτ→τ′Pτ

3.2 门控时间特征融合

给定多帧高斯嵌入 Q = { Q ^ t } t = 1 τ ∈ R τ × K × D Q=\{\hat Q^t\}_{t=1}^\tau\in\mathbb R^{\tau\times K\times D} Q={Q^​t}t=1τ​∈Rτ×K×D,目标是选择性地将历史信息聚合到当前帧,同时减轻 因遮挡或动态物体产生的特征不一致 的影响。

本文引入轻量级GTFF模块自适应地将历史高斯嵌入融入当前帧。首先通过时间权重预测器预测自适应融合门控参数 λ T ∈ [ 0 , 1 ] K × D \lambda_T\in[0,1]^{K\times D} λT​∈[0,1]K×D:
λ T = σ ( M L P ( Q ) ) \lambda_T=\sigma(MLP(Q)) λT​=σ(MLP(Q))

λ T \lambda_T λT​建模了历史嵌入对当前帧的贡献,用于生成门控嵌入 Q ~ τ \tilde Q^\tau Q~​τ:
Q ~ τ = Q ^ τ + λ T ⊙ Q ^ τ \tilde Q^\tau=\hat Q^\tau+\lambda_T\odot\hat Q^\tau Q~​τ=Q^​τ+λT​⊙Q^​τ

当前帧最终的高斯嵌入 Q τ ∈ R K × D Q^\tau\in\mathbb R^{K\times D} Qτ∈RK×D可由残差细化得到:
Q τ = L N ( Q ^ τ + M L P ( Q ~ τ ) ) Q^\tau=LN(\hat Q^\tau+MLP(\tilde Q^\tau)) Qτ=LN(Q^​τ+MLP(Q~​τ))

4. 训练损失

通过高斯到体素溅射获取语义占用预测后,使用交叉熵损失和Lovasz-Softmax损失优化每个块的输出。

Read more

【机器人】机器人方向的顶会--自用

机器人领域的顶会主要分为 “跨领域旗舰顶会”(覆盖机器人全方向,含金量最高)和 “细分方向顶会”(聚焦感知、决策、控制、人机交互等子领域),均为 CCF A 类或领域内公认的顶级会议,适合跟踪前沿研究、投稿交流。结合你之前关注的 “视觉算法、SLAM、强化学习、具身智能、移动 / 机械臂控制” 等方向,整理如下: 一、机器人领域旗舰顶会(必关注,全方向覆盖) 这两个是机器人领域的 “双子星”,跨感知、决策、控制、硬件、应用等所有方向,是行业内最权威的会议,投稿范围广、影响力最大。 1. ICRA(IEEE International Conference on Robotics and Automation) 定位:机器人领域

FPGA光通信2——Aurora 64B/66B的开发使用

FPGA光通信2——Aurora 64B/66B的开发使用

可参考GZH:小蘇的FPGA         FPGA光通信的开发过程中,最简便的方式为Aurora 64B66B,开发人员无需关注2bit同步头,加解扰等过程,开放给开发人员的主要是AXI-Stream用户数据接口。         Aurora是一款可扩展的轻量级、高数据速率链路层高速串行通信协议,支持全双工或单工,支持64B/66B,8B/10B编码。 一、Aurora 64B/66B使用介绍         该核的使用架构主要如下:借助xilinx 核,开发人员可根据用户接口实现多通道间的光通信。最大支持16lane。 1.1 、IP核的介绍         参考PG074, 该核的内部结构如下:         其中,Lane logic:每个GT收发器由一个lane逻辑模块实例驱动,初始化每个收发器,处理控制字符的编解码,并执行错误检测。         Global logic: 全局逻辑模块执行通道绑定以进行通道初始化。在运行过程中,该通道跟踪Aurora 64B/66B协议定义的Not Ready空闲字符,并监控所有通道逻辑模块的错误。

海尔智能家居接入HomeAssistant:终极完整指南

海尔智能家居接入HomeAssistant:终极完整指南 【免费下载链接】haier 项目地址: https://gitcode.com/gh_mirrors/ha/haier 想要实现全屋智能设备的统一控制吗?海尔智能家居接入HomeAssistant插件正是你需要的解决方案。这款开源集成工具能够将海尔智家生态中的空调、热水器、传感器等各类智能设备无缝整合到HomeAssistant平台,让你轻松打破品牌壁垒,享受真正的全屋智能体验。 🏠 准备工作与环境检查 在开始安装前,请确保你的智能家居系统满足以下基本条件: 系统兼容性清单: * HomeAssistant版本2023.1.0或更高 * 海尔智家APP中设备运行正常 * 稳定的网络连接环境 * 有效的海尔智家账号 验证操作步骤: 1. 登录HomeAssistant后台确认系统版本 2. 在海尔智家APP中检查设备在线状态 3. 确保网络连接质量可靠 📦 三种安装方法对比选择 HACS可视化安装(新手首选) 如果你已经安装了HACS组件,这是最快捷的安装方式: 1. 打开HACS管

【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航

【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航

StreamVLN 通过在线、多轮对话的方式,输入连续视频,输出动作序列。 通过结合语言指令、视觉观测和空间位姿信息,驱动模型生成导航动作(前进、左转、右转、停止)。 论文地址:StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling 代码地址:https://github.com/OpenRobotLab/StreamVLN 本文分享StreamVLN 复现和模型推理的过程~ 下面是示例效果: 1、创建Conda环境 首先创建一个Conda环境,名字为streamvln,python版本为3.9; 然后进入streamvln环境,执行下面命令: conda create -n streamvln python=3.9 conda activate streamvln 2、 安装habitat仿真环境