论文笔记:Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting(1)

论文笔记:Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting(1)

方法

车队会记录大量未标注的序列LiDAR点云X−T:T\textbf{X}_{-T:T}X−T:T​,同时记录每一帧的传感器位置o−T:T\textbf{o}_{-T:T}o−T:T​,我们将X−T:0\textbf{X}_{-T:0}X−T:0​和o−T:0\textbf{o}_{-T:0}o−T:0​记录为历史部分,X1:T\textbf{X}_{1:T}X1:T​和o1:T\textbf{o}_{1:T}o1:T​记录为未来部分

标准的点云预测办法ggg,将过去点云作为输入,来预测未来点云:X^1:T=g(X−T:0)\hat{\textbf{X}}_{1:T}=g(\text{X}_{-T:0})X^1:T​=g(X−T:0​)(1)(1)(1)

我们的方法将未来LiDAR点云x∈Xt,t=1...T\textbf{x} \in \textbf{X}_t, t = 1 ... Tx∈Xt​,t=1...T重参数化成一条射线:该射线从传感器位置ot\textbf{o}_tot​出发,沿方向d\textbf{d}d,经过距离λ\lambdaλ后到达终点x\textbf{x}x:x=ot+λd,x∈Xt\textbf{x} = \textbf{o}_t + \lambda \textbf{d}, \textbf{x} \in \textbf{X}_tx=ot​+λd,x∈Xt​(2)(2)(2)

我们的方法fff在未来时间ttt选取一条通过原点和方向(ot,d)(\textbf{o}_t, \textbf{d})(ot​,d)进行参数化的射线。然后在给定过去点云X−T:0\textbf{X}_{-T:0}X−T:0​和传感器位置o−T:0\textbf{o}_{-T:0}o−T:0​的情况下,预测射线经过距离λ^\hat{\lambda}λ^:λ^=f(ot,d;X−T:0,o−T:0)\hat{\lambda}=f(\textbf{o}_t, \textbf{d}; \textbf{X}_{-T:0}, \textbf{o}_{-T:0})λ^=f(ot​,d;X−T:0​,o−T:0​)(3)(3)(3)

公式(3)与Nerf类似,Nerf预测颜色,本文预测深度

Spacetime (4D) occupancy

将spacetime occupancy定义为特定时间点的3D位置占用状态。使用z\textbf{z}z来表示真实的spacetime occupancy,由于视线可见性的限制,可能无法直接进行观测。给定一个有界时空4D volume V\mathcal{V}V,该volume被离散为时空voxel v\textbf{v}v。可以使用z[v]∈{0,1},v=(x,y,z,t),v∈V\textbf{z}[\textbf{v}] \in \{0, 1\}, \textbf{v}=(x, y, z, t), \textbf{v}\in \mathcal{V}z[v]∈{0,1},v=(x,y,z,t),v∈V(4)(4)(4)来表示时空voxel grid V\mathcal{V}V中voxel v\textbf{v}v的占用状态,该状态可以是占用(1)或者空闲(0)。

我们通过学习一个占用预测网络hhh(由w\textbf{w}w进行定义),根据历史点云和传感器位置来预测离散化的四维时空占用:z^=h(X−T:0,o−T:0;w)\hat{\textbf{z}}=h(\textbf{X}_{-T:0}, \textbf{o}_{-T:0}; \textbf{w})z^=h(X−T:0​,o−T:0​;w)(5)(5)(5),其中z^[v]∈R[0,1]\hat{\textbf{z}}[\textbf{v}] \in \mathbb{R}_{[0, 1]}z^[v]∈R[0,1]​表示预测的占用

Depth rendering from occupancy

给定射线query x=o+λd\textbf{x}=\textbf{o}+\lambda \textbf{d}x=o+λd,目标是预测λ^\hat{\lambda}λ^与真实λ\lambdaλ尽可能接近。我们首先通过voxel遍历计算其与占用grid的交集(Fig 4)。假定射线和列表voxels{v1...vn}\{\textbf{v}_1... \textbf{v}_n\}{v1​...vn​}相交。假设射线只能停在voxel的边界或者无限远处,从而对射线空间进行离散化,我们将voxel vi\textbf{v}_ivi​解释为从voxel vi−1\textbf{v}_{i-1}vi−1​发出的射线在voxel vi\textbf{v}_ivi​停止的条件概率,可以写为:pi=∏j=1i−1(1−z^[vj])z^[vi]p_i = \prod_{j=1}^{i-1} (1 - \hat{\textbf{z}}[\textbf{v}_j]) \hat{\textbf{z}}[\textbf{v}_i]pi​=∏j=1i−1​(1−z^[vj​])z^[vi​],其中pip_ipi​表示射线停在voxel vi\textbf{v}_ivi​的概率。现在可以通过计算期望中的停止点来渲染距离λ^=f(o,d)=∑i=1npiλ^i\hat{\lambda} = f(\textbf{o}, \textbf{d}) = \sum_{i=1}^{n}p_i\hat{\lambda}_iλ^=f(o,d)=∑i=1n​pi​λ^i​,λ^i\hat{\lambda}_iλ^i​表示voxel vi\textbf{v}_ivi​的停止距离。

在这里插入图片描述


从上式可看出不考虑射线停在voxel grid外面的情况,该停止距离未定义(将在无限远处停止)。在训练时,在真实的grid外部设置一个虚拟的停止点:
λ^=f(o,d)=∑i=1npiλ^i+∏i=1n(1−pi)λ^n+1\hat{\lambda} = f(\mathbf{o}, \mathbf{d}) = \sum_{i=1}^{n} p_i \hat{\lambda}_i + \prod_{i=1}^{n} (1 - p_i) \hat{\lambda}_{n+1}λ^=f(o,d)=∑i=1n​pi​λ^i​+∏i=1n​(1−pi​)λ^n+1​,其中λ^n+1=λ\hat{\lambda}_{n+1} = \lambdaλ^n+1​=λ.

Loss function

使用L1 loss来训练occupancy prediction network:
L(w)=∑(o,λ,d)∈(X1:T,o1:T)∣λ−f(o,d;X−T:0,o−T:0,w)∣L(\mathbf{w}) = \sum_{(\mathbf{o}, \lambda, \mathbf{d}) \in (\mathcal{X}_{1:T}, \mathbf{o}_{1:T})} \left| \lambda - f(\mathbf{o}, \mathbf{d}; \mathbf{X}_{-T:0}, \mathbf{o}_{-T:0}, \mathbf{w}) \right|L(w)=∑(o,λ,d)∈(X1:T​,o1:T​)​∣λ−f(o,d;X−T:0​,o−T:0​,w)∣

Read more

AI时代的技术民主化:为什么文科生可能成为最大受益者?

AI时代的技术民主化:为什么文科生可能成为最大受益者?

✨道路是曲折的,前途是光明的! 📝 专注C/C++、Linux编程与人工智能领域,分享学习笔记! 🌟 感谢各位小伙伴的长期陪伴与支持,欢迎文末添加好友一起交流! 当技术门槛被无限降低,真正有价值的不再是"怎么写代码",而是"想做什么" 01 一个被忽视的趋势 过去一年,我观察到一个有趣的现象:那些在AI浪潮中赚得盆满钵满的人,并不是技术背景最深厚的那批。 相反,他们中有学中文的、学设计的、学市场营销的。他们有一个共同特点——擅长理解人,擅长讲故事,擅长发现需求。 而这,恰恰是AI目前做不到的。 02 从"技术壁垒"到"创意壁垒" 传统开发流程 vs AI辅助流程 让我们看看传统的产品开发流程与现在的对比: 关键洞察:传统模式下,"想法&

By Ne0inhk
人工智能:计算机视觉的基础与应用

人工智能:计算机视觉的基础与应用

第十二篇:计算机视觉的基础与应用 学习目标 💡 理解计算机视觉的基本概念和重要性 💡 掌握计算机视觉中的图像处理技术、特征提取方法、常用模型与架构 💡 学会使用计算机视觉库(OpenCV、PIL、PyTorch、TensorFlow)进行图像处理、特征提取和模型训练 💡 理解图像分类、目标检测、语义分割等任务的实现方法 💡 通过实战项目,开发一个完整的计算机视觉应用 重点内容 * 计算机视觉的基本概念 * 图像处理技术(图像预处理、增强、滤波) * 特征提取方法(HOG、SIFT、ORB) * 常用模型与架构(LeNet、AlexNet、VGG、ResNet、YOLO) * 实战项目:计算机视觉应用开发(图像分类、目标检测等) 一、计算机视觉基础 1.1 计算机视觉的基本概念 计算机视觉(Computer Vision)是人工智能的一个重要分支,它涉及计算机与图像之间的交互。其目标是让计算机能够理解和解释图像内容,

By Ne0inhk
OpenClaw横空出世:星标榜第一的AI Agent框架凭什么引爆2026?

OpenClaw横空出世:星标榜第一的AI Agent框架凭什么引爆2026?

欢迎文末添加好友交流,共同进步! “ 俺はモンキー・D・ルフィ。海贼王になる男だ!” * 一、现象级爆火:GitHub年度最热AI项目 * 二、OpenClaw是什么? * 核心定位 * 三、OpenClaw凭什么成为新标杆? * 3.1 自托管部署:数据主权回归 * 3.2 无代码革命:人人都是开发者 * 3.3 微内核架构:优雅且强大 * 3.4 多智能体协同 * 四、技术架构深度解析 * 4.1 核心组件 * 4.2 2026.3.7重大更新 * 五、与主流框架对比 * 5.1 OpenClaw vs LangChain * 5.2 OpenClaw vs

By Ne0inhk
第一章 Centos9部署Zabbix7.0 Server详细教程【保姆级】

第一章 Centos9部署Zabbix7.0 Server详细教程【保姆级】

系统:Centos9 x86_64【点击去资源分享站】 远程工具:MobaXterm_Personal【点击去资源分享站】 【温馨提示】 1.尽量使用新装的系统和推荐的工具,先看明白,再操作明白,然后才是自己的定制化设置,很多同学一上来,旧系统,个性化配置(如改路径、改密码等),然后一堆问题。 2.全篇使用root账号进行下面的配置,至于怎么设置root密码,怎么切换root问问度娘,这里就不讲诉这个啦。 3.本教程的所有配置我都通过复制粘贴的方法去部署过,亲测3遍,都能正常部署,教程比较详细,你如果看我这版教程,还学不明白,那你需要反思下,有没有粗心大意,教程中不管是操作得方法还是内容说明注释,主要针对小白群体,所以有些方法看起来比较low,但是好在它好操作好理解,这正是小白们需要得撒。别只点收藏,还是要动手去操作,去思,才能学的明白,俗话说得好,买来的书不会看,借来得书才会认真读,觉得写的好得点赞和关注呗~ Zabbix6.0之后,

By Ne0inhk