论文笔记：Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting(1)

技术文档

方法

车队会记录大量未标注的序列LiDAR点云 $X−T:T\\textbf{X}_{-T:T}$ ，同时记录每一帧的传感器位置 $o−T:T\\textbf{o}_{-T:T}$ ，我们将 $X−T:0\\textbf{X}_{-T:0}$ 和 $o−T:0\\textbf{o}_{-T:0}$ 记录为历史部分， $X1:T\\textbf{X}_{1:T}$ 和 $o1:T\\textbf{o}_{1:T}$ 记录为未来部分

标准的点云预测办法 $g$ ，将过去点云作为输入，来预测未来点云： $X^1:T=g(X−T:0)\\hat{\\textbf{X}}_{1:T}=g(\\text{X}_{-T:0})$ $(1)$

我们的方法将未来LiDAR点云 $x∈Xt,t=1...T\\textbf{x} \\in \\textbf{X}_t, t = 1 ... T$ 重参数化成一条射线：该射线从传感器位置 $ot\\textbf{o}_t$ 出发，沿方向 $d\\textbf{d}$ ，经过距离 $λ\\lambda$ 后到达终点 $x\\textbf{x}$ ： $x=ot+λd,x∈Xt\\textbf{x} = \\textbf{o}_t + \\lambda \\textbf{d}, \\textbf{x} \\in \\textbf{X}_t$ $(2)$

我们的方法 $f$ 在未来时间 $t$ 选取一条通过原点和方向 $(ot,d)(\\textbf{o}_t, \\textbf{d})$ 进行参数化的射线。然后在给定过去点云 $X−T:0\\textbf{X}_{-T:0}$ 和传感器位置 $o−T:0\\textbf{o}_{-T:0}$ 的情况下，预测射线经过距离 $λ^\\hat{\\lambda}$ ： $λ^=f(ot,d;X−T:0,o−T:0)\\hat{\\lambda}=f(\\textbf{o}_t, \\textbf{d}; \\textbf{X}_{-T:0}, \\textbf{o}_{-T:0})$ $(3)$

公式(3)与Nerf类似，Nerf预测颜色，本文预测深度

Spacetime (4D) occupancy

将spacetime occupancy定义为特定时间点的3D位置占用状态。使用 $z\\textbf{z}$ 来表示真实的spacetime occupancy，由于视线可见性的限制，可能无法直接进行观测。给定一个有界时空4D volume $V\\mathcal{V}$ ，该volume被离散为时空voxel $v\\textbf{v}$ 。可以使用 $z[v]∈{0,1},v=(x,y,z,t),v∈V\\textbf{z}[\\textbf{v}] \\in \\{0, 1\\}, \\textbf{v}=(x, y, z, t), \\textbf{v}\\in \\mathcal{V}$ $(4)$ 来表示时空voxel grid $V\\mathcal{V}$ 中voxel $v\\textbf{v}$ 的占用状态，该状态可以是占用(1)或者空闲(0)。

我们通过学习一个占用预测网络 $h$ (由 $w\\textbf{w}$ 进行定义)，根据历史点云和传感器位置来预测离散化的四维时空占用： $z^=h(X−T:0,o−T:0;w)\\hat{\\textbf{z}}=h(\\textbf{X}_{-T:0}, \\textbf{o}_{-T:0}; \\textbf{w})$ $(5)$ ，其中 $z^[v]∈R[0,1]\\hat{\\textbf{z}}[\\textbf{v}] \\in \\mathbb{R}_{[0, 1]}$ 表示预测的占用

Depth rendering from occupancy

给定射线query $x=o+λd\\textbf{x}=\\textbf{o}+\\lambda \\textbf{d}$ ，目标是预测 $λ^\\hat{\\lambda}$ 与真实 $λ\\lambda$ 尽可能接近。我们首先通过voxel遍历计算其与占用grid的交集(Fig 4)。假定射线和列表voxels ${v1...vn}\\{\\textbf{v}_1... \\textbf{v}_n\\}$ 相交。假设射线只能停在voxel的边界或者无限远处，从而对射线空间进行离散化，我们将voxel $vi\\textbf{v}_i$ 解释为从voxel $vi−1\\textbf{v}_{i-1}$ 发出的射线在voxel $vi\\textbf{v}_i$ 停止的条件概率，可以写为： $pi=∏j=1i−1(1−z^[vj])z^[vi]p_i = \\prod_{j=1}^{i-1} (1 - \\hat{\\textbf{z}}[\\textbf{v}_j]) \\hat{\\textbf{z}}[\\textbf{v}_i]$ ，其中 $p_i$ 表示射线停在voxel $vi\\textbf{v}_i$ 的概率。现在可以通过计算期望中的停止点来渲染距离 $λ^=f(o,d)=∑i=1npiλ^i\\hat{\\lambda} = f(\\textbf{o}, \\textbf{d}) = \\sum_{i=1}^{n}p_i\\hat{\\lambda}_i$ ， $λ^i\\hat{\\lambda}_i$ 表示voxel $vi\\textbf{v}_i$ 的停止距离。
在这里插入图片描述
从上式可看出不考虑射线停在voxel grid外面的情况，该停止距离未定义（将在无限远处停止）。在训练时，在真实的grid外部设置一个虚拟的停止点：
$λ^=f(o,d)=∑i=1npiλ^i+∏i=1n(1−pi)λ^n+1\\hat{\\lambda} = f(\\mathbf{o}, \\mathbf{d}) = \\sum_{i=1}^{n} p_i \\hat{\\lambda}_i + \\prod_{i=1}^{n} (1 - p_i) \\hat{\\lambda}_{n+1}$ ，其中 $λ^n+1=λ\\hat{\\lambda}_{n+1} = \\lambda$ .

Loss function

使用L1 loss来训练occupancy prediction network：
$L(w)=∑(o,λ,d)∈(X1:T,o1:T)∣λ−f(o,d;X−T:0,o−T:0,w)∣L(\\mathbf{w}) = \\sum_{(\\mathbf{o}, \\lambda, \\mathbf{d}) \\in (\\mathcal{X}_{1:T}, \\mathbf{o}_{1:T})} \\left| \\lambda - f(\\mathbf{o}, \\mathbf{d}; \\mathbf{X}_{-T:0}, \\mathbf{o}_{-T:0}, \\mathbf{w}) \\right|$

论文笔记：Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting(1)

方法

Spacetime (4D) occupancy

Depth rendering from occupancy

Loss function

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

论文笔记：Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting(1)

方法

Spacetime (4D) occupancy

Depth rendering from occupancy

Loss function

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签