SGDet3D: Semantics and Geometry Fusion for 3D Object Detection Using 4D Radar and Camera
SGDet3D:使用4D雷达和相机进行3D目标检测的语义和几何融合
代码:https://github.com/shawnnnkb/SGDet3D
摘要
4D毫米波雷达近年来作为一种新兴的自动驾驶传感器备受关注。然而,现有的4D雷达和摄像机融合模型往往无法充分利用每种模态内的互补信息,并且缺乏深入的跨模态交互。针对该问题,该文提出一种新的四维雷达与摄像机融合的三维目标检测方法--SGDet 3D.具体地说,我们首先引入了一个双分支融合模块,该模块采用几何深度补全和语义雷达PillarNet来综合利用每个模态内的几何和语义信息。在此基础上,引入了一个面向对象的注意模块,该模块利用定位感知的交叉注意,通过允许鸟瞰图(BEV)中的查询注意到感兴趣的图像标记,来促进跨modalites的深度交互。我们在TJ 4DRadSet和德尔夫特视图(VoD)数据集上验证了我们的SGDet 3D。实验结果表明,SGDet 3D能够有效地融合4D雷达数据和摄像机图像,取得了较好的融合效果。
一、引言
对周围环境的感知对于自动驾驶至关重要[1],[2],其中3D物体检测是最重要的任务之一。当前的3D对象检测模型[3]通常依赖于LiSAR数据来获得精确的几何形状,并依赖于相机来获得丰富的语义。然而,LiDAR成本高昂,在恶劣天气下效率较低[4]。4D毫米波(mmW)雷达作为一种具有成本效益和可靠性的替代方案,可提供远程检测,速度测量和天气鲁棒性[5]。此外,4D雷达还包括仰角信息,并提供比3D雷达更高分辨率的点云,3D雷达已经提供了目标距离、方位角和距离和多普勒速度测量,使其在自动驾驶感知中越来越有吸引力。
尽管4D雷达硬件取得了进步,但雷达点云的噪声和稀疏性限制了它们的性能[8],突出了雷达相机融合的需求。跨模态融合的最新进展改善了3D对象检测。这些方法要么显式地进行视图转换,要么隐式地利用注意力机制来聚集图像特征。
在显式方法中,BEVFusion [3]通过采用提升、溅射和拍摄(LSS)[9]将图像特征溅射到鸟瞰图(BEV)中,开创了LiDAR相机融合。RCFusion [6]采用正交特征变换(OFT)[10]在预定义的3D网格内对图像特征进行采样,并实现了显著的4Dradar和相机融合效果(见图1(a))。LXL[7]通过结合单目深度估计来进一步改进RCFusion,以支持视图变换,并遵循CRN [11]通过占用预测来利用雷达空间信息(见图1(B))。然而,这些方法没有充分利用每个模态内的几何和语义信息来最佳地辅助另一个分支。具体来说,他们没有深入挖掘雷达数据中的几何信息,以提高深度估计,也没有充分利用图像中的语义信息进行更有效的多模式交互。相比之下,隐式方法使用交叉注意来聚合透视图图像特征。这些方法利用强大的注意机制来识别和融合相关的语义信息。虽然FUTR 3D [12]和CRAFT [13]等方法采用稀疏查询进行多模态信息融合,但由于它们没有构建完整的BEV表示,因此无法实现对周围场景的完整感知。此外,查询和感兴趣的令牌之间的相关性相对较弱,阻碍了深入的跨模式交互。
为了解决上述问题,在这项研究中,我们提出了一种使用4D雷达和相机进行3D物体检测的深度语义-几何融合方法(见图1(c))。我们的方法引入了两个模块,以充分利用每个模态内的互补信息,并实现深度的跨模态交互。具体而言,我们首先引入了一种双分支融合模块,通过充分融合雷达分支的几何信息与图像分支的语义信息,实现更精准的语义-几何信息协同融合。然后,我们引入了一个面向对象的注意力模块,用于跨模态的深度交互,该模块通过允许跨模态BEV查询关注感兴趣的图像令牌来有效地增强跨模态BEV查询的特征化。在TJ 4DRadSet [14]和德尔夫特视图(VoD)[15]数据集上的实验结果表明,SGDet 3D优于其他4D雷达和相机融合模型。我们的贡献可概括如下:
提出了一种新的四维雷达与摄像机融合的三维目标检测方法SGDet3D,该方法充分利用了两种传感器的互补信息,并有效地进行了跨模态交互。在多个公开数据集上的实验表明,本文方法比现有算法具有更优的精度。
设计了一个双分支融合模块,该模块由几何深度完成(GDC)和语义雷达PillarNet(SRP)组成,以综合利用每种模态中的几何和语义信息。
设计了一个面向对象的注意模块,该模块采用了一种局部感知的交叉注意(LACA)机制,以增强特征提取,从而实现跨模态的深度交互。
Fig. 1.4D雷达和摄像机融合管道的比较(a)RCFussion [6]在BEV空间中融合了多模态雷达和图像特征。(b)LXL [7]通过结合图像深度和使用雷达几何形状来辅助视图变换(VT),改进了RCFussion。(c)我们的SGDet3D充分利用了每种模态中的互补信息,并通过一种新颖的注意机制有效地进行了深度的跨模态交互。虚线表示跨模态信息利用率。(c)中的红色虚线突出显示了LXL和SGDet3D之间的差异。
二、相关工作
三、方法
A. Overview
图2展示了SGDet3D的体系结构,它由四个模块构成,包括特征提取、双分支融合、面向对象的注意和对象检测。特征提取模块从原始数据中提取信息。图像编码器由一个用于提取多尺度特征的骨干网络ResNet50和一个用于融合多尺度特征的特征金字塔网络组成,提取的二维图像特征用表示,其中C表示通道数,(H,W)表示特征分辨率。雷达编码器利用[6]中的RadarPillarNet对4D雷达点云进行编码。它产生雷达BEV特征,表示为
,其中(X,Y)表示BEV空间分辨率。在下面的模块中,我们保持透视图和鸟瞰图的特征尺寸分别与
和R一致。
图2。SGDet3D神经网络的架构。(a)特征提取模块提取雷达和图像特征。(b)双分支融合模块充分利用图像分支丰富的雷达几何和图像分支丰富的雷达语义,最终将特征提升到统一的BEV空间。(c)面向对象的注意模块通过与感兴趣的图像标记深度交互,使用交叉注意来进一步增强跨模态BEV查询的特征化。(d)物体探测头。虚线表示跨模态信息的深度利用。
在双分支融合模块中,首先设计了几何深度补全(GDC)模块,充分利用雷达数据中的几何信息进行图像分支融合,通过深度补全提高深度图的精度。然后,我们开发了语义雷达支柱网(SRP)集成雷达分支的语义,通过精确定位雷达坐标系下的三维空间中的图像特征。在面向对象的关注模块中,我们采用了一个本地化感知的交叉关注(LACA)机制,明确地定向三维特征空间中的对象,并在关注机制中进行BEV查询和感兴趣的图像标记之间的深度跨模态交互。对于物体检测模块,我们采用与PointPillars [17]相同的检测头。
B. Dual-Branch Fusion Module
通过在图像分支中设计的几何深度补全(GDC)和在雷达分支中设计的语义雷达柱网(SRP),充分利用各模态之间的互补信息,最终得到综合的雷达相机BEV(RC-BEV)特征。首先通过上下文网络处理图像特征以生成上下文特征C和透视图前景分割掩模
。然后,
和雷达深度被馈送到GDC。
图3。我们的GDC和SRP模块图解。(a)GDC利用雷达数据中的几何信息来改进深度估计[25]、[26]。(b)SRP利用来自GDC的深度来精确地定位3D空间内的丰富语义,以合并语义信息。
图像分支的GDC:如图3(a)所示,GDC使用邻域交叉注意[27]来实现特征交互,获得离散深度概率。这里,D指示预定义的离散化深度的数量。与BEVDepth [28]和CGFormer [29]类似,我们使用预测深度和地面实况LiDAR深度之间的Kullback-Leibler发散损失(表示为
)来监督深度估计。受[30]的启发,我们通过将损失函数与掩模M中指示的前景概率相乘,实现自适应聚焦于前景区域,从而构建深度损失函数:
其中,D和分别表示来自LiDAR的深度预测和深度标签,β表示焦点权重。对于前景掩模M的生成,我们使用二进制交叉熵(BCE)损失进行监督,其可以被公式化为:
其中,分别是来自Detectron 2 [31]和地面实况2D边界框掩码的处理结果。随后,我们按照[9]对D和C之间的外积执行体素池化,以生成几何感知图像BEV特征
。
雷达分支的SRP:4D雷达数据缺乏语义,阻碍了其检测目标的能力。OFT [10]可以集成图像特征以辅助雷达分支,但是它不能在沿着投影射线同等地存在的图像特征之间进行区分。这一限制导致语义的不恰当使用。在[7]、[23]的启发下,我们设计了图3(B)所示的SRP块,以综合利用几何和语义信息。
具体而言,SRP(空间参考点生成器)在雷达坐标系下生成一组预定义体素网格,同时在其内部中心位置生成虚拟点集
。这里,Z是高度维度中的体素的数量,并且N = XYZ。对于第i个点,利用外函数和内函数将其投影到透视图中,得到像素索引(u,v)和离散深度箱索引b ∈ R,利用(u,v)提取上下文特征,得到对应的图像特征
,然后利用提取的特征对P进行修饰,得到
.第i个点的修饰特征表示为
。
我们注意到,上述处理可能导致对应于投影射线上的多个3D点的单个特征。为了建立正确的上下文点映射,我们使用(u,v)从我们的GDC中检索改进的深度预测,产生沿着从像素发射的射线沿着的概率分布。因此,通过在
中索引B,可以获得对应于上下文的第i个点的正确映射概率。通过表示概率
,我们通过重新加权在3D空间内定位
:
因此,我们有效地利用精确的深度从GDC准确定位丰富的语义在3D空间。然后,我们将整合这些影像特徴,以协助雷达分支。我们首先将P从点重塑为正则张量
,以实现我们的柱collapse块和后续卷积的应用。采用多层感知器组成的支柱塌陷块,降低高度维数,生成语义丰富的BEV特征。然后,从BEV特征
和雷达BEV R获得语义感知雷达BEV
,如下所示:
其中conv和concat分别表示卷积和级联,MLP表示多层感知器。
C. Object-Oriented Attention Module
在我们的面向对象的注意力模块(见图4)中,我们创建了一个有区别的标记空间,它加强了BEV查询和感兴趣的图像标记之间的相关性,从而促进了深度的跨模态交互。面向对象的3D特征空间创建:为了加强BEV查询和感兴趣的图像标记之间的相关性,我们利用分割掩码和估计深度来显式地在3D特征空间内定位对象。如图4(a)所示,我们使用深度概率D用于深度方向,并使用前景掩模M用于像素方向。我们首先通过对和D进行外积相乘
来扩展
的维数,从而在深度维上定位目标对象,产生
。然后,我们进行对
和
进行点积
,
是由扩展M的深度维,以定位目标对象在像素域。上述面向对象的3D特征的计算可以公式化为:
图4.我们的面向对象的注意力模块的插图。我们首先利用分割掩模和估计的深度,通过像素定向和深度定向,在面向对象的3D特征空间内明确地定向对象,如左边的虚线所示。然后,我们使用局部化感知交叉注意(LACA)来帮助将感兴趣的语义聚合到增强的RC-BEV特征。
定位感知的交叉注意:LACA被设计为通过利用内的区分信息来获得增强的BEV特征,如图4(B)所示。与[23]中应用于纯视觉任务不同,我们从跨模态RC-BEV初始化查询,该RC-BEV通过[6]中的融合块从
融合。然后我们按照[22]将BEV平面上的每个查询提升到支柱,并从支柱中采样3D参考点。随后,LACA将预定义的3D锚点视为3D查询,将3D特征图扩展为3D键和值,并通过将这些点投影到特征空间来在3D像素坐标系中执行可变形注意。更具体地,对于位于q处的3D查询
,我们通过3D可变形交叉注意机制获得精细查询
:
其中n表示从总共N个点中采样的点,表示用于获得3D像素空间中的参考点的相机投影函数,An ∈ [0,1]是可学习的注意力权重,并且W表示投影权重。
表示到参考点q的预测偏移量,
表示用于在3D特征空间
中采样特征的三线性插值。与文献[24]中的单目深度估计相比,我们的GDC集成了雷达深度以用于深度完成,使得能够沿着对象内的深度维度更有效地聚集注意力。此外,通过区分像素域中的语义,结合掩模进一步增强了特征表示。因此,我们获得了检测头的增强RC-BEV特征。
D. Loss Function
除了[6]中的检测损失Ldet之外,我们还使用(1)中的深度损失Ldepth和(2)中的透视图前景分割损失Lseg来监督我们的模型。总损失公式为:
其中超参数λ1和λ2分别平衡深度损失和分割损失。在这项工作中,我们设置λ1 = λ2 = 0.1。
四、实验
A. Implementation Details
数据集:VoD [15]和TJ4DRadSet [14]数据集包括同步图像、LiDAR数据和4D雷达数据,以及沿着汽车、行人和骑自行车者的3D注释。VoD数据集分为5139个训练帧和1296个验证帧。TJ4DRadSet包含7757个帧,带有卡车的额外注释,涵盖各种驾驶场景,我们将数据集分为5717个训练帧和2040个测试帧。
评估指标:对于VoD数据集,根据官方建议,我们使用两个指标,即,整个注释区域下的3D AP(表示为)和驾驶通道下的3D AP(表示为
)。对于
,所有注释均用于评估,而不考虑范围。对于
,我们只考虑位于特定区域
= {(x,y,z)|相机坐标中的−4 m <x< 4 m,z < 25 m}。在AP计算中,对于骑自行车的人和行人,交叉口(IoU)阈值设置为0.25,对于汽车,设置为0.5。IoU阈值用于确定阳性和阴性样本。对于TJ 4DRadset数据集,针对距离雷达源高达70 m的对象评估3D AP(表示为AP 3D)和BEV AP(表示为APBEV),并根据VoD数据集设置IoU阈值,对于附加卡车类别,IoU阈值为0.5。
网络设定:对于VoD数据集,体素边界沿X、Y和Z轴分别限制为(0,51.2)m、(−25.6,25.6)m和(−3,2.76)m沿着。对于TJ 4DRadSet数据集,体素边界分别限制为沿X、Y和Z轴的(0,69.12)m、(−39.68,39.68)m和(−4,2)m沿着。此外,每个体素是尺寸为0.16 m的立方体。对于VoD,图像大小被处理为896 × 1408,对于TJ4DRadSet,图像大小被处理为480 × 640,而对于VoD,离散化深度面元的数量被设置为56,对于TJ4DRadSet,离散化深度面元的数量被设置为72。两个数据集的锚大小保持与[6]中相同。由于LiDAR数据尚未在TJ4DRadSet中发布,因此我们使用雷达深度图作为深度标签。
训练细节:我们基于MMDetection 3D框架实现了我们的模型。这些模型在4个NVIDIA GeForce RTX 4090 GPU上进行训练,每个GPU的批量大小为2。我们的培训过程包括两个阶段。首先,我们分别训练用于深度估计的图像分支和用于3D对象检测的雷达分支。图像分支继承了[6]之后在COCO和KITTI数据集上预训练的模型的权重,而我们从头开始训练雷达分支权重。其次,我们使用从上述流继承的权重来训练SGDet 3D方法。在融合训练过程中,我们使用AdamW优化器,初始学习率为1 e-4,总共训练了12个epoch。
B. 3D Object Detection Results
VoD数据集上的结果:表I显示了VoD数据集[15]验证集上的3D对象检测结果。所有模型中,骑自行车者类的检测性能始终保持良好。这可能是由于数据集中的大多数骑自行车的人都在运动,使雷达能够测量这些物体的径向多普勒速度,这有利于雷达和多模态方法。因此,雷达表现出对移动物体的高度敏感性,即使在单模态设置中也能实现稳健的检测结果。此外,所观察到的APEAA和APDC之间的差异表明,雷达对距离较近的物体显示出优越的上级探测性能,因为这些物体提供的探测点密度较高。
实验结果表明,该方法在所有指标上都优于其他方法.将SGDet3D与最新的LXL [7]进行比较,我们获得了上级结果,mAPEAA和mAPDC分别为59.43%和76.60%。具体而言,对于汽车类别,我们的SGDet3D在两个主要指标上的表现都大大优于LXL。这一改进可以归因于汽车上的雷达点数量更多,这提供了投影到图像上的更多参考点,从而允许更精确的深度估计和更丰富的语义信息捕获。骑自行车者类别的表现稍弱,可能是由于图像特征融合后偶尔与行人发生错误分类,可能是由于自行车混入背景和骑车者被误认为行人造成的。至于推理速度,我们的SGDet3D达到9.2 FPS,提供准实时检测,与其他方法相比具有上级性能,无需专门的代码优化。VoD数据集上的可视化结果呈现在图5的第一行中。
图5.VoD验证集(第一行)和TJ4DRadSet测试集(第二行)的一些可视化结果。每幅图对应一帧包含图像和雷达点(灰色)的数据,红色三角形表示本车的位置。橙子和黄色框分别表示透视图和鸟瞰图中的地面实况。绿色和蓝色框表示SGDet3D的预测边界框,左下角显示BEV要素图可视化。图(a)、(B)和(c)分别展示了SGDet3D对VoD中的汽车、骑自行车者和行人的检测性能。图(d)、(e)和(f)说明了SGDet3D在TJ4DRadSet的复杂环境中的稳健性,例如低光照夜间条件和失焦场景。最好放大查看细节。
TJ4DRadSet数据集的结果:与VoD相比,TJ4DRadSet由于其包含复杂场景,如夜间环境、桥下区域以及相机失焦的实例,而面临更大的挑战。TJ4DRadset有一个额外的卡车类别,该类别中的物体大小变化很大,进一步增加了检测的难度。尽管存在这些挑战,SGDet3D在两个主要指标mAP3D和mAPBEV上仍显著优于其他方法。如表II所示,与性能第二好的方法LXL [7]相比,SGDet3D表现出较大的改进,其mAP3D达到42.10%,mAPBEV达到47.45%。与在VoD上观察到的结果一致,我们的方法在大尺寸类别中显示出最显著的改进,即,用于汽车和卡车。此外,ImVoxelNet [33]的检测结果表明,尽管摄像机提供了丰富的语义信息,但深度信息的缺乏导致了次优性能。这些结果证明了我们的SGDet3D在融合4D雷达和摄像机信息以进行3D物体检测方面的有效性,即使在具有挑战性的光照条件下也是如此。TJ4DRadSet数据集的可视化结果如图5的第二行所示。
C. Ablation Study
所有消融实验均在VoD验证集上进行,仅使用一半的训练时期。总体消融结果总结见表III。仿真结果表明,SRP充分利用图像中丰富的语义信息,对mAPEAA和mAPDC算法进行了改进。通过充分利用雷达数据中的几何信息和用于自适应深度估计的透视图前景分割掩模,GDC还有助于在两个度量上的性能增强。最后,我们设计的LACA有效地促进了感兴趣的图像语义的聚合,以实现更深层次的跨模态交互,从而提高了性能。此外,我们还分析了深度标签的作用。
表IV显示,使用额外的LiDAR数据可实现最佳性能。还可以观察到,仅使用雷达数据进行深度估计监督也超过了LXL [7](见表I),证明了我们模型的优越性。
LACA的效果:我们通过探索像素方向和深度方向的机制来研究LACA的效果。如表V所示,像素方向(pixel-ort)始终有助于感兴趣语义的聚合。然而,使用深度估计来在3D特征空间的深度维度中定向对象的深度定向(depth-ort)可能由于差的单目深度预测结果而阻碍检测性能。通过比较设置3和设置4,我们观察到,将雷达数据的几何信息,以增强深度估计的结果在mAPEAA和mAPDC的大的性能增益。这表明只有与GDC相结合,我们的LACA才能最大限度地提高其在深度维度上聚合信息的有效性,验证了我们的GDC的重要性。最终,通过结合两个方向,我们创建了一个有区别的令牌空间,加强了BEV查询和感兴趣的图像令牌之间的相关性,从而提高了两个指标的性能。
SRP的效果:我们从两个方面来评估我们的SRP。首先,我们研究SRP是否利用丰富的上下文特征来装饰虚拟点,从而帮助雷达分支。接下来,我们评估SRP是否重新加权特征以准确地在3D空间内定位丰富的语义。如表VI所示,装饰操作通过集成语义有效地辅助雷达分支,导致两个mAP度量的性能改进。此外,SRP通过使用重新加权操作正确区分沿着投影射线同等存在的图像特征,进一步提高了驾驶走廊(由mAPDC表示)中的检测性能,这对于精确融合至关重要。在整个注释区域(由mAPEAA表示)下的mAP的有限改善可能是由于针对远区域的深度估计的困难。
GDC的影响:我们在完整的SGDet 3D网络中对(1)中的焦点权重β进行了消融研究。如表VII所示,地面实况边界框中的深度损失(表示为)随着β的增加而降低,这可能是由于应用于前景区域的更强的惩罚。然而,由于对其他区域的相对较弱的关注,总损失
最初减小,然后增大。检测性能遵循相同的趋势,这表明在前景区域和整个场景之间找到平衡对于实现最佳检测性能至关重要。在实验中,我们根据表VII中的结果设定β = 5。
五、结论
在这项工作中,我们提出了一个4D雷达和摄像机融合的方法,命名为SGDet3D,三维物体检测。我们的方法在每个模态中进行语义几何信息的充分利用,并促进深度的跨模态交互。在相关数据集上的实验结果表明,SGDet3D有效地融合了4D雷达数据和相机图像,并达到了最先进的性能。局限性:尽管SGDet3D有效,但其推理速度有限,并且缺乏时间信息。未来的工作将集中在这些问题上,并探索多视图图像,以提高感知的准确性和鲁棒性。