雷视融合3D检测
3D detection by RC fusion
开宗明义,我需要实现基于毫米波雷达和视觉的3D目标检测,其中主要是需要获取目标的类别、位置、尺寸、速度,在此基础上,结合车道线检测和自测速,形成一个较为完备的自动驾驶环境感知系统。
其中主要的难题在于,雷达的点云过于稀疏,雷达和摄像头的位置较准,和边缘计算部署的算力压力。
主要的数据集还是nuScenes
几篇综述:
- 3D Object Detection for Autonomous Driving: A Comprehensive Survey (比较新,全面)
- A Survey on 3D Object Detection Methods for Autonomous Driving Applications (TITS)
- Multi-Modal 3D Object Detection in Autonomous Driving: a Survey (TIV,专注多模态融合)
- [radar-camera-fusion.github.io](https://github.com/Radar-Camera-Fusion/Awesome-Radar-Camera-Fusion)
- Charles R. Qi 的工作
毫米波雷达的优势在于距离远,能测速,在全天时全天候场景中拥有鲁棒性,但是分辨率低。
视觉能够获取外观信息,但无法直接获得场景的3D结构信息,对天气和环境敏感。
几个方案:
- 借鉴Lidar的方案
- 看nuScenes中camera + radar的方案(不多)
Radar and Camera Fusion for Object Detection and Tracking: A Comprehensive Survey
Where to fusion
-
前视图融合 (Front View, FV)
- 雷达投影附近的FV图像上生成ROI,只在ROI中进行特征提取和后处理。
- 雷达数据投影到相机的透视平面,创建雷达伪图像,然后再和图像一起进行特征提取和处理。
-
鸟瞰图融合 (Bird’s-Eye View, BEV) -> 有效解决遮挡,保留雷达信息(天然适合BEV)
-
雷达 -> BEV : 离散化,形成voxel或者grid
-
视觉 -> BEV : 比较麻烦,单目转深度图
- 反向投影映射 (Iverse Projection Mapping,IPM)
- Lift-Solat-Shoot (LSS) 方法
-
When to fusion
Late fusion
- 基于相似性评估,采用卡尔曼/贝叶斯/匈牙利进行匹配 -> 各自输出目标信息,再通过相似性匹配算法判断和融合 -> 适合MOT
- 通过坐标转换矩阵协调位置关系
RODNet: Radar Object Detection using Cross-Modal Supervision : RA heatmap + Image detection heatmap
关键问题
- Sensor Calibration
- Modal Fusion Representation
- Data Alignment
- Fusion Operation
Image-driven
Key idea:
-
Leveraging mature 2D detectors for region proposal. greatly reducing 3D search space.
-
3D deep learning for accurate object localization in frustum point clouds.
nuScenes
[Object detection task - nuScenes](https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Camera%2C Radar)
Camera + Radar methods
文件组织:
mini/ ├── maps/# 地图 │ └── xxx.png ├── samples/ #采样数据 │ ├── 6个相机 │ ├── 5个毫米波雷达 │ └── 1个激光雷达 ├── sweeps/ #未被采样数据 │ └── ... ├── v1.0-mini/ # │ └── ... └── requirements.txt
MV3D
Multi-View 3D Object Detection Network for Autonomous Driving
应该做成BEV的情况
融合时需要处理特征图之间的空间错位
Point-based 3D perception
尽管雷达点云[2,50]与激光雷达相似的数据表示,但基于雷达点的3D感知的研究较少。几项作品[56,69,81]检查了自由空间检测的雷达点,但只有少数研究[71,75]尝试在自主驾驶中进行3D对象检测。基于雷达点的检测方法将Pointpillars [29]与图神经网络[66]或KPCONV [72]相适应,重点是提取更好的局部特征。
Camera-Point 3D Perception
两个传感器之间的视图差异被认为是多模式融合的瓶颈。通过将3D信息投影到2D图像(例如,点[6,77,82],提案[1,26,28]或预测结果[52])并收集周围预测区域的信息来处理差异。一些摄像机雷达融合方法[38,46]试图通过将雷达点投影到图像来提高深度估计。
多亏了单眼BEV方法的进步,最近的融合方法提取了统一BEV空间中的图像和点特征图,然后通过元素串联串联[45]或Sumpation [34]融合特征图,假设多模式特征映射在空间上很好地排列。
之后,Fused BEV特征图用于各种感知任务,例如3D检测[12,34,37,85],BEV分割[45,88]或HD MAP生成[11,32]。然而,尽管相机具有独特的特征(例如,不准确的BEV转换)和雷达(例如稀疏和歧义),但以前的摄像机雷达融合却较少考虑它们。我们提出的CRN专注于融合多模式特征图,考虑到每个传感器的特征,以彻底拥有两全其美的特征。
Depth Estimation from Monocular Images and Sparse Radar Data
用雷达和视觉融合生成类似于深度图。
brade31919/radar_depth: Source code of the IROS 2020 paper “Depth Estimation from Monocular Images and Sparse Radar Data”
BEVFormer 南大&上海AI实验室 : 纯视觉生成BEV
VPN:Cross-view Semantic Segmentation for Sensing Surroundings https://github.com/pbw-Berwin/View-Parsing-Network