作者 | zyrant  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/502087587

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

后台回复【多模态综述】获取论文!

后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文!

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文!

1f7455e47e1bbc1e8ace51c96cadf86f.png

1关键词:CVPR2022, LiDAR-camera,Transformer

论文地址:https://arxiv.org/abs/2203.11496

代码地址:https://github.com/XuyangBai/TransFusion/

2文章贡献

(1)研究了激光雷达-相机融合的固有难点,并揭示了robust融合的一个关键,即软关联机制(soft-association mechanism,利用cross attention)。

(2)提出了一种新颖的transformer-based LiDAR-camera融合模型用于3D目标检测,该模型以attentive的方式进行细粒度融合,并对图像质量较差情况和传感器未配准的情况出优越的鲁棒性。

(3)为object queries引入了几个简单而有效的调整,以提高图像融合的初始边界框预测的质量。还设计了一个Image Guidance的查询初始化模块来处理在点云中难以检测到的objects。

3引言(要解决什么问题)

激光雷达和照相机是自动驾驶中三维目标检测的两个重要传感器。尽管LiDAR-Camera多模态融合方案在这一领域越来越流行,但是对于较差的图像条件(比如说光照条件很差),以及传感器之间配准的情况尚未得到充分研究。现有的方法很容易受到这些因素影响,主要是由于由校准矩阵建立的激光雷达点和图像像素之间的硬关联(hard association,即利用标定矩阵来建立LiDAR点和image像素的关联)。

4现有的LiDAR-camera方案(现有方法的缺陷)

分为三类:result-level,proposal-level以及point-level

  1. result-level:使用现成的2D检测器来得到3D proposals,然后使用PointNet来进行object定位,如:FPointNet,RoarNet。

  2. proposal-level:在region proposal执行融合(通过在shared proposals中应用RoIPool),如:MV3D,AVOD。

  3. point-level:基于校准矩阵的激光雷达点和图像像素之间的硬关联(hard association),通过point-wise concatenation,用segmentation scores或CNN特征来增加LiDAR特征。

前面两种方法result-level和proposal-level的结果不理想,因为矩形感兴趣区域(RoI)通常包含大量的背景噪声。point-level效果较之前两者已经取得了令人满意的结果,但仍然存在两个问题:(1)结果手图片质量的直接影响;(2)直接将点云投影到image中会造成信息的损失(比如语义信息)并且受到LiDAR-camera之间校准质量的影响。

5TransFusion(解决上述问题所提出的方法)

7e3eb6e26813df0c6a70865836a7d169.png

TransFusion的结构如上图所示,(1)上面这个Decoder作用是从点云特征中获取initial bounding boxes,此时的Queries主要是Object Querirs;(2)下面这个Decoder..with SMCA利用attention机制自适应的判定图像中哪一部分的特征更加重要并值得被转移到点云中,促进object queries和有用的image信息;(3)Image Guidance:利用图像queries判断点云中哪一部分是困难样本。

6文章方法(重点模块介绍)

Query Initialization

9c7338d090a686346c73766acc783660.png

LiDAR-Camera Fusion

Image Feature Fetching(图像特征提取) 当一个对象只包含少量的激光雷达点时,point-level fusion的方法的只能获取相同数量的图像特征,浪费了高分辨率图像丰富的语义信息。为了缓解这个问题,直接采用了整个图像的特征  ,然后利用Transformer中的cross attention,以sparse-to-dense和自适应的方式进行特征融合。SMCA for Image Feature Fusion Multi-head attention是一种常用的进行信息交换和在两组输入之间建立soft association的机制,它已被广泛应用于特征匹配任务。为了降低hard association策略带来的对传感器校准和劣质图像特征的敏感性,利用cross-attention建立了激光雷达和图像之间的soft association,使网络能够自适应地确定应该从图像中获取的信息(在哪里的信息和什么样的信息)。具体采用的是Fast convergence of detr with spatially modulated co-attention中所提到的SMCA策略,利用heat map仅对project成2D特征的center附近的进行交叉注意力进行加权。

Image-Guided Query Initialization

5f639de719e88f75533aac3bd3d6a4b3.png

通过以上模块,Trans-Fusion已经可以取得SOTA的效果了,为了进一步对小目标检测的鲁棒性,作者还提出 Image-Guided Query Initialization,对应的是Image Guidance。受到Predicting semantic map representations from images using pyramid occupancy networks启发,将multiview image特征沿 _H _轴折叠,然后将其作为attention mechanism的key-value,LiDAR BEV特征作为Query进行交叉注意力。

7结果

nuScences上的结果9eb732a0e760dba4faeb9d00edf9a50a.png

Waymo的结果对比

3176aefe639dc50d0d4e9dc984cc6e83.png

8总结

设计了一种有效且鲁棒的基于变换的激光雷达相机3D检测框架,具有软关联机制(soft-association mechanism),以自适应地确定应该从图像中获取的位置和信息。

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

85a110f0bb77edafa53f1f8f52ef4d2d.jpeg

Logo

分享最新、最前沿的AI大模型技术,吸纳国内前几批AI大模型开发者

更多推荐