
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目录1、论文原文2、论文思想概述改进1、论文原文链接,提取码:pema2、论文思想概述YOLOv3是单阶段目标检测算法YOLO的第三个版本,广泛用于工业界,它改进了骨干网络、正负样本选取和损失函数,并引入了FPN特征金字塔多尺度预测,显著提升了速度和精度。改进骨干网络:DarkNet53,就是YOLO v2中的DarkNet19+Resnet。darknet53是52个卷积层+1个全连接层,但是在
本文是基于单目图像的3D目标检测方法。能否借助立体图像检测算法提高单目图像检测的效果如何实现右侧图像的生成受启发于伪点云,提出了伪立体图像的概念,将图像转换成立体图像,然后应用立体图像的检测算法提出两种右侧图像生成的方法,分别是图像级别生成和特征级别生成(基于视差的动态卷积方法)提出一个观点:学习深度感知的特征有利于提高单目检测的性能,比如作者这边的深度估计以及深度损失。

Fast R-CNN是对R-CNN和SPP-Net的改进,一方面借助SPP的思想,使得骨干网络只需要对原图做一次特征提取就好了,大大减少时间开销;另一方面将bbox的回归器和分类器都整合到了网络当中,方便了训练流程,也减少了特征存储的开销;还有一方面就是采用了新的训练策略,解决了SPP-Net中难以更新SPP模块之前的卷积层参数的问题。
本文是基于图像的3D目标检测算法。作者认为基于伪点云的3D目标检测算法效果好的原因并不是伪点云这种数据表示本身,而是坐标系的转换。对于深度图,作者采用图像表示而不是伪点云的表示,之后采用2D CNN处理,成为了新的SOTA伪点云(【3D目标检测】Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud)
Fast RCNN几乎已经是端到端的模型了,并且相较于RCNN速度上有了很大的提升,但是距离实时的检测还有一定距离,当前速度的瓶颈来自于候选框的生成,因为他是跑在CPU上的。所以本文就提出了一个Region Proposal Network(RPN),用网络生成候选框,并且与检测器的特征提取网络共享特征。另一方面,引入了anchor机制,解决多尺度检测的问题。
本文是基于双目图像的3D目标检测方法。(双目方法所以看的不太仔细)以往的工作估计整张视差图,计算量大且无法使用类别具体的先验信息训练中视差标注不足提出一个实例级别的视差估计网络,只在ROI上进行视差估计使用统计形状模型而非激光雷达生成密集的视差标注。
本文的输入数据仅仅是单目图像,在方法上是融合了伪点云(Pseudo-LiDAR)的深度信息表示方法与Frustum PointNets的检测方法。乍一看文章和伪点云原论文一模一样,但是会更具体一点,也就是本文只关注单目图像,同时解决了一些伪点云存在的问题。作者提到了其他设备的一些弊端:深度相机能捕捉的范围很有限;双目相机工作的流程很麻烦,需要校准与同步;激光雷达就不用说了,很贵 哈哈哈哈哈。相比之
核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络如何最小化预测的3D边界框与目标点云之间的几何距离如何缓解几何对齐带来的对齐模糊问题。对齐模糊问题指的是有些目标通过激光雷达只能获取它一个表面的点,不知道该通过3D边界框的哪个表面去和他对齐点云分布不均匀,稀疏点但是重要的点应该比稠密的点产生更大的损失为了得到3D边界框,预测大量的参数,并且这些参数相互

KITTI数据集很大,包括了很多任务,使用的训练样本7481个,测试样本7518个OpenPCDet——环境配置和训练测试(升级系统、Nvidia驱动、cuda11.3、cudnn8.2)【KITTI】KITTI数据集简介(一) — 激光雷达数据。
这是一篇22年的综述,介绍了3D目标检测中基于图像的检测算法。(论文中说本文是第一篇基于图像的3D目标检测算法综述!)