基于改进的YOLOV5遥感图像目标检测(源码+万字报告+讲解)(支持资料参考_相关定制)
但是,由于遥感图像在拍摄时的时间和角度不同等因素,使得拍摄同一自然场景图像的不同遥感图像存在一定的不同,这为目标检测工作带来了难题,并且遥感图像本身具有的背景复杂、目标小且聚集的特点,也导致了目标存在误检、漏检的情况。其中,卷积层的运算是通过卷积核对上一次输入的图像矩阵进行内积运算,生成新的图像矩阵信息。,而导致同一自然场景图像的遥感图像存在差异,以及遥感图像本身具有的背景复杂、目标小且聚集、无用
摘 要
随着遥感卫星和航空飞行器的快速发展,遥感图像技术在道路交通检测、自然环境监控等方向中起着至关重要的作用。其中,被广泛用于对遥感图像目标的位置和类别进行识别的技术主要是遥感图像目标检测方法。但是,由于遥感图像在拍摄时的时间和角度不同等因素,使得拍摄同一自然场景图像的不同遥感图像存在一定的不同,这为目标检测工作带来了难题,并且遥感图像本身具有的背景复杂、目标小且聚集的特点,也导致了目标存在误检、漏检的情况。因此,为了提高YOLOv5算法模型对遥感图像的检测精度和检测速度等性能,本文通过查阅与YOLOv5相关文献,了解基于YOLOv5的遥感图像目标检测的发展和存在的不足,对使用YOLOv5进行遥感图像目标检测提出添加小目标层、采用双注意力机制、改进双向特征网络的改进方案,具体内容如下:
(1)由于遥感图像中的小目标分辨率较低,容易出现漏检、误检等情况,因此在模型中加入针对小目标的预测层,使得实验中飞机、油桶类别的召回率分别提升3.4%、0.3%,降低漏检概率。
(2)由于遥感图像中存在图像噪声和复杂背景的问题,包含大量无用信息,本文通过在算法Neck层添加CoordAtt注意力机制,使模型更加注重关键特征信息,使神经网络获得更加丰富的特征信息,使得目标检测精确率、召回率、平均检测精度分别提升0.4%、1.6%、2.6%,且提升了算法的检测速率。
(3)由于小目标特征信息较少,可识别度较低,结合BiFPN 模型对YOLOv5算法进行改进,加入了自下而上的特征融合路径,增强不同网络层之间的信息传递,使网络能够融合更多特征,减少特征信息丢失。
关键词:YOLOV5 遥感图像 目标检测 双注意力机制 BifPN双向特征网络
Object Detection Based on Improved YOLOV5 Remote Sensing Image
(College of Engineering, South China Agricultural University, Guangzhou 510642, China)
Abstract: With the rapid development of remote sensing satellites and aviation aircraft, remote sensing image technology plays an important role in many fields such as road traffic detection and natural environment monitoring. Among them, remote sensing image object detection is widely used to recognize the position and category of targets in remote sensing images. However, due to factors such as different shooting times and angles of remote sensing images, there are certain differences in different remote sensing images of the same natural scene, which poses challenges for object detection. Moreover, remote sensing images themselves have the characteristics of complex backgrounds, small targets, and clustering, which also lead to the occurrence of false or missed detection of targets. Therefore, in order to improve the detection accuracy and speed of YOLOv5 algorithm model for remote sensing images, this article reviews relevant literature on YOLOv5 to understand the development and shortcomings of YOLOv5 based remote sensing image object detection. For remote sensing image object detection using YOLOv5, an improvement plan is proposed, which includes adding a small target layer, using a dual attention mechanism, and improving a bidirectional feature network. The specific content is as follows:
(1) Due to the low resolution of small targets in remote sensing images, they are prone to missed and false detections. Therefore, adding a prediction layer for small targets to the model increases the recall rates of aircraft and oil tank categories by 3.4% and 0.3% respectively in the experiment, reducing the probability of missed detections.
(2) Due to the problems of image noise and complex background in remote sensing images, which contain a large amount of useless information, this article adds CoordAtt attention mechanism to the algorithm Neck layer to make the model pay more attention to key feature information, enabling the neural network to obtain richer feature information. This improves the accuracy, recall, and average detection accuracy of target detection by 0.4%, 1.6%, and 2.6%, respectively, and improves the detection rate of the algorithm.
(3) Due to the limited feature information and low recognizability of small targets, the YOLOv5 algorithm has been improved by combining the BiFPN model and incorporating a bottom-up feature fusion path to enhance information transmission between different network layers, enabling the network to fuse more features and reduce feature information loss.
Key words: YOLOv5 Remote sensing image Object detection Dual attention mechanism BifPN bidirectional feature network
目 录
参考文献 34
附录 36
附录5 添加CA注意力机制和结合BifPN改进网络结构主要代码
附录6 添加CA、CBAM注意力机制和结合BifPN改进网络结构主要代码
致谢 50
遥感图像是指通过遥感卫星和航空飞行器等探测设备对地面上的各种物体目标,如海洋、植被、建筑等,进行远距离探测(张冬冬,2022),从而获得高分辨率、高精度的观测图像。在丰富的遥感图像数据支持下,遥感图像技术的研究取得众多发展,在交通检测、海洋监控、地质勘测、自然灾害检测和地理信息系统(GIS)更新等众多领域中起重要作用。
目前,根据遥感卫星的种类和作用的不同,获得的遥感图像也不同,主要有多光谱、红外和可见光三个类型的遥感图像(聂子一,2022)。而在基于遥感图像的技术研究中主要分为目标检测、场景识别分类、语义分等几个方面。其中,遥感图像目标检测的作用是通过设计的深度学习算法模型,根据图像具有的特征,自动识别出遥感图像中目标的位置以及对识别的目标分类。
但是,由于遥感图像自身存在的一些特点,如因拍摄角度不同、成像范围大小等因素(李坤亚,欧鸥,刘广滨,等,2022),而导致同一自然场景图像的遥感图像存在差异,以及遥感图像本身具有的背景复杂、目标小且聚集、无用信息多的特点,导致目标特征与背景特征的区别较小,同类目标具有的相同特点不明显,使得图像中的目标较难被检测出来。
因此,本文通过分析YOLOv5算法在图像检测中存在的问题,设计优化方案,以提升算法的检测精度和检测速度等。
在传统的目标检测中,根据应用场景的不同,检测方式主要分为三种方式:一是通过模板匹配的方式进行目标的检测,而常用的模板有刚性和可变形两种。其中,刚性模板匹配比较适合用于对检测外观变化较小的物体,如水箱、道路等,不适合用于外观变化较大的目标(邢宇驰,李大军,叶发茂,2021)。而可变形的模板匹配方式则能够检测更加复杂图像,但也增加了算法计算量,训练要求更多。
基于对象的图像分析目标检测算法主要包含图像分割和对象分类两部分,先将输入的图像进行分割,生成固定尺寸的图像,再对生成的图像进行分类和识别,从而提取图像中的目标。图像分析方法虽然有效地提高了检测精度,但普适性较差(聂子一,2022)。基于机器学习的目标检测方法通过对输入图片的信息,确定图像中目标所在区域的大致范围,然后根据色彩、轮廓等图像特征进行特征提取,再将提取到的特征信息输入分类器,进行背景和内容的分类(李名波,2019)。
传统目标检测采用人类经验去提取特征,难以适应差,设计周期长,而机器学习的目标检测则是通过学习大量数据来获取一种特征包含的信息,因而该特征包含了这类目标的更丰富的特征信息,具有更好的适应性。因此,机器学习目标检测具有更好的检测精度和更快的检测速度。
随着遥感技术的进步,遥感图像包含的特征信息也越来越丰富。遥感图像的信息特征分为低、中和高三层(付涵,范湘涛,严珍珍,等,2022)。在传统的遥感图像检测技术中,主要针对图像的低层特征进行提取操作,如对目标的轮廓等进行提取,适应性较差;而基于深度学习的遥感图像目标检测方法则是通过大量的参数在算法模型上进行训练,获得图像中的抽象语义信息,使目标识别具有更高的检测精度和更好的适应性(付涵,范湘涛,严珍珍,等,2022)。
目前,为了进一步提升基于深度学习的遥感目标检测算法的性能,研究工作者不断改进,提出了更多的遥感检测方案。在对遥感图像检测框筛选体系的进一步完善上,WangC等提出了建议的无锚定和无滑动窗口反卷积区域提案网络(DODN),取消了锚机制,改用二级的反卷积神经网络,并通过区域生成功能生成了参考框(邢宇驰,李大军,叶发茂,2021),使部分类别的检测精度有效提高。Ultralytics等则通过改变生成候选框的方式,构建更深的算法结构,即采用跨阶段特征提取模块(CSPDarknet53),并在特征融合网络中加入路径聚合网络(PANet)和空间池化(SPP)模块,大大提升了目标识别效果。周华平等通过引入频率通道注意力网络,引导算法模型关注信息更为丰富的特征,进一步提升检测效果(周华平,郭伟,2022)。刘涛等人针对YOLOv5检测中存在的遥感图像背景复杂、目标较小且无用信息较多等问题导致检测效果差和误检漏检的情况,引入轻量级的通道注意力机制,并增加融合浅层语义信息的细粒度检测层,同时使用Copy-Paste数据增强方法来丰富训练样本数量,在不增加模型计算量的情况下可进一步解决遥感图像背景信息占比过高而目标区域占比过低的问题(刘涛,丁雪妍,张冰冰,等,2023)。李坤亚等针对骨干网络中进行目标特征信息提取时存在提取不充分或特征信息丢失的现象,采用通道-全局注意力机制(CGAM),取消池化层结构,改用空洞卷积的处理方式,从而提升模型对不同尺寸目标的检测水平;在算法模型中增加密集的上采样卷积模块(DUC),增强特征融合的效果(李坤亚,欧鸥,刘广滨,等,2022)。赵文清等为了抑制背景等无关信息的干扰,在特征提取时引入轻量级通道注意力结构;在目标特征信息的融合过程中,增加Swin Transformer模块和坐标注意力模块,既提升了算法模型全局感知能力,又有效提升了针对小目标的识别能力(赵文清,康怿瑾,赵振兵,等,2023)。苏树智等采用基于尺度分层的特征金字塔网络结构和基于距离约束的中心回归,有效的提升了语义感知能力和信息交互能力,从而改善遥感图像的目标检测精度(苏树智,谢玉麒,2022)。LiK等采用对象检测网络,对目标进行旋转和增强局部区域的上下文信息,采用双通道进行目标的特征信息融合,使得算法的检测精度显著提升(LI, K, CHENG, G and BU, S, et al.,2018)。
由于自然图像与遥感图像在图像内容和形式上区别很大,直接使用自然图像目标检测算法对遥感图像进行检测,其检测效果较差,因此不能直接使用自然图像目标检测算法。造成检测效果差的原因主要包含以下几个方面:
- 遥感图像中的小目标比较难被检测出来。在高分辨率的遥感图像中,由于图像中的目标尺寸较小,而背景占比较大,使得图像包含的大量信息是无用的,使得小目标容易出现漏检、误检等情况,造成遥感图像中的目标检测精度大大降低(刘洪宁,李卓,2023),如图1所示。
图1
- 遥感图像的目标旋转方向任意。由于目标摆放位置及角度存在任意性,导致从高空拍摄的遥感图像中目标的方向任意。并且由于由于拍摄角度和高度的不同,导致遥感图像中目标形态与实际自然物不同,存在尺寸大小和方向上的差异,这也增加了网络特征提取难度,增加了目标检测的难度(贺坤坤,2021),如图2所示。
图2
- 遥感图像空间背景复杂。当遥感图像包含大量特征信息,且目标的轮廓特征与背景的颜色相近时,或者待测目标被其他目标遮挡,都会大大降低目标的检测精度,如图3所示。
图3
本文总结了传统的和基于深度学习的遥感图像目标检测算法的发展,分析当前遥感图像检测过程中遇到的难题,通过RSOD数据集在YOLOv5s算法上进行训练,并结合训练结果分析,针对如何提升算法检测精度和检测速度,提出算法模型改进方案,具体内容如下:
- 由于遥感图像中的小目标分辨率较低,容易出现漏检、误检等情况,因此在模型中加入针对小目标的预测层。
- 由于遥感图像中存在图像噪声和复杂背景的问题,包含大量无用信息,本文通过添加CoordAtt注意力机制和CBAM 注意力机制,更加关注重点区域的特征,减少下采样导致的信息丢失,使网络获得更多的特征信息。
- 由于小目标特征信息较少,可识别度较低,结合BiFPN 模型对YOLOv5算法进行改进,加入了自下而上的特征融合路径,增强不同网络层之间的信息传递,使网络能够融合更多特征,减少特征信息丢失。
本文详细介绍了目标检测算法的原理,针对目前遥感图像目标检测中存在的难题,对用于目标检测的YOLOv5算法进行改进,并通过实验验证模型的检测效果。本文的内容主要分为六个部分:
第一,主要探讨研究遥感图像检测的背景和意义,总结传统和基于深度学习两种目标检测算法在该领域的发展,并分析这些算法在目标检测中存在的问题,引出本文的核心内容,即如何改进算法,提升检测效果。
第二,主要介绍卷积神经模型网络的相关理论,并简要介绍了YOLO系列算法的发展及特点、轻量化神经网络。
第三,主要从输入端(Input)、主干网络(Backbone)、特征融合模块(Neck)和预测层4个部分详细地介绍了YOLOv5的网络模型结构。
第四,主要从遥感目标检测存在的不足出发,对YOLOv5算法的Backbone、Neck、Head三个部分进行改进,并在后文进行详细介绍。
第五,介绍了本实验选用的数据集、实验平台以及目标检测评价指标,通过消融实验对改进后的模型进行性能对比分析。
第六,总结了本论文涉及的研究内容,针对遥感图像目标检测面临的难题,提出改进措施,并进行实验分析。同时,讨论了研究过程中遇到的不足与尚未解决的问题,为后续的研究工作提供了方向参考。
图4 卷积神经网络的基本结构(张冬冬,2022)
卷积神经网络是指,通过不同的卷积核对图像进行处理,从而获得不同的图像特征,具有从前向后学习的网络结构。卷积神经网络的结构主要包含输入层、卷积层、池化层、全连接层和输出层。输入的图片作为卷积神经网络的输入,然后经过神经网络的卷积和池化,从而获得特有的图像特征,再将图像特征输入全连接层进行特征信息的融合,然后再输入输出层进行特征分类处理,使得图像上的不同特征具有不同的特征标签(张冬冬,2022)。
卷积层主要用于提取输入图片的特征,并将提取的信息用于下一层的学习。模型中的卷积层数量越多,则该模型的特征提取能力也就越强。其中,卷积层的运算是通过卷积核对上一次输入的图像矩阵进行内积运算,生成新的图像矩阵信息。如图5所示
图5 卷积运算
池化层主要用于对卷积层传来的参数进行压缩矩阵尺寸,从而有效减少参与下一层运算的参数量,降低数据的特征维度(张嘉洋,2022)。池化操作分为最大池化(Max Pooling)和平均池化(Average Pooling)两种类型,如图6所示。
图6 池化类别(张嘉洋,2022)
激活层的主要作用是将图像的特征空间通过一定的映射变化转到另一特征空间,使数据分类更加准确。同时,通过非线性变化的激活函数,可以有效增加网络的数据处理能力。现阶段的激活函数有:Relu 函数、Sigmoid 函数、Tanh 函数,如图7所示。
Relu 函数曲线 Sigmoid 函数曲线 Tanh 函数曲线
图7 激活函数曲线
全连接层主要用于对卷积池化后的特征图像进行融合,并使用不同类别的分类器对特征图进行映射出来,降低空间维度。需求不同,全连接层的层数不同,使用的分类器也不同,如图8所示。
图8
两阶段目标检测方法包含两个阶段,第一个阶段通过网络模型对输入的图片数据进行特征提取,从而在图像上提取出目标的候选范围;第二阶段再将候选区域输入到卷积神经网络中进行目标的检测与分类(杨泽东,2022)。目标检测任务被分为两个阶段,虽然能提高检测效果,但也大大增加了算法的运算量,延长了算法的训练时间。目前,作为双阶段的典型算法的Faster R-CNN,采用了区域建设网络(Region Proposal Network,RPN)作为候选区域的获得方法,通过全卷积的方式获得候选框,能有效减少计算量,提升网络运行速度。同时,为了更准确地选择适合不同目标大小的候选区域,Faster-RCNN网络采用了“锚点”机制,用于对图片中的候选区域进行提取。
首先,将输入的图片经过 CNN 网络进行目标特征信息的提取,生成含有丰富特征信息的特征图。接着,通过RPN 模块提取目标的候选区域框(RoI),然后RoI 池化层对提取的候选区域框和特征提取网络进行处理, 生成固定尺寸的特征图。最终将池化后的特征图输入检测器,进行分类和坐标回归得到检测结果,算法流程如图9所示。
图9 Faster R-CNN网络结构图
更多推荐
所有评论(0)