Aerial Infrared Image Target Recognition Method Based on Improved YOLOv5s
-
摘要:
为了提高无人机在黑暗条件下的识别效率,降低在复杂环境及路况方面存在漏检及延时效果等问题,本文提出了一种改进的YOLOv5s-GN-CB红外图像识别方法,该方法可以提高无人机红外航拍图像对车、人等多类目标识别效率。本文对YOLOv5s的主要改进包括以下3个方面:将Ghost引入到YOLOv5s主干网络中,并将NWD loss损失函数融入至Ghost中;添加注意力机制CA;添加加权双向特征金字塔BiFPN。经验证,改进的YOLOv5s-GN-CB检测模型在InfiRay红外航拍人车检测数据集下目标识别平均精度均值(mAP@0.5)达到95.1%,FPS提高至75.188帧/s。相较于YOLOv5原始模型的平均精度均值和FPS分别提高了4.2%和12.02%。在对同一场景中无人机航拍红外图像目标识别的检测精度有明显提升,延时率有所下降。
Abstract:To enhance the recognition efficiency of UAVs in dark conditions and reduce missed detections and delays in complex environments and road conditions, this study proposes an improved YOLOv5s-GN-CB infrared image recognition method. This method enhances the efficiency of UAV infrared aerial images for detecting vehicles, people, and other types of targets. The main improvements to YOLOv5s achieved in this study include the following three aspects: 1) introducing the Ghost module into the YOLOv5s backbone network and incorporating NWD loss into Ghost; 2) adding the coordinate attention (CA) mechanism; 3) incorporating a weighted bidirectional feature pyramid network (BiFPN). The improved YOLOv5s-GN-CB detection model achieves an average accuracy of 95.1% (mAP@0.5) on the InfiRay infrared aerial photography man-vehicle detection dataset, with the FPS increased to 75.188 frames per second. Compared with the original YOLOv5 model, the average accuracy and FPS are improved by 4.2% and 12.02%, respectively. In the same scenario, the detection accuracy of UAV aerial photography infrared image target recognition has been significantly improved, and the delay rate has decreased.
-
Keywords:
- infrared object detection /
- improved YOLOv5s /
- ghost network /
- attention mechanism
-
0. 引言
目标识别技术是计算机视觉领域的重要研究方向之一。但是在可见光效果较差的环境下,传统的可见光目标检测技术往往难以达到良好的效果,使用红外成像在夜间或低光环境下比可见光成像效果更好[1],因此红外目标检测在安防、军事等领域中有着广泛的应用。
随着在机器视觉领域引入深度学习,目标检测技术取得了快速发展,基于深度学习的目标检测方法解决了传统机器学习检测精度低、漏检率高、检测速率低的问题。基于深度学习的目标检测算法按其网络体系结构,主要分为单阶段检测算法及双阶段网络算法,但经大量研究证实了双阶段目标检测算法可以在红外图像下进行目标检测,但过程繁琐,且需要大量重复性实验。随着YOLOv3[2]、YOLOv4[3]、YOLOv5的先后提出,YOLO[4]系列算法在精度和速度上对比同单阶段算法有着较大的优势,YOLOv5s算法作为YOLO系列算法比较成熟且模型体积较小的目标检测算法,对红外图像进行目标识别有着较好的表现,但因红外图像的图像特性,在检测速率、精度上还尚有改进空间。
本文基于YOLOv5s[5]算法,提出了以下几点改进:
1)引入了Ghost网络,并将NWD loss(Normalized Wasserstein Distance loss)损失函数融入至Ghost网络中,Ghost模型减少模型参数的同时可以提高YOLOv5s的性能,将损失函数替换为NWD loss,在不影响模型参数量的同时提高了模型的精度。
2)添加注意力机制CA,CA不仅考虑了通道信息,还考虑了方向相关的位置信息,且能够简单地插入到轻量级网络的核心模块中。
3)添加了加权双向特征金字塔BiFPN,BiFPN具有高效的双向跨尺度连接和加权特征融合,可以实现更多的特征融合。
1. 算法理论分析
1.1 YOLOv5目标检测算法
YOLOv5算法是一种轻量化的目标检测算法,其网络结构由输入端、主干网络、颈部和检测网络组成。YOLOv5算法具有4个不同深度和宽度的网络,分别为YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,其中YOLOv5s是深度最小、特征图宽度最小且训练速度最快的网络。该算法具有高准确性和较快的训练速度,适用于移动端和嵌入式设备的实时目标检测应用。
1.2 Ghost Bottleneck模块
Ghost Bottleneck[6]是一种轻量化的卷积神经网络结构,旨在减少计算量和参数数量的同时,提高模型的精度和鲁棒性。如图 1为Ghost Bottleneck模块原理图,Ghost Bottleneck主要由两个Ghost模块叠加而成,第一个模块用于增加t通道数量,而第二个模块则用于减少通道数量,Ghost Bottleneck包含stride=1和stride=2两个版本,stride=1时不进行下采样,直接进行两个Ghost卷积操作;stride=2时shortcut路径下进行下采样,并在Ghost模块中加入一个步长为2的深度卷积操作,通过这种方式,Ghost Bottleneck可以在保证特征提取效果的同时,大幅减少参数数量和计算量。其中Ghost module模块原理图如图 2所示。
1.3 NWD Loss
NWD loss[7]是一种用于目标检测任务的损失函数。NWD loss是基于Wasserstein距离的思想,旨在降低不同尺度物体之间的特征差异,提高目标检测的准确性。相比于传统的均方误差(Mean Squared Error)损失函数,NWD loss可以更好地适应物体检测任务中不同尺度物体的特征差异,从而更好地优化模型。在NWD loss中,Wasserstein距离是在两个分布之间计算的,这里的分布指的是特征图上的物体分布。通过计算分布之间的Wasserstein距离,可以度量两个分布之间的相似度,从而用作损失函数的衡量标准。
NWD:
$$ {\text{NWD}}({N_{\text{p}}}, {N_{\text{g}}}) = \exp ( - \frac{{\sqrt {(W_2^2({N_{\text{a}}}, {N_{\text{b}}})} }}{C}) $$ (1) NWD loss:
$$ L_{\mathrm{NWD}}=1-\mathrm{NWD}\left(N_{\mathrm{p}}, N_{\mathrm{g}}\right) $$ (2) 式中:Np是预测框的高斯分布;Ng是GT框的高斯分布;C是一个常数,和数据集有关。
1.4 注意力机制CA
Coordinate Attention[8](CA)是一种新颖的移动网络注意力机制,CA注意力很简单,可以灵活地插入到经典的移动网络中,而且几乎没有计算开销。CA框图如图 3所示。
为了使注意力模块能够捕捉具有精确位置信息的远程空间交互,CA按照以下公式分解了全局池化。
转化为一对一维特征编码操作:
$$ {z_c} = 1\frac{1}{{H \times W}}{\text{ }}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{x_c}(i, j)} } $$ (3) 高度为h的第c通道的输出:
$$ z_c^h(h) = \frac{1}{W} \sum\limits_{0 \leqslant i < W}^{} {{x_c}(h, i)} $$ (4) 宽度为w的第c通道的输出:
$$ z_c^h(h) = \frac{1}{H}{\text{ }}\sum\limits_{0 \leqslant i < H}^{} {{x_c}(j, w)} $$ (5) 对尺寸为C×H×W输入特征图Input分别按X方向和Y方向进行池化,分别生成尺寸C×H×1和C×1×W的特征图,如图 4所示。
将生成的C×1×W的特征图进行变换,然后进行Concat操作:
$$ f = \delta ({F_1}([{z^h}, {z^w}])) $$ (6) Coordinate Attention Block的输出Y:
$$ {y_c}(i, j) = {x_c}(i, j) \times g_c^h(i) \times g_c^w(j) $$ (7) 1.5 加权双向特征金字塔BiFPN
Bipartite Feedforward Networks(BiFPN)是一种新型的神经网络结构,它可以应用于计算机视觉任务中的特征提取。BiFPN[9]不同于其他的FPN结构(不同分辨率的特征融合时直接相加),在PANet[10]的基础上,若输入和输出都是同一水平,则添加一条额外的边。EfficientDet[11]为解决因不同的特征具有不同的分辨率,对特征融合的贡献不平等的问题,提出在特征融合期间为每个输入添加一个额外的权重,让网络去学习每个输入特征的重要性。如图 5所示,BiFPN做了两个方面的改进:
1)PANet进行特征融合时,是通过Concat的,一般高层和低层的特征贡献程度相同,BiFPN在特征融合时,通过一组可学习的归一化权重参数调整各层贡献程度。
2)BiFPN堆叠多层实现更高维度的特征融合。
2. 网络模型优化
2.1 骨干网络模块替换
使用Ghost Bottleneck模块替代原始YOLOv5s网络结构中的C3模块以及Conv模块。YOLOv5s改进模型算法网络结构示意图和模块替换示意图如图 6所示。具体而言,第三层C3模块用step=1的Ghost Bottleneck模块替代;第二层、第四层、第六层和第八层的Conv模块用step=2的Ghost Bottleneck模块替代,以降低模型参数数量;第五层、第七层及第九层的C3模块则用3个step=1的Ghost Bottleneck模块替换。将本次改进后的模型YOLOV5-Ghost称为YOLOv5-CG。
2.2 损失函数替换
CIOU loss[12]无法对目标的长宽比进行很好的处理,导致对于形状较为特殊的目标,检测精度可能不如NWD loss,且CIoU损失函数未考虑难易样本的平衡问题。NWD loss可以对目标之间的相似性进行更准确的度量,并且可以自适应地调整样本的难易程度,从而提高模型的泛化能力。
因此将Ghost网络模块回归的损失由原始CIoU Loss替换为NWD Loss,将替换后的模型称为YOLOv5-GN,通过实验证明,模型表现较好。
2.3 注意力模块CA添加
为提升模型训练过程中对训练图像不同区域信息学习效率,因此在不同尺寸的特征图后添加注意力CA模块,将CA放在Backbone部分的最末端,即在第十层的输出端添加CA模块,这样可以使注意力机制看到整个Backbone部分的特征图,使得特征图的深度加权平均,提升网络模型的精度,同时较好地提升模型学习效率。
2.4 引入双向特征金字塔网络BiFPN
将BiFPN添加到Neck部分的第十层,BiFPN引入了跳跃连接,即在相同尺度的输入节点到输出节点中间再增加1个跳跃连接,因为运算处于相同层,该方法可在参数较少的同时结合更多特征。BIFPN将每一条双向路径视作1个特征网络层,并对同一层参数进行多次计算,以实现更多的特征融合。
3. 实验验证及性能风险
3.1 实验平台环境
本文实验是基于Windows10操作系统下进行实验验证。训练平台采用Nvidia GeForce RTX 3090(24 GB/微星),13th Gen Intel(R) Core(TM) i7-13700K CPU @ 3.40 GHz处理器,语言为Python3.7,加速环境为CUDA11.6,深度学习网络框架为Pytorch。测试部署平台采用Jetson AGX Orin 32 GB,该开发板具备支持多个并发AI推理管线的200TOPS算力,外形小巧,性能出色。该开发板具备8核Arm® Cortex®-A78AE v8.2 64位CPU 2 MB L2+4 MB L3,GPU采用搭载56个Tensor Core的1792核NVIDIA Ampere架构GPU。
3.2 实验数据及参数说明
本文训练验证采用数据集为InfiRay[13]提供的红外航拍人车检测数据集,数据库使用person、car、bus、cyclist、bike、truck分别作为行人、小汽车、公交车、骑自行车的人、自行车、卡车的标签。验证训练集11045张、验证集2000张、测试集550张。网络模型部分重要训练参数设置如下:训练轮次为300,批尺寸为16,初始学习率为0.01,周期学习率为0.01,学习率动量为0.937,权重衰减系数为0.0005。
3.3 网络模型的评价指标
本文对模型训练的评价指标主要从以下几方面分析:精确率(Precision):是指预测为正例中真正为正例的样本数占所有预测正例的样本数的比例;召回率(Recall):是指真正为正例中预测为正例的样本数占所有真正为正例的样本数的比例;平均精度[14](Mean Average Precision,mAP):是对所有类别的AP取平均得到的指标;F1分数(F1-score):是衡量模型准确率和召回率之间平衡的指标,F1分数越高,代表模型综合表现越好。帧率(FPS):每秒传输帧数,YOLOv5的帧率计算主要为以下3个参数:图像预处理时间(pre-process)、推理速度[15]、后处理时间,FPS即1000 ms除以这3个时间之和。其中TP表示被模型预测为正类的正样本数量,FN表示被模型预测为负类的正样本数量,AP表示平均准确度,N表示总的类别数。即预测为正例且正确的样本数除以预测为正例的样本数。
$$ \text{Precision} = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} $$ (8) $$ \text{Re} {\text{call}} = \frac{{{\text{FP}}}}{{{\text{TP + FN}}}} $$ (9) $$ {\text{mAP}} = \frac{{\sum\limits_{i = 1}^N {{\text{AP}}} }}{N} $$ (10) $$ {\text{F1-score}} = 2 \times \frac{{{\text{precision}} \times {\text{recall}}}}{{{\text{precision + recall}}}} $$ (11) $$ {\text{FPS}} = \frac{{1000}}{{{\text{pre - process + ms inference + NMS}}}} $$ (12) 3.4 实验结果及性能分析
将改进后的模型训练所得的results.txt文件,使用Matlab软件提取有效信息,并对关键数据进行可视化展示,消融实验分两组对比,其中一组对比各模型的精准率、召回率、mAP@0.5、mAP@0.5: 0.95。另一组对比各模型的mAP@0.5、FPS、权重文件大小。为了更直观地感受检测效果,在两个场景下对各模型的检测效果做展示。
3.4.1 消融实验
为验证本文改进算法的有效性,在相同数据集上进行了消融实验。在YOLOv5s原模型的基础上,依次进行修改:引入Ghost主干网络(YOLOv5s-GC);引入替换NWD loss的Ghost(YOLOv5s-GN);引入CA和BiPFN注意力机制(YOLOv5s-CB)。消融实验结果如表 1所示。从表 1中实验结果可以看出,YOLOv5s-GC mAP@0.5提高了3%,FPS增加了8.1;YOLOv5s-GN mAP@0.5上升了3.2%,FPS增加了7.51;YOLOv5s-CB mAP@0.5上升3.3%,F1提升了3,但FPS下降了3.2。对比YOLOv5s-GN-CB与YOLOv5s原模型,mAP@0.5上升4.2%,F1提升了4,FPS上升了8.1,综上所述证明,本文所改进方法的有效性,在提高模型平均精度的同时,提高了模型计算速度,减少耗时,提高了检测实时性。
表 1 消融实验结果对比Table 1. Comparison of ablation experimental resultsModels mAP@0.5 F1 FPS YOLOv5s 90.9 87 67.114 YOLOv5s- GC 93.9 89 75.188 YOLOv5s- GN 94.1 89 74.627 YOLOv5s- CB 94.2 90 44.053 YOLOv5s- GN-CB 95.1 91 75.188 3.4.2 部分检测结果示例
为了更直观地验证改进后的YOLOv5s-GN-CB模型的检测效果,本文用各改进算法分别对两个不同场景进行了红外人车检测验证,场景a包括了多个分类,场景b下虽分类不多但框图多,分别对两种场景10组检测结果进行了对比,检测结果图像如图 7所示,每组检测结果中,第一列为原YOLOv5s检测结果,最后一列为改进的YOLOv5s-GN-CB检测结果。通过检测结果可以看出YOLOv5s-GN-CB检测精度更高,特征提取能力有所增强,在不同场景下的检测均有一定提高。
3.4.3 对比实验
为了更加客观地评价本章所改进的YOLOv5s模型在红外场景检测中的效果,本文将改进后的YOLOv5s模型与其它YOLOv5主流算法进行了对比,包括原YOLOv5s、YOLOv5s-Ghost(GC)[16]、YOLOv5s-GN、YOLOv5s-MobileNetV3[17]、YOLO v5x,实验过程遵循控制变量原则,实验软硬件环境保持一致。评价指标采用平均准确率(mAP)、每秒帧数(FPS)、权重文件大小(MB)。实验结果如表 2所示,通过实验结果可以看出,Ours相对于YOLOv5s mAP@0.5提高了3.2%,FPS增加了8.1;相对于YOLOv5s-Ghost mAP@0.5上升了2.2%;相对于YOLOv5s-GN mAP@0.5上升1%;相对YOLOv5s-MobileNetV3 mAP@0.5上升3.1%,FPS上升了19;虽然mAP@0.5对比YOLOv5x略有下降,但在FPS及权重文件大小上有较大优势。图 8显示了与其它YOLOv5主流算法的参数变化对比,通过观察图表可以看出本文改进的算法在平均精度、帧率及权重大小上具有显著优势。
表 2 主流算法对比实验结果Table 2. Comparative experiments with mainstream algorithmsModels mAP@0.5/ (%) FPS/(frame/s) Weight coefficient/MB YOLOv5s 90.9 67.114 3.69 YOLOv5s-Ghost 93.9 75.188 7.44 YOLOv5s-GN 94.1 75.188 11.5 YOLOv5s-MobileNetV3 92.0 56.180 7.31 YOLOv5x 97.7 14.164 171 Ours 95.1 75.188 11.6 4. 结语
本文提出一种基于改进YOLOv5s的红外人车目标检测的优化算法,改进后YOLOv5s-GN-CB模型应用于红外场景下对人车等多种分类进行检测分类。实验将模型部署至Jetson AGX Orin平台经测试模型,使用改进后算法对红外场景下的航拍人车进行目标识别mAP@0.5可达到95.1%,FPS为75.188帧/s,模型产生的权重文件为11.6 MB。实验表明,相对于原YOLOv5s模型,改进后的模型在利于便携式嵌入式设备的情况下可有效提高平均精度和FPS。此研究对增强无人机在夜间飞行过程中对周围环境的检测能力,推动无人机的发展具有重要意义。
-
表 1 消融实验结果对比
Table 1 Comparison of ablation experimental results
Models mAP@0.5 F1 FPS YOLOv5s 90.9 87 67.114 YOLOv5s- GC 93.9 89 75.188 YOLOv5s- GN 94.1 89 74.627 YOLOv5s- CB 94.2 90 44.053 YOLOv5s- GN-CB 95.1 91 75.188 表 2 主流算法对比实验结果
Table 2 Comparative experiments with mainstream algorithms
Models mAP@0.5/ (%) FPS/(frame/s) Weight coefficient/MB YOLOv5s 90.9 67.114 3.69 YOLOv5s-Ghost 93.9 75.188 7.44 YOLOv5s-GN 94.1 75.188 11.5 YOLOv5s-MobileNetV3 92.0 56.180 7.31 YOLOv5x 97.7 14.164 171 Ours 95.1 75.188 11.6 -
[1] 张志强, 王萍, 于旭东, 等. 高精度红外热成像测温技术研究[J]. 仪器仪表学报, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm ZHANG Zhiqiang, WANG Ping, YU Xudong, et al. Research on high-precision infrared thermal imaging temperature measurement technology [J]. Chinese Journal of Scientific Instrument, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm
[2] Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. 2018-04-08, [2022-08-12]. https://arxiv.org/abs/1804.02767.
[3] LIU W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]//Computer Vision-ECCV, 2016: 21-37.
[4] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 779-788.
[5] ZHAO Z Y, YANG X X, ZHOU Y CH, et al. Real-time detection of particleboard surface defects based on improved YOLOV5 target detection[J]. Scientific Reports, 2021, 11(1): 1-15. DOI: 10.1038/s41598-020-79139-8
[6] WANG J, CHEN Y, GAO M, et al. Improved YOLOv5 network for real-time multi-scale traffic sign detection[J/OL]. arXiv: 2112.08782, https://arxiv.org/abs/2112.08782
[7] WEI Yi, LI Xiaofei, LIN Lihui, et al. Causal discovery on discrete data via weighted normalized wasserstein distance[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4): 4911-4923. Doi: 10.1109/TNNLS.2022.3213641
[8] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.
[9] TAN M, PANG R, LE Q V. Efficientdet: scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10781-10790.
[10] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[11] Nawaz Marriam, Nazir Tahira, Baili Jamel, et al. CXray-EffDet: chest disease detection and classification from X-ray images using the efficientdet model[J]. Diagnostics, 2023, 13(2): 248-248. DOI: 10.3390/diagnostics13020248
[12] HAO Hongyun, FANG Peng, DUAN Enze, et al. A dead broiler inspection system for large-scale breeding farms based on deep learning[J]. Agriculture, 2022, 12(8): 1176-1176. DOI: 10.3390/agriculture12081176
[13] 郭吉朋. 基于YOLOv3模型的实时目标检测算法的FPGA实现[D]. 武汉: 华中科技大学, 2020. DOI: 10.27157/d.cnki.ghzku.2020.004780. GUO Jipeng. FPGA implementation of real-time object detection algorithm based on YOLOv3 model[D]. Wuhan: Huazhong University of Science and Technology, 2020. DOI: 10.27157/d.cnki.ghzku.2020.004780.
[14] Aliyi Salih, Dese Kokeb, Raj Hakkins. Detectio of gastrointestinal tract disorders using deep learning methods from colonoscopy images and videos[J]. Scientific African, 2023, 20: e01628. DOI: 10.1016/j.sciaf.2023.e01628
[15] 王新彦, 易政洋. 基于改进YOLOv5的割草机器人工作环境障碍物检测方法研究[J]. 中国农机化学报, 2023, 44(3): 171-176. DOI: 10.13733/j.jcam.issn.2095-5553.2023.03.024. WANG Xinyan, YI Zhengyang. Research on obstacle detection method of mowing robot working environment based on improved YOLOv5[J]. Journal of Chinese Agricultural Mechannization, 2023, 44(3): 171-176. DOI: 10.13733/j.jcam.issn.2095-5553.2023.03.024.
[16] 徐正军, 张强, 许亮. 一种基于改进YOLOv5s-Ghost网络的交通标志识别方法[J]. 光电子·激光, 2023, 34(1): 52-61. DOI:10.16136/j.joel. 2023.01.0216. XU Zhengjun, ZHANG Qiang, XU Liang. Research on obstacle detection method for working environment of lawn mower robot based on improved YOLOv5[J]. Journal of Optoelectronics Laser, 2023, 34(1): 52-61. DOI:10.16136/j.joel. 2023.01.0216.
[17] 党宏社, 党晨, 张选德. 基于改进YOLOv5s的交通标志识别算法[J]. 实验技术与管理, 2022, 39(9): 97-102. DOI: 10.16791/j.cnki.sjg.2022.09.016. DANG Hongshe, DANG Chen, ZHANG Xuande. Traffic sign recognition algorithm based on improved YOLOv5s[J]. Experimental Technology and Management, 2022, 39(9): 97-102. DOI: 10.16791/j.cnki.sjg.2022.09.016.
-
期刊类型引用(1)
1. 范锦珑,王高,李建民. 温敏荧光材料YAG:Tm在高温系统中的发光特性. 电子制作. 2024(24): 87-89+10 . 百度学术
其他类型引用(0)