IR Image Classification and Detection of Power Equipment Based on CBAM Improvement
-
摘要:
针对复杂环境下电力设备红外图像的深度学习目标检测数据繁杂、检测精度较低等问题,本文提出一种基于卷积块注意模块(Convolutional Block Attention Module,CBAM)改进YOLOv7的电力设备红外图像分类算法。首先将已有数据集进行标注,并按一定比例划分成训练集、验证集以及测试集,然后在YOLOv7的主干网络中引入CBAM,使模型能对感兴趣的区域进行强调并抑制无用信息,其次将划分好的数据集放入改进后的YOLOv7进行模型训练,同时对比了6种改进的YOLOv5s模型。实验结果表明,在相同实验条件下改进YOLOv7模型优于YOLOv7模型、YOLOv5s模型和基于YOLOv5s的6种注意力模型。改进YOLOv7性能有明显提升,可实现快速、精准的红外图像分类。
Abstract:To address the problems of complicated data and low detection accuracy for deep-learning target detection of IR images of power equipment in complex environments, this study proposes a convolutional block attention module (CBAM) based on YOLOv7 to improve the classification algorithm for IR images of power equipment. First, the existing dataset is labeled and divided into training, validation, and test sets in a certain proportion and then introduced into the backbone network of YOLOv7 to enable the model to emphasize the region of interest and suppress useless information. Second, the divided dataset is put into the improved YOLOv7 for model training, and six improved YOLOv5s models are compared. The experimental results show that the improved YOLOv7 model outperforms YOLOv7, YOLOv5s, and six attention models based on YOLOv5s under the same experimental conditions. The improved YOLOv7 exhibits significantly improved performance and achieves fast and accurate IR image classification.
-
Keywords:
- power equipment /
- YOLOv7 /
- infrared image /
- CBAM
-
0. 引言
电力行业逐步朝着自动化与智能化方向发展,对智能设备的需求也随之增加。红外热成像仪作为一种测温设备能有效地呈现设备的温度情况,并反映出其健康状况,被广泛用于电力设备巡检中。但目前的巡检方式主要依靠人工对已采集的红外图像进行分析[1],面对海量数据时,仅依靠人工难以完成。当前研究者对红外图像分类研究并不多见,因此有必要提出一种智能化分类方法,实现对电力设备红外图像快速、精准的分类。
近年来,基于深度学习智能检测方法具有检测精度高、检测速度快等优点,应用广泛。赵庆生等人采用SURF算法寻找特征点,并利用K-means算法处理特征描述算子,最后将训练集图像的高维特征向量进行机器学习,实现了对电力设备不同图像的快速分类[2]。为了提高电力设备识别的准确率,Jiang等提出一种基于可见光图像深度学习的红外图像识别方法,提升了电力设备识别准确率[3]。吴慧海等人针对电力设备红外图像遮挡、分类不准确等问题,提出一种基于TA-YOLO的电力设备红外图像检测方法,通过迁移学习把可见光电力设备的数据集应用于电力设备红外图像中,对遮挡问题修改了损失函数DIOU_NMS,并把Triplet注意力机制引入特征提取网络中,提高了电力设备红外图像的检测精度和速度,但该训练模型样本较小,对于深度学习问题样本需进一步增强[1]。王建强等人提出一种基于小样本学习方法Meta-Network的变压器红外图像分类方法研究,通过微调原理改进了VGG19模型,增强了小样本情况下的学习效果,但模型的准确率不理想[4]。周可慧等人提出一种改进CNN的电力设备红外图像分类模型构建研究,对CNN-Alex进行改进,验证了改进CNN红外图像分类模型的良好性能,但该模型存在分类不均的问题[5]。针对电力设备红外图像数据类别不均衡等问题,段中兴等人将YOLOv4模型进行改进,在YOLOv4骨干网络中加入多尺度卷积模块,并采用Focal loss函数,解决了电力设备红外图像数据不均衡导致的分类困难问题[6]。随后,Cong等人提出一系列改进方法,实验发现,改进算法的识别准确率显著提高[7-8]。余一聪等人提出基于改进YOLOv7的绝缘子缺失检测方法,将CBAM引入YOLOv7的头部架构中,实现了有效区分绝缘子缺失与否的问题。但对于采集图像时外界环境对图像的影响问题,仍存在研究空间[9]。上述国内外研究中,这些改进方法应用于电力设备红外图像检测均取得了不错的效果,但如何将小样本与复杂环境下电力设备红外图像的目标检测数据繁杂、检测精度较低的问题结合起来仍是一个亟需解决的问题。
因此,本文综合以上特点对电力设备红外图像分类情况展开进一步研究。由于YOLOv7模型具有当下目标检测领域较好的检测速度和精度[10],且YOLOv7算法在进行预处理操作时,可对图片进行随机的裁剪、翻转以及图片间的任意拼接与叠加等操作,所以本文基于优秀的YOLOv7算法展开研究。首先将已收集的数据集在LabelImg中进行标注,然后按一定比例划分成训练集、验证集以及测试集,为使模型能对感兴趣的区域进行强调并抑制无用信息,将CBAM引入YOLOv7模型中,为实现精准、快速的红外图像分类,使模型从输入端进入骨干架构网络时进一步筛选出模型感兴趣的区域,本文将CBAM引入添加在YOLOv7的主干中,然后将划分好的数据集放入改进后的YOLOv7进行模型训练,同时对比了6种改进的YOLOv5s模型。实现了对电力设备红外图像的分类研究。
1. 数据集构建
本文的红外图像数据采集来源于重庆某电网公司红外数据图库。数据集中设备类型共有5种,分别是绝缘子串(Insulator String)、隔离开关(Disconnect Switches)、避雷器(Lightning arrester)、断路器(Circuit Breaker)、电流互感器(Current Transformer),共计1110张图像。图 1为数据集部分典型样本。
本文使用图片标注工具(LabelImg)对数据集进行标注,将红外图像中每种类型用矩形框标记(图 2),标记后的红外图像以XML文件存储,并将XML文件存储作为对应红外图像标签。将该数据集以8:1:1的比例划分为训练集、验证集、测试集。其中,训练集888张,验证集111张,测试集111张。
2. 模型介绍
2.1 YOLOv7模型
YOLOv7是2022年7月初推出的目标检测算法,相较于以往YOLO系列[11-16],YOLOv7模型在检测速度和精度上存在较好平衡[17]。YOLOv7主要由输入端(Input)、主干架构(Backbone)、头部架构(Head)以及预测端(Detection)组成,其模型结构如图 3所示。
YOLOv7的特征提取层由若干Conv层、E-ELAN层以及MPConv层组成,其中Conv层由卷积层和BN层以及激活函数组成。YOLOv7的头部层通过SPPCPC层、若干Conv层、MPConv层、Concat层以及后续输出3个头部层的REP层组成。首先,输入层对输入的图片进行数据增强等一系列预处理操作后,其结果被送入主干架构中,主干架构对处理后的图片进行特征提取,随后,提取到的特征经过特征融合处理得到大、中、小三种尺寸的特征,最后,融合后的特征被送入检测头部,经过检测后输出得到最终结果。
2.2 注意力机制
注意力机制的实质是检测感兴趣的信息并抑制无用信息。3种主要的注意力机制是基于对特征空间和通道进行加权,如空间注意力机制,通道注意力机制,空间和通道混合注意力机制。
卷积块注意模块(Convolutional Block Attention Module,CBAM)是一种空间和通道混合的注意力机制模块[18],包含通道注意力机制以及空间注意力机制,其中,空间注意的重点是图像中物体的位置,通道注意的重点是图像中的物体。卷积块注意模块结构如图 4所示,通道注意模块和空间注意模块分别如图 5和图 6所示。
具体流程如下:将输入的特征图分别根据宽度和高度进行全局最大集合和全局平均集合,得到两个1×1×C的特征图,然后将其送入两层的神经网络MLP,第一层的神经元数量为C/r,其中r为还原率,激活函数为ReLU,第二层的神经元数量为C。两层的神经网络共享,通道注意特征和输入特征图按元素相乘,生成最终的通道注意特征。最后,输入特征图被逐级相乘,生成空间注意模块所需的输入特征。随后,在空间注意模块中,该模块首先进行基于通道的全局最大集合和全局平均集合,得到两个特征图。在这两个基于通道的特征图上进行连接操作,然后进行卷积,将维度降低到一个通道,然后通过一个Sigmoid来生成一个空间注意力特征。
2.3 改进YOLOv7模型
将卷积块注意模块添加到主干之前[19],使模型从输入端进入主干架构网络时首先筛选出模型感兴趣的区域,通过将CBAM与YOLOv7进行整合,在特征图中分配通道特征和空间特征的权重,以提高检测视觉物体的注意力,抑制对非物体的注意力,从而提高了物体检测模型整体的准确性,改进后YOLOv7模型结构如图 7所示。
将大小为416×416×3的预处理图像输入到骨干网络中,输出的特征图首先通过CBAM中的全局最大集合和全局平均集合进行处理,然后通过共享权重的多层感知器和Sigmoid激活函数进行基于两个特征图的加法操作。在通道注意模块完成后,特征图被输入到空间注意模块。两个特征图通过使用全局最大集合和平均集合进行组合,然后通道的数量减少到7×7的卷积。应用Sigmoid激活函数以获得空间注意力特征图。最后,通过注意模块和空间注意模块的输出相乘,得到CBAM的输出特征图。CBAM的特征图被送入CBS模块,最终输出预测结果,以实现模型的物体检测。
3. 实验与结果分析
3.1 实验环境
本次实验硬件方面采用了i7-11700k处理器,RTX3090显卡,软件方面采用了Win10操作系统,CUDA11.7,Python3.7以及PyTorch1.12;参数设置为输入图像尺寸640×640,batch size为16,epoch为300。
3.2 评价指标
精度(P)、召回率(R)和平均精度(mAP)被作为评价指标。具体公式为:
$$ P = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} $$ (1) $$ R = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}} $$ (2) $$ {\text{A}}{{\text{P}}_i} = \int\limits_0^1 {P\left( R \right){\text{d}}\left( R \right)} $$ (3) $$ {\text{mAP}} = \frac{1}{N}\sum\limits_{i = 1}^N {{\text{A}}{{\text{P}}_i}} $$ (4) 式中:P为预测正确的结果数量占总预测数量的比值;TP、FP分别表示正确、错误预测的样本数。FN为未检测到的正确目标的数目,AP为PR曲线下的面积,表示模型对某个类别识别效果的好坏;mAP为所有类别的平均准确率的均值,本文采用了两个mAP指标,分别为mAP@0.5和mAP@0.95。mAP@0.5表示将IOU分配为0.5,并对所有类别的图像进行平均。mAP@0.95则是指不同的IOU阈值(从0.5到0.95,步长为0.05)上的平均mAP。IOU表示对象预测框和真实框的交叉联合比例。其中:N表示检测目标类别数量;n为模型处理图片的张数。
3.3 消融实验
为验证改进模型的有效性,引入了YOLOv5s六种改进的YOLOv5s模型和YOLOv7模型与改进YOLOv7模型进行对比实验,其中,YOLOv5s六种改进模型分别是:YOLOv5s_SE、YOLOv5s_ECA、YOLOv5s_CBAM以及替换后的YOLOv5s_C3SE、YOLOv5s_C3ECA、YOLOv5s_C3CBAM。
具体操作如下:
1)在YOLOv5s模型中Backbone中的SPFF模块前插入SE[20]、ECA[21]、CBAM三种注意力机制,并将改进后的算法命名为YOLOv5s_SE、YOLOv5s_ECA、YOLOv5s_CBAM。
2)将YOLOv5s原模型中Backbone中的C3模块替换成SE、ECA、CBAM三种注意力机制,分别将其命名为YOLOv5s_C3SE、YOLOv5s_C3ECA、YOLOv5s_C3CBAM。
3)将改进的YOLOv7与YOLOv7作对比。
改进的YOLOv5s模型结构图如图 8所示,改进的YOLOv7模型与其他模型实验结果如图 9所示,改进的YOLOv7模型与其他模型测试效果如图 10所示,改进YOLOv7模型与其他模型实验比较结果如表 1所示。实验表明,YOLOv7_CBAM在电力红外图像检测中性能最佳,比YOLOv5s及其变体更优。加入CBAM的YOLOv7模型精确度提升3.7%,召回率提升5.9%,mAP@0.5提升1.7%。
表 1 改进的YOLOv7模型与其他模型实验比较结果Table 1. Experimental comparison results of improved YOLOv7 model with other models% Models P R mAP@0.5 YOLOv5s 79.4 89.7 87.8 YOLOv5s_SE 86.8 80.4 86.1 YOLOv5s_C3SE 83.3 82.9 85.8 YOLOv5s_ECA 85.6 89.1 89.2 YOLOv5s_C3ECA 82.4 87.3 88.7 YOLOv5s_CBAM 77.3 91.7 87.9 YOLOv5s_C3CBAM 82.5 81.9 88.8 YOLOv7 80.5 86.5 89.6 YOLOv7_CBAM 84.2 92.4 91.3 实验发现,YOLOv7_CBAM模型在相同的实验参数下达到了最佳性能。在本次电力红外图像检测中,YOLOv7和YOLOv7_CBAM模型的表现优于YOLOv5s和基于YOLOv5s的6种注意力机制的补充模型。与原YOLOv7模型相比,改进后的YOLOv7模型精确度提升了3.7%,召回率提升了5.9%,mAP@0.5值提升了1.7%。在YOLOv7模型中加入了CBAM,可以提高物体的检测性能。
4. 结论
为检测复杂环境中的电力设备红外图像,解决电力设备红外图像的准确定位问题,提出一种基于CBAM改进YOLOv7的方法,用于检测复杂环境中的电力设备红外图像,该方法将CBAM机制与原YOLOv7模型相结合,CBAM模块的加入在减少对无用特征关注的同时,也提高了模型对物体的关注。且将CBAM机制加入YOLOv7的主干架构中,在该应用场景下,能首先筛选出模型感兴趣区域,为实现快速、精准红外图像分类奠定基础。实验结果表明,改进后YOLOv7模型在红外图像检测中比原始YOLOv7性能更佳。改进后YOLOv7模型精确度提升了3.7%,召回率提升了5.9%,mAP@0.5值提升了1.7%,mAP@0.95提升了1.4%。本文的未来工作将进一步优化网络模型结构,并提出一个高准确率和轻量级的改进红外图像检测模型,为进一步应用于实际场景提供理论和参考。
-
表 1 改进的YOLOv7模型与其他模型实验比较结果
Table 1 Experimental comparison results of improved YOLOv7 model with other models
% Models P R mAP@0.5 YOLOv5s 79.4 89.7 87.8 YOLOv5s_SE 86.8 80.4 86.1 YOLOv5s_C3SE 83.3 82.9 85.8 YOLOv5s_ECA 85.6 89.1 89.2 YOLOv5s_C3ECA 82.4 87.3 88.7 YOLOv5s_CBAM 77.3 91.7 87.9 YOLOv5s_C3CBAM 82.5 81.9 88.8 YOLOv7 80.5 86.5 89.6 YOLOv7_CBAM 84.2 92.4 91.3 -
[1] 吴慧海, 沈文忠. 基于TA-YOLO的电力设备红外图像检测方法[J]. 信息技术与信息化, 2022(3): 17-20. WU Huihai, SHEN Wenzhong. TA-YOLO based infrared image detection method for power equipment [J]. Information Technology and Informatization, 2022(3): 17-20.
[2] 赵庆生, 王雨滢, 梁定康, 等. 基于BOF图像检索算法的变电站设备图像分类[J]. 激光与光电子学进展, 2020, 57(18): 138-146. ZHAO Qingsheng, WANG Yuying, LIANG Dingkang, et al. Image classification of substation equipment based on BOF image retrieval algorithm[J]. Advances in Laser and Optoelectronics, 2020, 57(18): 138-146.
[3] JIANG A, YAN N, SHEN B, et al. Research on infrared image recognition method of power equipment based on deep learning[C]//2020 IEEE International Conference on High Voltage Engineering and Application (ICHVE), 2020: 1-4.
[4] 裴泽林, 赵曙光, 王建强. 基于Meta-Network的变压器红外图像分类方法研究[J]. 科技风, 2021(5): 87-88. PEI Zelin, ZHAO Shuguang, WANG Jianqiang. Research on meta-network based transformer infrared image classification method[J]. Science and Technology Wind, 2021(5): 87-88.
[5] 周可慧, 廖志伟, 肖异瑶, 等. 基于改进CNN的电力设备红外图像分类模型构建研究[J]. 红外技术, 2019, 41(11): 1033-1038. https://www.opticsjournal.net/Articles/OJ407b66a963da9993/Abstract ZHOU Kehui, LIAO Zhiwei, XIAO Yiyao, et al. Research on constructing infrared image classification model for power equipment based on improved CNN[J]. Infrared Technology, 2019, 41(11): 1033-1038. https://www.opticsjournal.net/Articles/OJ407b66a963da9993/Abstract
[6] 段中兴, 张雨明, 马佳豪. 基于改进YOLOv4的电力设备红外图像识别[J]. 激光与光电子学进展, 2022, 59(24): 2410002-2410002-8. DUAN Z X, ZHANG Y M, MA J H. Improved YOLOv4-based infrared image recognition for power equipment[J]. Laser & Optoelectronics Progress, 2022, 59(24): 2410002-2410002-8.
[7] CONG S, PU H, WANG X, et al. Application of improved YOLOv5 in infrared image recognition of electrical equipment[C]//2023 8th Asia Conference on Power and Electrical Engineering (ACPEE), 2023: 1836-1843.
[8] LI J, XU Y, NIE K, et al. PEDNet: a lightweight detection network of power equipment in infrared image based on YOLOv4-Tiny[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 1-12.
[9] 余一聪, 何领朝, 蔡荣贵, 等. 基于改进YOLOv7的绝缘子缺失检测方法[J]. 黑龙江工业学院学报: 综合版, 2023, 23(7): 83-90. YU Yicong, HE Lingzhao, CAI Ronggui, et al. Insulator missing detection method based on improved YOLOv7[J]. Journal of Heilongjiang Institute of Technology: General Edition, 2023, 23(7): 83-90.
[10] WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464-7475.
[11] JIANG P, Ergu D, LIU F, et al. A review of Yolo algorithm developments[J]. Procedia Computer Science, 2022, 199: 1066-1073.
[12] Roy A M, Bhaduri J, Kumar T, et al. WilDect-YOLO: An efficient and robust computer vision-based accurate object localization model for automated endangered wildlife detection[J]. Ecological Informatics, 2023, 75: 101919.
[13] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[14] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[15] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.
[16] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.
[17] Olorunshola O E, Irhebhude M E, Evwiekpaefe A E. A comparative study of YOLOv5 and YOLOv7 object detection algorithms[J]. Journal of Computing and Social Informatics, 2023, 2(1): 1-12.
[18] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[19] WANG Xiaorong, XU Yan, ZHOU Jianping, et al. Safflower picking recognition in complex environments based on an improved YOLOv7[J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(6): 169-176.
[20] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[21] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11534-11542.