基于YOLOv7-EPAN的光伏板红外图像缺陷检测

李冰, 赵宽, 白云山, 郭聪彬, 徐蔚, 徐大伟, 翟永杰

李冰, 赵宽, 白云山, 郭聪彬, 徐蔚, 徐大伟, 翟永杰. 基于YOLOv7-EPAN的光伏板红外图像缺陷检测[J]. 红外技术, 2024, 46(11): 1315-1324.
引用本文: 李冰, 赵宽, 白云山, 郭聪彬, 徐蔚, 徐大伟, 翟永杰. 基于YOLOv7-EPAN的光伏板红外图像缺陷检测[J]. 红外技术, 2024, 46(11): 1315-1324.
LI Bing, ZHAO Kuan, BAI Yunshan, GUO Congbin, XU Wei, XU Dawei, ZHAI Yongjie. Defect Detection of Photovoltaic Panel Infrared Image Based on YOLOv7-EPAN[J]. Infrared Technology , 2024, 46(11): 1315-1324.
Citation: LI Bing, ZHAO Kuan, BAI Yunshan, GUO Congbin, XU Wei, XU Dawei, ZHAI Yongjie. Defect Detection of Photovoltaic Panel Infrared Image Based on YOLOv7-EPAN[J]. Infrared Technology , 2024, 46(11): 1315-1324.

基于YOLOv7-EPAN的光伏板红外图像缺陷检测

基金项目: 

国家自然科学基金项目 U21A20486

中央高校基本科研业务费专项资金资助 2022MS100

详细信息
    作者简介:

    李冰(1977-),男,副教授,硕士生导师,主要研究方向为模式识别与电力视觉。E-mail: li_bing_hb@126.com

    通讯作者:

    翟永杰(1972-),男,教授,博士生导师,主要研究方向为电力视觉。E-mail: zhaiyongjie@ncepu.edu.cn

  • 中图分类号: TP391.41

Defect Detection of Photovoltaic Panel Infrared Image Based on YOLOv7-EPAN

  • 摘要:

    光伏板是光伏电站重要组成部件,需定期对其进行检测,保证光伏电站安全运行。针对航拍光伏图像复杂背景下小目标难检测的问题,提出一种基于YOLOv7-EPAN的光伏板红外图像缺陷检测方法。首先提出融合CSWin Transformer的扩展高效网络CS-ELAN模块,捕获全局有效信息抑制背景信息;其次以CS-ELAN为基础构建高效路径特征聚合网络EPAN(Efficient path aggregation characteristic pyramid network),加强不同特征层的信息交互,丰富语义特征信息,提高特征表达能力;最后优化损失函数,使模型关注高质量先验框,提高小目标定位精度。在航拍光伏红外数据集上进行实验,结果表明:相比于原YOLOv7模型,所提方法的mAP50、mAP50:95分别提高了6.4%、3.3%,表明所提方法能较好地解决航拍光伏图像复杂背景下小目标缺陷漏检的问题。

    Abstract:

    Photovoltaic (PV) panels are an important component of photovoltaic power stations. They must be tested regularly to ensure a safe operation of the photovoltaic power station. To address the problem of small targets being difficult to detect among the complex background of aerial photovoltaic images, a defect detection method based on YOLOv7-EPAN for infrared photovoltaic panel images is proposed. First, an extended efficient network CS-ELAN module integrated with a CSWin Transformer is proposed for capturing global information effectively and suppressing background information. Second, an efficient path aggregation characteristic pyramid network (EPAN) is constructed based on CS-ELAN to enhance the information interaction between different feature layers, enrich the semantic feature information, and improve the feature expression ability. Finally, the loss function is optimized to focus the model on a prior high-quality frame and improve the positioning accuracy of small targets. The experimental results show that compared with the original YOLOv7 model, the mAP50 and mAP50:95 of the proposed method show an improvement of 6.4% and 3.3%, respectively, indicating that the proposed method can better solve the problem of missing small target defects among the complex background of aerial photovoltaic images.

  • 随着我国推进“碳达峰、碳中和”的目标,光伏发电产业迅速发展[1]。截至2024年6月底,全国光伏装机容量为712.93 GW[2]。然而,光伏组件多安装在环境恶劣的地区,长期受到环境的影响产生不同程度的损伤,导致局部发热,危害光伏电站的正常运行[3]。因此,为保证光伏电站的安全运行,对光伏板定期进行检测是非常必要的。

    随着光伏电站规模的扩大,传统人工巡检方式已不适用于大规模电站巡检,搭载工业相机的无人机巡检方式已成为主流。目前,基于红外图像的光伏板缺陷检测方法有两种:一种是采用传统图像处理方法,另一种是采用深度学习方法。传统图像处理方法通过对图像进行二值化、形态学处理等操作进行缺陷检测[3]。蒋琳等[4]采用B样条最小拟合方法处理红外图像的灰度直方图,通过抑制红外图像的噪声对热斑进行检测。孙海蓉[5]等提出一种改进自私羊群算法的热斑识别方法,可以有效抑制边缘干扰,提高热斑的检测效率。蒋琳[6]采用大津法提取红外图像的热斑,采用红外图像与可见光图像融合的方式消除热斑虚警,提高检测效率。基于传统图像处理的方法存在着耗时长、泛化性差等问题,易受外界环境的干扰。

    相较于传统检测方法,基于深度学习的方法符合智能化巡检需求,能够较为准确地进行缺陷检测与精确定位,有助于大规模光伏电站的运维[7]。Zhao S.[8]等人设计了一种基于尺度感知的邻域相关特征网络SNCF-Net,能克服复杂背景的干扰,提高小目标热斑的检测精度。刘宇宸[9]等人首先通过U2-Net生成显著图,与红外图像进行融合,对图像进行增强,其次将注意力机制融入检测网络中,提高了检测精度。Su B[10]等人提出了残差通道式注意力门控模块(Residual channelwise attention gate,RCAG),该模块可以抑制特征融合过程中无用的背景信息,突出缺陷特征,实现了缺陷精确检测。

    上述研究取得了一定的成果,但是缺陷检测种类较为单一,难以满足巡检需求。现阶段无人机航拍红外图像存在以下问题:①由于无人机飞行高度的限制,缺陷只占图像的一小部分,存在缺陷目标小的问题;②所拍摄的红外图像具有图像特征对比度低、背景复杂的特点,影响缺陷的检测精度,导致缺陷难以定位。

    为解决上述问题,以YOLOv7算法框架为基础,提出一种用于检测光伏板航拍红外图像缺陷的算法模型,可以有效解决背景复杂、对比度低与小目标难检测的问题。通过消融实验验证了改进算法的有效性,并与同类算法进行对比,验证了改进后算法的先进性。

    YOLOv7[11]是由Chien-Yao等人在2022年7月提出的,该算法在5~16 f/s范围内的检测速度与检测精度均领先于当前主流的目标检测器[12]。YOLOv7首先通过输入端(Input)将输入图像调整为640×640的大小;之后送入主干网络(Backbone),经过CBS卷积层、高效层聚合网络ELAN(Efficient path aggregation characteristic pyramid network)和MPConv等模块提取图像特征,生成三个不同尺度的特征图;送入颈部网络(Neck),利用引入扩展高效聚合网络E-ELAN(Extended efficient path aggregation characteristic pyramid network)的路径聚合特征金字塔网络[13]进一步提取特征信息;最后经过头部网络(Head),采用重参数化卷积[14](RepVGG Block)结构对颈部网络Neck的输出的3个不同尺度的特征进行调整,经过3个1×1卷积得到最后的输出,用于最终的预测。

    原YOLOv7中的ELAN模块采用卷积提取特征信息,易忽略小目标显著性信息,保留无用的背景信息,无法准确表达缺陷特征,且原损失函数对于小目标的位置偏差非常敏感,不利于小目标定位,导致检测精度下降。为此,提出一种基于YOLOv7-EPAN的目标检测算法模型,其整体结构如图 1所示。首先提出融合CSWin Transformer的扩展高效聚合网络CS-ELAN模块,获得全局空间位置信息,捕获关键特征信息;其次构建了基于CS-ELAN模块的高效路径特征聚合网络提高特征表达能力;最后,设计了一种新的损失函数,使模型关注高质量anchors,提高小目标的定位精度。

    图  1  YOLOv7-EPAN结构
    Figure  1.  YOLOv7-EPAN structure diagram

    随着Transformer[15]在自然语言领域的成功,一些学者尝试将其应用到视觉领域。ViT(Vision Transformer)[16]成功地将计算机视觉任务与自然语言处理结合起来,打开了视觉自注意力机制的大门。ViT为保证Transformer的结构,将图像xRH×W×C有序地展成二维图像块$ {x_{\text{p}}} \in {R^{N \times ({P^2} \times C)}} $,其中(H, W)为原图像大小,C是通道数量,(P, P)是每个图像块的大小,NHW/P2对应变换后的图像块的数量,采用可训练的线性投影将xp映射到D维实现编码。ViT由于其本身计算量的限制,不能应用于密集视觉任务或输入图像分辨率高时的通用网络。

    为减少计算量,一些学者进行了深入研究,提出了许多变体。CSWin Transformer[17]由此被提出,其是Swin Transformer[18]的衍生版本。CSWinT采用十字交叉窗口注意力机制取代原注意力机制,其原理如图 2所示。CSWinT将多头注意力平均分成两个部分,一部分做水平注意力,另一部分做垂直注意力,最后将两部分输出进行拼接。

    图  2  CSWinT原理
    Figure  2.  CSWinT schematic diagram

    假设输入特征为XRH×W×C,线性投影到K个注意力头部(每个头部的通道数为C/K),平均分成两个部分,一部分是h1hK/2,另一部分是hK/2+1hK。设条纹的宽度为SW,对于水平自注意力来说,特征X被平均划分成等宽的非重叠水平带[X1, …, XM],其中MH/SW,第n个水平自注意力输出定义为:

    $$ \left\{ {\begin{array}{*{20}{c}} {X = [{X^1},{X^2}, \cdots ,{X^M}]} \\ {Y_n^i = {\text{Attention}}({X^i}W_n^Q,{X^i}W_n^K,{X^i}W_n^V)} \\ {H - {\text{Attentio}}{{\text{n}}_n}(X) = [Y_n^1,Y_n^2, \cdots ,Y_n^k]} \end{array}} \right. $$ (1)

    式中:XiR(SW×W×C),$ W_n^Q,W_n^K,W_n^V \in {R^{C \times {d_k}}} $,dkC/K,对应的垂直注意力也可以类似地推导出,记第n个垂直注意力输出为V-Attentionn(X)。最终的输出如下:

    $$ \left\{ {\begin{array}{*{20}{c}} {{\text{CSWin - Attention}}(X) = {\text{Concat}}({h_1}, \cdots ,{h_k}){W^O}} \\ {{h_k} = \left\{ {\begin{array}{*{20}{c}} {H - {\text{Attentio}}{{\text{n}}_n}(X),n = 1, \cdots ,{K \mathord{\left/ {\vphantom {K 2}} \right. } 2}} \\ {V - {\text{Attentio}}{{\text{n}}_n}(X),n = {K \mathord{\left/ {\vphantom {K 2}} \right. } 2} + 1, \cdots ,K} \end{array}} \right.} \end{array}} \right. $$ (2)

    为增强模型提取小目标特征的能力,受CSWinT的启发,提出了一种融合CSWinT的扩展高效聚合网络CS-ELAN。通过卷积操作与交叉十字窗口注意力机制捕获全局有用的特征信息与上下文信息。相比于原模块,其能保留更多的空间位置信息,使模型更高效地捕获关键信息,突出缺陷细节信息并抑制复杂背景信息。

    CS-ELAN模块的结构如图 3(c)所示,为减少模块的参数量,将原模块的3×3卷积分解为1×3卷积与3×1卷积相加的形式。假设输入特征为xinRH×W×C,首先经过两个1×1卷积操作得到特征$ {x_1} \in {R^{H \times W \times {C_1}}} $与$ {x_2} \in {R^{H \times W \times {C_1}}} $,其中C1C/2;再将其送入到Conv3中得到$ {x_3} \in {R^{H \times W \times {C_2}}} $,Conv3结构如图 3(b)所示,其中C2C/4;将张量重构后送入到CSWin中,CSWin结构如图 3(a)所示,再经过张量重构后得到特征$ {x_4} \in {R^{H \times W \times {C_3}}} $,其中C3C/4,将x4送入到Conv3中得到特征$ {x_5} \in {R^{H \times W \times {C_4}}} $,其中C4C/4,将特征x1x2x3x4x5在通道方向进行拼接,最后经过一个卷积操作得到最终的输出$ {x_{{\text{out}}}} \in {R^{H \times W \times {C_5}}} $,其中C5C。计算过程如公式(3)所示:

    $$ \left\{ {\begin{array}{*{20}{l}} {{x_1} = {\text{CBS}}({x_{{\text{in}}}})} \\ {{x_2} = {\text{CBS}}({x_{{\text{in}}}})} \\ {{x_3} = {\text{Conv3}}({x_1})} \\ {{y_1} = {\text{TensorRefactor}}({x_3})} \\ {{y_2} = {\text{CSWin}}({y_1})} \\ {\begin{array}{*{20}{l}} {{x_4} = {\text{TensorRefactor}}({y_2})} \\ {\begin{array}{*{20}{l}} {{x_5} = {\text{Conv3}}({x_4})} \\ {{x_{{\text{out}}}} = {\text{CBS}}({\text{Cat}}({x_1},{x_2},{x_3},{x_4},{x_5}))} \end{array}} \end{array}} \end{array}} \right. $$ (3)
    图  3  CS-ELAN结构图
    Figure  3.  CS-ELAN structure diagram

    对于单阶段检测器,不同尺度的特征层负责预测不同尺度的目标。应用多尺度的方法可以增加对目标尺度的鲁棒性,提高小目标的检测精度。为挖掘CS-ELAN模块的潜力,构建了以CS-ELAN为基础的高效路径特征聚合网络EPAN,加强不同特征层特征信息交互,增强特征表达能力,增强模型对缺陷的灵敏度,从而提高检测精度。

    图 1所示,EPAN的输入为来自特征提取网络下采样{8, 16, 32}倍的特征层{C3, C4, C5},特征C5经过卷积操作调整通道后得到C5′,上采样之后与经过卷积操作的特征C4在通道维度上拼接,送入CS-ELAN模块中获得C4′,上采样之后与经过卷积的特征C3在通道维度上拼接,送入CS-ELAN模块获得输出特征P3,形成自顶向下的信息传递;特征P3经过MP模块下采样与特征C4′在通道维度上拼接,送入CS-ELAN模块获得输出特征P4,经过MP模块下采样与特征C5′在通道维度上拼接,送入CS-ELAN模块获得输出特征P5,形成自下而上的信息传递。输出特征{P3, P4, P5}进行不同尺度目标的检测。

    本文所采用的光伏红外图像为640×512,送入EPAN的特征为特征提取网络下采样{8, 16, 32}倍的特征,其所对应的大小为{80×64,40×32,20×16}。由于CSWinT中条纹宽度SW必须被宽和高整除,而在CSWinT中SW最大被设为7,为保证其有足够的感受野并尽量与CSWinT相同,针对本文下采样{8, 16, 32}倍的特征层SW设为{8, 8, 4}。

    YOLOv7损失函数包含3部分,分别是置信度损失函数Lossconf、分类损失函数Lossclass与回归损失函数Lossre,公式如下所示:

    $$ \text{Loss}_{\text{total}}=\text{Loss}_{\text{re}}+\text{Loss}_{\text{conf}}+\text{Loss}_{\text{class}} $$ (4)

    置信度损失函数与分类损失函数均采用BCEWithLogits Loss函数进行计算,回归损失函数采用CIOU Loss函数进行计算,计算公式如下所示:

    $$ {\text{Los}}{{\text{s}}_{{\text{re}}}} = {\text{Los}}{{\text{s}}_{\text{CIOU}}} = 1 - {I_{{\text{IOU}}}} + \frac{{{\rho ^2}(b,{b_{{\text{gt}}}})}}{{{c^2}}} + \alpha v $$ (5)
    $$ v = \frac{4}{{{{{\rm{ \mathsf{ π} }}}^2}}}{(\arctan \frac{{{w_{{\text{gt}}}}}}{{{h_{{\text{gt}}}}}} - \arctan \frac{w}{h})^2} $$ (6)
    $$ \alpha = \frac{v}{{(1 - {I_{{\text{IOU}}}}) + v}} $$ (7)

    式中:b表示预测框;bgt表示真实框;c表示能包含真实框与预测框的包闭区域的对角线距离;α表示平衡参数;v用来度量长宽比的相似性。

    虽然CIOU损失函数考虑了框的重叠面积、中心点距离与纵横比3个因素的影响,但其对于小目标BBox的偏移非常敏感,不利于小目标的定位。因此,引入Normalized Wasserstein Distance(NWD)[19]损失函数,加强模型对于小目标的定位,提高收敛速度。NWD损失函数将BBox建模成为二维高斯分布,用此来衡量BBox之间的相似度。

    对于由边界框BBox A=(cxa, cya, wa, ha)和B=(cxb, cyb, wb, hb)建模的高斯分布NaNb,其距离公式定义为:

    $$ W_2^2({N_{\text{a}}},{N_{\text{b}}}) = \left\| {({{[c{x_{\text{a}}},c{y_{\text{a}}},\frac{{{w_{\text{a}}}}}{2},\frac{{{h_{\text{a}}}}}{2}]}^{\text{T}}},{{[c{x_{\text{b}}},c{y_{\text{b}}},\frac{{{w_{\text{b}}}}}{2},\frac{{{h_{\text{b}}}}}{2}]}^{\text{T}}})} \right\|_2^2 $$ (8)

    因此,NWD损失函数公式如下所示:

    $$ {\text{Los}}{{\text{s}}_{{\text{NWD}}}} = 1 - {\text{NWD}}({N_{\text{a}}},{N_{\text{b}}}) = 1 - \exp ( - \frac{{\sqrt {W_2^2({N_{\text{a}}},{N_{\text{b}}})} }}{c}) $$ (9)

    式中:c为常数,其数值与数据集相关。

    为使得训练过程能够稳定收敛,对NWD损失函数融合原CIOU损失函数,优化后的回归损失函数Lossre如下:

    $$ \text{Loss}_{\text{re}}=(1-λ)\text{Loss}_{\text{NWD}}+λ\text{Loss}_{\text{CIOU}} $$ (10)

    式中:λ为平衡系数,当λ=0时,Lossre即为LossNWD;当λ=1时,Lossre即为LossCIOU

    本次实验平台参数如表 1所示。

    表  1  实验平台参数
    Table  1.  Experimental platform parameters
    Parameters Configuration
    Operating system Ubuntu18.04
    Framework Pytorch 1.11.0
    CPU Intel(R) Core(TM) i9-12900
    GPU NVIDIA GeForce RTX 3090 Ti
    Memory 24G
    Programming language Python
    下载: 导出CSV 
    | 显示表格

    本次实验所采用的数据集来自某光伏电厂。红外图像在天气状况良好的情况下由带有红外相机的无人机拍摄不同功率机组的光伏组件获得。本次所拍摄的光伏缺陷数据集共3013张,分辨率为640×512。如图 4所示,图中共包含3类光伏组件缺陷,分别为电池片故障(Cell failure)、二极管故障(Dioda failure)与遮挡(Occlude)。使用Labelimg标注工具标注,共9234个标注框,将数据集划分为训练集与测试集,其中训练集2553张,测试集460张,数量比约为5:1,详情如表 2所示。按照MS COCO数据集规定的小、中、大目标尺寸的定义进行标注框面积占比分析,结果如图 5所示。从结果中可以看出光伏航拍数据集中大部分为小目标。

    图  4  光伏组件缺陷
    Figure  4.  Photovoltaic module defects
    表  2  数据集样本统计
    Table  2.  Data set sample statistics
    Data set Number Category Number of boxes
    Image Box
    Train 2553 7668 Cell failure 5894
    Dioda failure 1367
    Occlude 407
    Test 460 1566 Cell failure 1382
    Dioda failure 119
    Occlude 65
    下载: 导出CSV 
    | 显示表格
    图  5  标注实例框(GT)大、中、小目标的内部情况
    Figure  5.  Annotate the inside of large, medium, and small targets in the instance box (GT)

    本次实验将从平均精度均值(mAP)、参数量(Params)和每秒帧率(FPS)来评价模型的检测性能。为展示模型对中、小目标的检测精度,采用COCO评价指标中的APM、APS来评价模型性能。在计算平均精度均值mAP的过程中,需计算平均精度(AP),代表某类的检测精度,如公式(11)所示,对不同类别的AP取平均值得到mAP,如公式(12)所示:

    $$ {\text{AP}} = \int_0^1 {P(R){\text{d}}(R)} $$ (11)
    $$ {\text{mAP}} = \frac{1}{N}\sum\limits_1^N {A{P_i}} $$ (12)

    式中:P表示精确度;R表示查全率;N表示数据集样本类别数量。

    APS为标注框面积小于322的AP值,APM为标注框面积大于322小于962的AP值。参数量(Params)表示模型参数量大小,每秒帧率(FPS)表示模型每秒检测图像的数量,用来衡量模型的检测速度,FPS越大表明模型检测速度越快。

    在训练网络模型时,为保证训练过程中的稳定性,采用原YOLOv7的权重文件进行预训练。输入图像尺寸设置为640×640,训练批次Batchsize设为4,训练轮数epoch设置为400,采用SGD优化器进行梯度下降,初始学习率设为0.01,动量设为0.937,权重衰减系数设为0.0005,并采用余弦退火算法进行学习率调整,训练过程中采用MixUp与Masioc进行数据增强,增强模型的泛化能力。

    为验证本文所提改进策略的有效性,通过消融实验来对比分析不同改进策略对于模型检测效果所带来的影响。将原YOLOv7作为基线模型,通过向原YOLOv7模型中逐步加入改进策略进行消融实验,分别选取最优模型在光伏数据集进行验证。本文对损失函数进行了优化,如公式(10)所示,为选取平衡参数λ的最优值,以步长0.2从0.1到0.9进行消融实验。实验结果如表 3所示,表中A表示在原模型中添加CS-ELAN模块,即将颈部网络替换为EPAN网络,B表示将损失函数替换为优化后的损失函数,设置λ为0.1,C~F与B相似,即将损失函数替换为优化后的损失函数,设置λ分别为0.3、0.5、0.7、0.9。不同改进策略的损失函数如图 6所示。

    表  3  消融实验结果
    Table  3.  Ablation results %
    Groups Modules mAP50 mAP50:95 APS APM params/M FPS/(f/s)
    1 Baseline 75.1 38.8 32.4 36.4 37.2 120
    2 Baseline+A 80.3 40.9 35.5 36.5 35.3 83
    3 Baseline+A+B 80.9 40.6 35.8 36.2 35.3 83
    4 Baseline+A+C 80.6 40.3 35.6 35.2 35.3 83
    5 Baseline+A+D 81.5 42.1 37.4 37.9 35.3 83
    6 Baseline+A+E 79.9 40.5 36.1 35.7 35.3 83
    7 Baseline+A+F 77.3 39.7 34.1 36.4 35.3 83
    下载: 导出CSV 
    | 显示表格
    图  6  不同改进策略的loss曲线
    Figure  6.  Loss curves for different improvement strategies

    表 3中可以看出,对比实验1与实验2,将原模型中的ELAN模块替换为CS-ELAN模块,即将原颈部网络替换为EPAN网络结构,相比于原模型的mAP50与mAP50:95分别提高了5.2%与2.1%,表明改进是有效的。改进后的模型小目标检测精度APS提高了3.1%,说明引入CS-ELAN模块使模型捕获更多的关键特征信息,摒弃复杂的背景信息,增强特征信息之间交互,从而提高特征表达能力,加强小目标检测能力。从参数量与FPS来看,将颈部网络替换为EPAN网络结构,相比于原模型参数量降低了1.9 M,但由于计算复杂度的增加,FPS降低了37帧,但仍然满足工业实时性的要求。从实验3~实验7可以看出,当平衡参数λ取{0.1,0.3,0.5,0.7,0.9}时,对应的mAP50为{80.9,80.6,81.5,79.9,77.3},由此得出平衡参数的λ最优值为0.5。从图 6中也可以看出,改进后的损失曲线收敛更快,更加平滑,说明有更好的回归与定位精度。对比实验2与实验5,在实验2的基础上引入改进损失函数,精测精度mAP50与mAP50:95分别提高了1.2%与1.2%,说明改进策略是有效的。对比于APS与APM,检测精度分别提高了1.9%与1.4%,说明改进损失函数可以提高模型对小目标的定位能力,增强回归精度。

    为进一步阐述改进策略的有效性,选取了5张不同场景下的光伏红外缺陷图像,利用Grad-CAM[20]算法生成热力图,如图 7所示。从图 7中可以看出,相较于原YOLOv7算法,本文算法在不同场景下具有很好的检测效果,说明本文算法可以具有很好的泛化性。引入两种改进策略之后,热力图高亮区域定位更加准确,能摒弃无用区域信息,使模型更高效关注关键区域,捕获更多关键性特征,从而提高小目标检测的能力。

    图  7  热力图对比结果
    Figure  7.  Thermal image comparison results

    综上所述,改进后的YOLOv7-EPAN算法与原YOLOv7算法相比,参数规模下降了1.9 M,检测精度(mAP50)提高了6.4%。虽然FPS下降了37帧,但仍然达到了83 f/s,能够满足实时性的要求。

    为进一步验证本文所提算法对光伏板缺陷检测的先进性与优越性,更加全面地评估模型的性能,从检测精度、模型大小及检测速度等方面进行评估,并与目前比较流行的算法进行比较。本实验所采用的先进算法为SSD[21]、RetinaNet[22]、YOLOv3[23]、YOLOv4[24]、YOLOv5s、YOLOv5l、TPH-YOLOv5[25]、YOLOX[26]、YOLOv7与YOLOv8,所有算法均在同一实验平台上进行训练,采用相同的训练集与验证集,实验结果如表 4所示。

    表  4  不同模型的性能对比
    Table  4.  Performance comparison of different models %
    Modules AP50 mAP50 APS APM Params/M FPS/(f/s)
    Cell failure Diode failure Occlude
    SSD 35.1 87.5 36.2 52.9 19.6 25.6 23.75 16
    RetinaNet 57.6 93.4 59.3 70.1 24.3 34.1 32.24 40
    YOLOv3 74.7 90.2 64.2 76.3 33.1 31.8 62.6 92
    YOLOv4 77.5 92.9 47.6 72.7 30.4 35.2 63.9 97
    YOLOv5s 77.2 94.0 58.9 76.7 33.6 30.8 7.02 101
    YOLOv5l 77.1 91.8 65.1 78.0 34.7 37.6 46.1 62
    YOLOX 79.4 93.7 63.4 78.9 - - 8.94 89
    TPH-YOLOv5 76.7 93.3 62.9 77.6 37.1 36.3 45.4 60
    YOLOv7 78.7 93.9 52.6 75.1 32.4 36.4 37.2 120
    YOLOv8 77.7 93.7 68.3 79.9 33.8 36.7 3.0 200
    Ours 79.2 94.9 70.8 81.5 37.4 37.9 35.3 83
    下载: 导出CSV 
    | 显示表格

    表 4中可以看出,对比同类型的单阶段检测算法,本文所提出的算法在检测精度上达到了81.5%,在检测精度上有着明显的优势。从APS与APM两个评价指标上可以看出,本文所提算法也要优于其他的算法,证明了改进策略的有效性。小目标TPH-YOLOv5算法由于引入了过多的注意力,尽管提高了对小目标的检测能力,但也增加了参数量,降低了检测速度,而本文以较少的参数量在APS与APM指标上达到37.4%与37.9%最优检测精度,并且检测速度也要高于TPH-YOLOv5算法,证明了本文算法兼顾了速度与小目标识别能力。SSD算法由于没有采用多尺度特征融合结构,导致丢失太多缺陷特征信息,其检测效果最差,说明多尺度特征融合可以提高多尺度目标检测能力。相比于原YOLOv7模型,本文算法在各类缺陷检测精度上均有所提升,图 4中的3种缺陷AP值分别提升了0.5%、1.0%、18.2%,其中缺陷“遮挡”的AP值提升较大,这是由于该缺陷尺度变化大,且多为小缺陷目标,证明本文算法具有较强的特征感知与表达能力,能解决多尺度目标检测问题。从检测速度上看,相比较于其它单阶段检测算法,比如YOLOv5、YOLOv8,虽然检测速度有所下降,但mAP50分别提高了4.8与1.6个百分点。从表 4中可以看出,本文算法虽然速度不是最高的,但也达到了83 f/s,能满足实时性的要求。

    综上实验结果表明:本文算法在光伏板缺陷的检测精度与检测速度之间有较好的平衡,可以解决光伏数据集中复杂背景下小目标难检测的问题,在提高检测精度的同时也保证了检测的实时性。

    为直观地展示本文算法对光伏板缺陷的检测效果,同时定性地分析改进策略的有效性,将本文算法与标准YOLOv7、YOLOv5、TPH-YOLOv5与YOLOv8算法在验证集中的检测结果进行了对比分析,检测结果如图 8所示。

    图  8  不同算法的检测结果
    Figure  8.  Detection results of different algorithms

    图 8中可以看出,在第一组图片中,由于缺陷较小,YOLOv7与YOLOv5出现了漏检情况。在第二组图片中,由于缺陷与背景差异不大,YOLOv8与YOLOv7没有检测出全部的缺陷。在第三组图片中,YOLOv7与TPH-YOLOv5出现了误检的情况。在第四组图片中,其他算法均存在漏检与误检现象,如将背景识别成了缺陷目标,且未检测出全部缺陷。在第五组图片中,YOLOv7检测框未能框出全部缺陷,YOLOv5未能检测出全部的缺陷,YOLOv8出现了重叠框,检测精度不高。在这五组图片中,本文算法均未出现漏检与误检现象,能准确识别定位,具有较高的置信度。以上情况表明,本文改进策略一方面可以加强模型提取全局信息与上下文信息的能力,提高特征表达能力,另一方面可以提升定位精度,在一定程度上改善复杂背景下小目标难检测的问题。

    本文针对航拍红外光伏图像复杂背景下小目标难检测的问题,提出一种基于YOLOv7-EPAN的检测算法模型,实验结果表明:

    1)融合CSWin Transformer的CS-ELAN模块可以捕获全局关键信息,抑制无用背景信息,使模型更高效地关注重点目标区域。

    2)以CS-ELAN模块构建的EPAN网络结构可以进一步挖掘该模块的潜力,加强不同尺度特征的信息交互,获取更加丰富的语义特征信息,加强特征表达能力。

    3)优化损失函数使模型关注高质量先验框,提高回归精度,加快损失函数的收敛,提高小目标的定位精度。

    4)本文算法较YOLOv7算法mAP50提高了6.4%,达到了81.5%的检测精度。定量与定性实验结果表明,相较于其它主流算法,本文算法能更好地识别缺陷,具有更高的预测置信度。

    综上所述,本文算法在小幅度降低检测速度的情况下,提高小目标缺陷的检测精度,在一定程度上改善了光伏红外图像复杂背景下小目标缺陷难检测的问题,为光伏智能检测提供了新思路。

  • 图  1   YOLOv7-EPAN结构

    Figure  1.   YOLOv7-EPAN structure diagram

    图  2   CSWinT原理

    Figure  2.   CSWinT schematic diagram

    图  3   CS-ELAN结构图

    Figure  3.   CS-ELAN structure diagram

    图  4   光伏组件缺陷

    Figure  4.   Photovoltaic module defects

    图  5   标注实例框(GT)大、中、小目标的内部情况

    Figure  5.   Annotate the inside of large, medium, and small targets in the instance box (GT)

    图  6   不同改进策略的loss曲线

    Figure  6.   Loss curves for different improvement strategies

    图  7   热力图对比结果

    Figure  7.   Thermal image comparison results

    图  8   不同算法的检测结果

    Figure  8.   Detection results of different algorithms

    表  1   实验平台参数

    Table  1   Experimental platform parameters

    Parameters Configuration
    Operating system Ubuntu18.04
    Framework Pytorch 1.11.0
    CPU Intel(R) Core(TM) i9-12900
    GPU NVIDIA GeForce RTX 3090 Ti
    Memory 24G
    Programming language Python
    下载: 导出CSV

    表  2   数据集样本统计

    Table  2   Data set sample statistics

    Data set Number Category Number of boxes
    Image Box
    Train 2553 7668 Cell failure 5894
    Dioda failure 1367
    Occlude 407
    Test 460 1566 Cell failure 1382
    Dioda failure 119
    Occlude 65
    下载: 导出CSV

    表  3   消融实验结果

    Table  3   Ablation results %

    Groups Modules mAP50 mAP50:95 APS APM params/M FPS/(f/s)
    1 Baseline 75.1 38.8 32.4 36.4 37.2 120
    2 Baseline+A 80.3 40.9 35.5 36.5 35.3 83
    3 Baseline+A+B 80.9 40.6 35.8 36.2 35.3 83
    4 Baseline+A+C 80.6 40.3 35.6 35.2 35.3 83
    5 Baseline+A+D 81.5 42.1 37.4 37.9 35.3 83
    6 Baseline+A+E 79.9 40.5 36.1 35.7 35.3 83
    7 Baseline+A+F 77.3 39.7 34.1 36.4 35.3 83
    下载: 导出CSV

    表  4   不同模型的性能对比

    Table  4   Performance comparison of different models %

    Modules AP50 mAP50 APS APM Params/M FPS/(f/s)
    Cell failure Diode failure Occlude
    SSD 35.1 87.5 36.2 52.9 19.6 25.6 23.75 16
    RetinaNet 57.6 93.4 59.3 70.1 24.3 34.1 32.24 40
    YOLOv3 74.7 90.2 64.2 76.3 33.1 31.8 62.6 92
    YOLOv4 77.5 92.9 47.6 72.7 30.4 35.2 63.9 97
    YOLOv5s 77.2 94.0 58.9 76.7 33.6 30.8 7.02 101
    YOLOv5l 77.1 91.8 65.1 78.0 34.7 37.6 46.1 62
    YOLOX 79.4 93.7 63.4 78.9 - - 8.94 89
    TPH-YOLOv5 76.7 93.3 62.9 77.6 37.1 36.3 45.4 60
    YOLOv7 78.7 93.9 52.6 75.1 32.4 36.4 37.2 120
    YOLOv8 77.7 93.7 68.3 79.9 33.8 36.7 3.0 200
    Ours 79.2 94.9 70.8 81.5 37.4 37.9 35.3 83
    下载: 导出CSV
  • [1]

    MA Q, Murshed M, Khan Z. The nexuses between energy investments, technological innovations, emission taxes, and carbon emissions in China[J]. Energy Policy, 2021, 155: 112345. DOI: 10.1016/j.enpol.2021.112345

    [2] 李松浓, 晏尧, 向菲, 等. 光伏直流系统故障电弧检测方法研究综述[J/OL]. 电测与仪表: 1-9. [2023-06-04]. http://kns.cnki.net/kcms/detail/23.1202.TH.20230216.1525.010.html.

    LI Songnong, YAN Yao, XIANG Fei, et al. A comprehensive review on detection method for DC fault arc in photovoltaic system[J/OL]. Electrical Measurement & Instrumentation: 1-9. [2023-06-04]. http://kns.cnki.net/kcms/detail/23.1202.TH.20230216.1525.010.html.

    [3] 孙建波, 王丽杰, 麻吉辉, 等. 基于改进YOLO v5s算法的光伏组件故障检测[J]. 红外技术, 2023, 45(2): 202-208. http://hwjs.nvir.cn/cn/article/id/78e76f62-17bc-444b-bac5-c2bffbef819f

    SUN Jianbo, WANG Lijie, MA Jihui, et al. Photovoltaic module fault detection based on improved YOLOv5s algorithm[J]. Infrared Technology, 2023, 45(2): 202-208. http://hwjs.nvir.cn/cn/article/id/78e76f62-17bc-444b-bac5-c2bffbef819f

    [4] 蒋琳, 苏建徽, 施永, 等. 基于红外热图像处理的光伏阵列热斑检测方法[J]. 太阳能学报, 2020, 41(8): 180-184. DOI: 10.19912/j.0254-0096.2020.08.025.

    JIANG Lin, SU Jianhui, SHI Yong, et al. Hot apots detection of operating PV arrays through IR thermal image[J]. Acta Energiae Solaris Sinica, 2020, 41(8): 180-184. DOI: 10.19912/J.0254-0096.2020.08.025.

    [5] 孙海蓉, 周映杰, 张镇韬, 等. 基于改进自私羊群算法的光伏红外热图像热斑识别方法[J]. 中国电机工程学报, 2022, 42(24): 8942-8951. DOI: 10.13334/j.0258-8013.pcsee.212050.

    SUN Hairong, ZHOU Yingjie, ZHANG Zhentao, et al. Hot spot recognition method of photovoltaic infrared thermal image based on improved selfish herd algorithm[J]. Proceedings of the CSEE, 2022, 42(24): 8942-8951. DOI:10.13334/J.0258-8013.pcse.212050.

    [6] 蒋琳, 苏建徽, 李欣, 等. 基于可见光和红外热图像融合的光伏阵列热斑检测方法[J]. 太阳能学报, 2022, 43(1): 393-397. DOI: 10.19912/j.0254-0096.tynxb.2020-0142.

    JIANG Lin, SU Jianhui, LI Xin, et al. Hot spot detection of photovoltaic array based on fusion of visible and infrared thermal images[J]. Acta Energiae Solaris Sinica, 2022, 43(1): 393-397. DOI:10.19912/J.0254-0096.tynxb.2020-0142.

    [7] 王道累, 姚勇, 张世恒, 等. 基于红外热图像的光伏组件热斑深度学习检测方法[J/OL]. 中国电机工程学报: 1-9. [2023-06-04]. https://doi.org/10.13334/j.0258-8013.pcsee.221519.

    WANG Daolei, YAO Yong, ZHANG Shiheng, et al. Deep learning detection method of photovoltaic module hot spot based on infrared thermal image[J/OL]. Proceedings of the CSEE: 1-9. [2023-06-04]. https://doi.org/10.13334/j.02588013.pcsee.221519.

    [8]

    ZHAO S, CHEN H, WANG C, et al. SNCF-Net: Scale-aware neighborhood correlation feature network for hotspot defect detection of photovoltaic farms[J]. Measurement, 2023, 206: 112342. DOI: 10.1016/j.measurement.2022.112342

    [9] 刘宇宸, 李浩. 显著性特征融合的热红外图像光伏组件热斑检测[J]. 水力发电, 2023, 49(4): 96-101, 112.

    LIU Yuchen, LI Hao. Thermal infrared image photovoltaic hot spot detection based on saliency feature fusion[J]. Water Power, 2023, 49(4): 96-101, 112.

    [10]

    SU B, CHEN H, LIU K, et al. RCAG-Net: Residual channelwise attention gate network for hot spot defect detection of photovoltaic farms[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.

    [11]

    WANG C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J]. arXiv preprint arXiv: 2207. 02696, 2022.

    [12] 宋智伟, 黄新波, 纪超, 等. 基于Flexible YOLOv7的输电线路绝缘子缺陷检测和故障预警方法[J/OL]. 高电压技术: 1-16. [2023-06-04]. https://doi.org/10.13336/j.1003-6520.hve.20221693.

    SONG Zhiwei, HUANG Xinbo, JI Chao, et al. Insulator defect detection and fault warning method for transmission line based on flexible YOLOV7[J/OL]. High Voltage Engineering: 1-16. [2023-06-04]. https://doi.org/10.13336/j.1003-6520.hve.20221693.

    [13]

    Mahrishi M, Morwal S, Muzaffar A W, et al. Video index point detection and extraction framework using custom YoloV4 Darknet object detection model[J]. IEEE Access, 2021, 9: 143378-143391. DOI: 10.1109/ACCESS.2021.3118048

    [14]

    DING X, ZHANG X, MA N, et al. Repvgg: Making vgg-style convnets great again[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13733-13742.

    [15]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998-6008.

    [16]

    Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[J]. arXiv preprint arXiv: 2010. 11929, 2020.

    [17]

    DONG X, BAO J, CHEN D, et al. Cswin transformer: a general vision transformer backbone with cross-shaped windows[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 12124-12134.

    [18]

    LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.

    [19]

    WANG J, XU C, YANG W, et al. A normalized Gaussian Wasserstein distance for tiny object detection[J]. arXiv preprint arXiv: 2110.13389, 2021.

    [20]

    Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.

    [21]

    LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer Vision–ECCV 2016: 14th European Conference, 2016: 21-37.

    [22]

    LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.

    [23]

    Redmon J, Farhadi A. Yolov3: an incremental improvement[J]. arXiv preprint arXiv: 1804. 02767, 2018.

    [24]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

    [25]

    ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.

    [26]

    GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J]. arXiv preprint arXiv: 2107.08430, 2021.

图(8)  /  表(4)
计量
  • 文章访问数:  42
  • HTML全文浏览量:  4
  • PDF下载量:  13
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-06-30
  • 修回日期:  2023-08-24
  • 刊出日期:  2024-11-19

目录

/

返回文章
返回