Defect Detection of Photovoltaic Panel Infrared Image Based on YOLOv7-EPAN
-
摘要:
光伏板是光伏电站重要组成部件,需定期对其进行检测,保证光伏电站安全运行。针对航拍光伏图像复杂背景下小目标难检测的问题,提出一种基于YOLOv7-EPAN的光伏板红外图像缺陷检测方法。首先提出融合CSWin Transformer的扩展高效网络CS-ELAN模块,捕获全局有效信息抑制背景信息;其次以CS-ELAN为基础构建高效路径特征聚合网络EPAN(Efficient path aggregation characteristic pyramid network),加强不同特征层的信息交互,丰富语义特征信息,提高特征表达能力;最后优化损失函数,使模型关注高质量先验框,提高小目标定位精度。在航拍光伏红外数据集上进行实验,结果表明:相比于原YOLOv7模型,所提方法的mAP50、mAP50:95分别提高了6.4%、3.3%,表明所提方法能较好地解决航拍光伏图像复杂背景下小目标缺陷漏检的问题。
Abstract:Photovoltaic (PV) panels are an important component of photovoltaic power stations. They must be tested regularly to ensure a safe operation of the photovoltaic power station. To address the problem of small targets being difficult to detect among the complex background of aerial photovoltaic images, a defect detection method based on YOLOv7-EPAN for infrared photovoltaic panel images is proposed. First, an extended efficient network CS-ELAN module integrated with a CSWin Transformer is proposed for capturing global information effectively and suppressing background information. Second, an efficient path aggregation characteristic pyramid network (EPAN) is constructed based on CS-ELAN to enhance the information interaction between different feature layers, enrich the semantic feature information, and improve the feature expression ability. Finally, the loss function is optimized to focus the model on a prior high-quality frame and improve the positioning accuracy of small targets. The experimental results show that compared with the original YOLOv7 model, the mAP50 and mAP50:95 of the proposed method show an improvement of 6.4% and 3.3%, respectively, indicating that the proposed method can better solve the problem of missing small target defects among the complex background of aerial photovoltaic images.
-
Keywords:
- infrared images /
- defect detection /
- YOLOv7 /
- deep learning /
- CSWin Transformer /
- small target
-
0. 引言
煤矿井下的视频监控系统[1]是对井下工作人员和设备等目标的位置和状态等信息分析的重要手段,但是由于煤矿井下的复杂环境,使获取到的图像存在对比度低、光照不均、边缘细节模糊等问题,造成分析图像出现困难[2]。因此,对煤矿井下采集到的图像使用增强方面的预处理等技术研究具有极为重要的意义[3]。目前主流的煤矿井下的图像增强方法主要分为基于模型和深度学习两大类。
基于模型的方法分为直方图均衡化[4]和基于Retinex[5]理论两种方法。其中,基于直方图均衡化的方法[6]容易引起图像过增强和出现曝光现象。随着技术的不断发展,图像增强研究热点逐渐转移到基于Retinex理论的方法。基于Ritinex理论和光照图估计[7]的低光照增强图像方法[8]LIME(Low-light Image Enhancement via Illumination Map Estimation),先对光照图进行处理,最后将反射图的输出作为增强结果,但容易出现过增强的现象。NPE[9](Naturalness Preserved Enhancement)在增强图像对比度的同时保持了照明的自然度,但没有考虑不同场景中照明的关系。用于图像增强的多曝光融合框架BIMEF(Bio-Inspired Multi-Exposure Fusion)[10],采用双曝光融合方法,但结果亮度过低。RRM(Structure-Revealing Low-Light Image Enhancement Via Robust Retinex Model)[11]采用基于增广Lagrange乘子的ADM(Alternating direction methods)方法,对噪声进行预测,同时估计反射图和光照图进行图像增强,但增强结果不够清晰。基于去雾的方法[12]利用了雾天拍摄的图像与低光照图像之间的反向联系来达到图像增强的效果。
随着深度学习的飞速发展,基于深度学习的网络已被广泛应用于图像处理中。Lore等人[13]使用堆叠稀疏去噪自动编码器(A Deep Autoencoder Approach to Natural Low-light Image Enhancement,LLNet)增强图像和对图像去噪。LLCNN(A convolutional neural network for low-light image enhancement)[14]是一种基于超分辨率模型VDSR(Very Deep-Super Resolution)和残差网络ResNet的双分支残差学习网络,但其多尺度特征融合能力不足。为了克服这些困难,Wei C.等人提出一种基于Retinex理论分解的方法,建立了一个将图像分解和图像增强相结合的深度神经网络[15],将原始图像分解为光照图和反射图,但忽略了红-绿-蓝色(Red-Green-Blue, RGB)空间的三个通道的相关性,结果出现严重失真。基于深度学习的方法[16-17]虽然有一定的有效性,但需要大量的数据集,同时网络的训练也需要复杂的设备支持,其运行时间也会随着网络的大小而增加。
针对以上煤矿井下图像增强中存在的问题,提出一种基于图像的HSV空间[18],利用相对全变分(Relative Total Variation, RTV)滤波和改进的边窗滤波(Side Window Filtering, SWF)增强V通道图像并融合的方法,实现对图像的增强。该方法在不需要大量数据集支撑的前提下,能够有效解决低光照图像边缘细节模糊、细节丢失的现象,并且在保持图像原有的色彩的同时达到增强图像的亮度和对比度细节的效果。
1. 低光照图像增强方法设计
由于彩色图像的光照并不与RGB模型的三通道中某一单一的通道有明确的联系,而RGB模型的三通道互相影响,相对而言,HSV模型中的三通道相对独立,且场景中的光照对图像的亮度通道V通道影响较大,针对亮度做校正方便快捷且计算简单,故本文选用在HSV空间中完成对煤矿井下低光照图像进行亮度的矫正。
方法的整体框架如图 1所示。首先将低光照图像分为色调通道H、饱和度通道S和亮度通道V三个通道,利用RTV与SWF,对提取出来的V通道图像分别进行主要结构提取和轮廓边缘保留,之后对其进行非线性灰度拉伸以增强其对比度,非线性灰度拉伸参考了S通道图像,更好保留了图像的原结构。利用新的融合技术PCA得到增强后的V通道图像,最后将新的V通道与之前分离出来的S通道和H通道融合并由HSV空间转换到RGB空间,最后输出增强后的图像。
1)主要结构提取
主要结构采用结构约束优化方法提取,即相对全变分(RTV)[19]的方法,RTV采用像素加窗总变差度量项ϑ和窗口固有变化度量项ς构成目标函数正则项,x和y分别表示ϑ和ς水平和垂直方向度量值,定义如式(1)和式(2):
$$\begin{aligned} & \vartheta_x(p)=\sum\limits_{q \in R(p)} g_{p, q} \cdot\left|\left(\partial_x S\right)_q\right|, \\ & \vartheta_y(p)=\sum\limits_{q \in R(p)} g_{p, q} \cdot\left|\left(\partial_y S\right)_q\right| \end{aligned}$$ (1) $$\begin{aligned} & \varsigma_x(p)=\sum\limits_{q \in R(p)} g_{p, q} \cdot\left|\left(\partial_x S\right)_q\right|, \\ & \varsigma_{\mathrm{y}}(p)=\sum\limits_{q \in R(p)} g_{p, q} \cdot\left|\left(\partial_y S\right)_q\right| \end{aligned}$$ (2) 式中:R(p)是以像素p为中心的矩形区域;q是R(p)区域内某一点像素;ϑx(p)和ϑy(p)分别表示p在像素的x、y方向加窗的总变差,其可以计算窗口R(p)的绝对空间差异,∂x和∂y是x、y两个方向上的偏导数,S是所得到的结构图像;式(2)是为了更好地区分出结构和纹理元素,gp, q是根据空间相关性定义权重函数${g_{p,q}} \propto \exp (( - ({x_p} - {x_q}) + ({y_p} - {y_q}))/2{\sigma ^2})$,σ为尺度因子控制权重函数分布形状,为更好地在视觉显示区域加强纹理和机构之间的区分度,结合ϑ和ς形成了一种有效的结构纹理分解正则化器,用于图像的结构化提取,RTV的目标函数如式(3):
$$ {L_{{\text{RTV}}}} = \mathop {\min }\limits_t \sum\limits_p {({t_p} - {{\tilde t}_p})} + \lambda \cdot (\frac{{{\vartheta _x}(p)}}{{{\varsigma _x}(p) + \varepsilon }} + \frac{{{\vartheta _y}(p)}}{{{\varsigma _y}(p) + \varepsilon }}) $$ (3) 式中:$\tilde{t}_p$是输入图像;tp是生成的结构图像;(tp-$\tilde{t}_p$)2是保真项,确保提取的结构与输入图像结构尽量一致;λ是平衡因子,图像去除纹理效果由正则项$ \left( {\frac{{{\vartheta _x}\left( p \right)}}{{\varsigma {}_x\left( p \right) + \varepsilon }} + \frac{{{\vartheta _y}\left( p \right)}}{{\varsigma {}_y\left( p \right) + \varepsilon }}} \right) $决定,ε取一个很小的正数,避免被零除。
2)边缘细节保留
对V通道的边缘细节保留使用改进的边窗滤波技术(SWF)[20],SWF具有显著的边缘保持能力,并在图像平滑与结构保留纹理去除、相互结构提取等应用中达到了最先进的性能。
基于局部的过滤器通常是根据像素的邻域来估计其输出。被处理的像素位于操作窗口的中心,而操作窗口中的其他像素与他相邻。一种常见的基于线性近似的图像滤波操作假设图像是分段线性的,并将像素近似为局部窗口上相邻像素的加权平均值:
$$I_i^{\prime}=\sum\limits_{i \in \mathit{\Omega }_i} \omega_{i j} o_j$$ (4) 式中:Ωi为以像素i为中心的局部窗口(支撑域),其实就是局部窗口内的像素;ωij为权重,oi和Ii分别为输入图像q和输出图像I在位置i的强度。
滤波器输出与原始图像之间的差异可以表述为以下代价函数:
$$E_i=\left\|I_i-I_2^{\prime}\right\|_2^2=\left(I_i-\sum\limits_{i \in \mathit{\Omega }_i} \omega_{i j} o_j\right)^2$$ (5) 利用泰勒展开,证明为了使用相邻像素的线性组合重建边缘像素,相邻像素必须来自边缘的一侧。SWF技术作为一种有效的保边滤波的方法,将每个目标像素视为一个潜在的边,并在其周围生成多个局部窗口,每个窗口都将目标像素与窗口的一个边或角对齐,SWF的输出是其中一个侧窗中的邻居的线性组合,可以最好地接近目标像素。
侧窗的定义如图 2所示,参数θ为窗与水平线的夹角,参数r为窗的半径,p∈{0, r},(x, y)是目标像素i的位置,r是一个用户定义的参数,它对于所有的侧窗都是固定的。通过改变θ和固定(x, y),可以改变窗口的方向,同时使它的一侧与i对齐。R是窗口的半径,(a)是连续情况下侧窗的定义,(b)分为左(红色矩形)和后(蓝色矩形)侧窗,(c)分为上(红色矩形)和下(蓝色矩形)侧窗,(d)分为左上(红色矩形)、右上(蓝色矩形)、左下(绿色矩形)和右下(橙色矩形)侧窗。通过在每个边窗中应用滤波核F,可以得到8个输出:
$$I_i^{\prime \theta, \rho, r}=F\left(q_i, \theta, \rho, r\right)$$ (6) 保持边缘意味着想要最小化输入和输出在边缘的距离,即滤波器的输出应该与输入在边缘相同或尽可能接近。因此,我们选择与输入强度L2距离最小的侧窗输出作为最终输出:
$$I_{\mathrm{SWF}}^{\prime}=\underset{\forall I_i^{\prime \theta, \rho, r}}{\arg \min }\left\|q_i-I_i^{\prime \theta, \rho, r}\right\|_2^2$$ (7) 如图 3所示,第一行是从低光照图像中提取的V通道图。第二行是V通道使用RTV提取的主要结构图,可以有效提取出图像的主要结构,滤波整体结构良好,保存了V通道图像的主要结构特征,但在细节方面并未得到很好的区分,所以引入SWF技术,可以更好地区分纹理和细节。第三行是V通道经过SWF提取的边缘细节图,纹理边缘保持较好。采用特征值融合的方法,使两种滤波方法结合,保存图像整体结构良好的同时,精细结构能更加平滑,更好地区分纹理和结构。对比相应的增强图像可知,本文方法增强图像对比度更高,纹理细节及边缘保持相对更好一些。
3)主成分分析融合
为了充分利用RTV提取图像的主要结构和SWF保持的图像边缘细节,采用基于主成分分析(Principal Component Analysis,PCA)融合方法进行V通道融合,PCA融合是经典空间域融合方法,该方法利用主成分分解可以保留原数据之特征信息这一特点,由两源图像获取协方差矩阵及其特征值和特征向量,据此确定图像融合方法的加权系数和最终的融合图像。首先,将二维图像转化为一维向量,并由一维向量构造数据矩阵X,然后,计算X的协方差矩阵的特征向量矩阵V和相应的特征值矩阵D,据此计算相应的加权系数,最后加权融合获得优化的传输图F。
将两幅图像转换为二维向量X,对其协方差矩阵C做特征值分解,获得2×2特征向量矩阵V和特征值矩阵D,其计算如式(8):
$$\left\{\begin{array}{l} (\boldsymbol{V}, \boldsymbol{D})=\operatorname{Eig}(\boldsymbol{C}) \\ \boldsymbol{C}=\operatorname{Cov}(\boldsymbol{X}), \boldsymbol{X}=x_1, x_2^{\mathrm{T}} \end{array}\right.$$ (8) 式中:Cov表示协方差计算;Eig表示特征值分解操作。之后根据式(9)和式(10)计算融合权重系数。
$$V_1= \begin{cases}V(:, 1), & \text { if } D(1,1)>D(2,2) \\ V(:, 2), & \text { otherwise }\end{cases}$$ (9) 式中:D(i, i)表示D的对角元素的第i个元素;V(: , i)表示V的第i列i=1, 2,V1表示1维元素向量。
$$W_i=\frac{V_1(i)}{V_1(0)+V_1(1)}, \quad i=0,1$$ (10) $$b=\sum\limits_{i=1}^2 W_i S_i$$ (11) 式中:Wi为加权系数;b为融合结果分量;Si为待融合的主要结构传输图和精细结构传输图。将两种结构传输图优化融合,获得增强后的V通道图。
2. 低光照图像增强方法实现
根据图 1所示方法框架,基于HSV空间的矿井下低光照图像增强方法实施步骤为:
1)获取低光照图像V通道图像V
2)求解新的V通道图像V1和V2
对获得的V通道图像V进行RTV主要结构提取,并根据S通道图像的像素值对V通道图像进行非线性灰度拉伸,得到新的V通道图像V1;同时对V通道图像V进行SWF的边缘细节提取,进行相同的非线性灰度拉伸,得到V通道图像V2;
3)合成新的V通道分量
利用PCA融合方法进行V通道分量合成,计算融合权重系数Wi,根据式(11)融合策略,得到新的V通道分量。
3. 实验结果与分析
实验开展分为2类,第1类是参数分析实验,调整参数值分析不同取值对方法影响;第2类是对比实验,将对煤矿井下低光照图像进行对比分析本文提出的方法与其他增强方法的增强性能差异,增强方法中传统方法包括Dong[12]、BIMEF[10]和LIME[6],实验在8GB RAM和Windows 10操作系统的笔记本电脑上运行,软件采用MATLAB2016a;深度学习方法包括基于Retinex-Net[14]、MBLLEN(Multi-Branch Low-light Enhancement Network)[21]和Zero-DCE[22],实验在Nvidia RTX3090 GPU工作站上运行。
3.1 评估指标
本文选择了常用的3种图像质量评价指标:峰值信噪比(Peak Signal to Noise Ratio, PSNR)[23]、结构相似性(Structual Similarity, SSIM)[24]和自然图像质量评估(Natural Image Quality Evaluator,NIQE)[25]作为增强后图像的评价指标。
1)峰值信噪比(PSNR)
峰值信噪比用来评价两幅图像相对质量的好坏,其值越高,说明增强后的图像失真越小,质量越好。对于大小为m×n的两幅图像I和O(原图和增强后的结果图像),其均方差MSE(Mean Square Error)定义为:
$$\mathrm{MSE}=\frac{1}{m n} \sum\limits_{i=0}^{m-1} \sum\limits_{j=0}^{n-1}[I(i, j)-O(i, j)]^2$$ (12) 则PSNR(dB)定义为:
$$\mathrm{PSNR}=10 \cdot \lg \left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right)=20 \cdot \lg \left(\frac{\mathrm{MAX}_I}{\sqrt{\mathrm{MSE}}}\right)$$ (13) 式中:MAX为像素最大值。
2)结构相似性(SSIM)
图像的结构相似性(SSIM)可以衡量两个图像的相似程度,SSIM值的大小表示更符合人眼的直观感受。
SSIM指标的计算表达式,如式(17)所示:
$$\operatorname{SSIM}(I, O)=\left[l(I, O)^\alpha \cdot c(I, O)^\beta \cdot s(I, O)^\gamma\right]$$ (14) I和O分别是原图和增强结果图,将α,β,γ设为1,可以得到:
$$\operatorname{SSIM}(I, O)=\frac{\left(2 \mu_I \mu_O+c_1\right)\left(2 \sigma_{I O}+c_2\right)}{\left(\mu_I^2+\mu_O^2+c_1\right)\left(\sigma_I^2+\sigma_O^2+c_2\right)}$$ (15) 式中:μI、μO、σI2、σO2分别为I和O的均值与方差,σIO为I和O的协方差,c1和c2为常数,避免除数为零。图像的SSIM值越大,说明两幅图像的相似度越高,也就说明增强后的图像越接近真实图像。
3)自然图像质量评估(NIQE)
图像的自然图像质量评估值根据测试图像在特定高斯模型(multivariate Gaussian, MVG)上的分布差异对图像的质量进行评估,通过计算测试图像与参考图像拟合参数之间的距离来衡量图像质量。第一步,将提取的36个特征采用拟合MVG模型利用最大似然估计法计算得到参数v和Σ。之后再提取失真图像统计特征,进行模型拟合得到(v′, Σ ′),具体的计算公式如下:
$$D\left(v_1, v_2, \mathit{\Sigma }_1, \mathit{\Sigma }_2\right)=\sqrt{\left(v_1-v_2\right)^{\mathrm{T}}\left(\frac{\mathit{\Sigma }_1+\mathit{\Sigma }_2}{2}\right)^{-1}\left(v_1-v_2\right)}$$ (16) 式中:v1和v2表示参考图像和测试图像的MVG模型均值;Σ1和Σ2表示参考图像和测试图像的MVG模型方差矩阵。当测试图像与参考图像差距较大时,NIQE的值越大,图像质量越差。
3.2 实验结果分析
1)非线性灰度拉伸的参数α取值分析
为分析非线性灰度拉伸的α取值对增强方法的影响,选用不同测试图像实验,其中测试图像S1616,S1613和S881,在不同α取值{0.3, 0.5, 0.8, 1, 1.2}的实验结果,如图 4所示。
如图 4中,第一行、第三行、第五行分别是测试图像增强后的V通道图像V′,第二行、第四行、第六行分别是最终的增强图像。从图 4可以看出,随着α取值逐渐增大,增强后的图像亮度越来越暗,当α取值偏小时,增强图像整体偏亮,在原图灯光处出现过度曝光,在α取值为0.8时才逐渐消失,但依旧过亮。而当α取值为1.2时,增强图像偏暗,色彩不鲜明,细节不清晰。当α取值为1时,增强图像的细节、整体色彩都比较好,图像整体最自然逼真,故设置方法中的α取值为1。
2)方法性能对比分析
为验证本文方法的有效性,将其与其他6种方法进行性能比较,比较方法中传统方法包括:基于去雾方法的低光照图像增强模型Dong[12]、基于融合模型的方法BIMEF[9]和基于Retinex模型的方法LIME[6];深度学习方法包括:Retinex-Net[15]、MBLLEN [21]和Zero-DCE[22]。由主观视觉与客观指标两个方面评价7种方法增强图像质量,对比分析本文提出方法的性能与适用性。
为保证对比方法的性能,在保留原方法参数设置基础上开展对比实验,对比方法来源于作者网站下载的代码。图 5展示了7种方法的部分对比实验结果,如图 5中,从左到右、从上到下依次对应输入的矿井下低光照图像,Dong、BIMEF、LIME、Retinex-Net、MBLLEN、Zero-DCE和本文方法对应的增强图像。
视觉分析图 5(a)可以看出,增强图像为S102时,本文方法增强的结果亮度改善最为明显,图像较为清晰,并且增强图像的整体色调和细节恢复程度最佳,Dong和Retinex-Net方法出现明显的失真;BIMEF和MBLLEN增强后的图像亮度增强效果不明显,在细节和角落处出现对比度增强不足的问题;而LIME方法相对来说效果较好,但在图像细节增强处略微出现不足;Zero-DCE出现整体图像颜色过曝光,失去原有图像真实色调。图 5(b)可以看出,增强图像为S106时,传统方法中,LIME相较于Dong和BIMEF增强效果表现较好,但它在墙壁处和地板处增强了噪声,导致图像整体视觉较差,Dong增强后的图像在灯光等较亮处出现了部分失真现象,BIMEF整体图像亮度增强不足,丢失图像部分细节;在深度学习方法中,Retinex-Net增强后,整张图像出现了较为严重的颜色失真,MBLLEN同样出现亮度增强不足的问题,Zero-DCE方法增强后,灯光处的明亮区域被过度增强。分析图 5(c)知,增强图像为S6351时,LIME相对其他方法视觉效果表现较好,但它增强过后灯光处出现过度增强,导致图像上方出现颜色失真,Dong和Retinex-Net方法增强后出现较为严重的颜色失真,丢失原图细节信息,BIMEF和MBLLEN相较于本文提出方法图像增强不足,原图中的黑暗部分并未得到很好的增强,Zero-DCE方法在S6351中的灯光处出现过度曝光,而本文方法增强后的图像总体来说较为清晰,并且增强后的图像整体色调和细节恢复程度较为理想。
从图 6可以直观地看出,本文方法在图 5测试图像的NIQE值数值最低,表明其增强后图像最自然,亮度及色调恢复得最好。
图 7展示了煤矿下数据集(Mine-data)中的部分测试图像的各个方法的增强结果。从图 7中可以看出各个方法在矿井下测试图像增强中出现的问题,在煤矿数据集(Mine-data)中同样存在,由于Mine-data中有对应的正常光照下的图像进行参考,所以可以计算出它们的PSNR和SSIM值,并使用竖状图的形式列出,如图 8所示,可以更加清晰地看出,在Mine-data的测试图像T812、T865、T1628和T1683中,本文提出的方法在PSNR和SSIM值上都表现优秀。
为了防止抽取图像的随机性和偶然性,又对煤矿数据集(Mine-data)中所有图像进行测试,并将它们的PSNR、SSIM和NIQE均值在表 1中列出,表中加粗字体为该组数据的最优值(PSNR、SSIM越高越好,NIQE越低越好),蓝色字体为其次。从表 1可以明显看出本文提出的方法在Mine-data中的低光照图像的PSNR值和SSIM值的都最大,位居第一,并且NIQE值也最小,同样是位居第一。综合分析,本文提出的方法在煤矿数据集(Mine-data)上表现良好,无论是从视觉效果上还是指标分析上都表现出较大的优势,从而证实了此方法的适应性、可行性和优越性。
表 1 Mine-data矿井下图像质量指标数据比较Table 1. Comparison of mine-data image quality index data in underground minesMetrics Dong BIMEF LIME Retinex-Net MBLLEN Zero-DCE Ours PSNR↑ 19.84 14.73 13.31 18.38 20.25 20.55 20.73 SSIM↑ 0.76 0.42 0.43 0.77 0.76 0.88 0.91 NIQE↓ 4.06 3.78 3.65 4.42 4.87 3.84 3.57 Note:Bold data is optimal. Blue data is suboptimal. 4. 结语
针对煤矿井下的特殊低光照环境,本文提出了一种基于HSV空间的煤矿井下低光照图像增强方法,该方法在HSV空间变换的条件下,利用相对全变分滤波和改进的边窗滤波对提取出的亮度通道V通道图像分别进行对比度增强处理并使用PCA技术进行融合,相对全变分滤波提取出V通道图像的主要结构,改进的边窗滤波对V通道图像进行轮廓边缘保留,使之最后的增强结果既保持了图像原有的细节和边缘轮廓,又能提高图像整体的亮度和对比度。最后将图像的三通道图像合成并由HSV空间转换到RGB空间,完成整体图像增强。实验表现,本文方法与6种先进的增强方法相比,增强煤矿下低光照图像时,无论是主观视觉还是客观指标都具有一定的优势,其更加适合煤矿井下低光照图像的增强。
-
表 1 实验平台参数
Table 1 Experimental platform parameters
Parameters Configuration Operating system Ubuntu18.04 Framework Pytorch 1.11.0 CPU Intel(R) Core(TM) i9-12900 GPU NVIDIA GeForce RTX 3090 Ti Memory 24G Programming language Python 表 2 数据集样本统计
Table 2 Data set sample statistics
Data set Number Category Number of boxes Image Box Train 2553 7668 Cell failure 5894 Dioda failure 1367 Occlude 407 Test 460 1566 Cell failure 1382 Dioda failure 119 Occlude 65 表 3 消融实验结果
Table 3 Ablation results
% Groups Modules mAP50 mAP50:95 APS APM params/M FPS/(f/s) 1 Baseline 75.1 38.8 32.4 36.4 37.2 120 2 Baseline+A 80.3 40.9 35.5 36.5 35.3 83 3 Baseline+A+B 80.9 40.6 35.8 36.2 35.3 83 4 Baseline+A+C 80.6 40.3 35.6 35.2 35.3 83 5 Baseline+A+D 81.5 42.1 37.4 37.9 35.3 83 6 Baseline+A+E 79.9 40.5 36.1 35.7 35.3 83 7 Baseline+A+F 77.3 39.7 34.1 36.4 35.3 83 表 4 不同模型的性能对比
Table 4 Performance comparison of different models
% Modules AP50 mAP50 APS APM Params/M FPS/(f/s) Cell failure Diode failure Occlude SSD 35.1 87.5 36.2 52.9 19.6 25.6 23.75 16 RetinaNet 57.6 93.4 59.3 70.1 24.3 34.1 32.24 40 YOLOv3 74.7 90.2 64.2 76.3 33.1 31.8 62.6 92 YOLOv4 77.5 92.9 47.6 72.7 30.4 35.2 63.9 97 YOLOv5s 77.2 94.0 58.9 76.7 33.6 30.8 7.02 101 YOLOv5l 77.1 91.8 65.1 78.0 34.7 37.6 46.1 62 YOLOX 79.4 93.7 63.4 78.9 - - 8.94 89 TPH-YOLOv5 76.7 93.3 62.9 77.6 37.1 36.3 45.4 60 YOLOv7 78.7 93.9 52.6 75.1 32.4 36.4 37.2 120 YOLOv8 77.7 93.7 68.3 79.9 33.8 36.7 3.0 200 Ours 79.2 94.9 70.8 81.5 37.4 37.9 35.3 83 -
[1] MA Q, Murshed M, Khan Z. The nexuses between energy investments, technological innovations, emission taxes, and carbon emissions in China[J]. Energy Policy, 2021, 155: 112345. DOI: 10.1016/j.enpol.2021.112345
[2] 李松浓, 晏尧, 向菲, 等. 光伏直流系统故障电弧检测方法研究综述[J/OL]. 电测与仪表: 1-9. [2023-06-04]. http://kns.cnki.net/kcms/detail/23.1202.TH.20230216.1525.010.html. LI Songnong, YAN Yao, XIANG Fei, et al. A comprehensive review on detection method for DC fault arc in photovoltaic system[J/OL]. Electrical Measurement & Instrumentation: 1-9. [2023-06-04]. http://kns.cnki.net/kcms/detail/23.1202.TH.20230216.1525.010.html.
[3] 孙建波, 王丽杰, 麻吉辉, 等. 基于改进YOLO v5s算法的光伏组件故障检测[J]. 红外技术, 2023, 45(2): 202-208. http://hwjs.nvir.cn/cn/article/id/78e76f62-17bc-444b-bac5-c2bffbef819f SUN Jianbo, WANG Lijie, MA Jihui, et al. Photovoltaic module fault detection based on improved YOLOv5s algorithm[J]. Infrared Technology, 2023, 45(2): 202-208. http://hwjs.nvir.cn/cn/article/id/78e76f62-17bc-444b-bac5-c2bffbef819f
[4] 蒋琳, 苏建徽, 施永, 等. 基于红外热图像处理的光伏阵列热斑检测方法[J]. 太阳能学报, 2020, 41(8): 180-184. DOI: 10.19912/j.0254-0096.2020.08.025. JIANG Lin, SU Jianhui, SHI Yong, et al. Hot apots detection of operating PV arrays through IR thermal image[J]. Acta Energiae Solaris Sinica, 2020, 41(8): 180-184. DOI: 10.19912/J.0254-0096.2020.08.025.
[5] 孙海蓉, 周映杰, 张镇韬, 等. 基于改进自私羊群算法的光伏红外热图像热斑识别方法[J]. 中国电机工程学报, 2022, 42(24): 8942-8951. DOI: 10.13334/j.0258-8013.pcsee.212050. SUN Hairong, ZHOU Yingjie, ZHANG Zhentao, et al. Hot spot recognition method of photovoltaic infrared thermal image based on improved selfish herd algorithm[J]. Proceedings of the CSEE, 2022, 42(24): 8942-8951. DOI:10.13334/J.0258-8013.pcse.212050.
[6] 蒋琳, 苏建徽, 李欣, 等. 基于可见光和红外热图像融合的光伏阵列热斑检测方法[J]. 太阳能学报, 2022, 43(1): 393-397. DOI: 10.19912/j.0254-0096.tynxb.2020-0142. JIANG Lin, SU Jianhui, LI Xin, et al. Hot spot detection of photovoltaic array based on fusion of visible and infrared thermal images[J]. Acta Energiae Solaris Sinica, 2022, 43(1): 393-397. DOI:10.19912/J.0254-0096.tynxb.2020-0142.
[7] 王道累, 姚勇, 张世恒, 等. 基于红外热图像的光伏组件热斑深度学习检测方法[J/OL]. 中国电机工程学报: 1-9. [2023-06-04]. https://doi.org/10.13334/j.0258-8013.pcsee.221519. WANG Daolei, YAO Yong, ZHANG Shiheng, et al. Deep learning detection method of photovoltaic module hot spot based on infrared thermal image[J/OL]. Proceedings of the CSEE: 1-9. [2023-06-04]. https://doi.org/10.13334/j.02588013.pcsee.221519.
[8] ZHAO S, CHEN H, WANG C, et al. SNCF-Net: Scale-aware neighborhood correlation feature network for hotspot defect detection of photovoltaic farms[J]. Measurement, 2023, 206: 112342. DOI: 10.1016/j.measurement.2022.112342
[9] 刘宇宸, 李浩. 显著性特征融合的热红外图像光伏组件热斑检测[J]. 水力发电, 2023, 49(4): 96-101, 112. LIU Yuchen, LI Hao. Thermal infrared image photovoltaic hot spot detection based on saliency feature fusion[J]. Water Power, 2023, 49(4): 96-101, 112.
[10] SU B, CHEN H, LIU K, et al. RCAG-Net: Residual channelwise attention gate network for hot spot defect detection of photovoltaic farms[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.
[11] WANG C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J]. arXiv preprint arXiv: 2207. 02696, 2022.
[12] 宋智伟, 黄新波, 纪超, 等. 基于Flexible YOLOv7的输电线路绝缘子缺陷检测和故障预警方法[J/OL]. 高电压技术: 1-16. [2023-06-04]. https://doi.org/10.13336/j.1003-6520.hve.20221693. SONG Zhiwei, HUANG Xinbo, JI Chao, et al. Insulator defect detection and fault warning method for transmission line based on flexible YOLOV7[J/OL]. High Voltage Engineering: 1-16. [2023-06-04]. https://doi.org/10.13336/j.1003-6520.hve.20221693.
[13] Mahrishi M, Morwal S, Muzaffar A W, et al. Video index point detection and extraction framework using custom YoloV4 Darknet object detection model[J]. IEEE Access, 2021, 9: 143378-143391. DOI: 10.1109/ACCESS.2021.3118048
[14] DING X, ZHANG X, MA N, et al. Repvgg: Making vgg-style convnets great again[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13733-13742.
[15] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998-6008.
[16] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[J]. arXiv preprint arXiv: 2010. 11929, 2020.
[17] DONG X, BAO J, CHEN D, et al. Cswin transformer: a general vision transformer backbone with cross-shaped windows[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 12124-12134.
[18] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.
[19] WANG J, XU C, YANG W, et al. A normalized Gaussian Wasserstein distance for tiny object detection[J]. arXiv preprint arXiv: 2110.13389, 2021.
[20] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.
[21] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer Vision–ECCV 2016: 14th European Conference, 2016: 21-37.
[22] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[23] Redmon J, Farhadi A. Yolov3: an incremental improvement[J]. arXiv preprint arXiv: 1804. 02767, 2018.
[24] Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.
[25] ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.
[26] GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J]. arXiv preprint arXiv: 2107.08430, 2021.