Application of Deep Learning in Abnormal Insulator Infrared Image Diagnosis
-
摘要: 绝缘子的红外图像分析一般采用图像处理的方法,易受背景环境和数据量的影响,准确率和效率均较低,本文提出一种深度学习的异常诊断方法,基于改进的Faster R-CNN方法搭建检测网络,开展不同类型的绝缘子测试。研究结果表明:相对于神经网络(Back Propagation,BP)、Faster R-CNN方法,本文方法可高效地诊断出绝缘子的异常缺陷,平均检测精度达到90.2%;单Ⅰ型和Ⅴ型绝缘子的异常诊断准确率高于双Ⅰ型绝缘子。研究结果可为输电线路绝缘子异常诊断提供一定的参考。Abstract: Because of the effects of the background environment and data volume, the accuracy and efficiency of abnormal defects in traditional infrared images of insulators are generally low. In this study, a deep-learning anomaly diagnosis method is proposed. Based on the improved faster region-based convolutional neural network (R-CNN) method, a detection network is built to test different types of insulators. Results show that compared with the back propagation neural network and faster R-CNN methods, the proposed method can diagnose abnormal defects of insulators efficiently with a mean average precision of 90.2%. In addition, the diagnostic accuracy of single type Ⅰ and type Ⅴ insulators is higher than that of double type Ⅰ insulators. The results can provide a reference for insulator defect identification in transmission lines.
-
Keywords:
- insulator /
- abnormal diagnosis /
- deep learning /
- Faster R-CNN /
- mAP /
- infrared image
-
0. 引言
图像融合是一种重要的图像处理技术。旨在通过特定的特征提取和特征融合生成一幅包含源图像互补信息的图像。目前融合算法被广泛应用于自动驾驶、视觉跟踪和医学图像增强等领域。在图像处理领域,红外和可见光图像的融合也是图像融合的研究热点,红外图像中包含热辐射信息,但由于红外成像传感器的特性,采集的红外图像中纹理细节信息不明显。而可见光图像中包含大量细节纹理信息,但是没有热辐射信息,融合后的图像包含二者的互补信息,有利于人类的视觉感知。
现有的融合方法大致可分为两类,传统方法和基于深度学习的方法。常用的传统融合方法包括:基于梯度转移的图像融合[1](gradient transfer fusion,GTF);基于显著性检测的图像融合方法[2](Two-scale Image Fusion,TIF);基于各向异性扩散和Karhunen-Loeve变换[3]的融合方法(Anisotropic Diffusion Fusion,ADF);基于卷积稀疏表示[4](Convolutional Sparse Representation, CSR)的图像融合方法;基于高斯滤波和双边滤波混合多尺度分解[5]的图像融合方法等。这些方法虽然都取得了较好的结果,但都需要手工设计繁琐的特征提取和融合规则,且泛化能力不强,当融合图像复杂时融合性能下降。
近年深度学习在图像融合任务中有不错的表现。研究学者们提出了很多相关模型。按网络结构来区分可以分为自编码器和端到端两种。Prabhakar等提出DeepFuse[6]融合方法,采用卷积神经网络来提取两幅YCbCr图像中Y通道的特征,然后将所提取的特征相加再经过卷积神经网络得到融合后的Y通道,Cb、Cr通道通过加权融合得到,最后将YCbCr图像转换成RGB图像得到融合结果。Zhang等提出IFCNN[7](Image Fusion based on Convolutional Neural Network)是一种自编码器结构的网络。该方法采用卷积神经网络分别提取两幅源图像的特征,之后通过一定的融合规则将所得到的特征融合,融合后的特征经过卷积神经网络重建出融合图像。
此外,研究者还提出端到端的深度学习融合框架,并取得不错的效果。Xu等提出U2Fusion[8](Unified Unsupervised image Fusion Network)融合算法,通过特征提取和信息测量,自动估计特征对应源图像的重要性,得到了较好的融合效果。Li等提出RFN-Fuse[9](Residual Fusion Network)同样是一种端到端的图像融合方法,先用训练好的编码器提取图像特征,然后输入进融合网络融合特征,再由解码器重建图像。Ma等提出FusionGAN[10](Generative Adversarial Network),一种端到端的方法,将生成对抗网络应用于图像融合,通过构建一个生成器和一个鉴别器使二者相互博弈,迫使生成器生成包含两幅源图像信息的融合图像。Fu等提出PerceptionGAN[11](GAN consistent with perception)通过将可见光图像连接到网络中的不同深度,使融合结果更接近人类的视觉感知,但其结果中红外图像信息较少。此外,基于GAN的方法也有其他研究学者提出[12-14]。由于端到端方法存在生成结果模糊、细节保存较少、如果没有很好的约束和大量的训练数据,融合性能并不佳等问题,本文采用自编码器策略。
以上方法忽略了编解码过程中的特征通道注意力信息,并且长距离语义信息没有被充分利用。因此本研究在网络中应用注意力机制和Swin-Transformer来缓解这一问题。此外,现有的方法通常只考虑可见光图像的背景信息和红外图像的目标亮度信息,而红外图像的背景亮度信息通常被忽略,导致红外图像中的部分背景信息细节丢失。充分利用红外亮度信息会使背景更加清晰。红外图像的梯度信息也有助于生成更加清晰的图像。因此,一个新的混合特征聚合被提出来融合特征,其中包含红外亮度增强模块和纹理细节增强模块。红外亮度增强模块不仅可以增强红外目标信息,还保留了红外图像中部分背景的亮度。细节保留模块通过梯度算子提取特征图的梯度边缘信息。特征聚合中还加入了注意力机制来融合特征,能够保留更多细节。本文提出一种新的融合方法,主要贡献如下:
1)提出一种注意力巢连接网络,充分利用多尺度分解和图像重建过程中的注意力信息。
2)在解码器中采用Swin-transformer提取图像特征的长距离依赖。增强模型特征提取能力。
3)提出了一种新的混合红外特征增强、纹理细节增强和注意力的特征聚合模块。可以充分保留来自源图像的亮度与细节信息。
4)实验结果表明,所提方法能够更清晰地融合红外和可见光图像,融合结果中的纹理和细节信息更多。与现有的融合方法相比,本文提出的融合框架在公开数据集上的主观视觉评价和客观评价均表现出更好的融合性能。
1. 相关工作
随着深度学习被广泛应用于图像融合领域,很多基于深度学习的方法被提出。这些方法大致分为两类,一是端到端的全神经网络,二是深度学习与手工设计融合规则相结合的方法。本章首先介绍几种经典的深度学习图像融合方法。
注意力机制被广泛应用于神经网络中。Hu等人从通道维度入手提出一种通道注意力机制[15],该机制可以对特征进行校正,校正后的特征可以保留有价值的特征,剔除没价值的特征。Li等人提出CSpA-DN[16]网络将自注意力机制与DenseNet[17]结合,该方法为端到端的融合方法,大致分为3个部分:编码网络、注意力网络和解码网络,编码网络的目的是提取两幅源图像的特征,注意力网络对特征进行校正,解码网络重建图像。该网络采用类似DenseNet设计具有密集短连接结构,可以很好地传递特征图,减轻梯度消失,在一定程度上减少了参数量,并且在PET和MRI融合任务中取得了不错的效果。Li等提出了一种结合深度学习和手工设计融合规则的方法DenseFuse[18]。该方法采用两阶段的融合方法,首先训练一个编码和解码网络,源图像经过编码器提取特征,之后将所得特征相加,最后融合后的特征图经过解码网络重建得到融合图像。这些方法都没有充分利用特征图的多尺度信息,并且融合策略相对简单。
其中具有多尺度结构的模型在处理图像任务时有不错的表现。Zhou等人提出了Unet++[19],用于图像分割。Unet++在不同尺度的Unet网络上探索并且把这些不同尺度的Unet嵌套在一起并使用跳跃连接组合成一个新的巢连接网络。Li等设计了NestFuse[20]网络采用巢连接结构,包含一个下采样和上采样过程,能够提取图像的深度特征信息。首先,训练一个提取多尺度信息的编码网络和一个对应的解码网络,在训练过程中没有融合阶段,只有编码解码过程。然后,使用设计的融合策略将编码器提取的每个尺度的特征进行融合。最后,由解码器重建图像并取得了较好的效果。然而,在编解码过程中,该方法并未考虑每个特征图的重要程度。因此,本文提出一种基于注意力的巢连接网络。由于注意力机制能够对特征图进行筛选,将其引入融合模型,充分利用各尺度的通道注意力信息,增强融合性能。
2. 融合方法
本章将详细介绍基于注意力机制和巢网络的融合模型,并介绍模型的细节以及特征聚合模块。融合方法的总体框图如图 1。
2.1 网络结构
本文提出的融合方法主融合框架如图 1所示。其中EB为编码器、FA为特征聚合、DB为解码器。本节主要介绍编码器、解码器,特征聚合在2.2节中详细介绍。
现有的U型网络存在相同尺度上卷积层不深导致特征未充分利用的问题,为了缓解这个问题,本文采用巢连接策略,在同一尺度之间增加卷积层,并使用跳跃连接,在不同尺度之间采用上采样连接,来充分利用特征。由于卷积只关注局部的纹理特征没有充分利用长程语义依赖,因此本研究在网络中使用Swin-transformer来提取长距离依赖如图 1所示。Swin-transformer相比于传统的Transformer有更低的计算量和更强的特征提取能力,其结构如图 2所示。
编码器由4个卷积块组成,如图 3(a)所示,其中Conv表示卷积层,用来提取图像的浅层特征信息。在编码器中,每个卷积块都包括一个2×2的池化层,对特征图进行下采样。图 3(a)中EB代表一个卷积块,其结构如图 3(b)。
在编码阶段,图像先经过一个输出通道数为16的卷积层,再依次经过EB10,输出通道数为64,分辨率大小为224×224。EB20输出通道数为112,分辨率为112×112。EB30输出通道数为160,分辨率大小为56×56,EB40输出通道数为208,分辨率大小为28×28。参数如表 1所示。
表 1 编码器和解码器网络参数Table 1. Encoder and decoder network parametersLayer Input channel Output channel Resolution Encoder Conv 1 16 224×224 EB10 16 64 224×224 EB20 64 112 112×112 EB30 112 160 56×56 EB40 160 208 28×28 Decoder DB31 368 160 56×56 DB21 272 112 112×112 DB22 384 112 112×112 DB11 176 64 224×224 DB12 240 64 224×224 DB13 304 64 224×224 Conv 64 1 224×224 编码过程表达式如(1)~(4)所示:
$$\mathit{\Phi }_1=\mathrm{EB}_1\left(F_{\mathrm{ATT}}(\operatorname{Conv}(I))\right)$$ (1) $$\mathit{\Phi }_2=\mathrm{EB}_2\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_1\right)\right)$$ (2) $$\mathit{\Phi }_3=\mathrm{EB}_3\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_2\right)\right)$$ (3) $$\mathit{\Phi }_4=\mathrm{EB}_4\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_3\right)\right)$$ (4) 式中:I,Φ分别表示输入图像和多尺度特征;EBm(⋅)表示多尺度特征提取函数;m表示多尺度层数m∈1, 2, 3, 4。Φm表示各尺度所得特征图。Conv(⋅)表示卷积层。
巢连接网络没有筛选特征能力不能突出重要特征,为了提升网络提取特征能力,本文在多尺度网络结构中加入注意力机制,为每个尺度的特征图增加一个权重。本文采用的注意力计算方法如下。对每个特征图取平均池化操作,将得到的结果组成一个特征向量。计算单个H×W特征图对应的公式如(5)所示:
$$ {F_{{\text{ATT}}}} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {u(i,j)} } $$ (5) 式中:i、j为像素坐标;u(⋅, ⋅)为平均池化操作。对通道数为C的特征图按通道进行FATT(⋅)操作,得到1×C维的特征向量。如图 2(b)中所示,使用线性层将所得特征向量的维度压缩,经过激活函数,其目的是增加网络的非线性,拟合通道之间的相关性。经过第一个线形层后维度变为原来的1/N,本文中N=16。之后,再用线性层将特征向量扩展到与原特征图的通道数相同的维度。所得特征向量经过Sigmoid函数之后得到与特征图通道数维数一致的权重向量,最后与原特征图相乘。
将图像融合过程中部分特征图可视化,如图 3所示,输入为TNO数据集[21]中的可见光图像。每对图像的左右两幅图片分别为经过注意力机制前后的特征图。可以看出注意力机制能够将模糊的特征弱化,这些特征对重建图像纹理和细节的保留的重要性相对较小。图 4为解码器中DB21卷积块中特征图可视化结果,可视化结果表明注意力机制能够为各通道分配权重,突出重要信息。
红外和可见光图像分别经过编码器后使用特征聚合FA得到融合特征:
$$\mathit{\Phi }_f^m=\mathrm{FA}\left(\mathit{\Phi }_1^m, \mathit{\Phi }_2^m\right)$$ (6) 式中:FA(⋅)为特征聚合模块,具体如2.2节所示。Φ1m和Φ2m分别为输入源图像的多尺度特征,m表示多尺度层数。将Φfm输入到解码器中得到最终的融合图像。
解码阶段网络参数与编码阶段相对应。具体参数设置如表 1所示。解码器由6个DB卷积块组成,如图 5所示,用于重建融合图像,解码器的4个输入与编码器4个卷积块相对应。其中DB11和DB12由Swin-transformer块组成如图 2(a)所示,每个Swin-transformer块由7层不同尺度的Swin-transformer层组成,每个Swin-transformer层如图 2(b)所示。
编码阶段和解码阶段的卷积块不完全相同。解码阶段的卷积块由两个卷积层、一个池化层和一个注意力模块组成,注意力模块与图 2(b)中所示的结构相同。如图 5所示。其中第二个卷积层的核大小为1×1,用来匹配维度。解码阶段没有用于下采样的池化层,其余卷积层保持不变。特征图上采样后拼接到同尺度特征中。
2.2 特征聚合
大多数特征融合都是基于加权平均算子生成一个加权图来融合源图像。基于这一理论,权重图的选择成为一个关键问题。而现有的方法忽略了红外图像中的背景亮度信息及红外图像的梯度信息,为此在本研究中设计了红外特征增强模块保留更多红外亮度信息,并且从两幅源图像中分别提取梯度信息,同时混合基于注意力机制[20]的特征聚合,达到保留更多细节的目的。如图 6所示。在网络训练完成后,测试时将特征聚合加入到网络中,两副原图像经过编码器后得到多尺度特征Φ1m和Φ2m,通过l1-norm和Soft-max算子计算得到的权重映射β1m和β2m权重图由公式(7)表示:
$$ \beta _k^m(x,y) = \frac{{{{\left\| {\mathit{\Phi } _k^m(x,y)} \right\|}_1}}}{{\sum\nolimits_{i = 1}^k {{{\left\| {\mathit{\Phi } _i^m(x,y)} \right\|}_1}} }} $$ (7) 式中:||⋅||1表示L1范数;k∈1, 2。(x, y)表示多尺度深度特征(Φ1m和Φ2m)和权重图(β1m和β2m)中对应的位置,每个位置表示深度特征中的一个C维向量。Φkm(x, y)表示一个C维的向量。
$ \hat{\mathit{\Phi }} _1^m $和$ \hat{\mathit{\Phi }} _2^m $表示用β1m和β2m加权的增强深度特征。增强特征$ \hat{\mathit{\Phi }} _k^m $通过公式(8)计算:
$$ \hat{\mathit{\Phi }} _k^m(x,y) = \beta _k^m(x,y) \times \mathit{\Phi } _k^m(x,y) $$ (8) 然后通过这些增强的深度特征计算出融合特征$\hat{\mathit{\Phi }} _f^m$,公式如公式(9)所示:
$$ \hat{\mathit{\Phi }} _f^m(x,y) = \sum\limits_{i = 1}^2 {\hat{\mathit{\Phi }} _i^m(x,y)} $$ (9) 现有方法中特征聚合大都只考虑空间信息。然而,深度特征是三维张量。因此,特征聚合中不仅要考虑空间维度信息,还要考虑通道信息。通道注意力特征计算过程与空间注意力特征计算过程大致相同,如图 6。利用通道注意力模块计算后的结果是一个一维向量,各个值为对应通道的权重。特征聚合输入特征图的权重向量α1m和α2m由公式(10)计算得出。
$$ \bar \alpha _k^m(n) = P(\mathit{\Phi } _k^m(n)) $$ (10) 式中:n为输入特征中的通道数;P(⋅)为全局池化。全局池化方法是通过每个通道的奇异值求和得到。奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。
然后,使用Soft-max函数计算得到最终的加权向量α1m和α2m如公式(11):
$$ \alpha _k^m(n) = \frac{{\bar \alpha _k^m(n)}}{{\sum\nolimits_{i = 1}^2 {\bar \alpha _i^m(n)} }} $$ (11) 最后通道注意力模块的融合特征$ \tilde{\mathit{\Phi }} _f^m $由式(12)计算得到:
$$ \tilde{\mathit{\Phi }} _f^m(n) = \sum\nolimits_{i = 1}^2 {\alpha _i^m(n)} \times \mathit{\Phi } _i^m(n) $$ (12) 两幅源图像分别计算空间注意力和通道注意力得到结果和$ \hat{\mathit{\Phi }} _{\text{s}}^m $、$ \tilde{\mathit{\Phi }} _{\text{c}}^m $。m表示多尺度深度特征的层次。
在所提特征聚合中对两幅图像分别进行梯度特征提取得到梯度权重图,如公式所示:
$$ \varepsilon _k^m(x,y) = \frac{{S({{\left\| {\mathit{\Phi } _k^m(x,y)} \right\|}_1})}}{{\sum\nolimits_{i = 1}^2 {S({{\left\| {\mathit{\Phi } _i^m(x,y)} \right\|}_1})} }} $$ (13) 式中:S(⋅)代表Sobel函数用于提取特征图的梯度特征。
红外特征增强模块首先将红外特征通过分割的方法分离出来,如公式:
$$ \eta _k^m(x,y) = \gamma \times {\text{seg}}(\mathit{\Phi } _{{\text{ir}}}^m(x,y)) $$ (14) 式中:seg(⋅)为阈值分割函数,其阈值根据背景和红外目标像素值的最大类间方差获得。γ为平衡权重,在本文中设置为0.3。
$$\breve{\mathit{\Phi }}_{\mathrm{E}}^m(x, y)=\varepsilon_k^m(x, y) \times \eta_k^m(x, y)$$ (15) 最终的注意力融合特征Φfm由公式(16)计算得到。
$$\mathit{\Phi }_{\mathrm{f}}^m=\frac{1}{3}\left(\hat{\mathit{\Phi }}_{\mathrm{s}}^m+\tilde{\mathit{\Phi }}_{\mathrm{c}}^m+\breve{\mathit{\Phi }}_{\mathrm{E}}^m\right)$$ (16) 2.3 训练阶段
所提方法采用了两阶段训练策略。首先,训练一个可以提取图片深层特征的自动编码器,和一个可以处理这些特征重建图像的解码器。训练框架如图 7所示,其中I和O分别为输入图像和重建图像。训练数据集采用MS-COCO[22]数据集。
训练过程没有融合阶段,特征聚合不参与训练。只需训练解码器和编码器。在损失函数的约束下迫使网络能够重建出输入图像。在测试时编码器要分别对两幅源图像进行编码,再经特征聚合后输入到解码器。
在训练阶段,损失函数Ltotal定义如下:
$$L_{\text {total }}=L_{\text {pixel }}+\lambda L_{\text {ssim }}$$ (17) 式中:Lpixel和Lssim分别表示源图像和融合后图像之间的像素损失和结构相似度损失。λ是平衡两个损失的加权因子。在本文中λ取值为100。
Lpixel由公式(18)得到:
$$ {L_{{\text{pixel}}}} = \left\| {O - I} \right\|_{\text{F}}^2 $$ (18) 式中:O和I分别表示输出图像和输入图像。其中||⋅||F为F范数。损失函数可以最大程度地使输出图像像素更接近于输入图像。
SSIM结构相似度损失函数Lssim由公式(19)得到。
$$ {L_{{\text{ssim}}}} = 1 - (\frac{{2{\mu _{\text{I}}}{\mu _{\text{O}}} + {c_1}}}{{\mu _{\text{I}}^2 + \mu _{\text{O}}^{\text{2}} + {c_1}}})(\frac{{2{\sigma _{{\text{IO}}}} + {c_2}}}{{\sigma _{\text{I}}^{\text{2}} + \sigma _{\text{O}}^2 + {c_2}}}) $$ (19) 式中:μI, μO和σI, σO分别为输入输出图像的均值和标准差。σIO为协方差,c1,c2为常数。Lssim越小两幅图像的结构越相似。
3. 实验结果
本章中,首先介绍本文的实验设置。然后介绍消融研究。在主观评价方面与现有方法进行了比较,并利用多个质量评价指标对融合性能进行了客观评价。图 8展示了采用的21对红外和可见光测试图像的一部分。
3.1 实验设置
选择10种比较典型和先进的融合方法来评价融合性能,包括:GTF[1],TIF[2],ADF[3],FusionGAN[10],DenseFuse[18],vggML[23],RFN-Fuse[9],DeepFuse[6],CSF[24](Classification Saliency-Based Fusion),Dual-branch[25],这些方法实验结果都由其公开代码得到,其中参数设置与其论文所述相同。网络训练时epoch和batch大小分别为2和2。实验平台为:E5 2680 v4 CPU, NVIDIA GTX 1080Ti GPU,代码实现使用PyTorch框架。
利用以下几个质量指标对本文的融合方法和其他融合方法进行了定量比较。其中包括:边缘强度(Edge Intensity,EI)[26],视觉保真度(Visual Fidelity,VIF)[27],平均梯度(Average Gradient,AG)[28],信息熵(Entropy,EN)[29],标准差(Standard Deviation,SD),离散余弦特征互信息(Discrete Cosine Feature Mutual Information,FMI_dct)[30],相位一致(Phase Consistent,QP)[31]。测试采用的是TNO[21]和MSRS数据集[32],分别取21对图像。客观评价结果从其中选取21对图像进行测试,取21对图像客观结果的平均值进行对比。
3.2 消融研究
如2.1节所述,本研究在编解码网络中加入了注意力机制。分别对有注意力机制(Att)和没有注意力机制以及Swin-transformer(Att+ST)进行了实验,实验结果如图 9,其中测试图像是从TNO数据集中选取的部分图像。左边一列(a)是加上注意力之后的结果,中间一列(b)是加入Swin-transformer后的结果,右边一列(c)是所提融合方法的结果。可以看到加上注意力机制之后图像包含更多的纹理信息,背景中的植物细节更加清晰(如图 9中红框所示)。客观评价方面,两个不同模型的融合结果评价指标如表 2所示。
表 2 消融前后图像评价指标平均值Table 2. Average values of image evaluation indicators before and after ablationSCD MS-SSIM MI VIFF Att 1.585658489 0.861241115 13.7868369 0.331484695 Att + ST 1.573055161 0.834073744 13.88869037 0.318701695 Ours 1.579132302 0.864855029 13.82841411 0.365041201 可以看出,加入的注意力机制对于客观评价标准的提升非常明显,各个评价标准都有不同程度地提升。客观评价结果表明网络中的注意力机制能够使融合性能得以改善。21对图片的客观评价指标对比如表 2所示。可以看到加入注意力后VIFF、MI、MS-SSIM三个指标有明显提升。
3.3 结果分析
3.3.1 主观评价
现有融合方法和本文融合方法得到的TNO融合结果中选取的一对图像,如图 10所示。从图中可以看出FusionGAN融合结果虽然有一些显著的红外特征但是有些地方比较模糊,例如草丛与路面等部分纹理细节不明显。VggML、DenseFuse、Dual-branch的融合结果中红外信息不突出并且也存在模糊现象。GTF中丢失部分红外目标信息,例如人物脚部部分。TIF融合结果较为清晰,但图像中存在噪声和信息融合不均衡现象。
此外,还可以从图 10红框标记的局部放大区域进行比较。所提方法在主观评价方面比其他融合方法有更好的融合性能,融合结果中的亮度信息也更均衡。RFN-Fuse融合结果相对较好,但在细节纹理保存方面稍有欠缺。从放大区域可以看出所提方法能较清晰地显示出道路上的条纹,保存更多的纹理细节信息。此外为了体现模型的泛化性能本文还在MSRS数据集上做了对比试验如图 11所示。可以看出相比FusionGAN、RFN-Fuse所提方法的红外信息和可见光信息更加平衡,融合结果中可以保留更多细节。
3.3.2 客观评价
本文采用了客观评价指标进行对比,实验结果如表 3所示。采用的评价指标有7种同3.1节所示指标。其中每个评价标准最好的结果用红色字体表示。
表 3 TNO数据集21对图像评价指标平均值Table 3. Average value of 21 pairs of image evaluation indicators in TNO datasetEI FMI_dct QP VIF AG EN SD GTF 32.52770 0.10836 0.02177 0.45364 3.35874 6.63534 31.57911 TIF 39.23519 0.19743 0.11410 0.74760 3.89565 6.52602 28.24174 ADF 35.26416 0.28190 0.16059 0.31281 3.67947 6.27304 23.42029 VggML 24.00504 0.40463 0.28970 0.29509 2.42635 6.18260 22.70687 FusionGAN 22.14833 0.36334 0.09887 0.45354 2.20517 6.36285 26.06731 DenseFuse 23.30637 0.40727 0.28615 0.28695 2.35330 6.17403 22.54629 RFN-Fuse 29.14734 0.10639 0.01774 0.34545 2.73375 6.84134 35.27043 DeepFuse 34.73729 0.41501 0.28615 0.28695 2.35330 6.17403 33.65323 Dual-branch 25.07866 0.30116 0.29138 0.35070 2.47084 6.33231 27.02308 CSF 36.81830 0.25636 0.24811 0.71146 3.60953 6.79053 35.71607 Ours 50.76634 0.254905 0.303399 0.684504 5.38937 6.91420 38.77089 从表 3可以看出本文方法有5个指标是最优的,用红色字体标出。视觉保真度高说明融合结果具有更高的视觉保真度。平均梯度、边缘强度越高表明图像质量越高,也就更清晰。表 4展示了MSRS数据集上的客观评价结果可以看到所提方法的5个指标达到最好结果与在TNO数据集得出结果一致,说明所提方法的泛化性能较好。
表 4 MSRS数据集21对图像评价指标平均值Table 4. Average value of 21 pairs of image evaluation indicators in MSRS datasetEI FMI_dct QP VIF AG EN SD GTF 28.45466 0.19621 0.15700 0.44730 2.71035 5.73625 24.19185 TIF 43.39727 0.22136 0.33786 1.04271 4.09034 6.58252 35.54339 ADF 32.29431 0.21340 0.29474 0.45374 3.08234 6.29048 28.62276 VggML 26.05613 0.38575 0.40246 0.45717 2.46865 6.24643 28.33981 FusionGAN 16.97583 0.31703 0.13058 0.33249 1.59356 5.60325 19.71231 DenseFuse 30.93252 0.09862 0.02089 0.13650 3.16776 5.65645 24.04045 RFN-Fuse 16.06580 0.26362 0.35816 0.53009 1.47516 5.60288 25.07045 Deep-fuse 28.63384 0.39021 0.39733 0.59795 2.70763 6.42196 32.44943 Dual-branch 26.34184 0.28525 0.36961 0.50415 2.47727 6.21497 31.06896 CSF 28.93600 0.24274 0.34685 0.58995 2.71384 6.25018 32.16605 Ours 55.88537 0.35160 0.47274 0.74274 5.66437 6.73437 41.75073 4. 结语
本文提出一种基于Swin-transformer和混合特征聚合的融合网络并提出了一种新的混合特征聚合。将Swin-transformer与注意力机制引入到多尺度网络中,充分利用长距离语义信息与通道注意力信息,解决基于卷积神经网络方法中细节丢失的问题。所提特征聚合将注意力与特征增强模块混合,能够保留更多背景细节信息。所提方法首先利用一个解码器来提取特征图的多尺度信息。再将各个尺度的特征用所提特征聚合进行融合,分别输入到解码器的对应接口进行解码。由于在编解码过程中使用了注意力机制,突出对结果有重要影响的通道,使得融合结果保留了更多细节和纹理特征。利用提出的网络结构,可以在重构过程中保留更多的显著特征,提高图像融合的性能。
-
表 1 软硬件配置
Table 1 Hardware and software configuration
Name Model Operating system Ubuntu 16.04.1 Database mysql 5.5.20 CPU Intel Xeon Silver 4114T 12C GPU NVIDIA GTX1080Ti Memory 32 G Hard disk 1 T Frame Detectron 表 2 样本配置信息
Table 2 Information of sample configuration
sample type training set verification set test set total positive 500 250 750 1500 negative 500 250 125 875 total 1000 500 875 2375 表 3 不同方法的实验结果统计
Table 3 Statistics of experimental results by different methods
Name Precision Recall mAP Time/s BP 93.5% 90.4% 80.3% 2.3 Faster R-CNN 98.7% 95.3% 88.7% 1.2 BFEM 99.2% 97.6% 90.2% 0.9 表 4 绝缘子异常诊断的准确率
Table 4 Accuracy of insulator anomaly diagnosis
Insulator type Abnormal total Detected number Accuracy Single Ⅰ 62 61 98.4% Double Ⅰ 47 44 93.6% Ⅴ 31 31 100.0% -
[1] 陈俊佑, 金立军, 段绍辉, 等.基于Hu不变矩的红外图像电力设备识别[J].机电工程, 2013, 30(1): 5-8. https://www.cnki.com.cn/Article/CJFDTOTAL-JDGC201301003.htm CHEN Junyou, JIN Lijun, DUAN Shaohui, et al. Power equipment identification in infrared image based on Hu invariant moments[J]. Journal of Mechanical & Electrical Engineering, 2013, 30(1): 5-8. https://www.cnki.com.cn/Article/CJFDTOTAL-JDGC201301003.htm
[2] 邹辉, 黄福珍.基于改进Fast-Match算法的电力设备红外图像多目标定位[J].中国电机工程学报, 2017, 37(2): 591-598. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201702027.htm ZOU Hui, HU Fuzhen. Multi-target localization for infrared images of electrical equipment based on improved fast-match algorithm[J]. Proceedings of the CSEE, 2017, 37(2): 591-598. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201702027.htm
[3] 魏秀深.解析深度学习:卷积神经网络原理与视觉实践[M].北京:电子工业出版社, 2018. WEI Xiushen. Analytic Deep Learning: Convolutional Neural Network Theory And Visual Practice[M]. Beijing: Electronic Industry Press, 2018.
[4] 罗舜.电力变压器套管将军帽发热故障的红外诊断分析[J].变压器, 2018, 55(1): 50-53. https://www.cnki.com.cn/Article/CJFDTOTAL-BYQZ201801018.htm LUO Sun. Infrared diagnosis analysis of power transformer bushing coupler heating[J]. Transformer, 2018, 55(1): 50-53. https://www.cnki.com.cn/Article/CJFDTOTAL-BYQZ201801018.htm
[5] 张杰, 付泉泳, 袁野.变压器局部放电带电检测技术应用研究[J].变压器, 2018, 55(8): 66-71. https://www.cnki.com.cn/Article/CJFDTOTAL-BYQZ201808023.htm ZHANG Jie, FU Quanyong, YUAN Ye. Application research of electric detection technology of partial discharge for transformer[J]. Transformer, 2018, 55(8): 66-71. https://www.cnki.com.cn/Article/CJFDTOTAL-BYQZ201808023.htm
[6] 梁天明, 袁焯锋, 石延辉.高压交流滤波电容器局部过热诱因分析及预防[J].电力电容器与无功补偿, 2015, 36(6): 49-53. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201506011.htm LIANG Tianming, YUAN Daofeng, SHI Yanhui. Cause analysis and preventions on local overheating of high voltage ac filter capacitor[J]. Power Capacitor & Reactive Power Compensation, 2015, 36(6): 49-53. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201506011.htm
[7] 潘臻, 安立.一起35 kV并联电容器组事故爆炸原因分析[J].电力电容器与无功补偿, 2015, 36(3): 17-20. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201503005.htm PAN Zhen, AN Li. Analysis of 35 kV shunt capacitor banks explosion accident[J]. Power Capacitor & Reactive Power Compensation, 2015, 36(3): 17-20. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201503005.htm
[8] 黄斌, 李昊, 徐姗姗, 等.一起35 kV并联电容器组爆炸原因分析及防范措施[J].电力电容器与无功补偿, 2018, 39(1): 23-27. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201801005.htm HUANG Bin, LI Hao, XU Sansan, et al. Reason analysis and precautionary measures for a 35kv shunt capacitor bank explosion[J]. Power Capacitor & Reactive Power Compensation, 2018, 39(1): 23-27. https://www.cnki.com.cn/Article/CJFDTOTAL-DLDY201801005.htm
[9] 商俊平, 李储欣, 陈亮.基于视觉的绝缘子定位与自爆缺陷检测[J].电子测量与仪器学报, 2017, 31(6): 844-849. https://www.cnki.com.cn/Article/CJFDTOTAL-DZIY201706007.htm SHANG Junping, LI Chuxin, CHEN Liang. Location and detectionfor self-explode insulator based on vision[J]. Journal of Electronic Measurement and Instrumentation, 2017, 31(6): 844-849. https://www.cnki.com.cn/Article/CJFDTOTAL-DZIY201706007.htm
[10] 沈新平, 彭刚, 袁志强.基于霍夫变换和RANSAC算法的绝缘子定位方法[J].电子测量技术, 2017, 40(6): 132-137. https://www.cnki.com.cn/Article/CJFDTOTAL-DZCL201706031.htm SHEN Xinping, PENG Gang, YUAN Zhiqiang. Insulator location method based on hough transformation and RANSAC algorithm[J]. Electronic Measurement Technology, 2017, 40(6): 132-137. https://www.cnki.com.cn/Article/CJFDTOTAL-DZCL201706031.htm
[11] 李军锋, 王钦若, 李敏.结合深度学习和随机森林的电力设备图像识别[J].高电压技术, 2017, 43(11): 3705-3711. https://www.cnki.com.cn/Article/CJFDTOTAL-GDYJ201711028.htm LI Junfeng, WANG Qinruo, LI Min, et al. Electric Equipment Image Recognition Based on Deep Learning and Random Forest[J]. High Voltage Engineering, 2017, 43(11): 3705-3711. https://www.cnki.com.cn/Article/CJFDTOTAL-GDYJ201711028.htm
[12] 侯春萍, 章衡光, 张巍, 等.输电线路绝缘子自爆缺陷识别方法[J].电力系统及其自动化学报, 2019, 31(6): 1-6. HOU Chunping, ZHANG Hengguang, ZHANG Wei, et al. Recognition method for faults of insulators on transmission lines[C]//Proceedings of the CSU-EPSA, 2019, 31(6): 1-6.
[13] 左川.基于图像识别的输电线路绝缘子检测方法研究[D].北京: 华北电力大学, 2019. ZUO Chuang. Research on detection method of transmission line insulator based on image recognition[D]. Beijing: North China Electric Power University, 2019.
[14] 杨光俊.卷积神经网络在电力设备红外图像识别中的应用研究[D].广州: 华南理工大学, 2019. YANG Guangjun. Research on the application of convolutional neural network in infrared image recognition of power equipment[D]. Guangzhou: South CHINA University of Technology, 2019.
[15] 周可慧, 廖志伟, 肖异瑶, 等.基于改进CNN的电力设备红外图像分类模型构建研究[J].红外技术, 2019, 41(11): 1033-1038. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS201911007.htm ZHOU Kehui, LIAO Zhiwei, XIAO Yiyao, et al. Construction of infrared image classification model for power equipments based on improved CNN[J]. Infrared Technology, 2019, 41(11): 1033-1038. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS201911007.htm
[16] 许必宵.基于多尺度特征融合与上下文分析的目标检测技术研究[D].南京: 南京邮电大学, 2019. XU Bixiao. Research on object detection technology based on multi-scale feature fusion and context analysis[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019.
[17] 张丹丹.基于航拍图像的绝缘子自爆位置的检测[D].成都: 西华大学, 2018. ZHANG Dandan. Detection of self-exploding position of insulator based on aerial image[D]. Chengdu: Xihua University, 2018.
[18] 王梦.基于绝缘子图像的缺陷检测方法研究[D].武汉: 华中科技大学, 2019. WANG Meng. A thesis submitted in partial fulfillment of the requirements[D]. Wuhan: Huazhong University of Science & Technology, 2019.
[19] 国家能源局.带电设备红外诊断应用规范: DL/T 664-2008[S].北京: 中国标准出版社, 2008. National Energy Administration. Application rules of infrared diagnosis for live electrical equipment: DL/T 664-2008[S]. Beijing: China Electric Power Press, 2008.
-
期刊类型引用(1)
1. 曹雷欣,程荣森. 基于改进CNN的红外与可见光图像融合方法. 信息与电脑(理论版). 2023(24): 137-139 . 百度学术
其他类型引用(2)