基于改进RetinaNet的电力设备红外目标精细化检测模型

苏海锋; 赵岩; 武泽君; 程博; 吕林飞

基于改进RetinaNet的电力设备红外目标精细化检测模型

华北电力大学电力工程系，河北保定 071000

基金项目:

国家重点研发计划 2017BJ0080

详细信息

作者简介:
苏海锋（1977-），男，河北石家庄人，讲师，博士，主要研究方向为智能配电网研究。E-mail：hfsups@163.com

通讯作者:
赵岩（1996-），男，河北保定人，硕士研究生，主要研究方向为电气设备智能检测。E-mail：1191755813@qq.com

中图分类号: TM85
计量
- 文章访问数: 269
- HTML全文浏览量: 49
- PDF下载量: 41
出版历程
- 收稿日期: 2021-09-07
- 修回日期: 2021-10-15
- 刊出日期: 2021-11-19

Refined Infrared Object Detection Model for Power Equipment Based on Improved RetinaNet

Department of Electrical Engineering, North China Electric Power University, Baoding 071000, China

摘要

摘要: 电力设备在运行过程中会产生大量红外图像，当红外图像中的电力设备存在排列密集、具有倾斜角度、大长宽比的情况时，基于水平矩形框的目标检测网络只能给出目标概略位置，易发生目标检测区域重叠，引入冗余背景信息，使得检测结果不够精细。针对此问题，提出在RetinaNet目标检测网络中引入旋转矩形框机制，并在网络输入端引入Mosaic数据增强技术；将原特征提取网络中ReLU函数替换为梯度流更平滑的Mish激活函数；在原模型FPN模块后追加PAN模块进一步融合图像特征。最后利用现场采集的电力设备红外图像制作数据集，将改进后的模型与Faster R-CNN、YOLOv3、原RetinaNet三种基于水平矩形框定位的目标检测网络进行对比评估，实验表明改进后的模型可以更为精细地检测出密集场景下带有倾角的电力设备红外目标，在多类别电力设备检测准确率对比上高于以上3种模型。
- 红外图像 /
- RetinaNet /
- 电力设备 /
- 卷积神经网络 /
- 目标检测
Abstract: A large number of infrared images are generated during the operation of power equipment. When the power equipment in the infrared image is densely arranged, incline-angled, and has a large aspect ratio, the target detection network based on a horizontal rectangular frame can only provide the approximate position of the target, which is prone to overlap with the target detection area and introduce redundant background information, giving detection results that are not sufficiently accurate. To solve this problem, we propose to introduce a rotating rectangular box mechanism into the retina net target detection network and mosaic data enhancement technology at the network input, replacing the ReLU function in the original backbone network with a smoother mish activation function of gradient flow; the Pan module is added after the FPN module of the original model to further fuse image features. Finally, the data set is made by using the power-equipment infrared images collected on-site. The improved model is compared and evaluated with three target detection networks based on horizontal rectangular frame positioning: fast R-CNN, YOLOv3, and original RetinaNet. The experiments show that the improved model can detect the infrared targets of power equipment with inclination in dense scenes more accurately, and the detection accuracy of multi-category power equipment is higher than that of the above three models.
- infrared image /
- RetinaNet /
- power equipment /
- convolutional neural network /
- object detection

HTML全文

0. 引言

受到自然界中照明、遮挡、天气等因素的影响，可见光图像中有时候并不能准确地观测到目标。相比之下，红外图像由于其独特的成像机制，能够获取到外界的热辐射信息，即使在极具有挑战性的可见光成像条件下，也可以捕获较多的目标信息，在许多现实应用中都发挥着重要的作用，如精确制导系统、森林火灾探测系统和海上监视及救援系统。因此，从红外图像中检测目标，特别是小目标，在过去的几十年里引起了广泛的关注，也是深度学习领域的一个活跃的研究课题^[1-4]。

相较于一般的目标检测任务，红外小目标检测通常面临着来自三方面的挑战：①由于成像距离远，红外图像中的目标通常很小，所占像素个数不超过整幅图像的0.2%；②受到背景中大量杂波以及噪声的影响，红外图像的信噪比通常较低，导致目标与背景难以区分；③目标通常缺乏特定的形状及纹理，且在不同的场景下形状及大小都会发生变化。

为了准确地检测出红外小目标，早期的研究人员提出了一些包括滤波^[5]、人类视觉系统（human vision system, HVS）^[6-8]和低秩表示^[9-12]在内的基于图像处理和机器学习技术的开创性工作。然而，这些传统算法通常存在一些局限性。基于滤波的方法，如高帽滤波、最大中值/最大平均滤波器^[13]，通常只能对均匀的背景杂波进行一定程度的抑制，而对应对复杂的背景噪声，导致较高的误报率，性能不稳定。对于基于人类视觉系统的方法，通过利用目标与背景之间的差异进行检测，由于严重依赖于手工制作的分割阈值，导致在复杂环境中的检测性能不佳。基于低秩表示的方法假设背景与目标分别具有稀疏性及低秩性，可以处理一些低信噪比的红外图像，但对复杂背景下具有形状较小且容易改变的目标的图像仍然存在较高的误警率。这些基于传统的红外小目标检测算法可以在一些简单的场景中表现出良好的性能，但由于依赖于超参数调优和手工制作的先验，通常会受到上述一些挑战，从而只具有有限的表示能力。

为了解决上述问题，许多研究人员将深度学习引入红外小目标检测领域^[14-15]。Wang等人^[16]基于条件对抗生成网络提出了MDvsFA（miss detection vs. false alarm）算法，实现了漏检率以及虚警率这两个指标之间的平衡。为了从不同的层中提取上下文特征，Dai等人^[17]提出了一种非对称上下文特征融合方法（asymmetric contextual modulation, ACM），并构建了一个红外小目标数据集（single-frame infrared small target, SIRST）。Li等人^[18]提出了一种密集嵌套注意网络（dense nested attention network, DNANet）来准确提取小目标特征。虽然这些方法比传统方法具有更好的性能，但它们仍然忽略了池化和降采样层的细节损失问题。同时，当面对包含有小且难以检测的目标以及复杂背景的情况时，这些模型通常缺乏足够的表达能力来产生有区别的表示。其次，这些基于卷积神经网络（convolutional neural networks, CNN）的模型^[19-22]通常会盲目堆叠许多层来扩大感受野来提取语义特征，这导致它们在提取全局上下文和利用低级别的细节特征方面效率低下，而这些对于检测小目标十分重要。

最近一段时间，Transformer结构在计算机视觉中得到广泛应用^[23-26]，并取得巨大的成功。其中，Transformer结构中的自注意力机制在远程依赖性以及局部自相似性方面的建模能力优于CNN，可以缓解基于CNN的红外小目标算法的局限性。然而直接使用标准的Transformer结构会面临两个问题：①标准全局自注意力的计算复杂度与空间维数呈平方关系，相反地，基于局部窗口的自注意力能很大程度上缓解计算资源的压力，然而由于仅在特定位置的窗口内对特征进行操作，导致感受域十分有限；②红外图像在空间上稀疏的，然而其特征在通道维度却具有较高的相关性，因此对通道维相关性建模的成本效益要高于捕获空间维相互依赖性。

为解决上述问题，本文在先前的研究工作基础上，提出了一种基于拉普拉斯金字塔多级Transformer的红外小目标检测算法（LPformer）。LPformer采用了一种类似U-Net^[27]的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（LPT）块堆叠而成，解码器设计了几个反卷积以及残差块用于对不同层级的特征进行聚合。值得注意的是，对于LPT块，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换（structural information transform, SIF）模块与主干网络中不同层级的LPT块进行融；同时，在LPT块中还采用了一种基于通道维的Transformer（spectral-wise transformer, SWT）结构，将每个通道特征图作为图像块（Token），并沿着通道维进行自注意力的计算。

1. 本文方法

1.1 总体框架

本文提出的LPformer总体框架如图 1所示，首先通过浅层特征提取模块对红外图像进行初步特征提取同时提升通道数，接着主干网络采用了一种类似U-Net的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（Laplace pyramid Transformer, LPT）块堆叠而成，瓶颈层由一个基于通道维的Transformer（spectral-wise transformer, SWT）块组成，解码器部分通过几个反卷积以及残差块用于对不同层级的特征进行聚合，在解码器后本文通过一个由几个卷积组成的head模块对分割结果进行预测，得到最终的二值化结果。具体来说，每个LPT块由SWT块、结构信息转换（structural information transform, SIF）块以及一个残差块串联而成。SWT块通过沿着通道维进行自注意力的计算，实现高效特征的提取，SIF块基于融合由红外图像中提取到的不同层级的拉普拉斯金字塔高频成分对输入特征进行高频部分的补偿，残差块由两个普通的3×3卷积，批归一化操作以及下采样操作组成，降低特征的空间尺寸同时提升通道数。

图 1 基于拉普拉斯金字塔多级Transformer的红外小目标检测框架

Figure 1. Infrared small target detection framework based on Laplacian pyramid multi-level transformer

下载: 全尺寸图片幻灯片

1.2 结构信息转换模块

为了克服红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换模块^[28]与主干网络中不同层级的LPT块进行融合，用于对损失的纹理信息进行补偿。

定义根据拉普拉斯金字塔算法提取到的3层高频成分金字塔P_H＝[H₀, H₁, H₂]，接着如图 2所示，高频结构信息首先经过一个普通卷积提取条件特征图，接着分别通过两组卷积层自适应地学习出一对放射变换系数(γ, β)，其维度与对应层级的由SWT输出的特征图F相同，接着通过下式得到融合后的特征图：

图 2 高频结构信息转换模块

Figure 2. High frequency structure information conversion module

下载: 全尺寸图片幻灯片

$$ {\text{SIT}}(F\mid \gamma ,\beta ) = \gamma \odot F + \beta $$

(1)

式中：$ \odot $表示点乘操作。

1.3 基于通道维的Transformer

由于红外小目标通常尺寸较小且亮度较暗，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的transformer（spectral-wise transformer, SWT）结构，总体结构如图 3(a)所示，输入特征首先经过层归一化操作，通过通道维自注意力计算（spectral-wise self-attention, SWSA）块（如图 3(c)所示）实现基于通道维度的自注意力的计算，接着进行残差连接与进一步的层归一化操作，最后通过前馈网络（如图 3(b)所示）增强模型的拟合能力。

图 3 基于通道维Transformer模块

Figure 3. Spectral-wise transformer block

下载: 全尺寸图片幻灯片

与标准空间维Transformer不同的是，基于通道维的Transformer块将输入特征图的每一个通道视作一个Token，并沿着通道维度进行自注意力的计算。首先将输入图像${X_{{\text{in }}}} \in {\mathbb{R}^{H \times W \times C}}$转换为Token$X \in {\mathbb{R}^{HW \times C}}$，其中H、W、C分别表示特征图的高度、宽度以及通道个数。再将X线性投影到query$Q \in {\mathbb{R}^{HW \times C}}$，key$ K \in {\mathbb{R}^{HW \times C}} $，value$V \in {\mathbb{R}^{HW \times C}}$，则有：

$$ Q＝XW^{Q}\text{，}K＝XW^{K}\text{，}V＝XW^{V} $$

(2)

式中：W^Q，W^K，${W^V} \in {\mathbb{R}^{C \times C}}$都是可以学习的参数。为简化问题，这里省略了biases项。这里，将特征图的每个通道都作为一个Token并进行自注意力的计算：

$$ A=\operatorname{softmax}\left(\boldsymbol{K}^{\mathrm{T}} Q\right) $$

(3)

$$ Z＝VA $$

(4)

式中：K^T代表K的转置矩阵；$ A \in {\mathbb{R}^{C \times C}} $表示生成的注意力特征图；$ Z \in {\mathbb{R}^{HW \times C}} $表示经过注意力加权后的特征，接着再添加位置编码信息：

$$ \operatorname{SWSA}(\boldsymbol{X})=Z+f_{\mathrm{p}}(\boldsymbol{V})$$

(5)

式中：f_p(V)是生成位置编码的函数。最后将上式的结果进行转换从而获得最终的输出特征图$ {X_{{\text{out }}}} \in {\mathbb{R}^{H \times W \times C}} $。

这里本文对其计算复杂度进行分析，由于基于通道维的自注意力将每个通道视为一个Token，并且每个Token的维度n等于H×W。因此其计算复杂度为：

$$ {O}_{(通道维自注意力计算)}=2HW{C}^{2} $$

(6)

而基于全局自注意力计算和基于窗口的自注意力计算的计算复杂度分别为：

$$ {O}_{(全局自注意力计算)}=2{(HW)}^{2}C $$

(7)

$$ {O}_{(基于窗口自注意力计算)}=2{M}^{2}HWC $$

(8)

其中M表示设定窗口的大小，这里不难看出，基于通道维的自注意力以及基于窗口的自注意力的计算复杂度都是与特征图的空间尺寸（H×W）呈线性关系，相比于全局计算自注意力要高效很多。同时，基于通道维的自注意力还将每个光谱特征作为Token，在计算自注意力A时，接受域是全局的，并不局限于特定位置的窗口。因此基于通道维的自注意力的感受野是整幅特征图并且不会受到特定窗口的限制。

为方便说明，如表 1所示，总结了各种自注意力结构的属性。

表 1 不同自注意力结构的属性比较

Table 1. Property comparison of different self-attention structures

Self-attention scheme	Global self-attention	Local-window self-attention	Spectral-wise self-attention
Receptive field	Global	Local	Global
Complexity to HW	Quadratic	Linear	Linear
Calculating wise	Spatial	Spatial	Spectral

下载: 导出CSV

| 显示表格

2. 实验结果与分析

2.1 数据集介绍

本文在NUDT-SIRST数据集上进行实验，包含了427张具有代表性的红外图像和480个不同场景的实例，其中将大约50%的数据用于训练、20%以及30%的数据分别用于验证及测试。

2.2 训练环境及实验设置

本文基于PyTorch1.13.1平台对所提出算法进行实验验证，GPU为GTX2080Ti，操作系统为Ubuntu20.04。本文采用AdaGrad作为优化器，初始学习率为0.04。训练过程总共需要持续500个epoch，衰减率为10⁻⁴，batch大小为8。本文同一些目前较为先进的红外小目标检测算法进行对比，包括：ALCNet^[29]，ACMNet^[17]，MDvsFA^[16]，WSLCM^[30]，TLLCM^[31]，IPI^[32]，NRAM^[33]，PSTNN^[34]以及MSLSTIPT^[35]。

2.3 评价指标

本文采用IoU、归一化交并比nIoU、检测率P_d以及虚警率F_a这几个常用的度量指标将所提出的LPformer与一些先进方法进行对比：

交并比IoU定义为：

$$ \text { IoU }＝A_{i}/A_{u } $$

(9)

式中：A_i和A_u分别表示相交区域和并集区域的大小；nIoU是IoU的标准化，即：

$$ \text {nIoU } = \frac{1}{N}\sum\limits_{i = 1}^N {(TP[i]/(} T[i] + P[i] - TP[i])) $$

(10)

式中：N表示样本总数；TP[⋅]表示被模型正确预测的正样本的像素数目，T[⋅]和P[⋅]分别表示图像中真实值和预测为正样本的像素数目。

检测率表示正确检测出的目标N_pred与所有目标N_all的比值：

$$P_{\mathrm{d}}=N_{\text {pree }} / N_{\text {all }} $$

(11)

虚警率F_a表示错误预测的目标像素数N_false与图像中所有像素N_all的比值：

$$ {F_{\mathrm{a}}} = {N_{{\text{false }}}}/{N_{{\text{all }}}} $$

(12)

2.4 消融实验

本文通过设置消融实验对不同模块对网络性能的影响进行分析，具体包括是否采用本文设计的基于通道维的Transformer模块（SWT），是否采用通过拉普拉斯金字塔（Laplace pyramid）提取高频信息对网络进行补偿以及是否采用结构信息转换（SIF）模块对所提取到的结构信息与主干网络中的特征进行融合。实验结果如表 2所示，同时本文还进行了可视化结果的对比，如图 4所示，分析可知：

表 2 消融实验结果

Table 2. Ablation study results

Index	SWT	Laplace	SIF	IoU	nIoU	P_d	F_a
1	×	√	√	70.24	70.69	96.36	30.54
2	√	√	×	73.45	71.36	97.32	24.54
3	√	×	×	71.43	70.63	96.93	28.42
4	×	×	×	69.76	70.05	95.25	41.32
5	√	√	√	75.42	72.79	98.17	20.98

下载: 导出CSV

| 显示表格

图 4 消融实验红外图像检测结果

Figure 4. Ablation study of infrared image detection results

下载: 全尺寸图片幻灯片

1）通过将实验1、实验5以及实验3、实验4分别进行对比可以发现，采用SWT模块可以使得网络在现有基础上的各项指标均实现提升，可视化检测结果也具有更加准确的目标边缘，得益于通道维自注意力计算，网络能够提升对特征图中的小目标的判别能力，因而效果有显著提升。

2）相较于实验5，实验3中并不包含基于拉普拉斯金字塔对红外图像进行不同尺度高频信息提取的结构信息补偿分支，可以看到IoU指标和nIoU指标分别降低了3.99%和2.16%，同时在可视化结果图中，实验5中的结果具有更加完整以及精确的目标形状，证明了为网络补充结构信息的必要性以及所采用方法的有效性。

3）实验2中，为充分验证SIF模块对于所提取到的结构信息与主干网络中的特征的融合能力，相较于实验5，本文将SIF模块替换为普通的特征相加操作，可以看到，各项指标均下降明显，同时可视化结果中的目标的完整性及准确性受到影响，证明SIF结构的有效性。

2.5 实验结果

为验证本文算法的先进性，在SIRST数据集上对目前已有的经典算法进行比较，如表 3所示。可以看到，一些基于手工先验的传统算法在处理具有挑战性的样例时较为受限，导致检测性能较其他基于深度学习方法相差很多。同时，在基于CNN的算法中，由于自身缺乏表达能力，导致不能准确地进行掩码预测，因此IoU以及nIoU指标都较低；此外，这类方法在存在噪声的背景下学习鉴别能力较弱，容易造成目标的错检以及漏检。与之相比，本文所提出的LPformer网络，在所有的评价指标方面都取得了最好的性能，并且和ALCNet相比，IoU指标和nIoU指标分别提升1.99%以及1.35%，本文将这一提升归因于所采用的高频结构信息补偿分支的设计以及基于通道维度Transformer模块的设计，分别能够为网络提供更多的细节信息以及提升网络的表达能力。除了对模型性能的比较以外，本文还对模型推理单张图像所耗费的平均时间进行了统计。由于一些传统算法的缺乏可比较性，这里只对一些基于深度学习的算法进行了比较，结果表明本文所采用的LPformer不仅在性能上领先其他算法，在算法复杂度及推理时间也优于其他大部分模型，能够满足一般现实中的使用条件。

表 3 对比实验结果

Table 3. Experimental results on different algorithms

Algorithm	IoU	nIoU	P_d	F_a	Time reasoning/s
WSLCM	4.41	33.82	91.74	22593	-
TLLCM	3.51	21.75	92.66	26498	-
IPI	2.62	4.16	84.40	203.07	-
NRAM	45.68	55.49	85.32	161.15	-
PSTNN	51.95	62.66	82.57	394.29	-
MSLSTIPT	20.21	24.74	82.57	259.75	-
MDvsFA	45.28	48.16	76.15	166.07	0.099
ACM	67.96	71.05	97.25	72.92	0.014
ALCNet	73.43	71.44	97.84	25.68	0.035
LPformer	75.42	72.79	98.17	20.98	0.024

下载: 导出CSV

| 显示表格

如图 5所示，本文对一些算法的检测结构进行了可视化，可以看到，即使是在较低对比度以及低信噪比的情况下，本文的LPformer不仅能够准确地对目标进行定位，还能获得一个大致完整和精确的目标形状，这与本文所利用拉普拉斯金字塔提取原始红外图像各层高频结构信息并与网络不同层级高效融合分不开。同时由于基于通道维度Transformer模块的设计提升了网络地表达能力和鉴别学习能力，和其他算法的检测结果相比，较少出现漏检以及错检情况。同时，如图 6所示，本文还绘制了5种性能先进的算法的（receiver operating characteristic，ROC）曲线，可以看到，本文所采用的LPformer网络的性能明显优于其他算法。

图 5 不同算法红外图像检测结果

Figure 5. Visual results of different algorithms on infrared image detection

下载: 全尺寸图片幻灯片

图 6 不同算法ROC曲线

Figure 6. Curves of ROC by different methods

下载: 全尺寸图片幻灯片

3. 结论

本文提出了一个新颖的LPformer网络来解决低对比度以及低信噪比挑战下的红外小目标检测任务。具体来说，针对红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率的问题，本文利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过引入一种结构信息转换模块与主干网络中不同层级的特征进行高效融合，用于对损失的纹理信息进行补偿。此外，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的Transformer，能够有效提升网络检测精度。通过在SIRST数据集上与其他现有算法进行的大量对比实验，证明了本文所提出的算法的优越性。

图 1 水平框与旋转框定位效果对比

Figure 1. Comparison of positioning effect between horizontal box and rotation box

下载: 全尺寸图片幻灯片

图 2 改进RetinaNet网络结构

Figure 2. The network architecture of improved RetinaNet mode

下载: 全尺寸图片幻灯片

图 3 Mosaic数据增强

Figure 3. Mosaic data augmentation

下载: 全尺寸图片幻灯片

图 4 两种激活函数

Figure 4. Two activation functions

下载: 全尺寸图片幻灯片

图 5 旋转矩形框示意图

Figure 5. Schematic of the rotating rectangular box

下载: 全尺寸图片幻灯片

图 6 本文使用的先验框策略

Figure 6. Anchor strategy in our method

下载: 全尺寸图片幻灯片

图 7 损失曲线

Figure 7. Loss curve

下载: 全尺寸图片幻灯片

图 8 模型检测结果

Figure 8. Model test results

下载: 全尺寸图片幻灯片

表 1 不同检测模型对比测试结果

Table 1 Comparison of the test results of different detectionmodels

Method	AP					mAP
Method	Breaker	Insulator	Switch	PT	CT	mAP
Faster R-CNN	94.47	89.21	87.23	96.45	95.44	92.56
YOLOv3	90.62	86.52	82.09	92.03	91.37	88.53
RetinaNet	94.96	90.05	88.57	96.03	96.19	93.16
Ours method	97.51	92.84	90.61	98.69	97.86	95.50

下载: 导出CSV

参考文献(21)

[1]	谭宇璇, 樊绍胜. 基于图像增强与深度学习的变电设备红外热像识别方法[J/OL]. 中国电机工程学报, [2021-07-30]. http://kns.cnki.net/kcms/dtail/11.2107.tm.20210601.1000.002.html. TAN Yuxuan, FAN Shaosheng. Infrared thermal image recognition of substation equipment based on image enhancement and deep learn-ing[J/OL]. Proceedings of the CSEE, [2021-07-30]. http://kns.cnki.net/kcms/dtail/11.2107.tm.20210601.1000.002.html.
[2]	冯振新, 周东国, 江翼, 等. 基于改进MSER算法的电力设备红外故障区域提取方法[J]. 电力系统保护与控制, 2019, 47(5): 123-128. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW201905015.htm FENG Zhenxin, ZHOU Dongguo, JIANG Yi, et al. Fault region extraction using improved MSER algorithm with application to the electrical system[J]. Power System Protection and Control, 2019, 47(5): 123-128. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW201905015.htm
[3]	Jadin M S, Taib S. Recent progress in diagnosing the reliability of electrical equipment by using infrared thermography[J]. Infrared Physics & Technology, 2012, 55(4): 236-245. http://www.onacademic.com/detail/journal_1000035395435610_ae85.html
[4]	曾军, 王东杰, 范伟, 等. 基于红外热成像的电气设备组件识别研究[J]. 红外技术, 2021, 43(7): 679-687. http://hwjs.nvir.cn/article/id/58024112-8052-43d6-8a2d-dd2460dfa5e1 ZENG Jun, WANG Dongjie, FAN Wei, et al. Research on electrical equipment component recognition based on infrared thermal imaging[J]. Infrared Technology, 2021, 43(7): 679-687. http://hwjs.nvir.cn/article/id/58024112-8052-43d6-8a2d-dd2460dfa5e1
[5]	朱惠玲, 牛哲文, 黄克灿, 等. 基于单阶段目标检测算法的变电设备红外图像目标识别及定位[J]. 电力自动化设备, 2021, 41(8): 217-224. https://www.cnki.com.cn/Article/CJFDTOTAL-DLZS202108032.htm ZHU Huiling, NIU Zhewen, HUANG Kecan, et al. Infrared image target recognition and location of substation equipment based on single-stage target detection algorithm[J]. Power Automation Equipment, 2021, 41(8): 217-224. https://www.cnki.com.cn/Article/CJFDTOTAL-DLZS202108032.htm
[6]	吴克河, 王敏鉴, 李渊博. 基于Mask R-CNN的电力设备红外图像分割技术研究[J]. 计算机与数字工程, 2020, 48(2): 417-422. DOI: 10.3969/j.issn.1672-9722.2020.02.029 WU Kehe, WANG Minjian, LI Yuanbo. Research on infrared image segmentation technology of power equipment based on mask R-CNN[J]. Computer & Digital Engineering, 2020, 48(2): 417-422. DOI: 10.3969/j.issn.1672-9722.2020.02.029
[7]	刘云鹏, 裴少通, 武建华, 等. 基于深度学习的输变电设备异常发热点红外图片目标检测方法[J]. 南方电网技术, 2019, 13(2): 27-33. https://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201902006.htm LIU Yunpeng, PEI Shaotong, WU Jianhua, et al. Deep learning based target detection method for abnormal hot spots infrared images of trans-mission and transformation equipment[J]. Southern Power System Technology, 2019, 13(2): 27-33. https://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201902006.htm
[8]	REN Shaoqing, HE Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Advances in Neural Information Processing Systems, Montreal, Canada, 2015: 91-99.
[9]	Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL]. [2018-04-08]. https://arxiv.org/abs/1804.02767.
[10]	LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detec-tor[C]// Proceedings of the European Conference on Computer Vision. Amsterdam, 2016: 21-37
[11]	李文璞, 谢可, 廖逍, 等. 基于Faster RCNN变电设备红外图像缺陷识别方法[J]. 南方电网技术, 2019, 13(12): 79-84. https://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201912012.htm LI Wenpu, XIE Ke, LIAO Xiao, et al. Intelligent diagnosis method of infrared image for transformer equipment based on improved faster RCNN[J]. Southern Power System Technology, 2019, 13(12): 79-84. https://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201912012.htm
[12]	王永平, 张红民, 彭闯, 等. 基于YOLO v3的高压开关设备异常发热点目标检测方法[J]. 红外技术, 2020, 42(10): 983-987. http://hwjs.nvir.cn/article/id/hwjs202010011 WANG Yongping, ZHANG Hongmin, PENG Chuang, et al. The Target detection method for abnormal heating point of high-voltage switchgear based on YOLO v3[J]. Infrared Technology, 2020, 42(10): 983-987. http://hwjs.nvir.cn/article/id/hwjs202010011
[13]	梁杰, 李磊, 周红丽. 基于改进SSD的舰船目标精细化检测方法[J]. 导航定位与授时, 2019, 6(5): 43-51. https://www.cnki.com.cn/Article/CJFDTOTAL-DWSS201905009.htm LIANG Jie, LI Lei, ZHOU Hongli. A ship target refinement detection method based on improved SSD[J]. Navigation Positioning & Timing, 2019, 6(5): 43-51. https://www.cnki.com.cn/Article/CJFDTOTAL-DWSS201905009.htm
[14]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision, 2017: 2999-3007.
[15]	Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[J/OL]. Computer Vision and Pattern Recognition, 2020, https://arxiv.org/abs/2004.10934.
[16]	Misra D. Mish: a self regularized non-monotonic neural activation func-tion[J/OL]. Computer Science, 2019, https://arxiv.org/abs/1908.08681.
[17]	LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[18]	LIN T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[19]	Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651. http://www.open-open.com/misc/goto?guid=4959637963303133294
[20]	NAIR V, HINTON G E. Rectified linear units improve restricted boltz-mann machines[C]//Proceedings of the 27th International Conference on Machine Learning(ICML-10), 2010: 807-814.
[21]	WEN Long, GAO Liang, LI Xinyu. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(1): 136-144. DOI: 10.1109/TSMC.2017.2754287

施引文献(3)

期刊类型引用(3)

1.	刘祺，曹林，田澍，杜康宁，宋沛然，郭亚男. 用于遥感图像变化检测的结构感知多尺度混合网络. 激光与光电子学进展. 2024(14): 323-333 . 百度学术
2.	闵锋，刘彪，况永刚，毛一新，刘煜晖. 基于空间自适应和内容感知的红外小目标检测. 红外技术. 2024(07): 735-742 . 本站查看
3.	陈怡馨，马曾. 无线网络信息差分隐私的动态可搜索加密仿真. 计算机仿真. 2024(10): 424-427+442 . 百度学术

其他类型引用(0)

资源附件(0)

图(8) / 表(1)

计量

文章访问数: 269
HTML全文浏览量: 49
PDF下载量: 41
被引次数: 3

0. 引言
1. 本文方法
1.1 总体框架
1.2 结构信息转换模块
1.3 基于通道维的Transformer
2. 实验结果与分析
2.1 数据集介绍
2.2 训练环境及实验设置
2.3 评价指标
2.4 消融实验
2.5 实验结果
3. 结论

基于改进RetinaNet的电力设备红外目标精细化检测模型

作者简介: 苏海锋（1977-），男，河北石家庄人，讲师，博士，主要研究方向为智能配电网研究。E-mail：hfsups@163.com

通讯作者: 赵岩（1996-），男，河北保定人，硕士研究生，主要研究方向为电气设备智能检测。E-mail：1191755813@qq.com

计量

出版历程