Classification of Ultrasonic Infrared Thermal Images Using a Convolutional Neural Network
-
摘要: 在超声红外热像技术应用中,从红外热图像来判断被测对象是否含有裂纹,通常需要先基于人工经验,从红外热图像中提取特征再采用某种模式识别方法进行分类,裂纹的识别与定位过程繁琐且识别率较低。为此,提出一种基于卷积神经网络技术的超声红外热图像裂纹检测与识别方法,其特点是可以直接从超声红外图像中学习特征进而实现是否含有裂纹红外热图像的分类。通过实验得到的含裂纹和不含裂纹金属平板试件的红外热图像,建立卷积神经网络模型对图像中是否含有裂纹进行分类,研究结果表明,参数优化后的卷积神经网络模型对超声红外热图像的有无裂纹分类准确率达到98.7%。Abstract: In the application of ultrasonic infrared thermographic technology, it is usually necessary to extract features from infrared thermographic images based on artificial experience and then adopt a pattern recognition method to classify the cracks. The identification and positioning process of the cracks is complicated, and the recognition rate is low. Therefore, a method of crack detection and recognition in ultrasonic infrared thermal images based on convolutional neural network technology is proposed in this paper. Its feature is that the features can be directly learned from the ultrasonic infrared image to realize the classification of infrared thermal images containing cracks. Thesis through the research experiment of metal plate specimen of the crack in and do not contain infrared thermal images, the convolutional neural network model is established for whether the image contains crack classification, the results show that the parameter optimized convolution neural network model for ultrasonic infrared thermal images of crack classification accuracy rate reached 98.7%.
-
0. 引言
水下废弃物红外目标检测是一项具有挑战性的任务;由于受到水下环境中光照不均匀、水质模糊、散射等因素的影响,导致收集到的水下图像质量差;因此,水下废弃物的边界和细节往往难以清晰地展现,给目标检测增加了难度。此外,水下废弃物的多样性和复杂性也给模型在特殊环境下的适应能力和泛化能力带来了挑战;模型需要具备识别不同尺度、形态、材质废弃物的能力。同时也需要具备识别光照和水流等因素引起的物体形态变化的能力。
水下废弃物与周围环境之间存在着极高的相似性,目标与背景之间具有相似的颜色、纹理和形状,使得模型很难区分目标和背景。因此会出现误检和漏检的现象,从而降低目标检测的准确性。
为了克服这些挑战,研究人员采用了各种方法去解决上述问题。例如,Schechner等人[1]介绍了一种基于偏振信息的图像去雾方法,以改善水下图像的清晰度。然而,该方法需要使用偏振摄影设备来获取偏振信息,因此极大地增加了硬件成本以及实施的复杂性。除此之外,还有一些方法尝试利用水下图像中的颜色信息进行目标检测,如Bazeilles等人[2]通过对水下图像中的颜色进行判别来检测水下物体。然而,由于水下环境和海洋生物的颜色相似性较高,这种方法在精确度方面存在一定的限制。也有研究人员通过增强水下图像的对比度和细节来改善目标检测的效果。例如,Li等人[3]提出的一种基于最小信息损失和直方图分布先验的水下图像去雾方法。该方法对先验信息的准确性和适用性有一定要求,由于水下环境的复杂性和图像特征的多样性导致先验信息不准确,从而影响去雾结果的准确性。
随着深度学习在目标检测领域的发展,一阶段目标检测模型[4-10]和二阶段目标检测模型[11-15]逐渐被应用到水下目标检测当中。一阶段目标检测模型能够直接从输入图像中预测目标的位置和类别,无需进行额外的候选区域生成步骤。在这方面,陈鑫林[9]提出了一种自适应亮度与水下图像处理方法,对PP-YOLO模型进行改进,引入了自适应多尺度融合和优化损失函数,提高YOLO模型在水下目标检测中的鲁棒性。另外,袁红春等人[10]在YOLOv5检测部分嵌入CBAM注意力机制,并将卷积模块替换为Ghost卷积模块,以减少模型的计算量。除了一阶段目标检测模型以外,在水下目标检测中,二阶段模型通常具有较高的准确性,能够更好地处理目标与背景相似性较高的问题。在这方面,吕晓倩[14]首先通过生成对抗网络增强图像,修正图像的色彩和细节,并利用STN数据增广来弥补数据集数量的不足,最后采用Faster-RCNN[11]网络进行目标的检测。此外王蓉蓉等人[15]利用HRNet替代CenterNet[13]中的骨干网络,并引入瓶颈注意力模块,最后构建特征融合模块以丰富模型的语义信息和空间位置信息。虽然这些方法都对模型进行了改进,但在水下目标检测环境中,仍存在精度方面的问题尚未得到解决。
本文针对水下红外目标检测中存在的问题和目前算法存在的局限性,提出了一种基于YOLOv5的改进模型,该模型主要包含以下几个部分:
1)为提升模型在水下目标检测中的精度,利用InceptionNeXt[16]网络替换YOLOv5中的主干网络,以增强网络的表达能力。
2)为解决红外水下目标的多样性和种类繁多的问题,在特征融合层引入EffectiveSE[17](Effective Squeeze-Excitation)注意力机制,通过学习通道之间的相互依赖关系,将通道注意力权重进行自适应的融合,以更好地捕捉特征之间的相关性。
3)为解决红外水下物体与背景具有极高相似度的问题,改用Focal-EIOU[18](Focal and Efficient IOU)损失函数,提升定位目标和边界框之间的准确性。
4)为增强红外水下目标检测模型的鲁棒性,采用DCNv2[19](Deformable Convolutional Network),通过可变形卷积操作,使得模型能够更好地感知目标的形状和细节信息。
5)为解决红外水下目标检测中图片像素低的问题,利用CARAFE[20](Content-Aware Reassembly of Features)替代原模型中上采样的工作,通过可学习的组装操作,对特征图进行更细粒度的重组,从而增强模型对细节信息的感知能力。
6)为应对红外水下目标检测中存在的误检和漏检的情况,引入DyHead[21](Dynamic Head)替换Head部分,根据目标的大小和形状自适应地调整感受野的大小。使得模型能够更好地适应不同尺度的目标,增强模型对目标的感知能力。
1. 本文方法
1.1 提高特征表达能力的InceptionNeXt网络引入
为了增强网络的表达能力和特征提取能力,本文将InceptionNeXt作为主干网络。InceptionNeXt是一种结合了Inception模块和ConvNeXt模块的网络架构,旨在更好地捕捉输入特征的多尺度信息和多层次特征表示。
通过式(1)~(8)组合不同尺度和层次的特征表示,InceptionNeXt网络可以提高模型的表达能力和特征提取能力。同时由于模块内部的并行操作和模块之间的串联连接,InceptionNeXt网络具有较少的参数量和计算量,从而在实际应用中具备较高的效率和实用性,其中InceptionNeXt的结构如图 1所示。
$$ a=F\left(\mathrm{BN}\left(C\left(x, k_1\right), \text { gamma, beta }\right)\right) $$ (1) $$ b_1=F\left(\mathrm{BN}\left(C\left(x, k_2\right), \text { gamma, beta }\right)\right) $$ (2) $$ b_2=F\left(\mathrm{BN}\left(C\left(b_1, k_3, \text { stride }=s\right), \text { gamma, beta }\right)\right) $$ (3) $$ c_1=F\left(\mathrm{BN}\left(C\left(x, k_4\right), \text { gamma, beta }\right)\right) $$ (4) $$ c_2=F\left(\mathrm{BN}\left(C\left(c_1, k_5, \text { pad }=p\right), \text { gamma, beta }\right)\right) $$ (5) $$ c_3=F\left(\mathrm{BN}\left(C\left(c_2, k_6, \text { stride }=s\right), \text { gamma, beta }\right)\right) $$ (6) $$ d=F\left(\mathrm{BN}\left(C\left(x, k_7, \text { stride }=s\right), \text { gamma, beta }\right)\right) $$ (7) $$ \text { Inception= Concatenate }\left(a, b_2, c_3, d\right) $$ (8) 式(1)~(8)中:a、b、c、d分别是Inception层内不同分支的输出;k代表卷积核大小;s代表步长;n代表输入的通道数。F表示ReLU激活函数;C表示Convolution卷积运算;BN是批归一化操作。通过这样的多个Inception模块的堆叠,可以构建出一个深度、准确率较高的图像特征提取网络。
1.2 基于自适应学习通道权重的注意力机制改进
为了提高模型性能并增强表达能力,本文在特征融合层加入了EffectiveSE注意力机制。EffectiveSE是一种轻量级的注意力机制,旨在增强神经网络的特征表达能力。
EffectiveSE的过程可以用公式(9)~(11)表示:
首先,对于输入的特征图Xijc,进行全局平均池化得到每个通道的权重:
$$ {W_c} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{X_{ijc}}} } $$ (9) 然后,通过一个全连接层将权重Wc映射到一个新的激活值f′(wc; θ)(其中θ是可学习的参数),并对激活值进行sigmoid激活:
$$ S_c=\sigma\left(f^{\prime}\left(w_c ; \theta\right)\right) $$ (10) 最后,将每个通道的权重Sc乘以原始的特征图X,生成加权特征图Y。
$$ Y_{i j c}=S_c X_{i j c} $$ (11) 式中:H和W分别是输入的特征图的高和宽;c是特征图的通道数。通过这样的过程,EffectiveSE的注意力机制可以增强有用的特征并减弱无用的特征,从而提高模型的性能和效率。EffectiveSE的结构如图 2所示。
1.3 针对背景高相似度的损失函数改进
为了解决损失函数对难例样本的关注度不足的问题,将Focal-EIOU指标替代原有的CIOU模块。Focal-EIOU是一种用于衡量目标检测模型性能的指标,它将焦点因子(focal factor)引入到EIOU(enhanced intersection over union)指标中,从而提升难例样本的识别能力。
其中,Focal-EIOU如公式(12)所示:
$$ L_{\text {focal-EIOU }}=\mathrm{IoU}^{\gamma} / L_{\text {EIOU }} $$ (12) 式(12)中:γ是一个用于控制曲线弧度的超参;LEIOU的公式如(13)所示:
$$ \begin{array}{l} {L_{{\text{EIOU}}}} = {L_{{\text{IOU}}}} + {L_{{\text{dis}}}} + {L_{{\text{asp}}}} = \hfill \\ \quad 1 - {\text{IoU}} + \frac{{{\rho ^2}\left( {b,{b^{{\text{gt}}}}} \right)}}{{{c^2}}} + \frac{{{\rho ^2}\left( {w,{w^{{\text{gt}}}}} \right)}}{{c_w^2}} + \frac{{{\rho ^2}\left( {h,{h^{{\text{gt}}}}} \right)}}{{c_h^2}} \hfill \\ \end{array} $$ (13) 式(13)中:cw和ch分别是两个矩形的闭包的宽和高。从中可以看出,EIOU将损失函数分成了3个部分:IOU损失LIOU,距离损失Ldis,边长损失Lasp,其中,EIOU如图 3所示。总的来说,Focal-EIOU指标能够更加准确地衡量目标检测的性能,同时加强对目标的位置、大小、姿态和形状的感知能力。
通过焦点因子的设计,使得Focal-EIOU指标能够增加对难例样本的关注度,使模型更加专注于难以检测的目标实例。提升模型在目标实例上的检测性能,并增强模型对小目标和遮挡目标的检测能力。
1.4 针对目标尺度变化的建模能力改进
为了提升模型的感知能力,文中将DCNv2替代原模型的C3模块。DCNv2能够自适应地学习卷积核的形状和位置,进一步提高目标检测的准确性和性能。通过DCNv2,模型能够在输入特征图的关键区域进行非整形采样,从而更好地适应图像中形变的物体;其中可变形卷积的示意图如图 4所示。
DCNv2中主要提出了两种新的卷积核学习机制,分别是Deformable point-wise卷积和Deformable dilated卷积。Deformable point-wise卷积用于学习动态卷积核的位置。Deformable dilated卷积则通过学习非整数采样点的空洞卷积计算,从而识别物体的边缘。
DCNv2的公式和计算过程如下,其中对于Deformable point-wise卷积的过程,如公式(14)所示。
首先,假设输入特征图为X∈RC×H×W,正常的卷积核为$ K \in {R^{C \times {k_h} \times {k_w}}} $,即将卷积核放在输入特征图上进行卷积运算。
然后沿着通道维度把输入特征图X分成形状为C′×kh×kw的patch,设为$ {X_{n,c'}} \in {R^{{k_h} \times {k_w}}} $。那么第c′个输出通道上的值Yn, c′为:
$$ {Y_{n,c'}} = \sum\limits_{i = 1}^{{k_h}} {\sum\limits_{j = 1}^{{k_w}} {{W_{c'}}\left( {i,j} \right) \cdot {X_{n,c'}}\left( {j,i} \right)} } $$ (14) 式中:c′是输出通道的索引;$ {W_{c'}} \in {R^{{k_h} \times {k_w}}} $是卷积核中各个位置的权重,即可学习的参数,用于捕获不同位置的特征。
为了学习每个位置的权重,DCNv2增加了偏置Δp。对于每个位置(i, j),新的偏置Δpi, j需要用于更新位置(i, j)的权重Wc(i, j)。通过计算沿着每个位置的梯度来获得Δpi, j,然后使用反向传播来更新Wc(i, j)和Δpi, j。
总体而言,DCNv2利用动态卷积核的位置和非整形采样技术,实现了高精度和高性能的物体检测和分割,并且在不增加计算成本的情况下降低了大规模图像数据的标注和训练成本。这一步提升了模型对于不规则和变形物体的感知能力。
1.5 基于细粒度重组的CARAFE
为了增强模型对细粒度特征的感知能力,本文引入了CARAFE替代原有的上采样操作。CARAFE由两个步骤组成:第一步是根据每个目标位置的内容预测一个重组核,第二步是用预测的核对特征进行重组。给定一个尺寸为C×H×W的特征图X和上样本比σ(假设σ为整数),CARAFE将生成一个尺寸为C×σH×σW的新特征图X0。
其中,CARAFE的计算过程如公式(15)~(16)所示:
$$ W_{l^{\prime}}=\psi\left(N\left(x_l, k_{\mathrm{encoder}}\right)\right) $$ (15) $$ x_{l^{\prime}}^{\prime}=\phi\left(N,\left(x_l, k_{u p}\right), W_{l^{\prime}}\right) $$ (16) 式(15)、(16)中:ψ表示核预测模块;l′表示相应的位置;Wl′表示在l′位置方面的核;ϕ表示将xl的与内核Wl′重组为x′l′。
CARAFE模块能够对特征进行细粒度的重组,从而提高模型对细节信息的感知能力。
1.6 基于自适应调整感受野的DyHead
为了提升模型的精度和泛化能力,本文引入了DyHead替代原有模型的Head部分。
DyHead的核心思想是将注意力机制应用于检测模型的头部;通过在检测头中引入注意力模块,DyHead能够自适应地调节卷积核的大小和形状,以解决传统固定卷积核大小和形状所带来的物体尺寸和形状变化的问题。
DyHead的注意力机制主要包括3个部分:Scale-aware注意力机制、Spatial-aware注意力机制、Task-aware注意力机制。
Scale-aware注意力;通过引入尺度感知注意力基于其语义重要性对不同尺度特征进行融合,过程如公式:
$$ \pi_L(F) \cdot F=\sigma\left(f\left(\frac{1}{S C} \sum\limits_{S, C} F\right)\right) \cdot F $$ (17) 式(17)中:f(⋅)为线性函数,采用1×1卷积近似;σ(x)为hard-sigmoid激活函数。
Spatial-aware注意力引入另一个空间位置感知注意力模块以聚焦不同空间位置的判别能力。首先采用形变卷积对注意力学习稀疏化,然后进行特征跨尺度集成,过程如公式:
$$ {\pi _L}\left( F \right) \cdot F = \frac{1}{L}\sum\limits_{l = 1}^L {\sum\limits_{k = 1}^K {{w_{l,k}} \cdot F\left( {l;{p_k} + {\Delta _{k;c}}} \right)} } \cdot \Delta {m_k} $$ (18) 式(18)中:K为稀疏采样位置数。
Task-aware注意力机制为促进联合学习与目标表达能力的泛化性,我们设计了一种任务感知注意力。它可以动态开关特征通道以辅助不同任务,过程如公式:
$$ \pi_c(F) \cdot F=\max \left(\alpha^1(F) \cdot F_c+\beta^{\prime}(F), \alpha^2(F) \cdot F_c+\beta^2(F)\right) $$ (19) 式(19)中:[α1, α2, β1, β2]T=θ(⋅)为超参数,用于控制激活阈值,而θ(⋅)为ReLU函数。
DyHead通过组合不同的卷积核,来处理不同尺度的物体。为了保持计算效率,DyHead还增加了自适应的卷积核的数量选择机制,以根据物体的尺寸和形状选择不同数量的卷积核来适应不同的物体。其中,DyHead的结构如图 5所示。
1.7 改进后的EFDCD-YOLO网络模型
为了解决水下废弃物红外目标检测中的复杂问题,本文对YOLOv5模型进行了改进[22],并提出了EFDCD-YOLO模型,模型的主要流程如图 6所示。从图 6中可以看出,模型在主干网络部分引入InceptionNeXt替代原有YOLOv5的CSPDarknet53主干网络,通过多尺度和多层次的特征提取,以及参数共享和并行操作的设计,提高了模型的表达能力和特征提取能力。其次,在Neck的特征融合层中,采用CARAFE算子对一层卷积后的特征图进行上采样操作,然后利用EffectiveSE注意力机制对特征图的空间信息进行建模,将空间注意力权重与通道注意力权重相乘,以增强特征的判别能力。此外,将DCNv2替代C3模块,以提升目标检测的准确性和性能,同时保持较快的推理速度。最后,在头部分采用了DyHead的思想,将经过可变形卷积处理的特征图输入,通过多尺度特征融合的方式,有效地结合来自不同层级的特征,提取丰富的语义信息,并增强模型对目标的表示能力。通过上述改进,提高了模型在目标检测任务中的泛化能力。
2. 实验结果与分析
2.1 实验环境
在模型训练的过程中将模型epoch设置为100,其他参数都是YOLOv5 6.0的默认版本。其中,实验环境如表 1所示。
表 1 实验环境配置Table 1. Experimental environment configurationConfiguration item Configuration item parameter CPU Intel(R)Core(TM)i9-10900X CPU@3.70GHz GPU NVIDIA RTX2080ti Graphics card 12G OS version Ubuntu20.04 CUDA 10.2 Compiling environment Python3.8+Pytorch1.12.1 2.2 数据集介绍
为了评估文中提出的EFDCD-YOLO模型在水下废弃物红外目标检测中的性能,本文选择了Trash-ICRA19[23]数据集作为模型测试的基准。Trash-ICRA19数据集源自J-EDI海洋废弃物数据,其中包含了从真实环境中捕捉到的多种类型的海洋碎片图像。研究人员对收集到的图像进行处理,并提取出了5700张图像。而这些图像总共涵盖了3大类别分别是:plastic(塑料)、bio(生物)、rov(遥控潜水器),并为它们标注了边界框。为了进行训练和测试,对红外图像图 7(b),通过HSV变换得到图 7(c),经过综合变换得到图 7(d)。
文中按照训练集和测试集9:1的比例将这些图像划分为5130张训练集和570张测试集。通过在上述数据集上进行测试,能够更为全面地评估文中改进模型在水下废弃物红外目标检测任务中的性能。
2.3 评价指标
为评估模型在水下红外目标检测中的性能,文中采用P(精确率)、R(召回率)、mAP(各类别的AP平均值)、GFLOPs(神经网络的计算量)、Params(参数量)的评价指标,各个指标的计算方法如公式(20)~(23)所示:
$$ P = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} $$ (20) $$ R = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}} $$ (21) 式(20)、(21)中:TP(True Postives)为正样本被正确检测的数量;FP(False Postives)为正样本被错误预测的数量;FN(False Negatives)为负样本被错误检测的数量。
$$ {\text{AP}} = \int_0^1 {P\left( R \right)} {\text{d}}R $$ (22) $$ {\text{mAP}} = \frac{{\sum\limits_1^n {{\text{A}}{{\text{P}}_l}} }}{n} $$ (23) 式(22)、(23)中:为检测目标的类别数;APl为类别l的平均准确度。
2.4 实验结果分析
为了平衡不同尺度和层次的特征表示,以提升模型的表达能力和特征提取能力,实验对YOLOv5模型的主干网络模块进行了替换,并比较了CSPDarknet53和InceptionNeXt在YOLOv5模型上精度、计算量和参数量的变化。结果如表 2所示。
表 2 替换主干网络实验Table 2. Replacing the backbone network experimentmAP/% GFLOPs/G Params/M CSPDarknet53 43.8 15.8 7.0 InceptionNeXt 53.0(+9.2) 75.2 32.2 从表 2可以看出,通过替换主干网络,网络InceptionNeXt相较于原有主干网络CSPDarknet53提升了9.2%的精度。尽管这些替换会增加模型的计算量和参数量,但在精度方面却取得了性能上的提升。实验结果表明,从实验的计算量和参数量上来看,在Trash-ICRA19数据集上引入InceptionNeXt网络可以扩展网络的宽度和深度,从模型的平均精度上来看,InceptionNeXt加强了改进算法的表达能力和特征提取能力,提升了模型在水下目标检测任务中的检测精度。
为了评估在特征融合层中引入注意力机制对模型的影响,实验以引入InceptionNeXt网络的YOLOv5模型为基准,在Trash-ICRA19数据集上对比了引入CoordAttention[24]、GAM[25]、BiFormer[26]、SGE[27]、EffectiveSE注意力机制后模型在精度、计算量和参数量上的变化。实验结果如表 3所示。
表 3 添加注意力机制实验Table 3. Add attention mechanism experimentmAP/% GFLOPs/G Params/M BaseLine 53.0 75.2 32.2 CoordAttention+ 53.2(+0.2) 75.2 32.2 GAM+ 53.6(+0.6) 107.9 42.4 SGE+ 53.6(+0.6) 75.1 32.2 BiFormer+ 55.0(+2.0) 139.6 33.8 EffectiveSE+ 55.0(+2.0) 75.4 32.6 从表 3可以观察到,在引入GAM和BiFormer的注意力机制后,模型的精度有一定的提升,但极大程度地增加了模型的计算量和参数量。加入CoordAttention、SGE和EffectiveSE注意力机制后,虽然在计算量和参数量上有着小幅度增加,但是分别实现了0.2%、0.6%和2%的精度提升。
尽管EffectiveSE和BiFormer注意力机制都提升了2%的精度,但综合考虑到计算资源和参数量的变化,因此选择在特征融合层中引入EffectiveSE注意力机制。
EffectiveSE注意力的优势在于提升模型精度的同时在计算量和参数量上的增加相对较小,更有助于模型捕捉关键特征。
为了提高目标定位精度和边界框回归的准确性,实验选择引入InceptionNeXt主干网络和EffectiveSE注意力机制为基线模型,并将模型中的CIOU损失函数替换为DIOU[28]、SIOU[29]、WIOU[30]和FocalEIOU,以评价改进后的IOU对模型精度、计算量和参数量的影响。实验结果如表 4所示。
表 4 损失函数改进实验Table 4. Improvement experiment of loss functionmAP/% GFLOPs/G Params/M BaseLine 55.0 75.4 32.6 SIOU+ 55.0(+0.0) 75.4 32.6 WIOU+ 55.0(+0.0) 75.4 32.6 DIOU+ 55.6(+0.6) 75.4 32.6 FocalEIOU+ 55.7(+0.7) 75.4 32.6 从表 4可以观察到,更改模型的损失函数以后,模型的计算量和参数量并未发生变化。但是通过替换DIOU和FocalEIOU损失函数,模型的精度分别提升了0.6%和0.7%,因此选择将FocalEIOU作为改进算法的损失函数。
将损失函数替换为FocalEIOU后模型在未增加额外计算量和参数量的情况下,能够更好地衡量目标定位的准确性,从而提高检测结果的质量。
为了增强模型的感受野、改善目标定位、增加模型对细粒度特征的感知能力,实验采用可变形卷积DCNv2替代YOLOv5模型中的卷积操作,引入CARAFE替代原模型的上采样操作,并将模型中的Detect模块改为利用多尺度特征融合的DyHead模块。实验以InceptionNeXt为主干网络、EffectiveSE注意力和FocalEIOU损失函数为基线模型。并评估了在引入DCNv2、CARAFE和DyHead后,模型在Trash-ICRA19数据集上精度、计算量和参数量的变化,实验结果如表 5所示。
表 5 添加DCNv2、CARARE和DyHead的实验结果Table 5. Add DCNv2, CARARE, and DyHead experiment resultsDCNv2 CARAFE DyHead mAP/% GFLOPs/G Params/M - - - 55.7 75.4 32.6 √ 55.8(+0.1) 74.0 32.7 √ 55.9(+0.2) 75.8 32.7 √ 56.4(+0.7) 76.2 32.8 √ √ 55.8(+0.1) 74.3 32.9 √ √ 56.5(+0.8) 74.8 33.0 √ √ 57.3(+1.6) 76.5 33.0 √ √ √ 57.4(+1.7) 75.0 33.2 从表 5可以观察到将DCNv2、CARAFE、DyHead进行不同的配置实验后,模型在平均精度、计算量和模型参数量上的变化。在改变模型的卷积操作后,模型在提高精度的同时,减少了模型的计算量。另一方面,模型选择CARAFE算子,在提升模型的精度和鲁棒性的同时,还增加了对细粒度特征的感知能力[20]。引入DyHead使模型的精度提升了0.8%,虽然计算量和参数量小幅度提高,但得到了更准确的目标定位和分类结果,减少了误检和漏检的情况,从而提高了模型的准确性和鲁棒性。
在同时引入DCNv2、CARAFE和DyHead的情况下,模型的性能得到了进一步的提升。平均精度达到了最高值57.4%,高于其他的实验配置。
通过上述改进,模型在一定程度上增强了处理复杂环境的能力。增加了模型的感受野使其能够更好地处理远距离目标,改善了目标定位和性能;提高了模型的特征表达能力和感知能力,使其能够更好地适应各种细粒度特征和复杂场景。
2.5 对比实验
为了验证本文所提出模型的有效性,实验将EFDCD-YOLO模型与YOLOv5-LeakyReLU、YOLOv5-transformer、PP-YOLO、YOLO-Ghost、YOLOv5、YOLOv7和YOLOv8等模型在Trash-ICRA19数据集上进行对比,观察不同模型在P、R、mAP、GFLOPS和Params方面的性能,其中对比实验的结果如表 6所示。
表 6 对比实验Table 6. Comparative experimentP/% R/% mAP/% GFLOPs/G Params/M YOLOv5-
LeakyReLU59.8 34.9 38.0 15.8 7.02 YOLOv5-
transformer46.3 40.7 40.1 15.6 7.02 PP-YOLO 56.8 44.5 46.5 16.1 12.3 YOLO-Ghost 57.8 46.1 46.7 8.0 3.68 YOLOv5 43.8 44.0 43.8 15.8 7.02 YOLOv7 45.2 53.2 51.8 103.2 36.5 YOLOv8 51.0 44.4 47.9 78.7 25.8 EFDCD-
YOLO65.2 53.7 57.4 75.0 33.2 从表 6可以观察到,EFDCD-YOLO在P、R、mAP方面分别达到了65.2%、53.7%和57.4%的精确度,对比于基线模型YOLOv5分别提升了21.4%、9.7%和13.6%。同时相较于其他模型,在P、R、mAP方面都具有较大的优势,尽管在计算量和参数量上有一定的增加,但这种权衡是合理的,EFDCD-YOLO的优势在于设计的特征融合和上下文感知机制,使其能够有效地提高目标检测的准确性和鲁棒性[16-21]。同时在另一方面模型能够克服水下环境的挑战,提取更具有辨别力的特征,从而实现更精确的目标检测结果。
为了更好地展示EFDCD-YOLO相对于其他模型的优势,实验对比了各模型在经过100轮训练后精度的变化,如图 8所示。
从图 8中可以看出,EFDCD-YOLO在经过100轮训练后的模型精度始终高于其他相对比的模型,即其曲线更靠近图像的上方。此外,还可以观察到,在0~10轮的训练中,EFDCD-YOLO模型的精度增长速度较其他模型更快,这进一步验证了模型的有效性。
为了验证模型的性能,实验绘制了不同模型的P-R曲线,如图 9所示。P-R曲线反映了准确率与召回率之间的关系,横坐标表示召回率,纵坐标表示精确率。曲线越靠近右上方,表示性能越好,同时当一个曲线完全包含另一个曲线时,后者的性能优于前者。
从图 9中可以观察到,EFDCD-YOLO的曲线更靠近图像的右上角,并且其曲线下面积也包含了其他模型的曲线。这表明EFDCD-YOLO的模型性能高于相对比的模型。
同时为了进一步验证模型在数据集上的注意力分布,实验选择了测试集中的4张图像,并绘制了EFDCD-YOLO和YOLOv5模型的注意力对比热力图,如图 10所示。
从图 10中可以观察到,EFDCD-YOLO能够更好地将注意力聚焦于检测目标上,并且相较于YOLOv5模型,EFDCD-YOLO能够更准确地定位目标的形状和具体位置。EFDCD-YOLO的注意力更加集中,而YOLOv5的注意力在目标形状和位置的定位上更为分散。这表明了EFDCD-YOLO在水下目标检测任务中对目标位置定位的精确性以及对目标形状和大小的识别能力。
为了进一步对比和验证EFDCD-YOLO模型的有效性,实验对比了YOLOv5和EFDCD-YOLO在水下目标检测中的检测结果,如图 11所示。
从图 11中可以观察到,在聚焦于相同物体的情况下,EFDCD-YOLO相较于YOLOv5模型表现出更高的检测精度和置信度,并且减少了漏检的情况。
通过上述实验和可视化结果进一步验证了EFDCD-YOLO在水下废弃物红外目标检测中的有效性和适用性。
3. 结语
模型通过引入InceptionNeXt作为主干网络,并且在特征融合层中采用CARAFE算子替代上采样操作,加入EffectiveSE注意力机制,利用DCNv2可变形卷积替换原有的C3模块,同时在Head部分采用DyHead的思想,提出了一种基于YOLOv5的EFDCD-YOLO水下废弃物红外目标检测模型。通过对EFDCD-YOLO在Trash-ICRA19数据集上的性能评估,展示了该模型在水下废弃物红外目标检测中的优势。
实验结果表明,EFDCD-YOLO在精确率、召回率和平均精确度方面均取得了显著的提升,分别达到了65.2%、53.7%和57.4%。尽管EFDCD-YOLO增加了模型的计算量和参数量,但由于其特征融合和上下文感知机制,使得该模型能够更好地应对水下红外目标检测中的各种挑战,例如低质量水下图像、目标与背景的区分困难以及位置和形态变化等问题。此外,通过对实验结果的可视化分析,进一步验证了EFDCD-YOLO相对于其他改进模型的优势。
因此EFDCD-YOLO在水下废弃物红外目标检测领域具有一定的应用价值,也为改善水下废弃物红外目标检测的准确性和鲁棒性提供了相应的参考。
-
表 1 网络模型参数总量
Table 1 Total parameters of network model
Layer’s name Explanation Number of parameters Input Input - Cov1 96 convolution kernels(11×11×3) 11×11×3×96+96=34944 Cov2 256 convolution kernels(5×5×48) (5×5×48×128+128)×2=307456 Cov3 384 convolution kernels(3×3×256) 3×3×256×384+384=885120 Cov4 384 convolution kernels(3×3×192) (3×3×192×192+192)×2=663936 Cov5 256 convolution kernels(3×3×192) (3×3×192×128+128)×2=442624 Fc1 Full connection layer 1 (6×6×128×2)×4096+4096=37752832 Fc2 Full connection layer 2 4096×4096+4096=16781312 Output Softmax classification output 4096×1000+1000=4097000 Summation - 60965224 表 2 不同批量尺寸下的识别正确率和网络训练时间
Table 2 Recognition accuracy and network training time underdifferent batch sizes
Batch size 16 32 64 128 Accuracy/% 56.69 97.34 97.64 97.11 Time 7 min43 s 8 min10 s 9 min15 s 9 min18 s 表 3 批量尺寸32时不同丢失比率下的识别率
Table 3 Different dropout rate recognition rates at batch size 32
Dropout 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Accuracy/% 95.6 97.4 97.6 97.5 96.9 98.4 97.3 98.2 97.1 97.2 表 4 批量尺寸64时不同丢失比率下的识别率
Table 4 Different dropout rate recognition rates at batch size 64
Dropout 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Accuracy/% 96.6 98.1 98.3 97.1 97.3 98.7 97.1 98.1 97.4 97.3 表 5 不同尺寸图像识别率
Table 5 Image recognition rates of different sizes
The size of the image 16×16 32×32 64×64 128×128 Accuracy/% 98.38 98.36 98.70 98.03 Time 11 min12 s 8 min2 s 9 min18 s 13 min29 s 表 6 各神经网络模型对比
Table 6 Comparison of each neural network model
Neural Network Model Accuracy/% Time AlexNet 98.70 9min18s GoogLeNet 86.67 10min28s ResNet 96.43 9min04s -
[1] 曾平平, 李林升. 基于卷积神经网络的水果图像分类识别研究[J]. 机械设计与研究, 2019, 35(1): 23-26, 34. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYY201901010.htm ZENG Pingping, LI Linsheng. Classification and Recognition of Common Fruit Images Based on Convolutional Neural Network[J]. Machine Design & Research, 2019, 35(1): 23-26, 34. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYY201901010.htm
[2] 林明旺. 基于卷积神经网络的鱼类图像识别与分类[J]. 电子技术与软件工程, 2017(6): 82-83. https://www.cnki.com.cn/Article/CJFDTOTAL-DZRU201706065.htm LIN Mingwang. Fish image recognition and classification based on convolutional neural network[J]. Electronic Technology & Software Engineering, 2017(6): 82-83. https://www.cnki.com.cn/Article/CJFDTOTAL-DZRU201706065.htm
[3] 张安安, 黄晋英, 冀树伟, 等. 基于卷积神经网络图像分类的轴承故障模式识别[J]. 振动与冲击, 2020, 39(4): 165-171. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDCJ202004021.htm ZHANG An'an, HUANG Jinying, JI Shuwei, et al. Bearing fault pattern recognition based on image classification with CNN[J]. Journal of Vibration and Shock, 2020, 39(4): 165-171. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDCJ202004021.htm
[4] 李玉鑑, 张婷, 单传辉, 等. 深度学习卷积神经网络从入门到精通[M]. 北京: 机械工业出版社, 2018. LI Yujian, ZHANG Ting, SHAN Chuanhui, et al. Deep Learning Convolutional Neural Network From Entry to Mastery[M]. Beijing: China Machine Press, 2018.
[5] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9): 2508-2515, 2565. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201609029.htm LI Yandong, HAO Zongbo, LEI Hang. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508-2515, 2565. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201609029.htm
[6] 冯辅周, 张超省, 宋爱斌, 等. 超声红外热像检测中疲劳裂纹的检出概率模型研究[J]. 红外与激光工程, 2016, 45(3): 60-65. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201603008.htm FENG Fuzhou, ZHANG Chaosheng, SONG Aibin, et al. Probability of detection model for fatigue crack in ultrasonic infrared imaging[J]. Infrared and Laser Engineering, 2016, 45(3): 60-65. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201603008.htm
[7] 冯辅周, 张超省, 闵庆旭, 等. 超声红外热像技术中金属平板裂纹的生热特性[J]. 红外与激光工程, 2015, 44(5): 1456-14461. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201505012.htm FENG Fuzhou, ZHANG Chaosheng, MIN Qingxu, et al. Heating characteristics of metal plate crack in sonic IR imaging[J]. Infrared and Laser Engineering, 2015, 44(5): 1456-14461. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201505012.htm
[8] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems, 2012: 1106-1114.
[9] Szegedy C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-8.
[10] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[EB/OL]. [2020-6-20]. https://arxiv.org/pdf/1512.03385.pdf.
-
期刊类型引用(3)
1. 周艳秋,高宏伟,何婷,辛春花. 电子监控部分遮挡目标单模态自监督信息挖掘技术. 现代电子技术. 2024(10): 47-51 . 百度学术
2. 季善斌,张威,徐嵩,王尔申,于腾丽,张宏轩,杨健. 基于注意力机制改进孪生网络的无人机跟踪算法. 指挥信息系统与技术. 2024(04): 50-55 . 百度学术
3. 耿礼智,周冬明,王长城,刘宜松,孙逸秋. 可逆多分支的双模态自适应融合目标跟踪算法. 激光与红外. 2024(11): 1767-1776 . 百度学术
其他类型引用(4)