基于双支路拮抗网络的偏振方向图像融合方法

凤瑞, 袁宏武, 周玉叶, 王峰

凤瑞, 袁宏武, 周玉叶, 王峰. 基于双支路拮抗网络的偏振方向图像融合方法[J]. 红外技术, 2024, 46(3): 288-294.
引用本文: 凤瑞, 袁宏武, 周玉叶, 王峰. 基于双支路拮抗网络的偏振方向图像融合方法[J]. 红外技术, 2024, 46(3): 288-294.
FENG Rui, YUAN Hongwu, ZHOU Yuye, WANG Feng. Fusion Method for Polarization Direction Image Based on Double-branch Antagonism Network[J]. Infrared Technology , 2024, 46(3): 288-294.
Citation: FENG Rui, YUAN Hongwu, ZHOU Yuye, WANG Feng. Fusion Method for Polarization Direction Image Based on Double-branch Antagonism Network[J]. Infrared Technology , 2024, 46(3): 288-294.

基于双支路拮抗网络的偏振方向图像融合方法

基金项目: 

国家自然科学基金资助项目 61906118

安徽省自然科学基金资助项目 2108085MF230

偏振光成像技术安徽省重点实验室开放基金 KFJJ-2020-2

详细信息
    作者简介:

    凤瑞(1998-),女,安徽六安人,硕士研究生,主要研究方向为图像处理、深度学习。E-mail:rui_feng98@163.com

    通讯作者:

    袁宏武(1979-),男,安徽六安人,副教授,博士,中国计算机学会专业会员,主要研究方向为偏振图像处理、数据分析与挖掘和基于深度学习理论的应用。E-mail:yuanhongwu@axhu.edu.cn

  • 中图分类号: TP391

Fusion Method for Polarization Direction Image Based on Double-branch Antagonism Network

  • 摘要: 为了提升偏振方向图像融合效果,构建了一种偏振方向图像的双支路拮抗融合网络(Double-branch Antagonism Network, DANet),该网络主要包括特征提取、特征融合和特征转化3个模块。首先,特征提取模块由低频支路和高频支路组成,将0°、45°、90°和135°偏振方向图像连接输入到低频支路,提取图像能量特征,将2组拮抗图像差分输入到高频支路,提取图像细节特征;其次,将得到的能量特征和细节特征进行特征融合;最后,将融合后的特征转化整合为融合图像。实验表明,通过此网络得到的融合图像,其视觉效果和评价指标均有较为显著的提升,与合成强度图像I、偏振拮抗图像SdSddShSv相比,在平均梯度、信息熵、空间频率和图像灰度均值上,分别至少提升了22.16%、9.23%、23.44%和38.71%。
    Abstract: To improve the quality of the fused image, the study presents a double-branch antagonism network (DANet) for the polarization direction images. The network includes three main modules: feature extraction, fusion, and transformation. First, the feature extraction module incorporates low and high-frequency branches, and the polarization direction images of 0°, 45°, 90°, and 135° are concatenated and imported to the low-frequency branch to extract energy features. Two sets of polarization antagonism images (0°, 90°, 45°, and 135°) are subtracted and entered into the high-frequency branch to extract detailed features and energy. Detailed features are fused to feature maps. Finally, the feature maps were transformed into fused images. Experiment results show that the fusion images obtained by DANet make obvious progress in visual effects and evaluation metrics, compared with the composite intensity image I, polarization antagonistic image Sd, Sdd, Sh, and Sv, the average gradient, information entropy, spatial frequency, and mean gray value of the image are increased by at least 22.16%, 9.23%, 23.44% and 38.71%, respectively.
  • 工业生产中的金属材料在使用过程中可能会产生划痕、裂纹等损伤缺陷,从而影响设备的正常运行,甚至危及人身安全,因而对金属材料中的损伤缺陷进行检测具有重要意义。涡流脉冲热成像检测作为新兴的无损检测技术,具有非接触性、检测速度快等优点[1],因而被广大研究者应用于工业中金属材料的探伤检测。如Peng等[2]采用快速傅里叶变换和主成分分析消除非均匀加热影响来增强红外图像的裂纹特征,成功检测出铜棒裂纹位置和形状。Yi等[3]通过涡流热成像检测技术,提出用核主成分分析和低秩稀疏建模方法,增强缺陷区域特征,实现了金属表面裂纹深度的检测。

    因此基于图像分析的检测方法能够有效识别设备的金属裂纹,但上述文献无法实现自适应地提取缺陷图像的特征信息。近年来深度学习方法在图像识别、缺陷检测等方向取得了较好的效果,它能够自动地学习输入数据的深度特征。但深度学习方法的训练需要足量的数据,且训练的数据和测试的数据要具有相同的分布[4],实际的工业生产中,工况多变,训练和测试样本数据同分布的要求难以得到满足。

    为解决以上问题,多种深度迁移学习方法被提出,例如基于特征迁移的深度学习方法。特征迁移的核心思路是通过适当的特征变换将源域和目标域的数据映射到一个公共的特征空间,并通过特征对齐来减小领域间的分布差异,然后利用源域的标签数据训练目标域的分类器[5]。特征迁移学习方法在许多领域得到发展和应用,例如Long等[6]提出的DAN深度适配网络同时适配3个全连接层,且提出了多核MMD(Maximum mean discrepancy)来度量两域之间的分布差异。Ganin等[7]引入生成对抗网络(Generative adversarial networks, GAN)[8]思想提出领域对抗神经网络(Domain adversarial neural network, DANN),将生成对抗网络的生成器视为特征提取器,将生成对抗网络的判别器视为域适应器,因而提取出源域和目标域的共同特征实现迁移。王等[9]联合生成对抗网络和多核MMD最小化域间距离,提出了基于生成对抗网络和距离度量的联合分类模型。

    以上文献聚焦于源域和目标域进行全局特征对齐研究,缺乏对源域和目标域相同类别间关系的深入研究,故本文在特征提取网络ResNet50的基础上引入CBAM注意力机制,使得网络更加关注图像的重点区域,以此来提高网络的特征提取能力,并引用局部最大均值差异(Local maximum mean discrepancy, LMMD)[10]作为子领域自适应对齐算法,用来度量源域和目标域特征的分布差异,通过最小化该差异损失优化训练模型,并将得到的特征迁移深度学习模型应用于金属板材料缺陷的检测问题。

    领域自适应实质就是把提取的源域和目标域数据特征映射到可再生核希尔伯特空间(Reproducing kernel Hilbert space, RKHS)中来减小两领域间的分布差异。实行全局域自适应后,源域和目标域的全局特征得到对齐,但两域间不同类别的特征样本并没有明显地分开,影响了分类的准确性。而经过子领域自适应后,源域和目标域不仅全局特征得到对齐,而且两域中不同类别的特征很好地得以分开,且同类别间的特征分布更为紧密,因此子领域自适应可以改善全局域自适应分类精度较差的情况。两种领域自适应的思想如图 1所示。

    图  1  领域自适应示意图
    Figure  1.  Schematic diagram of domain adaptation

    最大均值差异[11]是迁移学习领域应用较多的一种度量准则,它是一种度量数据集之间分布差异的非参数距离指标。对于源域${D_{\text{s}}} = \left\{ {x_i^{\text{s}}, y_i^{\text{s}}} \right\}_{i = 1}^{{n_{\text{s}}}}$,其中xisyis分别为源域的第i个样本及对应标签,ns为源域样本个数,目标域${D_{\text{t}}} = \left\{ {x_j^{\text{s}}} \right\}_{j = 1}^{{n_{\text{t}}}}$,xjt为目标域的第j个样本,nt为目标域的样本个数,两域之间的MMD平方可表示为:

    $$ \begin{array}{l} {\text{MM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \left\| {\frac{1}{{{n_{\text{s}}}}}\sum\limits_{i = 1}^{{n_{\text{s}}}} {\phi \left( {x_i^{\text{s}}} \right)} - \frac{1}{{{n_{\text{t}}}}}\sum\limits_{j = 1}^{{n_{\text{t}}}} {\phi \left( {x_j^{\text{t}}} \right)} } \right\|_H^2 \hfill \\ = \frac{1}{{n_{\text{s}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{s}}} \right)} \right\rangle + } \frac{1}{{n_{\text{t}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\left\langle {\phi \left( {x_i^{\text{t}}} \right), \phi \left( {x_j^{\text{t}}} \right)} \right\rangle } \hfill \\ - \frac{2}{{{n_{\text{s}}}{n_{\text{t}}}}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{t}}} \right)} \right\rangle } \hfill \\ \end{array} $$ (1)

    式中:H是可再生核希尔伯特空间;ϕ是该空间的一个非线性映射函数,其内积可用核函数看k(, )来计算,即${\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{s}}} \right)} \right\rangle _{{H_k}}} = k\left( {x_i^{\text{s}}, x_j^{\text{s}}} \right)$,由此式(1)可写为:

    $$ \begin{array}{l} {\text{MM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \frac{1}{{n_{\text{s}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {k\left( {x_i^{\text{s}}, x_j^{\text{s}}} \right)} \hfill \\ + \frac{1}{{n_{\text{t}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{t}}}} {k\left( {x_i^{\text{t}}, x_j^{\text{t}}} \right) - } \frac{2}{{{n_{\text{s}}}{n_{\text{t}}}}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {k\left( {x_i^{\text{s}}, x_j^{\text{t}}} \right)} \hfill \\ \end{array} $$ (2)

    卷积注意力模块(Convolutional block attention module, CBAM)[12]是一种结合了通道注意力和空间注意力的综合注意力模块,CBAM结构如图 2所示[13]。输入特征图FRC×H×W,先经过通道注意力模块得到其权值MC(F),再经过空间注意力模块得到其权值MS(F),整个过程计算公式如(3)、(4)所示。

    $$ F^{\prime}=M_{\mathrm{C}}(F) \otimes F $$ (3)
    $$ F^{\prime \prime}=M_{\mathrm{S}}\left(F^{\prime}\right) \otimes F^{\prime}$$ (4)
    图  2  CBAM模块结构图
    Figure  2.  Structure diagram of CBAM module

    由于随着网络模型的加深,会相继出现梯度消失和网络退化的问题,因此本文选择了采用残差块的ResNet50[14]网络模型,残差块的存在使得网络层之间能够进行短连接,缓解了梯度爆炸和梯度消失问题,提高了模型的稳定性。

    ResNet50网络在提取特征中没有重点的关注喜好,本文希望网络模型在对工件进行检测训练时能更多地关注缺陷的部位,而忽略不重要的背景信息,从而提高模型检测识别的正确率。因此本文将CBAM注意力模块引入ResNet50网络中,实验采用在ImageNet上预训练的ResNet50网络,在引入CBAM模块时不改变ResNet50的残差结构,所以分别在第一层卷积和最后一层卷积后面加入CBAM模块,融合CBAM机制的ResNet50网络结构参数如表 1所示。

    表  1  添加CBAM的ResNet50网络结构
    Table  1.  ResNet50 network structure with CBAM added
    Network layer Parameters Activation function
    Conv1 64×7×7 Relu
    CBAM 64×1×1
    7×7
    Sigmoid
    Conv2_x $ \left. {\begin{array}{*{20}{c}} {64 \times 1 \times 1} \\ {64 \times 3 \times 3} \\ {256 \times 1 \times 1} \end{array}} \right\} \times 3 $ Relu
    Conv3_x $ \left. {\begin{array}{*{20}{c}} {128 \times 1 \times 1} \\ {128 \times 3 \times 3} \\ {512 \times 1 \times 1} \end{array}} \right\} \times 4 $ Relu
    Conv4_x $ \left. {\begin{array}{*{20}{c}} {256 \times 1 \times 1} \\ {256 \times 3 \times 3} \\ {1024 \times 1 \times 1} \end{array}} \right\} \times 6 $ Relu
    Conv5_x $ \left. {\begin{array}{*{20}{c}} {512 \times 1 \times 1} \\ {512 \times 3 \times 3} \\ {2048 \times 1 \times 1} \end{array}} \right\} \times 3 $ Relu
    CBAM 2048×1×1
    7×7
    Sigmoid
    FC 2 Softmax
    下载: 导出CSV 
    | 显示表格

    本文使用局部最大均值差异来测量两领域间相关子领域的分布差异,其公式为:

    $$ \begin{array}{l} {\text{LMM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \hfill \\ \frac{1}{C}\sum\limits_{c = 1}^C {\left\| {\sum\limits_{i = 1}^{{n_{\text{s}}}} {w_{c, i}^{\text{s}}\phi \left( {x_i^{\text{s}}} \right)} - \sum\limits_{j = 1}^{{n_{\text{t}}}} {w_{c, j}^{\text{t}}\phi \left( {x_j^{\text{t}}} \right)} } \right\|_H^2} \hfill \\ \end{array} $$ (5)

    式中:C是两域的类别数;wc, jt和分别是样本xisxjt属于类别c的权重,其计算公式为:

    $$ {\omega _{c, i}} = \frac{{{y_{c, i}}}}{{\sum\limits_{\left( {{x_j}, {y_j}} \right) \in D} {{y_{c, j}}} }} $$ (6)

    式中:yc, i是向量yi的第c项,$\sum\limits_{\left( {{x_j}, {y_j}} \right) \in D} {{y_{c, j}}} $是属于类别c的全部样本总和[15]

    本文使用真实标签yis的one-hot得出源域中c类样本的权重wc, is。目标域中样本由于没有标签,故无法使用yjt来计算目标域中对应的权重,但卷积神经网络的输出是概率分布,它可以表示样本xi属于某个类别的概率大小,故而使用卷积神经网络的Softmax分类器来预测目标域中的标签,从而得出样本xjtc类的权重wc, jt

    对于输入的源域和目标域数据,经过本文改进的ResNet50网络的全连接层中提取得到对应特征ziszjt,于是将其映射到可再生核希尔伯特空间进行特征对齐,因此可将公式(5)重新计算得到:

    $$ \begin{array}{l} {\text{LMM}}{{\text{D}}^2}\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right) = \frac{1}{C}\sum\limits_{c = 1}^C {\left\{ {\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{s}}\left\langle {\phi \left( {z_i^{\text{s}}} \right), \phi \left( {z_j^{\text{s}}} \right)} \right\rangle } } \right.} \hfill \\ + \sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\omega _{c, i}^{\text{t}}\omega _{c, j}^{\text{t}}\left\langle {\phi \left( {z_i^{\text{t}}} \right), \phi \left( {z_j^{\text{t}}} \right)} \right\rangle } \hfill \\ - \left. {2\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{t}}\left\langle {\phi \left( {z_i^{\text{s}}} \right), \phi \left( {z_j^{\text{t}}} \right)} \right\rangle } } \right\} \hfill \\ = \frac{1}{C}\sum\limits_{c = 1}^C {\left\{ {\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{s}}} k\left( {z_i^{\text{s}}, z_j^{\text{s}}} \right) + } \right.} \sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\omega _{c, i}^{\text{t}}\omega _{c, j}^{\text{t}}k\left( {z_i^{\text{t}}, z_j^{\text{t}}} \right)} \hfill \\ - \left. {2\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{t}}} k\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right)} \right\} \hfill \\ \end{array} $$ (7)

    本文通过融合CBAM注意力的ResNet50特征提取网络模块和子领域自适应模块,搭建了工件的缺陷检测模型,其结构如图 3所示,首先将注意力机制CBAM模块添加到ResNet50中,提取源域和目标域数据的深度特征,并将网络的参数共享,同时将子领域自适应层设在网络的全连接层[10],以便在此层中使用局部最大均值差异来实现两域中相关子领域的特征对齐,最后用网络模型中的Softmax分类器对金属板材料的红外热图像进行缺陷的检测识别。

    图  3  CBAM_ResNet50和子域自适应网络模型
    Figure  3.  CBAM_ResNet50 and subdomain adaptive network model

    通过2.3节介绍的模型结构可以知道在Softmax分类器中可以得到目标域的预测类别标签${\hat y^{\text{t}}}$,以此构建目标域的损失函数,并将LMMD作为子领域自适应层的损失函数,因此本文优化的目标函数为:

    $$ \begin{array}{l} \min \frac{1}{{{n_{\text{s}}}}}\sum\limits_{i = 1}^{{n_{\text{s}}}} {J\left( {f\left( {x_i^{\text{s}}} \right), y_i^{\text{s}}} \right)} + \frac{1}{{{n_{\text{t}}}}}\sum\limits_{j = 1}^{{n_{\text{t}}}} {J\left( {f\left( {x_j^{\text{t}}} \right), \hat y_j^{\text{t}}} \right)} \hfill \\ + \lambda \sum {{d_{{\text{lmmd}}}}\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right)} \hfill \\ \end{array} $$ (8)

    式中:J(, )是交叉熵损失函数;dlmmd(, )是子领域自适应的分布距离函数;λ>0,是权衡超参数。

    涡流热成像实验平台由涡流加热装置和红外热像仪组成,图 4为实验的涡流加热设备和有缺陷的金属板材料。实验时给装置通电,给被测金属材料涡流加热,然后用红外热像仪拍摄金属板材料的红外图像,从而得到实验的红外图像数据。

    图  4  涡流加热设备(左)和缺陷金属板(右)
    Figure  4.  Eddy current heating equipment (left) and defective metal plate (right)

    本文实验模拟工业生产设备的金属材料工件,选用并加工了有裂纹缺陷的金属板和无缺陷的完好的金属板作为实验中的两大类别,以此来验证本文提出网络模型的性能优劣。对工件材料加工时分别设置了有缺陷的裂纹长度为4 mm、8 mm、10 mm、20 mm,以满足不同长度裂纹缺陷的检测实验,提高实验的丰富性和可靠性,裂纹的宽度均为1.5 mm,考虑到加工误差,裂纹缺陷的尺寸会和标注数据有0.2 mm的误差,本实验加工的裂纹缺陷均在金属材料的表面。通过涡流设备对金属材料的加热和红外热像仪采集图像数据,本实验采集得到的红外图像分辨率为320×240,红外图像集分别有裂纹缺陷和无裂纹缺陷两种类型。在实际的机械设备运行过程中,工况多变,标记的故障样本量小,为此本文提出一种结合深度学习与域自适应的工件涡流热成像的缺陷检测方法,所以还需要选择一个相似的领域数据集来进行实验,于是选择了中科院自动化所收集的磁瓦数据集[16]作为其相似领域来进行迁移学习的实验。因本实验采集的数据集有无裂纹缺陷和有裂纹缺陷两种类别,所以从磁瓦数据集中也选用了对应的类别进行实验。同时由于实验采集的图像是彩色的RGB图像,因此需要先对磁瓦数据集的两种类型的黑白图像进行处理转化为RGB图像后再进行本文模型方法的相关实验,根据源域数据集相关资料,尽量还原了真实的RGB色彩,以便和本文的红外图像进行领域适应的迁移学习。如图 5为实验数据集示例。

    图  5  实验数据集示例
    Figure  5.  Example of experimental data set

    本文中实验的两个领域的样本存在数目不均衡的问题,为了更好地训练模型,验证实验方法的性能,因此使用翻转、缩放、裁剪,旋转等一些数据增强的方式得到了相对均衡的数据样本。故最后得到磁瓦数据集的裂纹缺陷图像460张,无裂纹缺陷图像434张,本实验得到的金属板红外图像数据集的裂纹缺陷图像380张,无裂纹缺陷图像320张。将两域的数据集根据有无裂纹缺陷各自按照8:1:1的比例划分训练集,验证集和测试集。实验包含两种域迁移:磁瓦数据集→金属板数据集,金属板数据集→磁瓦数据集,因本文主要应用网上公开的缺陷数据集来实现对我所实验的金属材料红外图像的缺陷检测识别,所以更多关注的是从磁瓦数据集到金属板数据集的迁移任务的准确率。

    本文实验都使用基于Python 3.7的Pytorch深度学习框架,CPU为i5-11400H,GPU为GeForce RTX 3060,RAM为16 GB。模型训练的迭代轮数保持一致,使用随机梯度下降法(Stochastic gradient descent,SGD),动量设置为0.9,学习率的调整公式为ρθρ0/(1+αθ)β,其中训练时θ服从0到1的线性变化,ρ0=0.01, α=10, β=0.75。

    为对比证明本文方法的优越性,于是设置了几组不同方法的模型来进行对比实验。一是经过网络数据集预训练后的微调ResNet50网络模型,二是度量距离为多核最大均值差异(Multipe Kernel Maximum Mean Discrepancy,MK-MMD)的DAN模型,三是未添加注意力机制,采用局部最大均值差异(Local Maximum Mean Discrepancy,LMMD)度量距离的ResNet50_LMMD模型,四是本文的添加CBAM注意力模块的改进ResNet50网络,用局部最大均值差异度量距离的模型。几种模型实验的环境条件和配置相同,实验设定100轮次,本文方法训练集和测试集的检测精度如图 6所示。可以看出,训练集和测试集在30轮左右达到稳定,且精度相差不大,说明模型是稳定可靠的。

    图  6  训练集和测试集精度对比图
    Figure  6.  Accuracy comparison diagram of training set and test set

    各个不同模型的检测精度对比如表 2所示,可以明显看出本文提出的方法平均精度为88.52%,好于对比的其他模型,表明本文提出的模型通过对齐同类子领域,能得到领域间更细节的信息,使得不同领域间同类别联系更为紧密,不同类别间的类间距分得更开,同时和方法3相比可知添加注意力机制后检测精度得到大约1.3%的提升,验证了模型的优越性。同时图 7展示了磁瓦数据集到金属板数据集训练得到的准确率的对比效果,相同轮次下,可以看到其余方法在20个epoch左右达到收敛,随后细微振荡,而本文提出的方法收敛速度较慢,原因是在ResNet50网络基础上加入了CBAM注意力模块,增加了网络的复杂度,所以检测消耗的时间较不添加CBAM模块的时间增加了大约2.5 s,但是检测缺陷的准确率得到了提升。

    表  2  不同模型的检测精度
    Table  2.  Detection accuracy of different models %
    Methods Magnetic tile→sheet metal Sheet metal→magnetic tile Average accuracy
    ResNet50 63.93 59.18 61.56
    DAN 78.19 73.53 75.86
    ResNet50_LMMD 88.29 86.10 87.20
    This paper 90.11 86.93 88.52
    下载: 导出CSV 
    | 显示表格
    图  7  不同方法的精确度对比图
    Figure  7.  Accuracy comparison chart of different methods
    Magnetic tile data set→sheet metal data set

    为了更加直观地体现出本文方法的优点,实验选择了源域为磁瓦数据集,目标域为本文采集的金属板的红外图像数据集作为可视化对比,利用t-SNE(t-distributed stochastic neighbor embedding)算法[17]将源域和目标域部分数据的特征值映射为二维空间,然后在二维空间里将其特征可视化。几种对比方法的特征可视化效果如图 8所示,其中S代表源域,T代表目标域,S-0表示源域中无缺陷的样本,S-1表示源域中裂纹缺陷的样本。由图可知,仅采用经过预训练微调的ResNet50模型提取通用特征能力强,一个域内的同类别间的聚类效果好,但不同领域相同类别就没有很好地聚类。采用多核MMD(MK-MMD)的DAN模型展现出一定的特征对齐能力,但未考虑两域子领域的分布对齐,不同领域的同类别间聚类效果不是很好。而采用子领域自适应模型的ResNet50_LMMD和本文方法在对齐全局域分布的同时还实现了对齐同类子领域的分布,另外本文方法融入注意力机制,提升了特征提取能力,可以看出两域间相同类别密切地聚集在一起,得到了不错的聚类效果,充分证实了本文方法的有效性和优越性。

    图  8  不同方法的t-SNE特征可视化
    Figure  8.  Visualization of t-SNE features by different methods

    通过引入特征迁移学习思想,建立局部最大均值差异衡量指标,缩小了源域和目标域数据特征间的分布差异,实现了相关子域的分布对齐。基于特征迁移学习思想建立的金属板材料裂纹的缺陷识别模型,解决了数据集中裂纹缺陷样本量少,训练和测试样本难以同分布的问题。提出的基于深度学习与子领域自适应的工件涡流热成像的缺陷检测模型,在ResNet50网络添加CBAM注意力机制,提高了模型对于缺陷区域特征的关注度,可以聚焦于缺陷特征的提取,提升模型缺陷检测能力。通过相关实验对比,并使用t-SNE算法对几种对比实验提取的特征进行可视化,验证了所提模型的有效性,提升了金属板材料裂纹缺陷的检测精度。

  • 图  1   分焦片面型偏振成像原理

    Figure  1.   Polarization image split-focus planar principle

    图  2   0°、45°、90°和135°的偏振方向图和合成强度图

    Figure  2.   Polarization and intensity pictures of 0°, 45°, 90°and 135°

    图  3   深度学习图像融合网络一般过程

    Figure  3.   General process of deep learning image fusion network

    图  4   偏振拮抗融合网络

    Figure  4.   Polarization antagonistic fusion network

    图  5   LUCID的分焦平面型偏振相机

    Figure  5.   LUCID 's split-focus planar polarization camera

    图  6   输入的0°、45°、90°和135°偏振方向图像

    Figure  6.   0°, 45°, 90° and 135° polarization direction images of input

    图  7   结果对比图

    Figure  7.   Results comparison diagram

    表  1   网络参数

    Table  1   Network parameters

    Layer Input channel Output channel
    Feature extraction Low frequency Conv1 4 128
    Conv2 128 64
    Conv3 64 50
    High frequency Conv4 2 16
    Conv5 18 16
    Conv6 34 50
    Feature fusion Fusion 50 50
    Feature transformation Conv7 50 1
    下载: 导出CSV

    表  2   训练参数

    Table  2   Training parameters

    Parameters Values
    Training set 8388
    Testing set 932
    Training round 20
    Epoch 4
    Optimizer Adam
    Activation function ReLU
    Initial learning rate 1e-4
    Learning rate decay rate 0.5*lr/4 round
    下载: 导出CSV

    表  3   输出结果的各项评价指标

    Table  3   Evaluation indexes of the output results

    I Sd Sdd Sh Sv DANet
    AG 0.0099 0.0128 0.0119 0.0144 0.0126 0.0185
    IE 6.06 6.18 6.08 6.15 6.39 7.04
    SF 0.35 0.49 0.40 0.46 0.45 0.64
    IM 41 49 47 46 57 93
    下载: 导出CSV
  • [1] 周强国, 黄志明, 周炜, 等. 偏振成像技术的研究进展及应用[J]. 红外技术, 2021, 43(9): 817-828. http://hwjs.nvir.cn/article/id/76230e4e-2d34-4b1e-be97-88c5023050c6

    ZHOU Qiangguo, HUANG Zhiming, ZHOU Wei, et al. Research progress and application of polarization imaging technology[J]. Infrared Technology, 2021, 43(9): 817-828. http://hwjs.nvir.cn/article/id/76230e4e-2d34-4b1e-be97-88c5023050c6

    [2]

    HU H, ZHANG Y, LI X, et al. Polarimetric underwater image recovery via deep learning[J]. Optics and Lasers in Engineering, 2020, 133: 106152. DOI: 10.1016/j.optlaseng.2020.106152

    [3]

    WEI Y, HAN P, LIU F, et al. Enhancement of underwater vision by fully exploiting the polarization information from the Stokes vector[J]. Optics Express, 2021, 29(14): 22275-22287. DOI: 10.1364/OE.433072

    [4]

    DING X, WANG Y, FU X. Multi-polarization fusion generative adversarial networks for clear underwater imaging [J]. Optics and Lasers in Engineering, 2022, 152: 106971. DOI: 10.1016/j.optlaseng.2022.106971

    [5] 寻华生, 张晶晶, 刘晓, 等. 基于偏振图像的低照度场景多目标检测算法[J]. 红外技术, 2022, 44(5): 483-491. http://hwjs.nvir.cn/article/id/dfa63fae-27cf-42e6-96a3-5cfb8160c0a6

    XUN Huasheng, ZHANG Jingjing, LIU Xiao, et al. Multi-object detection algorithm for low-illumination scene based on polarized image[J]. Infrared Technology, 2022, 44(5): 483-491. http://hwjs.nvir.cn/article/id/dfa63fae-27cf-42e6-96a3-5cfb8160c0a6

    [6]

    SHEN J, WANG H, CHEN Z, et al. Polarization calculation and underwater target detection inspired by biological visual imaging[J]. Sensors & Transducers, 2014, 169(4): 33.

    [7]

    Otter D W, Medina J R, Kalita J K. A survey of the usages of deep learning for natural language processing[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32(2): 604-624.

    [8]

    Nassif A B, Shahin I, Attili I, et al. Speech recognition using deep neural networks: A systematic review[J]. IEEE Access, 2019, 7: 19143-19165. DOI: 10.1109/ACCESS.2019.2896880

    [9]

    JIAO L, ZHAO J. A survey on the new generation of deep learning in image processing[J]. IEEE Access, 2019, 7: 172231-172263. DOI: 10.1109/ACCESS.2019.2956508

    [10]

    LI H, WUX J. DenseFuse: A fusion approach to infrared and visible images [J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.

    [11] 王霞, 赵家碧, 孙晶, 等. 偏振图像融合技术综述[J]. 航天返回与遥感, 2021, 42(6): 9-21. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG202106003.htm

    WANG Xia, ZHAO Jiabi, SUN Jing, et al. A review of polarized image fusion techniques[J]. Space Return and Remote Sensing, 2021, 42(6): 9-21. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG202106003.htm

    [12]

    Tyo J S, Rowe M P, Pugh E N, et al. Target detection in optically scattering media by polarization-difference imaging[J]. Applied Optics, 1996, 35(11): 1855-1870. DOI: 10.1364/AO.35.001855

    [13]

    HUANG G, LIU Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4700-4708.

    [14]

    SHEN Yu, WU Zhongdong, WANG Xiaopeng, et al. Tetrolet transform images fusion algorithm based on fuzzy operator[J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(9): 1132-1138.

    [15]

    Eskicioglu A M, Fisher P S. Image quality measures and their performance[J]. IEEE Transactions on communications, 1995, 43(12): 2959–2965. DOI: 10.1109/26.477498

    [16]

    Roberts J W, Aardt J A van, Ahmed F B. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 023522.

    [17]

    JIN Xin, NIE Rencan, ZHOU Dongming, et al. Multifocus color image fusion based on NSST and PCNN[J/OL]. Journal of Sensors, 2016, https://doi.org/10.1155/2016/8359602.

  • 期刊类型引用(1)

    1. 翁岩松,杨洁. 基于深度学习的改进卫星检测方法. 航空电子技术. 2024(04): 1-8 . 百度学术

    其他类型引用(0)

图(7)  /  表(3)
计量
  • 文章访问数:  121
  • HTML全文浏览量:  24
  • PDF下载量:  34
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-11-30
  • 修回日期:  2023-03-16
  • 刊出日期:  2024-03-19

目录

/

返回文章
返回