基于轻量化多尺度下采样网络的红外图像非均匀性校正算法

牟新刚, 朱太龙, 周晓

牟新刚, 朱太龙, 周晓. 基于轻量化多尺度下采样网络的红外图像非均匀性校正算法[J]. 红外技术, 2024, 46(5): 501-509.
引用本文: 牟新刚, 朱太龙, 周晓. 基于轻量化多尺度下采样网络的红外图像非均匀性校正算法[J]. 红外技术, 2024, 46(5): 501-509.
MOU Xingang, ZHU Tailong, ZHOU Xiao. Infrared Image Non-uniformity Correction Algorithm Based on Lightweight Multiscale Downsampling Network[J]. Infrared Technology , 2024, 46(5): 501-509.
Citation: MOU Xingang, ZHU Tailong, ZHOU Xiao. Infrared Image Non-uniformity Correction Algorithm Based on Lightweight Multiscale Downsampling Network[J]. Infrared Technology , 2024, 46(5): 501-509.

基于轻量化多尺度下采样网络的红外图像非均匀性校正算法

基金项目: 

国家自然科学基金项目 61701357

中央高校基本科研业务费专项资金资助 183204007

详细信息
    作者简介:

    牟新刚(1982-),男,博士,副教授,主要研究方向光电成像与信息处理、红外图像处理。E-mail: sunnymou@whut.edu.cn

    通讯作者:

    周晓(1975-),男,博士,教授,主要研究方向机器视觉、智能仪器。E-mail: zhouxiao@whut.edu.cn

  • 中图分类号: TP391.41

Infrared Image Non-uniformity Correction Algorithm Based on Lightweight Multiscale Downsampling Network

  • 摘要:

    红外成像系统常由于探测单元的非均匀性导致成像结果出现条纹噪声。基于深度学习的红外图像非均匀校正算法为取得较好的校正结果,通常采用复杂度高的网络结构,导致计算量庞大。本文提出了一种轻量化网络的红外图像非均匀校正算法,并针对Unet网络的编码过程设计了一种轻量化多尺度下采样模块(Lightweight Multi-scale Downsampling Module, LMDM)。LMDM通过像素拆分和通道重构实现特征图下采样,利用多个串联的深度可分离卷积(Depth-wise Separable Convolution, DSC)实现多尺度特征提取。此外,该算法引入轻量化通道注意力机制用于调整特征权重,实现更好的上下文信息融合。实验结果表明,与对比算法相比,本文提出的算法在保证校正图像纹理清晰、细节丰富和边缘锐利的前提下,内存占用降低70%以上,红外图像处理速度提升24%以上。

    Abstract:

    Infrared imaging systems often produce fringe noise in imaging results owing to the non-uniformity of the detection unit. To obtain better correction results, most deep learning-based infrared image non-uniformity correction algorithms adopt complex network structures, which increase the computational cost. This study proposes a lightweight network-based infrared image non-uniformity correction algorithm and designs a lightweight multi-scale downsampling module (LMDM) for the encoding process of the Unet network. The LMDM uses pixel splitting and channel reconstruction to realize feature map downsampling and realizes multi-scale feature extraction using multiple cascaded depth-wise separable convolutions (DSC). In addition, the algorithm introduces a lightweight channel attention mechanism for adjusting feature weights to achieve better contextual information fusion. The experimental results show that the proposed algorithm reduces memory use by more than 70% and improves the processing speed of the infrared images by more than 24% compared with the comparison algorithm while ensuring that the corrected image has a clear texture, rich details, and sharp edges.

  • 工业生产中的金属材料在使用过程中可能会产生划痕、裂纹等损伤缺陷,从而影响设备的正常运行,甚至危及人身安全,因而对金属材料中的损伤缺陷进行检测具有重要意义。涡流脉冲热成像检测作为新兴的无损检测技术,具有非接触性、检测速度快等优点[1],因而被广大研究者应用于工业中金属材料的探伤检测。如Peng等[2]采用快速傅里叶变换和主成分分析消除非均匀加热影响来增强红外图像的裂纹特征,成功检测出铜棒裂纹位置和形状。Yi等[3]通过涡流热成像检测技术,提出用核主成分分析和低秩稀疏建模方法,增强缺陷区域特征,实现了金属表面裂纹深度的检测。

    因此基于图像分析的检测方法能够有效识别设备的金属裂纹,但上述文献无法实现自适应地提取缺陷图像的特征信息。近年来深度学习方法在图像识别、缺陷检测等方向取得了较好的效果,它能够自动地学习输入数据的深度特征。但深度学习方法的训练需要足量的数据,且训练的数据和测试的数据要具有相同的分布[4],实际的工业生产中,工况多变,训练和测试样本数据同分布的要求难以得到满足。

    为解决以上问题,多种深度迁移学习方法被提出,例如基于特征迁移的深度学习方法。特征迁移的核心思路是通过适当的特征变换将源域和目标域的数据映射到一个公共的特征空间,并通过特征对齐来减小领域间的分布差异,然后利用源域的标签数据训练目标域的分类器[5]。特征迁移学习方法在许多领域得到发展和应用,例如Long等[6]提出的DAN深度适配网络同时适配3个全连接层,且提出了多核MMD(Maximum mean discrepancy)来度量两域之间的分布差异。Ganin等[7]引入生成对抗网络(Generative adversarial networks, GAN)[8]思想提出领域对抗神经网络(Domain adversarial neural network, DANN),将生成对抗网络的生成器视为特征提取器,将生成对抗网络的判别器视为域适应器,因而提取出源域和目标域的共同特征实现迁移。王等[9]联合生成对抗网络和多核MMD最小化域间距离,提出了基于生成对抗网络和距离度量的联合分类模型。

    以上文献聚焦于源域和目标域进行全局特征对齐研究,缺乏对源域和目标域相同类别间关系的深入研究,故本文在特征提取网络ResNet50的基础上引入CBAM注意力机制,使得网络更加关注图像的重点区域,以此来提高网络的特征提取能力,并引用局部最大均值差异(Local maximum mean discrepancy, LMMD)[10]作为子领域自适应对齐算法,用来度量源域和目标域特征的分布差异,通过最小化该差异损失优化训练模型,并将得到的特征迁移深度学习模型应用于金属板材料缺陷的检测问题。

    领域自适应实质就是把提取的源域和目标域数据特征映射到可再生核希尔伯特空间(Reproducing kernel Hilbert space, RKHS)中来减小两领域间的分布差异。实行全局域自适应后,源域和目标域的全局特征得到对齐,但两域间不同类别的特征样本并没有明显地分开,影响了分类的准确性。而经过子领域自适应后,源域和目标域不仅全局特征得到对齐,而且两域中不同类别的特征很好地得以分开,且同类别间的特征分布更为紧密,因此子领域自适应可以改善全局域自适应分类精度较差的情况。两种领域自适应的思想如图 1所示。

    图  1  领域自适应示意图
    Figure  1.  Schematic diagram of domain adaptation

    最大均值差异[11]是迁移学习领域应用较多的一种度量准则,它是一种度量数据集之间分布差异的非参数距离指标。对于源域${D_{\text{s}}} = \left\{ {x_i^{\text{s}}, y_i^{\text{s}}} \right\}_{i = 1}^{{n_{\text{s}}}}$,其中xisyis分别为源域的第i个样本及对应标签,ns为源域样本个数,目标域${D_{\text{t}}} = \left\{ {x_j^{\text{s}}} \right\}_{j = 1}^{{n_{\text{t}}}}$,xjt为目标域的第j个样本,nt为目标域的样本个数,两域之间的MMD平方可表示为:

    $$ \begin{array}{l} {\text{MM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \left\| {\frac{1}{{{n_{\text{s}}}}}\sum\limits_{i = 1}^{{n_{\text{s}}}} {\phi \left( {x_i^{\text{s}}} \right)} - \frac{1}{{{n_{\text{t}}}}}\sum\limits_{j = 1}^{{n_{\text{t}}}} {\phi \left( {x_j^{\text{t}}} \right)} } \right\|_H^2 \hfill \\ = \frac{1}{{n_{\text{s}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{s}}} \right)} \right\rangle + } \frac{1}{{n_{\text{t}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\left\langle {\phi \left( {x_i^{\text{t}}} \right), \phi \left( {x_j^{\text{t}}} \right)} \right\rangle } \hfill \\ - \frac{2}{{{n_{\text{s}}}{n_{\text{t}}}}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{t}}} \right)} \right\rangle } \hfill \\ \end{array} $$ (1)

    式中:H是可再生核希尔伯特空间;ϕ是该空间的一个非线性映射函数,其内积可用核函数看k(, )来计算,即${\left\langle {\phi \left( {x_i^{\text{s}}} \right), \phi \left( {x_j^{\text{s}}} \right)} \right\rangle _{{H_k}}} = k\left( {x_i^{\text{s}}, x_j^{\text{s}}} \right)$,由此式(1)可写为:

    $$ \begin{array}{l} {\text{MM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \frac{1}{{n_{\text{s}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {k\left( {x_i^{\text{s}}, x_j^{\text{s}}} \right)} \hfill \\ + \frac{1}{{n_{\text{t}}^2}}\sum\limits_{i, j = 1}^{{n_{\text{t}}}} {k\left( {x_i^{\text{t}}, x_j^{\text{t}}} \right) - } \frac{2}{{{n_{\text{s}}}{n_{\text{t}}}}}\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {k\left( {x_i^{\text{s}}, x_j^{\text{t}}} \right)} \hfill \\ \end{array} $$ (2)

    卷积注意力模块(Convolutional block attention module, CBAM)[12]是一种结合了通道注意力和空间注意力的综合注意力模块,CBAM结构如图 2所示[13]。输入特征图FRC×H×W,先经过通道注意力模块得到其权值MC(F),再经过空间注意力模块得到其权值MS(F),整个过程计算公式如(3)、(4)所示。

    $$ F^{\prime}=M_{\mathrm{C}}(F) \otimes F $$ (3)
    $$ F^{\prime \prime}=M_{\mathrm{S}}\left(F^{\prime}\right) \otimes F^{\prime}$$ (4)
    图  2  CBAM模块结构图
    Figure  2.  Structure diagram of CBAM module

    由于随着网络模型的加深,会相继出现梯度消失和网络退化的问题,因此本文选择了采用残差块的ResNet50[14]网络模型,残差块的存在使得网络层之间能够进行短连接,缓解了梯度爆炸和梯度消失问题,提高了模型的稳定性。

    ResNet50网络在提取特征中没有重点的关注喜好,本文希望网络模型在对工件进行检测训练时能更多地关注缺陷的部位,而忽略不重要的背景信息,从而提高模型检测识别的正确率。因此本文将CBAM注意力模块引入ResNet50网络中,实验采用在ImageNet上预训练的ResNet50网络,在引入CBAM模块时不改变ResNet50的残差结构,所以分别在第一层卷积和最后一层卷积后面加入CBAM模块,融合CBAM机制的ResNet50网络结构参数如表 1所示。

    表  1  添加CBAM的ResNet50网络结构
    Table  1.  ResNet50 network structure with CBAM added
    Network layer Parameters Activation function
    Conv1 64×7×7 Relu
    CBAM 64×1×1
    7×7
    Sigmoid
    Conv2_x $ \left. {\begin{array}{*{20}{c}} {64 \times 1 \times 1} \\ {64 \times 3 \times 3} \\ {256 \times 1 \times 1} \end{array}} \right\} \times 3 $ Relu
    Conv3_x $ \left. {\begin{array}{*{20}{c}} {128 \times 1 \times 1} \\ {128 \times 3 \times 3} \\ {512 \times 1 \times 1} \end{array}} \right\} \times 4 $ Relu
    Conv4_x $ \left. {\begin{array}{*{20}{c}} {256 \times 1 \times 1} \\ {256 \times 3 \times 3} \\ {1024 \times 1 \times 1} \end{array}} \right\} \times 6 $ Relu
    Conv5_x $ \left. {\begin{array}{*{20}{c}} {512 \times 1 \times 1} \\ {512 \times 3 \times 3} \\ {2048 \times 1 \times 1} \end{array}} \right\} \times 3 $ Relu
    CBAM 2048×1×1
    7×7
    Sigmoid
    FC 2 Softmax
    下载: 导出CSV 
    | 显示表格

    本文使用局部最大均值差异来测量两领域间相关子领域的分布差异,其公式为:

    $$ \begin{array}{l} {\text{LMM}}{{\text{D}}^2}\left( {{X^{\text{s}}}, {X^{\text{t}}}} \right) = \hfill \\ \frac{1}{C}\sum\limits_{c = 1}^C {\left\| {\sum\limits_{i = 1}^{{n_{\text{s}}}} {w_{c, i}^{\text{s}}\phi \left( {x_i^{\text{s}}} \right)} - \sum\limits_{j = 1}^{{n_{\text{t}}}} {w_{c, j}^{\text{t}}\phi \left( {x_j^{\text{t}}} \right)} } \right\|_H^2} \hfill \\ \end{array} $$ (5)

    式中:C是两域的类别数;wc, jt和分别是样本xisxjt属于类别c的权重,其计算公式为:

    $$ {\omega _{c, i}} = \frac{{{y_{c, i}}}}{{\sum\limits_{\left( {{x_j}, {y_j}} \right) \in D} {{y_{c, j}}} }} $$ (6)

    式中:yc, i是向量yi的第c项,$\sum\limits_{\left( {{x_j}, {y_j}} \right) \in D} {{y_{c, j}}} $是属于类别c的全部样本总和[15]

    本文使用真实标签yis的one-hot得出源域中c类样本的权重wc, is。目标域中样本由于没有标签,故无法使用yjt来计算目标域中对应的权重,但卷积神经网络的输出是概率分布,它可以表示样本xi属于某个类别的概率大小,故而使用卷积神经网络的Softmax分类器来预测目标域中的标签,从而得出样本xjtc类的权重wc, jt

    对于输入的源域和目标域数据,经过本文改进的ResNet50网络的全连接层中提取得到对应特征ziszjt,于是将其映射到可再生核希尔伯特空间进行特征对齐,因此可将公式(5)重新计算得到:

    $$ \begin{array}{l} {\text{LMM}}{{\text{D}}^2}\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right) = \frac{1}{C}\sum\limits_{c = 1}^C {\left\{ {\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{s}}\left\langle {\phi \left( {z_i^{\text{s}}} \right), \phi \left( {z_j^{\text{s}}} \right)} \right\rangle } } \right.} \hfill \\ + \sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\omega _{c, i}^{\text{t}}\omega _{c, j}^{\text{t}}\left\langle {\phi \left( {z_i^{\text{t}}} \right), \phi \left( {z_j^{\text{t}}} \right)} \right\rangle } \hfill \\ - \left. {2\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{t}}\left\langle {\phi \left( {z_i^{\text{s}}} \right), \phi \left( {z_j^{\text{t}}} \right)} \right\rangle } } \right\} \hfill \\ = \frac{1}{C}\sum\limits_{c = 1}^C {\left\{ {\sum\limits_{i, j = 1}^{{n_{\text{s}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{s}}} k\left( {z_i^{\text{s}}, z_j^{\text{s}}} \right) + } \right.} \sum\limits_{i, j = 1}^{{n_{\text{t}}}} {\omega _{c, i}^{\text{t}}\omega _{c, j}^{\text{t}}k\left( {z_i^{\text{t}}, z_j^{\text{t}}} \right)} \hfill \\ - \left. {2\sum\limits_{i, j = 1}^{{n_{\text{s}}}, {n_{\text{t}}}} {\omega _{c, i}^{\text{s}}\omega _{c, j}^{\text{t}}} k\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right)} \right\} \hfill \\ \end{array} $$ (7)

    本文通过融合CBAM注意力的ResNet50特征提取网络模块和子领域自适应模块,搭建了工件的缺陷检测模型,其结构如图 3所示,首先将注意力机制CBAM模块添加到ResNet50中,提取源域和目标域数据的深度特征,并将网络的参数共享,同时将子领域自适应层设在网络的全连接层[10],以便在此层中使用局部最大均值差异来实现两域中相关子领域的特征对齐,最后用网络模型中的Softmax分类器对金属板材料的红外热图像进行缺陷的检测识别。

    图  3  CBAM_ResNet50和子域自适应网络模型
    Figure  3.  CBAM_ResNet50 and subdomain adaptive network model

    通过2.3节介绍的模型结构可以知道在Softmax分类器中可以得到目标域的预测类别标签${\hat y^{\text{t}}}$,以此构建目标域的损失函数,并将LMMD作为子领域自适应层的损失函数,因此本文优化的目标函数为:

    $$ \begin{array}{l} \min \frac{1}{{{n_{\text{s}}}}}\sum\limits_{i = 1}^{{n_{\text{s}}}} {J\left( {f\left( {x_i^{\text{s}}} \right), y_i^{\text{s}}} \right)} + \frac{1}{{{n_{\text{t}}}}}\sum\limits_{j = 1}^{{n_{\text{t}}}} {J\left( {f\left( {x_j^{\text{t}}} \right), \hat y_j^{\text{t}}} \right)} \hfill \\ + \lambda \sum {{d_{{\text{lmmd}}}}\left( {z_i^{\text{s}}, z_j^{\text{t}}} \right)} \hfill \\ \end{array} $$ (8)

    式中:J(, )是交叉熵损失函数;dlmmd(, )是子领域自适应的分布距离函数;λ>0,是权衡超参数。

    涡流热成像实验平台由涡流加热装置和红外热像仪组成,图 4为实验的涡流加热设备和有缺陷的金属板材料。实验时给装置通电,给被测金属材料涡流加热,然后用红外热像仪拍摄金属板材料的红外图像,从而得到实验的红外图像数据。

    图  4  涡流加热设备(左)和缺陷金属板(右)
    Figure  4.  Eddy current heating equipment (left) and defective metal plate (right)

    本文实验模拟工业生产设备的金属材料工件,选用并加工了有裂纹缺陷的金属板和无缺陷的完好的金属板作为实验中的两大类别,以此来验证本文提出网络模型的性能优劣。对工件材料加工时分别设置了有缺陷的裂纹长度为4 mm、8 mm、10 mm、20 mm,以满足不同长度裂纹缺陷的检测实验,提高实验的丰富性和可靠性,裂纹的宽度均为1.5 mm,考虑到加工误差,裂纹缺陷的尺寸会和标注数据有0.2 mm的误差,本实验加工的裂纹缺陷均在金属材料的表面。通过涡流设备对金属材料的加热和红外热像仪采集图像数据,本实验采集得到的红外图像分辨率为320×240,红外图像集分别有裂纹缺陷和无裂纹缺陷两种类型。在实际的机械设备运行过程中,工况多变,标记的故障样本量小,为此本文提出一种结合深度学习与域自适应的工件涡流热成像的缺陷检测方法,所以还需要选择一个相似的领域数据集来进行实验,于是选择了中科院自动化所收集的磁瓦数据集[16]作为其相似领域来进行迁移学习的实验。因本实验采集的数据集有无裂纹缺陷和有裂纹缺陷两种类别,所以从磁瓦数据集中也选用了对应的类别进行实验。同时由于实验采集的图像是彩色的RGB图像,因此需要先对磁瓦数据集的两种类型的黑白图像进行处理转化为RGB图像后再进行本文模型方法的相关实验,根据源域数据集相关资料,尽量还原了真实的RGB色彩,以便和本文的红外图像进行领域适应的迁移学习。如图 5为实验数据集示例。

    图  5  实验数据集示例
    Figure  5.  Example of experimental data set

    本文中实验的两个领域的样本存在数目不均衡的问题,为了更好地训练模型,验证实验方法的性能,因此使用翻转、缩放、裁剪,旋转等一些数据增强的方式得到了相对均衡的数据样本。故最后得到磁瓦数据集的裂纹缺陷图像460张,无裂纹缺陷图像434张,本实验得到的金属板红外图像数据集的裂纹缺陷图像380张,无裂纹缺陷图像320张。将两域的数据集根据有无裂纹缺陷各自按照8:1:1的比例划分训练集,验证集和测试集。实验包含两种域迁移:磁瓦数据集→金属板数据集,金属板数据集→磁瓦数据集,因本文主要应用网上公开的缺陷数据集来实现对我所实验的金属材料红外图像的缺陷检测识别,所以更多关注的是从磁瓦数据集到金属板数据集的迁移任务的准确率。

    本文实验都使用基于Python 3.7的Pytorch深度学习框架,CPU为i5-11400H,GPU为GeForce RTX 3060,RAM为16 GB。模型训练的迭代轮数保持一致,使用随机梯度下降法(Stochastic gradient descent,SGD),动量设置为0.9,学习率的调整公式为ρθρ0/(1+αθ)β,其中训练时θ服从0到1的线性变化,ρ0=0.01, α=10, β=0.75。

    为对比证明本文方法的优越性,于是设置了几组不同方法的模型来进行对比实验。一是经过网络数据集预训练后的微调ResNet50网络模型,二是度量距离为多核最大均值差异(Multipe Kernel Maximum Mean Discrepancy,MK-MMD)的DAN模型,三是未添加注意力机制,采用局部最大均值差异(Local Maximum Mean Discrepancy,LMMD)度量距离的ResNet50_LMMD模型,四是本文的添加CBAM注意力模块的改进ResNet50网络,用局部最大均值差异度量距离的模型。几种模型实验的环境条件和配置相同,实验设定100轮次,本文方法训练集和测试集的检测精度如图 6所示。可以看出,训练集和测试集在30轮左右达到稳定,且精度相差不大,说明模型是稳定可靠的。

    图  6  训练集和测试集精度对比图
    Figure  6.  Accuracy comparison diagram of training set and test set

    各个不同模型的检测精度对比如表 2所示,可以明显看出本文提出的方法平均精度为88.52%,好于对比的其他模型,表明本文提出的模型通过对齐同类子领域,能得到领域间更细节的信息,使得不同领域间同类别联系更为紧密,不同类别间的类间距分得更开,同时和方法3相比可知添加注意力机制后检测精度得到大约1.3%的提升,验证了模型的优越性。同时图 7展示了磁瓦数据集到金属板数据集训练得到的准确率的对比效果,相同轮次下,可以看到其余方法在20个epoch左右达到收敛,随后细微振荡,而本文提出的方法收敛速度较慢,原因是在ResNet50网络基础上加入了CBAM注意力模块,增加了网络的复杂度,所以检测消耗的时间较不添加CBAM模块的时间增加了大约2.5 s,但是检测缺陷的准确率得到了提升。

    表  2  不同模型的检测精度
    Table  2.  Detection accuracy of different models %
    Methods Magnetic tile→sheet metal Sheet metal→magnetic tile Average accuracy
    ResNet50 63.93 59.18 61.56
    DAN 78.19 73.53 75.86
    ResNet50_LMMD 88.29 86.10 87.20
    This paper 90.11 86.93 88.52
    下载: 导出CSV 
    | 显示表格
    图  7  不同方法的精确度对比图
    Figure  7.  Accuracy comparison chart of different methods
    Magnetic tile data set→sheet metal data set

    为了更加直观地体现出本文方法的优点,实验选择了源域为磁瓦数据集,目标域为本文采集的金属板的红外图像数据集作为可视化对比,利用t-SNE(t-distributed stochastic neighbor embedding)算法[17]将源域和目标域部分数据的特征值映射为二维空间,然后在二维空间里将其特征可视化。几种对比方法的特征可视化效果如图 8所示,其中S代表源域,T代表目标域,S-0表示源域中无缺陷的样本,S-1表示源域中裂纹缺陷的样本。由图可知,仅采用经过预训练微调的ResNet50模型提取通用特征能力强,一个域内的同类别间的聚类效果好,但不同领域相同类别就没有很好地聚类。采用多核MMD(MK-MMD)的DAN模型展现出一定的特征对齐能力,但未考虑两域子领域的分布对齐,不同领域的同类别间聚类效果不是很好。而采用子领域自适应模型的ResNet50_LMMD和本文方法在对齐全局域分布的同时还实现了对齐同类子领域的分布,另外本文方法融入注意力机制,提升了特征提取能力,可以看出两域间相同类别密切地聚集在一起,得到了不错的聚类效果,充分证实了本文方法的有效性和优越性。

    图  8  不同方法的t-SNE特征可视化
    Figure  8.  Visualization of t-SNE features by different methods

    通过引入特征迁移学习思想,建立局部最大均值差异衡量指标,缩小了源域和目标域数据特征间的分布差异,实现了相关子域的分布对齐。基于特征迁移学习思想建立的金属板材料裂纹的缺陷识别模型,解决了数据集中裂纹缺陷样本量少,训练和测试样本难以同分布的问题。提出的基于深度学习与子领域自适应的工件涡流热成像的缺陷检测模型,在ResNet50网络添加CBAM注意力机制,提高了模型对于缺陷区域特征的关注度,可以聚焦于缺陷特征的提取,提升模型缺陷检测能力。通过相关实验对比,并使用t-SNE算法对几种对比实验提取的特征进行可视化,验证了所提模型的有效性,提升了金属板材料裂纹缺陷的检测精度。

  • 图  1   校正算法网络结构

    Figure  1.   Network structure of correction algorithm

    图  2   轻量化多尺度下采样模块

    Figure  2.   Lightweight multiscale downsampling module

    图  3   通道注意力机制结构

    Figure  3.   Channel attention mechanism structure

    图  4   Space_to_depth算法

    Figure  4.   Space_to_depth algorithm

    图  5   深度可分离卷积

    Figure  5.   Depth separable convolution

    图  6   串联卷积示意图

    Figure  6.   Schematic diagram of series convolution

    图  7   多尺度特征提取

    Figure  7.   Multiscale feature extraction

    图  8   各算法的PSNR指标

    Figure  8.   PSNR of each algorithm

    图  9   各算法的SSIM指标

    Figure  9.   SSIM of each algorithm

    图  10   各算法粗糙度指标

    Figure  10.   Roughness of each algorithm

    图  11   不同方法校正效果比较

    Figure  11.   The results of different algorithms

    图  12   不同算法真实场景校正效果

    Figure  12.   Real scene correction effect of different algorithms

    表  1   模型训练环境

    Table  1   Model training environment

    Indicator Parameters
    CPU AMD Ryzen7 5800H
    GPU NVIDIA RTX 3060
    RAM size 16G
    VRAM size 6GB
    CUDA vision 10.0
    Deep learning framework Tensorflow-gpu-2.3.0
    Batch size 16
    Optimization algorithm Adam
    Learning rate 0.0001
    Decay rate 0.9
    下载: 导出CSV

    表  2   各网络内存消耗

    Table  2   Memory consumption of each network

    Network Weight/kB Feature-map /M
    LMDM(Ours) 0.3672 1.7500
    Unet 0.8476 5.5000
    MobleNetV1 0.9883 4.6875
    MobileNetV3 1.1875 4.5000
    ConvNet 11.5078 21.7500
    GhostNet 2.0156 20.5000
    下载: 导出CSV

    表  3   网络校正速度和内存对比

    Table  3   Network correction speed and memory comparison

    Algorithm Time-consuming of
    100 images/s
    Network consumes
    memory/MB
    Ours 2.17 49.82
    Unet 3.73 182.36
    RAN 2.89 518.85
    下载: 导出CSV

    表  4   各算法平均PSNR和SSIM

    Table  4   PSNR and SSIM of each algorithm

    Algorithms PSNR SSIM
    Ours 34.25 0.9230
    Unet 34.20 0.9306
    BFTH 32.93 0.8285
    DLS 34.38 0.8881
    RAN 34.51 0.9128
    下载: 导出CSV

    表  5   各算法平均粗糙度指标

    Table  5   Roughness of each algorithm

    Algorithms BFTH DLS RAN Unet Ours
    Roughness 0.1176 0.1052 0.1052 0.0972 0.0933
    下载: 导出CSV
  • [1] 樊凡. 基于场景的红外非均匀性校正算法研究[D]. 武汉: 华中科技大学, 2015.

    FAN Fan. Research on the Infrared Scene Based Nonuniformity Correction Algorithm[D]. Wuhan: Huazhong University of Science and Technology, 2015.

    [2]

    HOU Huixin, LI Qing, LIU Shangqian, et al. Nonuniformity and its correction principle of infrared focal plane arrays[J]. Laser & Infrared, 2003, 3(6): 46-48.

    [3]

    ZHOU Huixin, LI Qing, LIU Shangqian, et al. Nonuniformity and its correction principle of infrared focal plane arrays[J]. Laser & Infrared, 2003, 3(6): 46-48.

    [4]

    Scribner D A, Sarkady K A, Kruer M R, et al. Adaptive nonuniformity correction for IR focal-plane arrays using neural networks[C]//International Society for Optics and Photonics, 1991: 100-109.

    [5] 牟新刚, 崔健, 周晓. 基于全卷积网络的红外图像非均匀性校正算法[J]. 红外技术, 2022, 44(1): 21-27. http://hwjs.nvir.cn/cn/article/id/1dc81b37-2449-459f-a97a-284832f6be2e

    MOU Xingang, CUI Jian, ZHOU Xiao. Infrared image non-uniformity correction algorithm based on full convolutional network[J]. Infrared Technology, 2022, 44(1): 21-27. http://hwjs.nvir.cn/cn/article/id/1dc81b37-2449-459f-a97a-284832f6be2e

    [6] 陆俊杰. 基于深度学习的红外探测器非均匀性校正算法研究[D]. 武汉: 武汉理工大学, 2020.

    LU Junjie. Nonuniform Image Correction for Infrared Detector Based on Deep Learning[D]. Wuhan: Wuhan University of Technology, 2020.

    [7]

    HE Zewei, CAO Yanpeng, DONG Jiangxin, et al. Single-image-based nonuniformity correction of uncooled long-wave infrared detectors: a deep-learning approach[J]. Applied Optics, 2018, 57(18): 155-164. DOI: 10.1364/AO.57.00D155

    [8]

    Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI, 2015: 234-241.

    [9]

    JIE H, LI S, GANG S. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(8): 2011-2023.

    [10]

    JIANG Y, TAN Z, WANG J, et al. GiraffeDet: a heavy-neck paradigm for object detection[J/OL]. arXiv, 2022, https://www.researchgate.net/publication/358493689_GiraffeDet_A_Heavy-Neck_Paradigm_for_Object_Detection.

    [11]

    LIU F, XU H, QI M, et al. Depth-wise separable convolution attention module for garbage image classification[J]. Sustainability, 2022, 14(5): 1-18.

    [12]

    Szegedy C, LIU W, JIA Y, et al. Going deeper with convolutions[J/OL]. IEEE Computer Society, 2014, https://ieeexplore.ieee.org/document/7298594.

    [13]

    Bal A, Alam M S. Automatic target tracking in FLIR image sequences[C]//Proceedings of SPIE - The International Society for Optical Engineering, 2005, 54(5): 1846-1852.

    [14]

    Berg A, Ahlberg J, Felsberg M. A thermal object tracking benchmark[C]// IEEE International Conference on Advanced Video & Signal Based Surveillance, 2015, DOI: 10.1109/AVSS.2015.7301772.

    [15]

    Channappayya S S, Bovik A C, Heath R W. Rate bounds on SSIM index of quantized images[J]. IEEE Transactions on Image Processing, 2008, 17(9): 1624-1639. DOI: 10.1109/TIP.2008.2001400

    [16]

    Mathieu M, Couprie C, Lecun Y. Deep multi-scale video prediction beyond mean square error[C/OL]//ICLR, 2016, http://arxiv.org/pdf/1511.05440.pdf.

    [17] 崔健. 基于深度学习的红外探测器非均匀性校正算法研究[D]. 武汉: 武汉理工大学, 2021.

    CUI Jian. Research on Non-Uniformity Correction Algorithm of Infrared Detector Based on Deep Learning[D]. Wuhan: Wuhan University of Technology, 2021.

    [18]

    Howard A G, ZHU M, Chen B. et al. MobileNets: efficient convolutional neural networks for mobile vision applications[J/OL]. arXiv preprint arXiv: 1704.04861, 2017, https://arxiv.org/abs/1704.04861.

    [19]

    Howard A, Sandler M, Chu G et al. Searching for MobileNetV3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 1314-1324.

    [20]

    LIU Z, MAO H, WU C Y, et al. A ConvNet for the 2020s[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 11966-11976.

    [21]

    HAN K, WANG Y, TIAN Q, et al. GhostNet: more features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1577-1586.

    [22]

    ZUO C, CHEN Q, GU G, et al. New temporal high-pass filter nonuniformity correction based on bilateral filter[J]. Optical Review, 2011, 18: 197-202. DOI: 10.1007/s10043-011-0042-y

    [23]

    HE Zewei, CAO Yanpeng, DONG Yafei, et al. Single-image-based nonuniformity correction of uncooled long-wave infrared detectors: a deep-learning approach[J]. Applied Optics, 2018, 57: D155-D164. DOI: 10.1364/AO.57.00D155

    [24]

    XU K, ZHAO Y, LI F, et al. Single infrared image stripe removal via deep multi-scale dense connection convolutional neural network[J]. Infrared Physics and Technology, 2022(121): 104008-104008. Doi: 10.1016/j. infrared.2021.104008.

  • 期刊类型引用(1)

    1. 翁岩松,杨洁. 基于深度学习的改进卫星检测方法. 航空电子技术. 2024(04): 1-8 . 百度学术

    其他类型引用(0)

图(12)  /  表(5)
计量
  • 文章访问数:  149
  • HTML全文浏览量:  15
  • PDF下载量:  67
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-02-20
  • 修回日期:  2023-03-30
  • 网络出版日期:  2024-05-23
  • 刊出日期:  2024-05-19

目录

/

返回文章
返回