基于卷积神经网络的红外光谱建模分析综述

王堃, 史勇, 刘池池, 谢义, 蔡萍, 孔松涛

王堃, 史勇, 刘池池, 谢义, 蔡萍, 孔松涛. 基于卷积神经网络的红外光谱建模分析综述[J]. 红外技术, 2021, 43(8): 757-765.
引用本文: 王堃, 史勇, 刘池池, 谢义, 蔡萍, 孔松涛. 基于卷积神经网络的红外光谱建模分析综述[J]. 红外技术, 2021, 43(8): 757-765.
WANG Kun, SHI Yong, LIU Chichi, XIE Yi, CAI Ping, KONG Songtao. A Review of Infrared Spectrum Modeling Based on Convolutional Neural Networks[J]. Infrared Technology , 2021, 43(8): 757-765.
Citation: WANG Kun, SHI Yong, LIU Chichi, XIE Yi, CAI Ping, KONG Songtao. A Review of Infrared Spectrum Modeling Based on Convolutional Neural Networks[J]. Infrared Technology , 2021, 43(8): 757-765.

基于卷积神经网络的红外光谱建模分析综述

详细信息
    作者简介:

    王堃(1980-),男,博士研究生,主要研究方向为传热反问题,E-mail:3938630@qq.com

    通讯作者:

    孔松涛(1969-),男,四川人,教授,研究生导师,博士。研究方向:流体流动与传热、工业大数据分析及钻井与石油装备,E-mail:kst@tom.com

  • 中图分类号: O657.33

A Review of Infrared Spectrum Modeling Based on Convolutional Neural Networks

  • 摘要: 红外光谱技术存在着数据预处理复杂、预测精度不高,且难以处理大量非线性数据的问题,适于用卷积神经网络进行处理。本文首先分析了卷积神经网络应用在红外光谱上的优点,并对卷积神经网络结构组成进行简单的概述。然后针对卷积神经网络在光谱分析建模中的输入数据维度问题进行详细阐述;针对模型设计中卷积核参数的影响、多任务处理模型以及训练过程中的优化方法进行综述。最后分析了该研究的优点与不足,并展望了未来的发展趋势。
    Abstract: Convolutional neural networks are used to solve problems such as complex data preprocessing, low prediction accuracy, and difficulty in dealing with a large amount of nonlinear data in infrared spectroscopy. Moreover, owing to their strong feature extraction ability and good nonlinear expression ability, the application of convolutional neural networks in the modeling of infrared spectrum analysis has attracted attention. In this study, the advantages of the application of a convolutional neural network for the infrared spectrum are analyzed, and the structure and composition of the convolutional neural network are briefly summarized. Then, the dimension problem of the input data in the spectral analysis modeling of the convolutional neural network is described in detail. This paper reviews the influence of convolution kernel parameters in the model design, multi-task processing model, and optimization methods in the training process. Finally, the advantages and disadvantages of this research are analyzed, and future development trends are discussed.
  • 作为多源成像技术的核心之一,红外与可见光图像配准技术在众多领域具有重要的研究价值。红外与可见光图像配准能够获得更丰富和全面的场景信息,被广泛应用于军事侦察、视频监控、遥感信息融合、电力设备监测等领域[1-2]

    红外图像与可见光图像的成像原理差异导致了传统单模态图像配准方法效果不佳。通过在相同时间内对同一范围成像所得到的可见光图像与红外图像的数据进行分析可以发现,它们之间由于存在着不同比例的缩放以及相对平移、旋转等问题[3]导致了红外与可见光图像具有很大的配准难度。因此,研究者们针对不同的应用场景分析,提出多种精度高、配准效果好的方法。鉴于这些方法在各领域的研究中具有重要的理论及实践意义,有必要对其研究现状进行综述。

    文章综述了红外与可见光图像配准的相关技术,剖析了配准中存在的难点与挑战,针对基于区域、基于特征和基于深度学习3类红外与可见光图像配准方法进行了较为详细的分析与总结,最后列举了该技术的一些实际应用并展望了未来的发展趋势。

    图像配准是对同一场景图像叠加的过程,旨在找到参考图像(固定图像)和浮动图像(待配准图像)之间的映射关系。通常采用两个二维数组来定义两幅图像,如I1(x, y)和I2(x, y),它们分别表示两幅图像的灰度值,则两幅图像之间的变换关系可以采用公式(1)来表示:

    $$ I_{2}(x,y)=g(I_{1}(f(x,y))) $$ (1)

    式中:f为二维空间坐标变换;g为一维灰度值变换。

    基于区域的配准算法主要以参考图像为基础,利用极大化相关性指标来搜索待配准图像的最佳位置。选取合适的相似性测度算法以寻找两幅或多幅图像的相关性并在空间域或频域中展开,是基于区域的配准方法的核心。基于区域的图像配准算法步骤如图 1所示。

    图  1  基于区域的图像配准算法步骤
    Figure  1.  The steps of region-based image registration algorithm

    选择相似性测度算法时,以互相关、互信息为代表的空间域中寻找两幅图像的相关性在当下运用较多。互相关最早应用于基于区域的配准方法中,Sarvaiya等人和Yang等人都是运用归一化互相关的思想分别在不同光谱图像中进行模板匹配,反应不同图像特征相似性[4-5]。归一化互相关方法(Normalized Cross Correlation, NCC)主要思想是计算两幅图像对应窗的相似性。令I(x, y)表示浮动图像,T(x, y)为参考图像,当参考图像在浮动图像中移动时,在每个位移点(i, j)处,两者相似度如公式(2)表示:

    $$ D\left( {i,j} \right) = \frac{{\sum\limits_x {\sum\limits_y {T\left( {x,y} \right)I\left( {x - i,y - j} \right)} } }}{{\sqrt {\sum\limits_x {\sum\limits_y {{I^2}\left( {x - i,y - j} \right)} } } }} $$ (2)

    互信息则通过对两幅图像的统计相关性进行度量。对于参考图像A和浮动图像B,它们的互信息可表示为:

    $$ \begin{aligned} I(\boldsymbol{A}, \boldsymbol{B}) &=H(\boldsymbol{B})-H(\boldsymbol{B} \mid \boldsymbol{A}) \\ &=H(\boldsymbol{A})-H(\boldsymbol{A} \mid \boldsymbol{B}) \end{aligned}$$ (3)

    式中:H(A)和H(B)为图像AB的边缘熵;H(A, B)表示两幅图像的联合熵;I(A, B)为图像的互信息。当图像AB完全配准时,条件边缘熵H(A|B)和H(B|A)最小,此时互信息I(A, B)达到最大值。

    不同于互相关等基于空间域的图像配准方法,以傅里叶变换为代表的在频域中对两幅图像进行类相关配准也是当下应用较多的方法之一,其主要思想是计算频域的相关性,当应用于边缘表示时,它能够处理可见光图像和红外图像等多模态图像。主要分为频域内的互相关(Cross Correlation in the Frequency domain,CCF)和相位相关(Phase Correlation,PC)。

    1)频域内的互相关(CCF):两幅图像的相关性的傅里叶变换(FT)是一幅图像的傅里叶变换与另一幅图像的傅里叶的复共轭的乘积。假设两个图像函数f(x, y)与g(x, y)在行和列方向上的位移Δx与Δy表示为g(x, y)=f(x-Δx, y-Δy),则频域内的互相关CCF的如公式(4)所示:

    $$ CC=F^{-1}(F(u,v)^{*}G(u,v)) $$ (4)

    式中:F(u, v)和G(u, v)分别表示f(x, y)和g(x, y)傅里叶变换,F-1表示傅里叶逆变换,*为复共轭。CCF相当于计算空间域内的互相关,而FFT使用避免了传统互相关相关过程的迭代搜索,能够快速计算相关性。

    2)相位相关(PC):PC是基于傅里叶变换的平移特性,即将两幅相关图像在空间域上的位移作为相位差转换到频域。相位相关如公式(5)所示:

    $$ \begin{aligned} \mathrm{PC} &=F^{-1}(\boldsymbol{Q}(u, v)) \\ &=F^{-1}\left\{\frac{F(u, v) * G(u, v)}{|F(u, v) * G(u, v)|}\right\} \\ &=F^{-1}\{\exp (-\mathrm{i})(u \Delta x+v \Delta y)\} \end{aligned}$$ (5)

    式中:$ {\text{i}} = \sqrt { - 1} $;Q(u, v)表示归一化互功率谱矩阵。PC使用相位信息的特性避免了对图像内容的依赖性,所得到的相关峰值更清晰,计算效率较高。

    传统的基于特征的图像配准算法是一个不断迭代优化寻找图像之间最优相似度的过程,为了提高图像配准的精度,在对不同传感器图像进行特征提取前,需要将图像的特征信息在像素级上进行展开,常用的特征包括:角点、边缘线段、特征区域等。特征匹配就是在特征提取过程中,根据特征描述算子和相似性测度准则获得特征集合间的匹配关系,可能用到的信息有:特征向量的空间分布、区域的灰度值以及特征描述符等。最后通过判断参考图像与待配准图像之间是否产生几何畸变,从而选择合适的几何变换模型对图像进行最佳拟合。基于特征的图像配准算法步骤如图 2所示。

    图  2  基于特征的图像配准算法步骤
    Figure  2.  The steps of feature-based image registration algorithm

    深度学习的配准方法主要是利用深度学习网络对输入的图像对进行特征提取与相似性测度,从而实现配准图像的生成与图像配准精度的判别。深度学习图像配准算法步骤如图 3所示,一般将可见光图像与红外图像通过深度网络模型映射转为同一模态(比如将可见光图像转为红外图像),而后输入到配准网络中进行相似性测度,根据神经网络反向传播特性,将损失值传递到网络中迭代,促使可见光图像映射到红外图像的效果更好,以获取两幅红外图像更精确的相似性度量,最终得到最优的输出值得到配准图像。

    图  3  基于深度学习的图像配准算法步骤
    Figure  3.  Image registration algorithm principle based on deep learning

    由于受到自然环境、物体运动干扰、光照等条件的影响,红外与可见光图像之间相关性较小,因此基于区域的图像配准方法效果较差。

    在基于特征的图像配准方法中,为了提高图像配准的精度,在对不同传感器图像进行特征提取前,需要将图像的特征信息在像素级上进行展开。此类方法运用多种算子、仿射变换模型对红外与可见光图像进行配准。往往采用单一特征的配准算法进行图像配准难以同时满足配准速度和精度的要求,而采用多特征的配准算法进行图像配准则会增加特征算子的维度,加大配准的复杂性,因此如何结合不同算法提高特征点对的提取和匹配精度以及缩短配准时间是配准的一大挑战。

    传统的配准方法精度高、但相较于深度学习的配准方法速度较慢,传统方法已逐渐无法满足当下各种红外与可见光图像配准领域飞速发展的需要。近些年来,深度学习的配准方法在医学图像和遥感图像的配准中已有较传统方法效果更好、速度更快的优势。部分研究者尝试将卷积神经网络、生成对抗网络等深度学习网络应用到红外与可见光图像配准中并取得了一定的进展,但与传统方法在配准精度上仍具有一定的差距。由于红外光谱通常分辨率较低且模糊,难以可靠的提取关键点等详细特征,在深度学习架构中既不易可靠地找到特征,也不适合直接训练,因此,深度学习方法在实现出色的红外与可见图像配准方面面临许多挑战[6]

    下面将分别介绍基于区域、基于特征和基于深度学习的图像配准方法。

    基于区域的配准方法又称模板匹配法,典型的区域配准算法包括:傅里叶变换、互信息、梯度信息等。

    基于傅里叶图像相关性的图像配准旨在将二维图像从空间域变换到频率域计算图像之间的相关性,Stone等人[7]率先研究了基于傅里叶相关性的图像配准精度降低的因素,说明了影响相位相关图像配准精度的问题主要来自插值误差以及在采样过程中图像旋转时,离散傅里叶变换不易展开两个方面。在随后研究中,Stone等人为减少旋转依赖的混叠而对图像进行窗口化以去除高频信息,使得图像配准中相位相关性大大提高。

    在如何减少插值误差带来的配准精度问题的研究中,将笛卡尔网格上的FFT系数内插到对数极坐标网格中得到对数极坐标系数从而准确地评估对数极坐标傅里叶变换是重中之重。为此,研究者们提出了“MPFFT[8]”、“MPFT[9]”等方法,这些方法都是通过提供一种类似对数极坐标的网格使得到的对数极坐标傅里叶变换更加精确,从而减少插值误差对图像配准精度的影响。除傅里叶变换外,Fujisawa等人[10]将Radon变换应用于图像的频域和空间域以进行高精度旋转和尺度估计,在减少插值误差方面起到了类似的作用。

    Kim等人[11]提取可见光图像中与相应的红外图像区域高度相关的区域,并利用提取的区域计算互信息,以管理多模态图像的鲁棒配准,其配准效果较基于区域的配准算法有一定的提升。Yang等人[12]将互信息用以图像序列的全局配准与逐帧到每幅图像之间的局部配准,该配准算法加强了动态图像全局与局部的一致性,但所需要的连续帧图像序列对不易获取。

    由于红外与可见光不一致的光谱特性,复杂背景区域的边缘轮廓较为模糊,从而增加了归一化互信息(Normalized Mutual Information, NMI)算法在配准时局部极值的数量,导致从多模态图像中提取一致特征较为困难。将红外与可见光图像的互信息和梯度信息相结合,利用梯度相似性作为互信息的加权,构造新的配准测度成为了许多研究人员重点研究的方向。在相关研究中,Lian-Fa等人[13]提出了一种改进的梯度NMI算法,能够根据梯度大小和方向对两幅图像相关性进行优化。但该算法只考虑消除多峰条件,没有改善红外与可见图像之间的低相关性,配准的位置可能不准确。归一化总梯度(Normalized total gradient, NTG)函数[14]的提出在多光谱图像配准中取得了良好的效果,尽管有其优势,但计算成本相应增加。在如何解决互信息较为依赖图像全局一致性这一问题上,Yang等[15]引入自适应局部张量获取互信息,与加权函数组成测度准则,能够有效反应图像灰度信息。赵洪山[16]结合流形排序算法提出一种新的基于显著性梯度的NCC算法,在增加配准时间的情况下能够提高红外图像模糊边缘的特征提取率,然后采用文化狼群的算法对测度函数进行优化,提高了图像配准的收敛性和配准率。

    除了采用精确度更高的梯度算子提高梯度互信息算法的准确性外,一些研究人员从图像预处理入手,结合变换域、显著性等方法,有效实现梯度的准确获取以及减少互信息的计算量。根据输电线路图像中导线的方向梯度明确的特点,孙凤杰[17]等人采用将直方图和归一化相关匹配相结合的匹配方法,有效减少了模板的搜索空间。在变换域方面,刘刚[18]结合非下轮廓波变换将红外图像与可见光图像变换到NSCT域,将梯度归一化互信息作为图像配准的相似性测度准则,最后通过遗传算法进行配准,能够有效缩短配准时间。吴延海[19]则将梯度信息和区域互信息相结合作为相似性测度函数,通过对小波分解后的图像进行分层配准,得到了精度较高的配准图像。

    在其他方面,图 4为Zhuang等人[20]通过结合粒子群优化(PSO)与Powell搜索方法的配准算法流程图与配准结果,在配准速度和精度上得到了保证,由于该方法在达到最大互信息时才会从PSO算法过渡至Powell算法去寻找最优解,因而Zhuang等人借助主成分分析(PCA)来决定何时改变算法以提高配准效率。

    图  4  基于互信息的PSO-Powell图像配准算法及实验结果:算法流程图(a);红外与可见光图像对(b)和配准结果(c)[20]
    Figure  4.  Pso-powell image registration algorithm based on mutual information and experimental results: (a)Flowchart of the PSO–Powell algorithm; (b)A pair of infrared and visual images and (c)Registration results[20]

    Li等[21]结合传统相位相关与归一化互相关金字塔,在使用参考图像和浮动图像获取金字塔结构后,通过将金字塔结构中顶层的子源图(浮动图像二次采样)映射到底层执行配准过程,该方法对部分目标丢失情况下配准具有很强的鲁棒性,但图像噪声对算法性能影响较大。

    基于区域的配准方法以整幅图像的灰度信息为依据。其中,基于傅里叶的图像配准利用FFT对待配准的两幅图像在频域进行类相关配准,其计算效率高,且对与频率相关的噪声具有鲁棒性,但如何对频域内两幅图像在对数极坐标中的傅里叶变换进行准确的估计是基于相位相关运动估计的主要挑战;基于互信息的方法容易使红外与可见光图像配准过程中陷入局部极值,与互信息方法相比,基于互信息与梯度信息、变换域的图像配准方法通常不需要复杂的预处理过程,实现过程相对简单。但这种方法对灰度变化敏感,并且在最优变换的搜索过程中运算量较大,对相似度量函数的选取要求较高。因此,基于区域的配准方法对于红外与可见图像配准适用性较差。

    常见的基于特征的红外与可见光图像配准方法有:基于点特征、基于轮廓边缘与区域特征的图像配准方法。

    基于点特征的图像配准如图 5所示,一般通过特征描述符选择图像的角点、边缘交点进行特征提取。

    图  5  基于点特征的图像配准:(a)红外与可见光图像配准;(b)融合结果
    Figure  5.  Image registration based on point feature: (a)Infrared and visible image registration; (b)Fusion result

    尺度不变特征变换(SIFT)被认为是最稳健的方法,其对噪声不敏感,被广泛应用于特征点提取,但它提取特征点的速度较慢,在细节纹理少的图像中提取效果较差。通过对SIFT算子进行改进,ASIFT算子[22]能够在红外图像发生旋转、缩放、甚至带有噪声的情况下有效地进行特征匹配。Yang等[23]在ASIFT基础上结合多尺度Retinex算法对可见光图像中表示物体属性的分量进行分离,以减弱杂波背景的影响。该算法能够增加特征点的提取数量,实现配准精度的提高。与ASIFT类似,Zeng等人[24]利用形态梯度得到红外和可见光的灰度边缘,使得相似度得以提升,然后通过改进的C_SIFT特征检测算子从提取的边缘中进行检测和提取特征点,图 6为该配准算法的流程图和配准结果,可以看到,使用C_SIFT算法在形态梯度学提取到的边缘轮廓中提取到的特征点较多,有利于特征匹配过程中特征点的选取,在红外与可见光图像配准上效果显著。

    图  6  基于形态学梯度和C_SIFT的实时自适应可见光和红外图像配准及其结果:(a)算法流程图;(b)待配准图像对;(c)待配准图像的形态梯度图像;(d)红外与可见光图像配准结果[24]
    Figure  6.  Real-time adaptive visible and infrared image registration based on morphological gradient and C_SIFT and result: (a)The flowchart of proposed algorithm; (b)Image pairs to be registered; (c)The morphology gradient image of visible and infrared images; (d)The registration results of visible and infrared images[24]

    Jiang等人[25]提出采用一种轮廓角方向CAO-C2F算法,利用CSS算法计算特征点的轮廓角主方向,并结合SIFT描述符进行双边匹配,通过C2F实现了红外与可见光图像的精确配准。

    随着红外与可见光图像配准任务要求的不断提高,SIFT算子的许多变体不断被提出。其中,SURF算子不仅保留了SIFT算子尺度不变的特性,在对特征点的提取速度上进一步加快。李伟[26]采用固定区域截取特征点或手动提取特征点的方法对可见光图像进行预处理,然后采用SURF算子进行特征点提取,这种方法具有较好的特征点提取效果;FAST算子具有快速提取特征点的特性,Chen[27]基于电气设备的四边形特征,采用轮廓和直线检测技术能够有效提取特征点。戴进墩[28]将灰度直方图均衡法和NSCT算法相结合对红外与可见光图像进行预处理,然后采用FAST算子提取特征点,这种算法能够减少特征点的误匹配优化配准效果。尽管这种方法计算简单,但是FAST算子由于角点聚集率高极易产生大面积的角点块,且对噪声的鲁棒性较差,导致提取的效果过于依赖于固定阈值的选取;通过对FAST算子进行改进得到了ORB算子,该算子在保证提取速度要求的同时,能够利用图像金字塔实现尺度不变性。比如,江泽涛[29]采用优化显著性检测的算法,首先利用直方图规定化对红外图像进行预处理,增强图像的细节信息,再引入泰勒级数改进传统ORB算法,降低误匹配率提高配准精度。

    然而,上述基于点特征的图像配准大多利用高斯滤波构建尺度空间图像,此类方法缺点是尺度空间边缘的弱化,导致图像细节信息的丢失。为此,占祥慧[30]考虑利用滚动滤波引导构建尺度空间,利用改进相位相关模型得到更准确的特征描述,结合Shitomasi算法进行多尺度角点检测,更好地反映了红外与可见光图像的细节纹理。Li等人[31]则放弃特征描述子,在特征提取过程中借鉴目标检测中常用的YOLOv3网络在得到的物体边界框中提取约束点特征,该方法可以获得足够多的匹配点对以获得唯一的仿射变换矩阵用以对齐红外与可见光图像。

    基于轮廓边缘与区域特征的配准算法主要利用图像中的直线/曲线特征或者局部区域相似性进行特征提取,通常和传统的边缘提取算法相结合,在图像的边缘或局部区域上提取特征点。

    在基于轮廓边缘的图像配准中,一些研究者致力于通过构建效果更好的特征描述符实现红外与可见光图像的配准,Chen等[32]针对红外图像灰度分布差异,使用改进PIIFD计算图像边缘的特征描述,经过高斯场估计和仿射变换实现特征匹配和图像对齐。Liu等人[33]提出了LGHD特征描述符,在原始匹配图像经过直方图均衡化并提取图像轮廓后,利用Log-Gabor滤波器来获取像素邻域的相位信息,通过所检测关键点的子区域的直方图构建特征描述符。

    使用边缘检测算法提取图像边缘后计算轮廓角主方向也是一种基于边缘特征的图像配准的思路。李云红等[34]针对电力设备红外与可见光图像配准的特点提出一种基于Freeman链码差的CSS算法实现红外与可见光图像配准,具有很好的配准效果。Cheng等[35]为了发现用于图像配准的图像中丰富的几何特征,利用Canny边缘检测算法分别提取电力设备红外图像和可见光图像的轮廓点云,而后利用Clifford代数计算轮廓角主方角用于对待配准图像进行空间变换,该方法在有大旋转的图像中的配准误差逼近无明显旋转的配准误差,侧面反映了旋转不变性和稳定性。

    基于区域特征的配准方法则是选取具有显著性的区域信息作为特征区域,陈亮[36]采用改进的相似性测度函数同Canny算子相结合提取边缘特征用于构造边缘区域,将粒子群搜索算法作为优化算法,利用边缘区域实现红外与可见光图像的配准。Liu等人[37]提出了一种基于搜索空间和特征空间优化的视觉显著性和SIFT相结合的图像配准算法。采用调幅傅里叶变换构造显著性区域以得到显著性特征点,通过主成分分析(PCA)方法建立了SIFT特征的降维性,实现红外图像与可见光的鲁棒配准。

    另外,一些研究人员还通过构建变换模型实现跨模态图像的配准。廉蔺[38]选择在多尺度空间提取两幅图像的边缘信息,分别采用仿射模型和投影模型作为变换模型,实现自动配准。Ma等人[39]通过利用非刚性变换模型在再生核希尔伯特空间(Reproducing kernel Hilbert spaces, RKHS)实现图像之间的变换,结合高斯混合模型剔除与对应函数不一致的错误匹配对,同时在图像变换中引入正则化项来增强变换的平滑性。李巍[40]采用形状上下文描述子对局部区域特征进行描述,提出Student’s-T分布混合模型作为变换模型,实现红外与可见光图像配准。

    针对非线性变换降低了变换模型的泛化能力,增加计算复杂度等问题,Min等人[41]提出了一种增强仿射变换(Enhanced affine transformation, EAT)的非刚性红外和可见光图像配准。根据局部特征估计出由全局变形构造的最优EAT模型,利用图像对之间的潜在对应关系,建立高斯场的目标函数。在另一项工作中[42],Min等人将图像配准视为点集配准,如图 7所示,利用Canny边缘描述符从红外和可见光图像的边缘图中提取点集,通过改进的高斯加权形状上下文(Gaussian weighted shape context, GWSC)提取匹配点,结合增强仿射变换模型实现高斯场距离测量,从而描述红外图像与可见光图像之间全局变换的正则性。

    图  7  高斯加权形状上下文原理与配准结果:(a)由原始SC提供的对应点的实例;(b)改进的GWSC配准结果[42]
    Figure  7.  Principle and registration results of Gaussian weighted shape Context (GWSC): (a)An example of point correspondence by the original SC; (b)Qualitative registration results of GWSC[42]

    目前提取特征点的算法相对比较成熟,并且种类较多,对于算法的选择也具有更多的可能性和灵活性。这也是基于特征点的提取方法能得到广泛应用的原因;由于不需要在像素级上对图像进行特征点的筛选与匹配,基于图像轮廓特征的配准方法计算量更小,但对于适用的图像受到了局限;采用特征区域方法能够有效抑制噪声,具有较好的稳定性,但获得的红外与可见光图像区域相似性较小,不易达到一致性,并且受尺度变换及图像角度等因素影响,获得相同区域难度大。当然,随着图像分割技术的不断发展,基于特征区域的配准方法也将得到更深入地研究及广泛地应用。

    现阶段,由于基于深度学习的图像配准方法在红外与可见光中的应用相对有限,无法像基于区域与特征的红外与可见光图像配准一样进行细致分类。但一般而言,基于深度学习的图像配准主要利用深度网络对两幅图像进行相似性测度,通过反向传播寻找最优相似性。在红外与可见光图像对放入网络之前的预处理阶段,部分研究人员采用传统算子或生成对抗网络的跨模态映射对可见光图像进行梯度映射转为红外图像以更好地提取特征。

    Zhao等人[43]利用超列结合卷积神经网络中的不同层特征,以匹配热图像和可见光图像中的关键点。同时,该方法利用空间几何约束进行配准图像的相似性测度,其精度较传统的特征点检测方法有所提高。图 8为Wei等人提出的一种利用卷积神经网络的梯度引导多光谱图像的配准网络RegiNet[44],该网络是一个端到端网络,它使用目标图像和参考图像的梯度图作为输入,同时生成配准图像作为输出。RegiNet进行多尺度特征提取,以考虑不同大小的特征[44]。在配准放入配准网络前,利用Sobel算子对可见光图像进行梯度映射生成相应红外图像,RegiNet分别对参考图像和浮动图像的梯度映射进行编码,然后将它们连接起来以配准目标图像。同时,在训练过程中增加了边缘信息的权重提高了配准性能。在这些方法中,配准对要么是相同的图像谱,要么差异小。多种深度网络模型在红外与可见光图像配准中的尝试,使得利用卷积神经网络提取红外与可见光图像对中的潜在共同特征成为了可能。

    图  8  RegiNet的网络架构。
    Figure  8.  Network architecture of RegiNet

    生成对抗网络(Generative adversarial network, GAN)因其可实现跨域图像映射被应用到红外与可见光图像配准中,生成器实现可见光图像到红外图像的映射,判别器模块判断配准后图像与原图像的相似度、图像是否足够逼真等。基于GAN的变换参数预测框架如图 9所示。

    图  9  基于GAN的变换参数预测框架
    Figure  9.  Transform parameter prediction framework based on GAN

    Wang等人提出了一种用于红外与可见光图像配准的二阶端变压器对抗网络TAN[45]图 10为Wang等人采用的配准框架及部分实验结果,在第一阶段利用条件生成对抗网络(cGAN)学习从可见光图像中得到的红外图像和映射的红外图像之间的从粗到细的变换;在第二阶段利用“Flownet”网络和采样器应用红外图像与可见光图像对,得到精细的对齐红外图像,即扭曲图像;最后利用判别器网络判断扭曲图像是否足够逼真,利用对抗性较好地实现了红外图像与可见光图像的高精度配准。

    图  10  变压器对抗网络(TAN)的红外与可见光图像配准框架及部分实验结果:变压器对抗网络框架(a)与配准结果(b)[45]
    Figure  10.  Infrared and visible image registration framework using transformer adversarial network (TAN) and some experimental results: (a) The framework of the proposed Transformer Adversarial Network and (b) registration results of TAN[45]

    Kumari等人[46]同样利用具有空间变压器模块的生成对抗网络实现了红外与可见光图像的配准,对抗性损失迫使生成器输出一个类似红外的图像与原红外图像放入判别器中判断生成器输出的类似红外的图像是否足够逼真。Mao等人[47]则利用迁移学习的特点,在图像输入对抗子网络之前,使用并行的卷积自动编码器在可见光分支和红外分支两个图像域重建图像,以此提高特征匹配的性能。杨冰超等人[48]选择利用GAN的模态转换能力从红外图像中生成伪红外图像,使用SURF算法结合PIIFD特征描述子提取生成图像特征点,实现特征描述。

    红外图像和可见光图像所表达的光学特征、几何特征和空间位置有很大不同[49]。难以使用卷积神经网络(Convolutional neural network, CNN)获得两个或多个点之间的空间关系。基于生成对抗网络的配准方法能够完成可见光到红外图像的映射,但也需要加入传统利用传统的SIFT、SURF、PIIFD等特征点提取算子实现特征描述。

    红外图像可在全天候与昼夜条件下根据辐射差异将探测目标与背景区分开来,而可见光图像可以提供高空间分辨率和高清晰度纹理细节。作为图像融合的必要前提之一,红外与可见光图像配准在众多领域中已得到诸多应用。

    电力设备作为电力系统的主设备,时常处于高电压、高温的工作状态与日晒雨淋的恶劣环境中,导致其容易产生故障。只依靠可见光图像监测无法统计热量信息,而红外图像虽然能够依靠物体热信息探测目标的热量不寻常点,但在细节纹理上不够突出。实践证明将红外图像与可见光图像配准技术应用到电力设备在线监测系统中,可以在实现电力设备热像显示的同时实现其精确定位,满足电力系统的实时在线监测需求,也提高了对于故障点检测的精确度,保障电力设备安全及供电可靠性[50-51]

    在医学领域中,将热成像技术应用于骨伤与关节疾病、脑梗等脑部疾病、乳腺癌等肿瘤癌症的早期诊断等医学领域中,能够通过体温的变化显示出人体某处可能出现的病灶。根据患者红外图、CT图像、MRI图像等多模态图像进行配准对齐,有助于确定病灶区域,同时,对不同时间段的同一人体区域图像进行配准可以对疾病诊断、手术规划、术后恢复情况等做出细致分析。通过对多模态医学图像配准技术的研究,能够推动现代临床医学技术的进步[52]

    卫星、无人机等空中摄影技术的更新以及可见光传感器的发展促进了多模态图像配准技术在遥感图像中的应用。如根据卫星热成像图与可见光图的匹配结果分析某一区域的气象;在农林业中利用热成像反应植物温度、可见光图像能够对应到具体植株部位的特点对植物进行水分胁迫监测、病毒感染部位分析、生长状况监测;通过对获得的红外与可见光遥感图像进行配准能够实现侦察、跟踪以及军事目标的精确打击[53]

    红外与可见光图像配准技术还应用于材料力学中以研究力学性质、目标物运动跟踪、道路与车辆的场景分类、人脸识别、自动驾驶领域中辅助驾驶等众多领域。

    发展到目前的红外与可见光配准技术已覆盖电力、军事、辅助驾驶与人脸识别等领域。虽然红外与可见光图像的配准算法有很多,但是在不同的应用场景下具有不同的应用需求,如电力系统在线监测领域对图像的实时性要求较高而医学领域对图像的配准精度要求较高等。因此目前还没有一种全面的图像配准算法能够囊括所有的应用场景。针对未来红外与可见光图像配准算法的发展,可以从以下几个方面进行改进以提高图像的配准效率:①对于基于区域的图像配准算法可以在改善相似度量函数、提出更有效的变换域算法等方面进行改进。②对于基于特征的图像配准算法可以在改善图像预处理过程、对传统的描述算子进行降维、设计更精确的错配消除算法等方面进行改进;③随着深度学习在图像配准领域的不断研究,有望实现利用深度网络更好地提取红外与可见光图像的几何特征,从而使深度学习的图像配准方法在红外与和可见光领域得到更好的应用。

  • 图  1   LeNet-5网络模型示意图[19]

    Figure  1.   Schematic diagram of LeNet-5 network model

    图  2   全连接层示意图

    Figure  2.   Diagram of full connection layer

    图  3   光谱数据编码[38]

    Figure  3.   Spectral data coding

    图  4   维卷积核提取原始红外光谱局部特征模式图[46]

    Figure  4.   One dimensional convolution kernel extraction of original IR local feature pattern

    图  5   不同卷积核尺寸的NIR-CNN模型判别结果[49]

    Figure  5.   The discrimination results of NIR-CNN model with different convolution kernel sizes

    图  6   多任务网络的体系结构[41]

    Figure  6.   The architecture of a multitasking network

  • [1]

    Gente R, Busch S F, Eva-Maria Stübling, et al. Quality control of sugar beet seeds with THz time-domain spectroscopy[J]. IEEE Transactions on Terahertz ence & Technology, 2016, 6(5): 754-756. http://ieeexplore.ieee.org/document/7536209/

    [2]

    Przybylek P. A new method for indirect measurement of water content in fibrous electro-insulating materials using near-infrared spectroscopy[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2016, 23(3): 1798-1804. DOI: 10.1109/TDEI.2016.005051

    [3]

    Hiroaki I, Toyonori N, Eiji T. Measurement of pesticide residues in food based on diffuse reflectance IR spectroscopy[J]. IEEE Transactions on Instrumentation and Measurement, 2002, 51(5): 886-890. DOI: 10.1109/TIM.2002.807791

    [4]

    Mignani A G, Ciaccheri L, Mencaglia A A, et al. Spectroscopy AS a "green" technique for food quality and safety applications[C]//Technical Digest of the Eighteenth Microoptics Conference of IEEE, 2013: 1-2.

    [5]

    Nishizawa S, Morita H, Iwamoto T, et al. Terahertz time-domain spectroscopy applied to nondestructive evaluation of pharmaceutical products[C]//2011 International Conference on Infrared, Millimeter, and Terahertz Waves of IEEE, 2011: 1-2.

    [6]

    ZOU Xiaobo, ZHAO Jiewen, Povey M J W, et al. Variables selection methods in near-infrared spectroscopy[J]. Analytica Chimica Acta, 2010, 667(1-2): 14-32. DOI: 10.1016/j.aca.2010.03.048

    [7] 周宣. 基于新型冠状病毒肺炎防护的医用口罩分类与使用[J]. 医疗装备, 2020(15): 10-12. DOI: 10.3969/j.issn.1002-2376.2020.15.006

    ZHOU Xuan. Classification and use of medical masks based on new Coronavirus pneumonia protection[J]. Medical Equipment, 2020(15): 10-12. DOI: 10.3969/j.issn.1002-2376.2020.15.006

    [8]

    Malek S, Melgani F, Bazi Y. One-dimensional convolutional neural networks for spectroscopic signal regression[J]. Journal of Chemometrics, 2017: e2977. DOI: 10.1002/cem.2977

    [9]

    LIU Xuemei, ZHANG Hailiang, SUN Xudong, et al. NIR sensitive wavelength selection based on different methods[C]//2010 International Conference on Mechanic Automation and Control Engineering, 2010: 26-28.

    [10]

    Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, 2012: 1097-1105.

    [11]

    Devos O, Ruckebusch C, Durand A, et al. Support vector machines (SVM) in near infrared (NIR) spectroscopy: focus on parameters optimization and model interpretation[J]. Chemometrics and Intelligent Laboratory Systems, 2009, 96(1): 27-33. DOI: 10.1016/j.chemolab.2008.11.005

    [12]

    Demeulemeester J, Smeets D, Barradas N P, et al. Artificial neural networks for instantaneous analysis of real-time rutherford backscattering spectra[J]. Nuclear Instruments and Methods in Physics Research, 2010, 268(10): 1676-1681. DOI: 10.1016/j.nimb.2010.02.127

    [13]

    Lee S, Choi H, Cha K, et al. Random forest as a potential multivariate method for near-infrared (NIR) spectroscopic analysis of complex mixture samples: Gasoline and naphtha[J]. Microchemical Journal, 2013, 110: 739-748. DOI: 10.1016/j.microc.2013.08.007

    [14]

    McCarty G W, Reeves J B, Reeves V B, et al. Mid-infrared and near‐infrared diffuse reflectance spectroscopy for soil carbon measurement[J]. Soil Science Society of America Journal, 2002, 66(2): 640-646. DOI: 10.2136/sssaj2002.6400a

    [15]

    Gerretzen J, Szymańska E, Jansen J J, et al. Simple and effective way for data preprocessing selection based on design of experiments[J]. Analytical Chemistry, 2015, 87(24): 12096-12103. DOI: 10.1021/acs.analchem.5b02832

    [16]

    Hubel D H, Wiesel T N. Receptive fields and functional architecture of monkey striate cortex[J]. The Journal of Physiology, 1968, 195(1): 215-243. DOI: 10.1113/jphysiol.1968.sp008455

    [17]

    CHEN Yuanyuan, WANG Zhibin. Quantitative analysis modeling of infrared spectroscopy based on ensemble convolutional neural networks[J]. Chemometrics and Intelligent Laboratory Systems, 2018, 181: 1-10. DOI: 10.1016/j.chemolab.2018.08.001

    [18]

    NI C, WANG D, TAO Y. Variable weighted convolutional neural network for the nitrogen content quantization of Masson pine seedling leaves with near-infrared spectroscopy[J]. Spectrochimica Acta Part A Molecular & Biomolecular Spectroscopy, 2019, 209: 32-39. http://www.ncbi.nlm.nih.gov/pubmed/30343107

    [19]

    LeCun Y. The MNIST database of handwritten digits[EB/OL]. http://yann.lecun.com/exdb/mnist/, 1998.

    [20]

    Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems, 2012: 1097-1105.

    [21]

    CHENG G, ZHOU P, HAN J. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415. DOI: 10.1109/TGRS.2016.2601622

    [22]

    LeCun Y, Boser B E, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems, 1990: 396-404.

    [23]

    GU J, WANG Z, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2018, 77: 354-377. DOI: 10.1016/j.patcog.2017.10.013

    [24]

    WANG T, WU D J, Coates A, et al. End-to-end text recognition with convolutional neural networks[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012) of IEEE, 2012: 3304-3308.

    [25]

    XU B, WANG N, CHEN T, et al. Empirical evaluation of rectified activations in convolutional network[J/OL]. arXiv preprint arXiv: 1505.00853, 2015.

    [26]

    LeCun Y A, Bottou L, Orr G B, et al. Efficient Backprop[M]//Neural Networks: Tricks of the Trade, Springer, 2012: 9-48.

    [27]

    Nwankpa C, Ijomah W, Gachagan A, et al. Activation functions: Comparison of trends in practice and research for deep learning[J/OL]. arXiv preprint arXiv: 1811.03378, 2018.

    [28]

    HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI: 10.1109/TPAMI.2015.2389824

    [29]

    Boureau Y L, Ponce J, LeCun Y. A theoretical analysis of feature pooling in visual recognition[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 111-118.

    [30]

    Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J/OL]. arXiv preprint arXiv: 1502.03167, 2015.

    [31]

    Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J/OL]. arXiv preprint arXiv: 1207.0580, 2012.

    [32]

    Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958. http://dl.acm.org/citation.cfm?id=2670313

    [33]

    Khan A, Sohail A, Zahoora U, et al. A survey of the recent architectures of deep convolutional neural networks[J]. Artificial Intelligence Review, 2020, 53(8): 5455-5516. DOI: 10.1007/s10462-020-09825-6

    [34]

    LIN M, CHEN Q, YAN S. Network in network[J/OL]. arXiv preprint arXiv: 1312.4400, 2013.

    [35]

    Rawat W, WANG Z. Deep convolutional neural networks for image classification: a comprehensive review[J]. Neural Computation, 2017, 29(1): 2352-2449. DOI: 10.1162/neco_a_00990

    [36]

    Potter R K, Kopp G A, Green H C. Visible Speech, New York, 1947[J]. D. Van Nostrand Co. , 1962(8): 39.

    [37]

    Griffin D, Lim J. Signal estimation from modified short-time Fourier transform[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1984, 32(2): 236-243. DOI: 10.1109/TASSP.1984.1164317

    [38]

    Padarian J, Minasny B, McBratney A B. Using deep learning to predict soil properties from regional spectral data[J]. Geoderma Regional, 2019, 16: e00198. DOI: 10.1016/j.geodrs.2018.e00198

    [39]

    Blackman R B, Tukey J W. The measurement of power spectra from the point of view of communications engineering[J]. Bell System Technical Journal, 1958, 37(1): 185-282. DOI: 10.1002/j.1538-7305.1958.tb03874.x

    [40]

    Ng W, Minasny B, Montazerolghaem M, et al. Convolutional neural network for simultaneous prediction of several soil properties using visible/near-infrared, mid-infrared, and their combined spectra[J]. Geoderma, 2019, 352: 251-267. DOI: 10.1016/j.geoderma.2019.06.016

    [41]

    WANG Q, BO Z, MA H, et al. A method for rapidly evaluating reliability and predicting remaining useful life using two-dimensional convolutional neural network with signal conversion[J]. Journal of Mechanical Science and Technology, 2019, 33(6): 2561-2571. DOI: 10.1007/s12206-019-0504-x

    [42]

    WEN L, LI X, GAO L, et al. A new convolutional neural network-based data-driven fault diagnosis method[J]. IEEE Transactions on Industrial Electronics, 2017, 65(7): 5990-5998. http://ieeexplore.ieee.org/document/8114247

    [43] 谢丽娟. 转基因番茄的可见/近红外光谱快速无损检测方法[D]. 杭州: 浙江大学, 2009.

    XIE Lijuan. Rapid non-destructive detection of Transgenic tomatoes by visible/near-infrared Spectroscopy[D]. Hangzhou: Zhejiang University, 2009.

    [44] 王璨, 武新慧, 李恋卿, 等. 卷积神经网络用于近红外光谱预测土壤含水率[J]. 光谱学与光谱分析, 2018, 38(1): 42-47. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN201801008.htm

    WANG Can, WU Xinhui, LI Xiangqing, et al. Application of convolutional neural network in near infrared spectroscopy to predict soil moisture content[J]. Spectroscopy and Spectral Analysis, 2018, 38(1): 42-47. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN201801008.htm

    [45] 温馨. 基于深度学习的水果糖度可见/近红外光谱无损检测方法研究[D]. 北京: 北京交通大学, 2018.

    WEN Xin. A Nondestructive Testing Method forvisible/near-infrared spectra of fruit Sugar Based on Deep learning[D]. Beijing: Beijing Jiaotong University, 2018.

    [46]

    Kiranyaz S, Ince T, Abdeljaber O, et al. 1-d convolutional neural networks for signal processing applications[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)of IEEE, 2019: 8360-8364.

    [47]

    CHEN Y Y, WANG Z B. End-to-end quantitative analysis modeling of near‐infrared spectroscopy based on convolutional neural network[J]. Journal of Chemometrics, 2019, 33(5): e3122. DOI: 10.1002/cem.3122

    [48]

    LIU J, Osadchy M, Ashton L, et al. Deep convolutional neural networks for Raman spectrum recognition: a unified solution[J]. Analyst, 2017, 142(21): 4067-4074. DOI: 10.1039/C7AN01371J

    [49] 鲁梦瑶, 杨凯, 宋鹏飞, 等. 基于卷积神经网络的烟叶近红外光谱分类建模方法研究[J]. 光谱学与光谱分析, 2018, 38(12): 78-82. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN201812014.htm

    LU M Y, YANG K, SONG P F, et al. The study of classification modeling method for near infrared spectroscopy of tobacco leaves based on convolution neural network[J]. Spectroscopy and Spectral Analysis, 2018, 38(12): 78-82. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN201812014.htm

    [50]

    Ruder S. An overview of multi-task learning in deep neural networks[J/OL]. arXiv preprint arXiv: 1706.05098, 2017.

    [51]

    ZHANG Y, YANG Q. A survey on multi-task learning[J/OL]. arXiv preprint arXiv: 1707.08114, 2017.

    [52]

    Ramsundar B, Kearnes S, Riley P, et al. Massively multitask networks for drug discovery[J/OL]. arXiv preprint arXiv: 1502.02072, 2015.

    [53]

    DU Jian, HU Bingliang, LIU Yongzheng, et al. Study on quality identification of macadamia nut based on convolutional neural networks and spectral features[J]. Spectroscopy and Spectral Analysis, 2018, 38(5): 1514-1519. http://en.cnki.com.cn/Article_en/CJFDTotal-GUAN201805036.htm

    [54]

    Kingma D P, Ba J Adam: a method for stochastic optimization[J/OL]. arXiv preprint arXiv: 1412.6980, 2014.

    [55]

    Acquarelli J, van Laarhoven T, Gerretzen J, et al. Convolutional neural networks for vibrational spectroscopic data analysis[J]. Analytica Chimica Acta, 2017, 954: 22-31. DOI: 10.1016/j.aca.2016.12.010

  • 期刊类型引用(1)

    1. 赵雷磊,贺伟,张森,高凯悦,刘丽娜,张坤钰. 脉冲激光近感探测烟雾回波特性仿真研究. 红外技术. 2023(08): 863-868 . 本站查看

    其他类型引用(2)

图(6)
计量
  • 文章访问数:  735
  • HTML全文浏览量:  191
  • PDF下载量:  171
  • 被引次数: 3
出版历程
  • 收稿日期:  2020-08-15
  • 修回日期:  2020-10-25
  • 刊出日期:  2021-08-19

目录

/

返回文章
返回