Visible and Infrared Image Matching Method Based on Multi-Scale Feature Point Extraction
-
摘要:
针对可见光与红外图像匹配任务因图像特征差异较大导致的匹配精度低、适用性较差等问题,本文提出一种基于多尺度特征点提取的可见光与红外图像匹配方法(Visible and Infrared Image Matching-Net, VIMN)。首先,为增强VIMN匹配网络适应图像几何变换的能力,在特征提取模块中引入可变卷积层(Deformable Convolution),同时,通过金字塔池化层(Spatial Pyramid Pooling,SPP)完成多尺度特征融合以顾及图像的底层与高层语义信息;其次,在多尺度融合特征图上构建了联合特征空间与通道的响应分数图以提取鲁棒的特征点;最后,由图像块匹配模块采用度量学习的方式完成可见光与红外图像匹配工作。为验证VIMN匹配方法的优越性,与SIFT、PSO-SIFT、D2-Net以及CMM-Net在匹配实验数据集上进行对比实验。定性与定量结果表明,本文所提VIMN匹配网络具有更为优异的匹配性能。
Abstract:A visible and infrared image matching method (VIMN) based on multiscale feature point extraction is proposed to address the issues of low matching accuracy and poor applicability, caused by significant differences in image features in visible and infrared image matching tasks. First, to enhance the ability of the VIMN to adapt to geometric image transformations, a deformable convolution layer is introduced into the feature extraction module. A spatial pyramid pooling (SPP) layer is used to complete multiscale feature fusion, considering both low- and high-level semantic information of an image. Second, a joint feature space and channel response score map are constructed on the multiscale fusion feature map to extract robust feature points. Finally, an image patch matching module uses metric learning for visible light and infrared image matching. To verify the superiority of the VIMN matching method, comparative experiments were conducted on matching experimental datasets using scale-invariant feature transform (SIFT), particle swarm optimization (PSO)-SIFT, dual disentanglement network (D2 Net), and contextual multiscale multilevel network (CMM-Net). The qualitative and quantitative results indicate that the VIMN proposed in this study has better matching performance.
-
Keywords:
- image matching /
- infrared image /
- visible image /
- feature point extraction /
- deep learning
-
0. 引言
目前,水下机器人被广泛应用于深海探测、海洋考古和科研考察等领域[1]。在线视频图像是水下机器人获取信息的主要手段。然而,光在水介质中传输时会受到吸收和散射作用,导致采集到的图像存在颜色失真、对比度低和细节模糊等问题[2],这给后续的计算机视觉任务带来了诸多不利的影响。
近年来,该领域学者不断探索出针对采集到的水下图像进行清晰化的方法,按处理方式的不同可分为:基于图像复原和图像增强的方法。其中图像复原的方法[3-12]是利用降质图像的先验信息完成水下成像模型的逆求解。研究者们在暗通道先验(Dark Channel Prior,DCP)[3]的基础上,扩展得到逆向红色暗通道先验(Red Dark Channel Prior,RDCP)[4]、广义暗通道先验(Generalized Dark Channel Prior,GDCP)[6]以及新型暗通道先验[8]等方法。此类方法能够有效去除自然光照在成像中的散射影响,但在深水域探索过程中,通常存在人造光和自然光的混合光照,现有的水下成像模型未能考虑光源造成的散射干扰,导致复原图像仍存在局部色偏和细节模糊等问题。因此,赵欣慰等[13]对不同光照条件下的水下成像背景光进行了建模研究,分析得出:水下图像的背景光强度主要与水体光学参数、相机到目标的距离、相机到光源的距离以及相机成像角等因素有关,但求解该模型需要手动测量部分参数,导致图像重建工作变得复杂。相较于复原的方法,增强方法[14-19]不考虑水下物理成像过程,通过运用图像处理技术来改善图像的整体或局部特征,传统方法主要包括基于直方图均衡(Histogram Equalization,HE)、限制对比度直方图均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)以及白平衡算法,但上述方法容易加强源图像中的噪声干扰。而在过去几年中,提出了基于图像融合[14-15]和颜色恒常性理论[16-17]的方法,能大幅度提高图像的对比度和清晰度,但此类方法应用在混合光照场景中采集的图像时,色彩均衡效果不理想。
针对上述问题,本文提出了一种红通道补偿算法以消除各种照明或介质衰减特性而导致的色偏、一种基于非线性反锐化掩蔽技术的图像边缘增强算法、一种满足瑞利分布的限制直方图的图像全局对比度增强算法,提取融合图像的显著特征进行多尺度融合。
1. 本文方法
本研究将基于颜色校正图像获得融合图像输入对,其流程如图 1所示,其中Input1为边缘锐化图像,Input2为全局对比度增强图像。从图 1可以看出,融合过程分为3个步骤:颜色校正、融合图像对获取和多尺度融合。
1.1 颜色校正
在自然光稀疏的深水区,往往需要人造光源的辅助照明。然而,由于照射区域内光子密度较为集中,四周逐渐减小所引起的光照不均匀现象以及成像距离变化导致的光线透过率变化均会在非光照区域产生颜色畸变。为了纠正图像色偏,受去马赛克算法重建颜色样本的思想启发,设计红通道补偿函数为:
$$ {\tilde I_{\text{R}}}(x,y) = {I_{\text{R}}}(x,y) + {\text{Tem}}{{\text{p}}_1} * {\text{Tem}}{{\text{p}}_2} $$ (1) 式中:(x, y)为像素坐标;IR(x, y)为红通道值;Temp1为补偿量;Temp2为补偿控制项。为了弥补红通道的损失,基于以下二个观察设计函数:①与红色通道相比,绿色和蓝色通道在水下保存较好;②补偿应主要影响红色通道值较小的像素,而不该改变已经包含的红色分量像素,可理解为既要避免在过度曝光区域引入红色伪影,又对高度衰减的区域中执行补偿。在数学上,可将每个像素位置(x, y)处红通道进行补偿,计算公式为:
$$ \begin{gathered} {\text{Tem}}{{\text{p}}_1} = ((\alpha \mathop {{I_{\text{G}}}}\limits^\_ + (1 - \alpha )\mathop {{I_{\text{B}}}}\limits^\_ ) - {I_{\text{R}}}(x,y)) \hfill \\ {\text{Tem}}{{\text{p}}_2} = \frac{{\alpha {I_{\text{G}}}(x,y) + (1 - \alpha ){I_{\text{B}}}(x,y)}}{{{I_{\text{R}}}(x,y) + {I_{\text{G}}}(x,y) + {I_{\text{B}}}(x,y)}} \hfill \\ \end{gathered} $$ (2) 式中:$ {\bar I_{\text{G}}} $和$ {\bar I_{\text{B}}} $是以(x, y)为中心的滤波窗口内绿色通道和蓝色通道的平均值,窗口大小设置为5×5;在实践测试表明,α=0.8时适用于各种照明条件的设置。然后将式(3)应用于每个通道,做简单有效的直方图拉伸,使所有像素覆盖图像的整个动态范围。
$$ {I_{{\text{cc}}}} = ({i_{{\text{in}}}} - {i_{\min }})(\frac{{{o_{\max }} - {o_{\min }}}}{{{i_{\max }} - {i_{\min }}}}) + {o_{\min }} $$ (3) 式中:Icc是拉伸结果;iin是红通道补偿图像;omin和omax分别是输出图像的最小值和最大值;imin和imax分别是颜色校正图像的最小值和最大值。图 2展示了颜色校正前后的红通道图和直方图。
1.2 多尺度融合
尽管颜色校正对于恢复图像颜色至关重要,但仅使用此步骤不足以解决图像模糊问题。本节工作将基于多尺度融合策略,引入一对输入分别增强颜色校正图像的边缘锐度和自然度,并定义权重映射,以保留对应输入的优势。
1.2.1 图像锐化
反锐化掩蔽(Unsharp masking)技术通过将图像的模糊背景与边缘锐化的图像融合以获得锐化图像,如式(4)所示:
$$ R=Y+\lambda D $$ (4) 式中:R是增强图像;Y是输入图像X的背景,通常使用低通滤波器获得;细节信息D可利用输入图像减去背景信号:D=X-Y;λ用作比例因子来控制细节信息的幅值。在实践中,反锐化掩蔽技术可能会出现以下两个问题:①D包含了噪声信号和高频细节信息,λ过大会导致噪声信号突出以及图像过饱和;②使用低通滤波器提取背景会在图像边缘处产生负作用,进而导致D中锐化边缘的过冲和欠冲现象。因此,本研究考虑了边缘保持滤波器和自适应增益控制因素,提出用非线性反锐化掩蔽技术对图像边缘进行增强,其算法流程如图 3所示。其中⊕和⊗为广义系统[20]中的加法和乘法运算,定义为:
$$ X \oplus Y=\varPhi^{-1}[\varPhi(X)+\varPhi(Y)] $$ (5) $$ \lambda \otimes X = {\varPhi ^{ - 1}}[\lambda \varPhi (X)] $$ (6) 式中:Φ表示非线性函数;X和Y为信号输入;λ为增益标量。因此,可以将式(4)用广义运算表示为:
$$ R = H(Y) \oplus [\lambda (D) \otimes D] $$ (7) 式中:为保持更高的通用性,函数H(Y)可以是线性的或者非线性的,这表明可以对背景信号Y进行可选的二次处理。自适应增益λ(D)为选择性地增强边缘细节信号D的函数。
从图 3可以看出,该阶段可分为背景信号提取、对比度增强和自适应增益3个步骤。在介绍前,首先根据非线性函数必须遵循严格凸和可微的原则[21],选择log变换函数,数学表示为:
$$ \varPhi(X)=\log [(1+X) /(1-X)], X \in(-1,1) $$ (8) 式中:X为输入图像,考虑到函数输入范围在(-1, 1)之间,首先对输入图像进行归一化处理,然后应用线性变换(X: =2x-1),使输入图像处于(-1, 1)范围内。
然后分别对上述3个步骤进行说明:①为避免在提取背景信号时出现光晕伪影,使用了改进的混合中值滤波器[22](modified Hybrid Median Filter,mHMF)估计背景信号。mHMF通过计算正方形、交叉和对角线3个窗口中值,然后选择三者的中间值作为最终结果。来自交叉和对角窗口的信息有助于mHMF更好地保留边缘区域;②传统图像处理技术中,若先进行直方图均衡化,再进行高频加强,图像亮度会呈现较强的两级分布,并且获得的图像边缘不突出,对比度差。但提出的技术将输入图像分离为背景信号和细节信号,可以分别对每种信号进行处理,因此本次研究使用了限制对比度自适应直方图均衡(CLAHE)对背景信号进行二次处理;③细节信号D中包含了:(1)图像边缘;(2)高频噪声;(3)过冲和欠冲。mHMF滤波可以有效减少过冲和欠冲数量,此外,由于log变换自动解决了超值问题,因此高频噪声的干扰也得到了减少。本文使用了一个简单的指数变换,它从最大值λmax逐渐减小到最小值λmin,数学方程如式(9)所示:
$$ \lambda(D)=\beta+\gamma \times \exp \left(-|D|^\eta\right) $$ (9) 式中:η为控制λ(D)下降速率的参数,在实验测试中,为避免图像过饱和,η设为0.5。细节信号D处于(-1, 1)范围内,因此可得:
$$ \lambda_{\max }=\lambda(0)=\beta+\gamma $$ (10) $$ \lambda_{\min }=\lambda(1)=\lambda(-1)=\beta+\gamma \times(\exp (-1)) $$ (11) 要增强图像细节,增益必须大于等于1,因此λmin设为1。较大的λmax值可以使边缘锐化更突出,因此本文将λmax设为5。最终将λmin和λmax的值代入式(10)和(11)中,得到β和γ。图 4中展示了反锐化掩蔽和所提方法对图像增强的结果。
1.2.2 全局对比度增强
非线性反锐化掩蔽旨在增强图像的边缘锐度,能弥补颜色校正中损失的细节部分,但代价是会过度增强图像的局部区域。为解决这一问题。根据文献[23]可知,瑞利分布对水下图像保持自然性是理想的,故将具有瑞利分布的直方图拉伸引入,得到与锐化图像相对应的第二输入。瑞利分布的概率分布函数(PDF)可表示为:
$$ {\text{PD}}{{\text{F}}_{\text{R}}} = \left( {\frac{{I(x)}}{{{\sigma ^2}}}} \right)\exp ( - {I^2}(x)/2{\sigma ^2}) $$ (12) 式中:x为像素坐标;I为输入图像;σ为分布参数,本次研究默认为0.4。将式(3)代入到式(12)得到限制直方图的瑞利拉伸分布方程:
$$ \begin{aligned} {I_{{\text{SR}}}} = &\left[ {\left[ {\left( {{i_{{\text{in}}}} - {i_{\min }}} \right)\left( {\frac{{{o_{\max }} - {o_{\min }}}}{{{i_{\max }} - {i_{\min }}}}} \right) + {o_{\min }}} \right]/{\sigma ^2}} \right] \cdot \hfill \\ & \exp ( - {\left[ {\left( {{i_{{\text{in}}}} - {i_{\min }}} \right)\left( {\frac{{{o_{\max }} - {o_{\min }}}}{{{i_{\max }} - {i_{\min }}}}} \right) + {o_{\min }}} \right]^2}/2{\sigma ^2}) \hfill \\ \end{aligned} $$ (13) 所提方法还在拉伸过程中使用限制,且限制仅应用于输出图像。从统计数据中发现:输出图像的强度值在4%~96%之间可以在局部对比度增强和全局视觉质量之间进行很好的权衡,可表示为:
$$ {O_{c,\min }} = \left\{ \begin{array}{l} {I_{c,\min }},\ \ \ \ {I_{c,\min }}{ > 4\% \text{ of }}{I_c}{\text{ }} \hfill \\ 4\% {\text{ of }}{I_c},{\text{ otherwise}} \hfill \\ \end{array} \right.{\text{ }}c \in \{ R,G,B\} $$ (14) 式中:如果输出图像的最小拉伸值大于R、G、B通道最小值的4%,则该输出值设为原始直方图的最小值,否则,输出图像的最小值设为R、G、B通道中的最小值。同样,输出图像的最大拉伸被确定为:
$$ {O_{c,\max }} = \left\{ \begin{array}{l} {I_{c,\max }},\ \ \ \ {I_{c,\max }}{< 96\% \text{ of }}{I_c}{\text{ }} \hfill \\ 96\% {\text{ of }}{I_c},{\text{ otherwise}} \hfill \\ \end{array} \right.c \in \{ R,G,B\} $$ (15) 1.2.3 图像融合
权重图用于使具有较大权重值的像素突显在结果当中。因此,它们是基于图像的显著性特征来定义的,具体权重图的定义如下:①拉普拉斯对比度权重WL通过计算输入图像亮度通道上拉普拉斯滤波器的绝对值来估计全局对比度,赋予边缘和纹理较高的值。②显著权重Ws通过对图像HSV颜色空间中的色调、饱和度和亮度分量进行综合衡量,可表示为:
$$ \begin{aligned} {W_{{\text{s}},k}}(x) =& {({H_k}(x) - {\overline H _k}(x))^2} + {({S_k}(x) - {\overline S _k}(x))^2} \hfill \\ & + {({V_k}(x) - {\overline V _k}(x))^2} \hfill \\ \end{aligned} $$ (16) 式中:x为像素坐标;Hk、Sk、Vk、$ {\overline H _k} $、$ {\overline S _k} $和$ {\overline V _k} $分别是第k个输入图像的色调、饱和度、亮度、平均色调、平均饱和度和平均亮度值。然后对每个输入图像的WL和Ws权重进行归一化处理,计算方法如下:
$$ \overline {{W_k}} = ({W_k} + \delta )/(\sum\limits_{k = 1}^K {{W_k} + K \cdot \delta } ) $$ (17) 式中:δ是一个小的正则化项,确保每个输入对输出都有贡献,这里设为0.1。对应权重如图 5所示。
然后,对第k个输入图像Ik进行拉普拉斯金字塔分解得到Ll{Ik(x)},$ \overline {{W_k}} $被高斯金字塔分解为$ {G_l}\left\{ {\overline {{W_k}} (x)} \right\} $,并且对输出图像金字塔进行上采样处理得:
$$ {R_l}(x) = \sum\limits_{k = 1}^K {{G_l}\left\{ {\overline {{W_k}} (x)} \right\}{L_l}\left\{ {{I_k}(x)} \right\}} $$ (18) $$ {R_{{\text{final}}}}(x) = \sum\limits_l {{U_{\text{d}}}} [{R_l}(x)] $$ (19) 式中:Rl(x)为输出图像金字塔;l为金字塔层数,本次研究取5层;Rfinal(x)为最终输出图像;Ud[Rl(x)]为d=2l-1的上采样算子。
2. 实验结果与分析
2.1 实验对象设定
本文实验通过MATLAB R2018a平台实现,主机配置为i7-7700HQ CPU(2.80 GHz),16 GB内存,Windows10操作系统。为了使本文方法更具有代表性,要求数据集包含各种深度、各种极端条件(不均匀光和过度曝光等)和各种目标的水下图像。因此,本文建立了一个真实的水下照明图像数据集,用于水下照明图像增强算法的研究。数据集中的图像为在Similan Island(斯米兰岛)水深40 m内使用人造光源辅助拍摄的混合光照场景。根据不同的场景类型选取了300幅具有代表性的图像组建数据集,并命名为RULI,图 6展示了部分示例。
2.2 RULI数据集测试
2.2.1 主观定性评估
本文在RULI数据集中进行了实验测试,在测试过程中将所提方法与几种具有代表性的方法进行了比较,其中包括文献[6]中GDCP复原方法、文献[15]中融合增强(Fusion)方法、文献[17]方法和文献[24]方法。从测试结果中选取了6幅具有代表性的图像,分别为:幼鲨、海星、鱼、珊瑚、乌龟和洞穴图像,此类图像受混合光照的干扰,存在不均匀色偏以及细节模糊问题,结果如图 7所示。
从图 7中可以看出,GDCP方法加剧了图像的颜色失真,造成这种结果的原因主要是复原类方法没有使用颜色校正算法处理图像,容易造成图像过饱和。而基于Fusion和文献[24]的方法在纠正人造光照射所带来的不均匀色偏时,更容易忽略非光照区域,进而导致局部区域呈现模糊感。文献[17]方法虽然在图像的色偏纠正上有着显著的效果,但对细节的处理较为粗糙,使得边缘轮廓不清晰,图像整体模糊。相较之下,本文方法不仅能够准确地纠正不均匀色偏,而且也提高了边缘细节的清晰度。
2.2.2 客观定量评估
接着,选取了两种常用的水下图像质量评价指标对实验结果进行定量比较,其中包括水下图像质量指标UIQM[25]和图像信息熵IE。UIQM使用图像色彩度量、清晰度度量和对比度度量来评估图像的质量,其值越大,表明图像的视觉效果越好。IE反映了图像的平均信息量,IE值越大,表明图像的清晰度越高,细节信息越丰富。表 1分别为UIQM和IE指标对比结果,其中红色加粗部分为最优值。
表 1 指标定量评价结果Table 1. Quantitative evaluation results of two indexesImage Raw image GDCP Fusion Ref.[17] Ref.[24] Proposed UIQM IE UIQM IE UIQM IE UIQM IE UIQM IE UIQM IE Shark 2.4769 7.8035 2.0167 7.4261 3.8390 7.7697 1.2000 7.6560 3.6325 7.7457 4.1886 7.8082 Starfish 3.3338 7.6036 3.3338 7.4357 4.6353 7.7103 1.4085 7.3784 3.7752 7.6598 4.6030 7.7609 Fish 4.1761 7.7435 4.3707 7.4928 5.2305 7.7465 1.3472 7.5719 4.3173 7.8347 5.3556 7.8236 Coral 2.8116 7.4418 4.1680 6.8282 4.2722 7.6392 1.5667 7.3247 3.1475 7.0861 4.4589 7.7440 Turtles 2.3612 7.2907 1.6147 7.2893 5.1895 7.5114 1.2625 7.1808 4.5354 7.5288 5.2475 7.6692 Caves 3.1605 7.5006 2.2696 7.6480 4.5516 7.7966 1.3102 7.5650 3.9620 7.7000 4.5856 7.7642 Average 3.0903 7.5973 2.9622 7.3533 4.6197 7.6956 1.3492 7.4461 3.8950 7.5925 4.7399 7.7617 从表 1可以看出,5种方法按照评估质量的平均度量可分为三个等级。第一等级(黑色加粗),基于GDCP和文献[17]的方法在所有方法中的最优值占比最小,这表明色偏严重和细节模糊的图像不利于指标的评估。第二等级(蓝色加粗),对于Fusion和文献[24]两种方法,从2.2.1中可以观察到:两种方法产生的结果相似,但前者在所有图像上的评估值均大于后者,这表明与Fusion方法相比,文献[24]方法在纠正色偏和增强细节方面仍存在不足。第三等级(红色加粗),本文方法的UIQM和IE平均值均大于其它对比方法,尤其在UIQM值上提升更为明显。对于每幅图像的评价,每项指标都优于或接近于其它对比方法。结果表明:本文方法应用在人造光和自然光的混合光照场景时,能有效去除光源造成的不均匀散射干扰,有效均衡了图像色彩,提高了图像的细节清晰度。
3. 结语
本文针对水下照明图像存在不均匀色偏、对比度低和细节模糊等问题,提出了一种基于颜色校正的水下照明图像融合方法。该方法首先对源图像进行颜色校正,用以纠正人造光照射所带来的不均匀色偏,然后分别采用非线性反锐化掩蔽和满足瑞利分布的直方图拉伸方法获得一对互补的增强图像,实现了图像的多尺度融合。最后在自建数据集(RULI)上的实验结果表明,与现有文献提出的方法相比,本文方法在不需要任何先验信息的条件下,能够从水下照明图像中有效纠正不均匀色偏和提高图像的对比度和清晰度,为水下计算机视觉任务提供了预处理手段。但本文方法仍有局限性。例如,红通道补偿算法是对源图进行像素级的补偿,增加了计算复杂度。如何准确快速地进行图像色偏纠正,是未来一项重要的工作。
-
表 1 匹配定量对比结果
Table 1 Matching quantitative comparison results
Methods Test number NCM Precision RMSE SIFT (a) 0 - - (b) 9 0.127 3.625 (c) 1 0.096 4.260 (d) 0 - - (e) 19 0.320 3.369 (f) 1 0.074 4.368 PSO-SIFT (a) 0 - - (b) 6 0.118 3.394 (c) 0 - - (d) 0 - - (e) 14 0.306 3.198 (f) 8 0.224 3.862 D2-Net (a) 139 0.651 2.431 (b) 116 0.598 2.693 (c) 73 0.663 2.875 (d) 65 0.594 2.739 (e) 126 0.628 2.236 (f) 109 0.651 1.906 CMM-Net (a) 151 0.745 1.563 (b) 128 0.693 1.896 (c) 81 0.718 2.098 (d) 79 0.699 1.967 (e) 139 0.776 1.465 (f) 127 0.783 1.601 VIMN (a) 164 0.815 0.984 (b) 136 0.796 1.065 (c) 91 0.765 1.147 (d) 86 0.751 1.268 (e) 147 0.843 0.763 (f) 157 0.887 0.691 Note: - "indicates indicator calculation failure -
[1] 龙雨馨, 赖文杰, 张怀元, 等. 基于梯度方向直方图的红外与可见光融合网络的损失函数[J]. 激光与光电子学进展, 2023, 60(24): 2411001. LONG Yuxin, LAI Wenjie, ZHANG Huaiyuan, et al. Soft histogram of gradients loss: a loss function for optimization of the image fusion networks[J]. Laser & Optoelectronics Progress, 2023, 60(24): 2411001.
[2] 宁大海, 郑晟. 可见光和红外图像决策级融合目标检测算法[J]. 红外技术, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729 NING Dahai, ZHENG Sheng. An object detection algorithm based on decision-level fusion of visible and infrared images[J]. Infrared Technology, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729
[3] 刘雪. 基于深度学习的考场异常行为检测研究与应用[D]. 南充: 西华师范大学, 2023. LIU Xue. Research and Application of Abnormal Behavior Detection in Exam Rooms Based on Deep Learning[D]. Nanchong: China West Normal University, 2023.
[4] 罗迪, 王从庆, 周勇军. 一种基于生成对抗网络与注意力机制的可见光和红外图像融合方法[J]. 红外技术, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a LUO Di, WANG Congqing, ZHOU Yongjun. A visible and infrared image fusion method based on generative adversarial networks and attention mechanism[J]. Infrared Technology, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a
[5] JIANG X, MA J, XIAO G, et al. A review of multimodal image matching: methods and applications[J]. Information Fusion, 2021, 73: 22-71. DOI: 10.1016/j.inffus.2021.02.012
[6] 徐永会, 杨德智, 刘芳名. 基于对数极坐标和频域率的互信息图像配准[J]. 舰船电子工程, 2022, 42(11): 86-89, 150. XU Yonghui, YANG Dezhi, LIU Fangming. Mutual information image registration based on logarithmic polar coordinates and frequency domain rate[J]. Ship Electronic Engineering, 2022, 42(11): 86-89, 150.
[7] CUI Z, QI W, LIU Y. A fast image template matching algorithm based on normalized cross correlation[C]//Journal of Physics: Conference Series, 2020, 1693(1): 012163.
[8] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. http://pdfs.semanticscholar.org/6984/591a4ecff1b6b3d9549a3a801a37acc23426.pdf
[9] MA W, WEN Z, WU Y, et al. Remote sensing image registration with Modified SIFT and enhanced feature matching[J]. IEEE Geoscience & Remote Sensing Letters, 2016, 14(1): 3-7. http://www.onacademic.com/detail/journal_1000039770692810_af5e.html
[10] YE Y, SHAN J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. arXiv preprint arXiv: 2103.16871, 2021.
[11] DeTone D, Malisiewicz T, Rabinovich A. Superpoint: self-supervised interest point detection and description[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 224-236.
[12] Dusmanu M, Rocco I, Pajdla T, et al. D2-Net: a trainable cnn for joint detection and description of local features[J]. arXiv preprint arXiv: 1905.03561, 2019.
[13] 蓝朝桢, 卢万杰, 于君明. 异源遥感影像特征匹配的深度学习算法[J]. 测绘学报, 2021, 50(2): 189-202. LAN Chaozhen, LU Wanjie, YU Junming, et al. Deep learning algorithm for feature matching of cross modality remote sensing images[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(2): 189-202.
[14] ZHANG H, LI L, NI W, et al. Explore better network framework for high-resolution optical and SAR image matching[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-18.
[15] TIAN Y, FAN B, WU F. L2-net: Deep learning of discriminative patch descriptor in euclidean space[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 661-669.
[16] WANG Y, YANG J, WANG L, et al. Light field image super-resolution using deformable convolution[J]. IEEE Transactions on Image Processing, 2020, 30: 1057-1071.
[17] ZHANG L, Rusinkiewicz S. Learning to detect features in texture images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6325-6333.
[18] JIA X, ZHU C, LI M, et al. LLVIP: A visible-infrared paired dataset for low-light vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 3496-3504.
[19] Toet A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249-251. http://www.xueshufan.com/publication/2757470902
[20] Ghazali K H B, MA J. An innovative face detection based on skin color segmentation[J]. International Journal of Computer Applications, 2011, 34(2): 6-10. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=66C46CCFE38048B39749283BE539BD63?doi=10.1.1.259.1352&rep=rep1&type=pdf