Visible and Infrared Image Matching Method Based on Multi-Scale Feature Point Extraction
-
摘要:
针对可见光与红外图像匹配任务因图像特征差异较大导致的匹配精度低、适用性较差等问题,本文提出一种基于多尺度特征点提取的可见光与红外图像匹配方法(Visible and Infrared Image Matching-Net, VIMN)。首先,为增强VIMN匹配网络适应图像几何变换的能力,在特征提取模块中引入可变卷积层(Deformable Convolution),同时,通过金字塔池化层(Spatial Pyramid Pooling,SPP)完成多尺度特征融合以顾及图像的底层与高层语义信息;其次,在多尺度融合特征图上构建了联合特征空间与通道的响应分数图以提取鲁棒的特征点;最后,由图像块匹配模块采用度量学习的方式完成可见光与红外图像匹配工作。为验证VIMN匹配方法的优越性,与SIFT、PSO-SIFT、D2-Net以及CMM-Net在匹配实验数据集上进行对比实验。定性与定量结果表明,本文所提VIMN匹配网络具有更为优异的匹配性能。
Abstract:A visible and infrared image matching method (VIMN) based on multiscale feature point extraction is proposed to address the issues of low matching accuracy and poor applicability, caused by significant differences in image features in visible and infrared image matching tasks. First, to enhance the ability of the VIMN to adapt to geometric image transformations, a deformable convolution layer is introduced into the feature extraction module. A spatial pyramid pooling (SPP) layer is used to complete multiscale feature fusion, considering both low- and high-level semantic information of an image. Second, a joint feature space and channel response score map are constructed on the multiscale fusion feature map to extract robust feature points. Finally, an image patch matching module uses metric learning for visible light and infrared image matching. To verify the superiority of the VIMN matching method, comparative experiments were conducted on matching experimental datasets using scale-invariant feature transform (SIFT), particle swarm optimization (PSO)-SIFT, dual disentanglement network (D2 Net), and contextual multiscale multilevel network (CMM-Net). The qualitative and quantitative results indicate that the VIMN proposed in this study has better matching performance.
-
Keywords:
- image matching /
- infrared image /
- visible image /
- feature point extraction /
- deep learning
-
0. 引言
随着图像传感器技术的飞速发展,对于不同类型图像的快速获取已成为可能。针对多源图像间的各自优势特点进行联合应用的相关研究方兴未艾,如图像融合[1]、变化检测[2]以及异常行为检测[3]等诸多实际应用领域。而图像匹配是进行多源图像相关实际运用的前提条件和基础工作。红外图像与可见光图像作为两大重要的图像数据类型,二者的图像可以反映出目标对象的不同特征。可见光图像符合人类的视觉习惯,其图像的纹理结构等特征更为丰富,图像便于解读,应用广泛,但可见光图像质量容易受到光照等因素影响。而红外图像是通过目标对象的热辐射信息进行成像,可较为鲜明地对目标与背景进行区分[4],实现全天候的图像获取工作。但红外图像与可见光图像相比缺乏纹理细节,无法更好地反映真实场景信息。因此,可见光图像的高分辨率特点和红外图像的热辐射特性可以进行优势互补,而图像匹配就是实现后续联合应用的前提。图像匹配的基本任务就是从两幅或者多幅图像中识别出相同或相似的结构与特征信息,是指将待匹配图像经过空间变换映射至与参考图像相同的空间坐标系下[5]。但由于传感器成像机理的不同,导致图像间存在巨大的特征结构差异和辐射差异,从而给可见光与红外图像匹配带来了极大的挑战性。
为解决图像匹配任务中出现的难点与痛点问题,诸多学者展开了相关研究。其中,基于传统特征的匹配方法最先受到学者们的关注,传统特征匹配方法可以分为基于灰度信息的模板匹配方法和基于特征的匹配方法。基于灰度信息的模板匹配方法,如互信息[6](Mutual Information, MI)以及归一化互相关[7](Normalized Cross-Correlation, NCC)等是通过图像的像素点灰度值作为统计指标对匹配图像与待匹配图像间进行相似性度量,估计图像间的空间变换参数并完成匹配。基于特征的匹配方法主要是借助于图像中的显著性特征完成匹配,其大致分为特征检测、特征描述以及特征匹配3个步骤。其中,最具代表性的尺度不变特征变换[8](Scale-Invariant Feature Transform, SIFT)方法凭借其在角度旋转、尺度变换等方面的优秀匹配性能被广泛地用于自然图像匹配,因此,诸多国内外学者在SIFT的基础上开展了研究。为解决SIFT方法因异源图像特征差异较大导致的匹配困难问题,Ma等人通过在特征匹配阶段中对关键点的位置、尺度以及方向进行信息综合提出了PSO-SIFT[9](Position Scale Orientation- Scale-Invariant Feature Transform),提升了异源图像匹配的精度。叶沅鑫[10]等人提出一种基于相位一致性特征的描述符HOPC(Histogram of Orientated Phase Congruency),该描述符将相位一致性特征与方向直方图相结合用于跨模态遥感图像匹配任务中。然而,上述传统的特征匹配方法需要有专业背景知识或者先验位置信息来设计描述符,导致传统匹配方法在可见光与红外这类异源图像匹配中的适用度较差。
随着深度学习技术不断涌入到图像处理领域,基于深度学习的图像匹配方法也成为了国内外学者追逐的研究热点。SuperPoint[11]采用自监督的训练方式,完成了对图像的关键点检测与描述,提升了特征点的重复率,但是该网络训练样本的制作过程无法适用到红外与可见光图像数据集中。D2-Net[12]通过网络将特征点检测以及特征描述进行了联合,对于具有光照变化的图像具有一定的鲁棒性。蓝朝桢等人[13]提出的CMM-Net在D2-Net模型的基础上,提取图像高维特征并引入自适应欧氏距离阈值的误匹配剔除方法,完成了异源遥感图像的匹配任务。
为解决可见光与红外图像因巨大的图像特征差异导致的匹配困难问题,本文结合深度学习匹配算法的优越性,提出一种基于多尺度特征点提取的可见光与红外图像匹配网络(Visible and Infrared Image Matching-Net, VIMN),通过金字塔池化层(Spatial Pyramid Pooling,SPP)中的特征聚合模块完成对图像的多尺度特征融合,在构建的响应得分图上提取鲁棒特征点,并采用度量学习的方式进行图像块匹配以减少训练成本,提升网络收敛速度。
1. 基于多尺度特征点提取的可见光与红外图像匹配网络
本文所提出的基于多尺度特征点提取的可见光与红外图像匹配网络VIMN,流程如图 1所示。VIMN的特征提取模块中加入了可变卷积层(Deformable Convolution)以增强网络适应图像几何变换的能力,同时,由金字塔池化层SPP对网络输出特征图进行多尺度特征融合,兼顾图像的底层与高层语义信息,解决可见光与红外图像因特征差异大导致的匹配困难问题。最后,通过在多尺度特征图上构建联合特征空间与通道的得分响应图获取图像特征点,将待定特征点与对应图像块输入到VIMN的图像块匹配模块中,通过度量学习的方式输出图像的匹配标签,完成可见光与红外图像的匹配工作。本文所提VIMN匹配方法分为两大模块,即基于多尺度特征融合的特征点提取以及图像块匹配,并对这两大模块设计了相应的损失函数,在下文中对其进行了逐一的介绍。
1.1 多尺度特征融合及特征点提取
针对可见光图像与红外图像存在的巨大图像特征差异,本文所提VIMN匹配网络通过多尺度特征融合的方式进行图像特征点提取,以提升图像匹配的精度。图像的深层抽象特征可以为图像匹配工作提供更为鲁棒的特征,但是随着卷积网络层数的逐渐加深,特征的定位精度却会逐步降低[14]。因此,为综合考虑图像的浅层与深层语义信息,本文采用一种多尺度特征融合的方式进行特征点提取。
首先,VIMN的特征提取模块通过提取网络在不同层次输出的特征图{F(1), F(2), …, F(l)}输入到金字塔池化层SPP中,获得多尺度融合特征图F。为了提高特征点的定位精度,本文采用了构建联合特征空间与通道的得分响应图,筛选出鲁棒稳定的特征点。具体为,对于图像特征空间下$\mathbb{N}$H×W×C输出的多尺度融合特征图F∈$\mathbb{N}$H×W×C,假设其中的一个待定特征点为(i, j)∈F,则其特征空间分数响应SijK定义为:
$$ S_{ij}^K = {\text{soft}}\max \left( {F_{ij}^C - \frac{1}{{\left| {N\left( {i, j} \right)} \right|}}\sum\limits_{\left( {I, J} \right) \in N\left( {i, j} \right)} {F_{IJ}^C} } \right) $$ (1) 式中:softmax将输出分数定为正值;C为通道数;N(i, j)为待定特征点邻域范围3×3内的像素值,相应的通道分数响应SijC为:
$$ S_{ij}^C = {\text{softmax}}\left( {F_{ij}^C - \frac{1}{C}\sum\limits_t {F_{ij}^t} } \right) $$ (2) 其次,为提高特征点精度,本文通过联合上述两大响应分数作为最终的特征点检测依据,筛选出在图像特征空间以及通道上同时最大的点作为待定特征点,最终的检测分数$ S_{ij}^{K, C} $定义为:
$$ S_{ij}^{K, C} = \mathop {\max }\limits_t \left( {S_{ij}^KS_{ij}^C} \right) $$ (3) 最后,为提升网络的训练效率,VIMN的特征提取模块中采用了L2-Net[15]作为主干网络,得益于其轻量化的特点,网络计算量得到了显著降低。同时,本文引入了可变卷积层(Deformable Convolution)[16]进行网络最后的卷积操作,以提升网络对于可见光图像与红外图像中出现几何特征变化的能力。
1.2 图像块匹配
为实现可见光与红外图像的高精度匹配,本文将通过VIMN特征提取模块获得的待定特征点输入到图像块匹配模块,由待定特征点截取对应的图像块对输入到网络中进行度量学习,输出图像块的匹配标签得到最终的匹配点对。具体来说,假设输入的一对可见光与红外图像分别为II,IV,二者经过VIMN的特征提取模块得到的待定特征点个数分别为x, y,则对应获得的图像块集合分别为PI={p1I, p2I, …, pxI}以及PV={p1V, p2V, …, pyV}。通过可见光图像与红外图像上对应特征点获得待匹配的图像块对集合{piI, pjV},i=1, 2, …, x,j=1, 2, …, y,输入到图像块匹配模块,通过度量学习的方式,建立具有相似性匹配特征的图像块对与匹配标签的关系并输出对应匹配点对。
1.3 网络损失函数设计
如上所述,本文所提VIMN匹配网络分为特征点提取以及图像块匹配两大模块,因此,损失函数的设计也分成对应的两个部分。
1.3.1 特征点提取模块
VIMN中的特征点提取模块旨在从具有巨大图像特征差异的可见光与红外图像中提取多尺度特征点对,本文引入了困难负样本对比损失函数[17],从训练样本尽可能地提取鲁棒的特征点对,函数具体形式如下:
$$ \begin{array}{l} H\left( {{F^{\left( {\text{I}} \right)}}, {F^{\left( {\text{V}} \right)}}} \right) = \left[ {d\left( {F_i^{\left( {\text{I}} \right)}, F_i^{\left( {\text{V}} \right)}} \right) - {d_{\max }}} \right] + \hfill \\ \quad {\left[ {{d_{\min }} - \min \left( {\mathop {\min }\limits_{i \ne j} d\left( {F_i^{\left( {\text{I}} \right)}, F_j^{\left( {\text{V}} \right)}} \right), \min \mathop {\min }\limits_{i \ne j} d\left( {F_j^{\left( {\text{I}} \right)}, F_i^{\left( {\text{V}} \right)}} \right)} \right)} \right]_ + } \hfill \\ \end{array} $$ (4) 式中:d()为判断多尺度特征Fi(I)、Fi(V)间欧式距离的函数;dmax、dmin为距离阈值。具体地,若可见光与红外图像上存在一对正确匹配点对为(I, V),它们特征间的欧式距离应趋近于0,即d(Fi(I), Fi(V))→0,同时,为防止过拟合的情况,本文设置了距离阈值dmax>d(Fi(I), Fi(V));若(I, V)为错误匹配点对,则应满足dmin<d(Fi(I), Fi(V))。
在结合式(4)中的多尺度特征检测分数基础上,本文所提特征点提取模块的损失函数最终定义如下:
$$ {\text{Loss}}\left( {{F^{\left( {\text{I}} \right)}}, {F^{\left( {\text{V}} \right)}}} \right) = \frac{1}{{\left| C \right|}}\sum\limits_{c \in C} {\frac{{s_C^{\left( {\text{I}} \right)}s_C^{\left( {\text{V}} \right)}}}{{\sum\limits_{q \in C} {s_q^{\left( {\text{I}} \right)}s_q^{\left( {\text{V}} \right)}} }}} H\left( {{F^{\left( {\text{I}} \right)}}, {F^{\left( {\text{V}} \right)}}} \right) $$ (5) 式中: s*(*)为联合通道空间与通道的检测分数结果。
1.3.2 图像块匹配模块
图像块匹配模块的任务旨在学习图像块间的相似性特征,输出图像块的匹配标签,核心思想就是将图像块匹配问题转化为判断是否匹配的二分类问题。图像块匹配模块的训练目标是使输出的匹配标签Li′与真实标签Li尽可能一致,因此,本文采用了交叉熵损失函数用于训练图像块匹配模块,具体形式为:
$$ {\text{Loss}} = \frac{1}{N}\sum\limits_{i = 0}^N {\left( { - {L_i}\log \left( {{{L'}_i}} \right) - \left( {1 - {L_i}} \right)\log \left( {1 - L'} \right)} \right)} $$ (6) 式中:Li为真实图像块匹配标签;Li′为网络输出的图像块匹配标签。
2. 实验与分析
首先,本章介绍了本文所用到的可见光与红外图像数据集。其次,本文所提VIMN与4种先进的图像匹配方法,即SIFT[8]、PSO-SIFT[9]、D2-Net[12]以及CMM-Net[13]进行了定性与定量的匹配对比实验,采用正确匹配点个数(Number of Correct Matched Points, NCM)、匹配正确率(Precision)以及匹配点的均方根误差(Root Mean Square Error, RMSE)作为匹配结果的评价指标。同时,为验证VIMN的适用性,进行了图像配准实验。最后,对实验结果进行分析。
2.1 实验数据
为使VIMN能适应较多可见光与红外图像匹配的应用场景,选用了在低光条件下制作的LLVIP可见光与红外图像数据集[18],数据集总共包括16836对可见光与红外图像对,覆盖场景包含白天与夜晚。同时,LLVIP数据集为给图像融合、行人检测等领域提供数据支撑,采用了半手工的方式对数据集进行了配准。因此,LLVIP数据集提供的真实匹配标签给VIMN网络训练提供极大便利。本文在LLVIP数据集基础上进行随机选择和裁剪,形成80000对图像尺寸为64×64的训练数据集,部分训练数据如图 2所示。
匹配对比实验中所用到的数据不仅包括了LLVIP数据集中未进行配准的部分,同时,为验证各个匹配算法在不同数据集下的适用性,还选取了TNO数据集[19]以及OTCBVS数据集[20]中的部分图像数据进行对比分析,使用到的匹配实验数据如图 3所示。
2.2 匹配对比实验
为验证本文所提VIMN的匹配性能,与SIFT、PSO-SIFT、D2-Net以及CMM-Net进行了匹配定性与定量对比实验。匹配定性实验可以直观地比较各个算法的性能,而定量实验采用正确匹配点个数NCM、匹配正确率Precision以及匹配点的均方根误差RMSE作为匹配评价指标,定量比较分析匹配结果。
2.2.1 匹配定性对比实验
匹配定性对比实验可以直观地展示各个算法的结果,如图 4所示,其中黄线代表正确匹配点对,红线代表错误匹配点对。从定性结果可以看出,传统匹配方法如SIFT以及PSO-SIFT对于存在图像特征差异较大的可见光与红外图像对,错误匹配点对明显更多或者无法匹配出正确点对。在基于深度学习的匹配方法中,VIMN的匹配结果与D2-Net以及CMM-Net相比,不仅正确匹配点个数更多且分布更为均匀,同时,得益于VIMN多尺度特征点提取策略,其在图像弱纹理区域也表现出一定的匹配优势,对于可见光与红外图像匹配任务适用性更优。
2.2.2 匹配定量对比实验
匹配定量对比实验可以通过匹配评价指标定量地评估算法的优越性,本文采用了如下3种评价指标,即正确匹配点个数NCM、匹配正确率Precision以及匹配点的均方根误差RMSE。其中NCM是统计匹配算法得出正确匹配点的总个数,通过计算匹配坐标与理论坐标间的误差判断该点是否为正确匹配点,如下式所示:
$$ {\text{NCM}}:\sqrt {{{\left( {x, y} \right)}^2} - {{\left( {\dot x, \dot y} \right)}^2}} \leqslant \varepsilon $$ (7) 式中:(x, y)为匹配算法得出的点对;$ \left( {\dot x, \dot y} \right) $为理论坐标;ε为误差阈值,本文实验中设置为3个像素;匹配正确率Precision可以反映匹配算法排除误匹配点对的能力,它是正确匹配点个数与总匹配点个数的比值,计算公式如下:
$$ {\text{Precision = }}\frac{{{\text{NCM}}}}{{{\text{TMP}}}} $$ (8) 式中:TMP为总匹配点个数,即正确匹配点个数与错误匹配点个数的总和;均方根误差RMSE可以评估匹配点对的准确度,其计算公式如下:
$$ {\text{RMSE}} = \frac{1}{{{\text{NCM}}}}\sum\limits_{i = 1}^{{\text{NCM}}} {\sqrt {H{{\left( {{x_i}, {y_i}} \right)}^2} - {{\left( {{{\dot x}_i}, {{\dot y}_i}} \right)}^2}} } $$ (9) 式中:H(xi, yi)为经过空间计算变换矩阵H计算得出的对应匹配点对。
通过上述NCM、Precision以及RMSE三个评价指标对算法进行匹配定量对比,对比实验结果如表 1所示。从匹配定量结果可以看出,传统特征匹配方法SIFT以及PSO-SIFT在可见光与红外图像这类多源图像匹配任务上表现较差,出现了匹配失败的情况。基于深度学习的匹配方法相较于传统特征匹配有了明显提升,对于匹配难度较大的实验组没有出现匹配失败的情况,各种定量结果也展示出了优越性。而在这其中,本文所提的VIMN匹配方法表现更为突出,通过特征融合以及多尺度特征点提取策略让VIMN能顾及到图像的底层与高层语义信息,完成跨模态的图像匹配工作。因此,VIMN的3项定量评价结果均优于其余匹配方法。
表 1 匹配定量对比结果Table 1. Matching quantitative comparison resultsMethods Test number NCM Precision RMSE SIFT (a) 0 - - (b) 9 0.127 3.625 (c) 1 0.096 4.260 (d) 0 - - (e) 19 0.320 3.369 (f) 1 0.074 4.368 PSO-SIFT (a) 0 - - (b) 6 0.118 3.394 (c) 0 - - (d) 0 - - (e) 14 0.306 3.198 (f) 8 0.224 3.862 D2-Net (a) 139 0.651 2.431 (b) 116 0.598 2.693 (c) 73 0.663 2.875 (d) 65 0.594 2.739 (e) 126 0.628 2.236 (f) 109 0.651 1.906 CMM-Net (a) 151 0.745 1.563 (b) 128 0.693 1.896 (c) 81 0.718 2.098 (d) 79 0.699 1.967 (e) 139 0.776 1.465 (f) 127 0.783 1.601 VIMN (a) 164 0.815 0.984 (b) 136 0.796 1.065 (c) 91 0.765 1.147 (d) 86 0.751 1.268 (e) 147 0.843 0.763 (f) 157 0.887 0.691 Note: - "indicates indicator calculation failure 2.2.3 图像配准展示
图像配准是实现图像空间对齐的一项工作,能为后续图像融合以及目标检测等实际应用提供基础支持。因此,为进一步验证本文所提VIMN匹配方法的实用性,本节进行了图像配准实验并将配准结果以棋盘格的形式进行展示,如图 5所示。通过VIMN算法得出的匹配点对计算空间变换矩阵进行空间投影变换,图像配准的结果能反应匹配点对的准确性。由结果可以看出,采用VIMN匹配点的配准图像没有出现明显的错位情况,实现了待匹配图像与参考图像在空间上的对齐。
3. 结论
可见光与红外图像匹配是开展多源图像联合应用的基础工作,但由于图像成像机理的不同导致可见光图像与红外图像存在较大的特征差异,进而提高了二者间的匹配难度。为提升可见光与红外图像匹配精度与稳定性,本文提出一种基于多尺度特征点提取的可见光与红外图像匹配方法VIMN。在特征提取阶段,引入可变卷积层以增强网络适应图像几何变换的能力,并通过金字塔池化层完成图像的多尺度特征融合,在构建的特征响应得分图上提取鲁棒的特征点;在图像块匹配阶段,采用度量学习的方式进行图像块匹配以减少训练成本并提升网络收敛速度。定性与定量实验结果表明,本文所提VIMN匹配方法提高了可见光与红外图像的匹配精度,同时,配准实验结果也证实了本文方法的实用性,为图像融合等应用提供基础帮助。
-
表 1 匹配定量对比结果
Table 1 Matching quantitative comparison results
Methods Test number NCM Precision RMSE SIFT (a) 0 - - (b) 9 0.127 3.625 (c) 1 0.096 4.260 (d) 0 - - (e) 19 0.320 3.369 (f) 1 0.074 4.368 PSO-SIFT (a) 0 - - (b) 6 0.118 3.394 (c) 0 - - (d) 0 - - (e) 14 0.306 3.198 (f) 8 0.224 3.862 D2-Net (a) 139 0.651 2.431 (b) 116 0.598 2.693 (c) 73 0.663 2.875 (d) 65 0.594 2.739 (e) 126 0.628 2.236 (f) 109 0.651 1.906 CMM-Net (a) 151 0.745 1.563 (b) 128 0.693 1.896 (c) 81 0.718 2.098 (d) 79 0.699 1.967 (e) 139 0.776 1.465 (f) 127 0.783 1.601 VIMN (a) 164 0.815 0.984 (b) 136 0.796 1.065 (c) 91 0.765 1.147 (d) 86 0.751 1.268 (e) 147 0.843 0.763 (f) 157 0.887 0.691 Note: - "indicates indicator calculation failure -
[1] 龙雨馨, 赖文杰, 张怀元, 等. 基于梯度方向直方图的红外与可见光融合网络的损失函数[J]. 激光与光电子学进展, 2023, 60(24): 2411001. LONG Yuxin, LAI Wenjie, ZHANG Huaiyuan, et al. Soft histogram of gradients loss: a loss function for optimization of the image fusion networks[J]. Laser & Optoelectronics Progress, 2023, 60(24): 2411001.
[2] 宁大海, 郑晟. 可见光和红外图像决策级融合目标检测算法[J]. 红外技术, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729 NING Dahai, ZHENG Sheng. An object detection algorithm based on decision-level fusion of visible and infrared images[J]. Infrared Technology, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729
[3] 刘雪. 基于深度学习的考场异常行为检测研究与应用[D]. 南充: 西华师范大学, 2023. LIU Xue. Research and Application of Abnormal Behavior Detection in Exam Rooms Based on Deep Learning[D]. Nanchong: China West Normal University, 2023.
[4] 罗迪, 王从庆, 周勇军. 一种基于生成对抗网络与注意力机制的可见光和红外图像融合方法[J]. 红外技术, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a LUO Di, WANG Congqing, ZHOU Yongjun. A visible and infrared image fusion method based on generative adversarial networks and attention mechanism[J]. Infrared Technology, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a
[5] JIANG X, MA J, XIAO G, et al. A review of multimodal image matching: methods and applications[J]. Information Fusion, 2021, 73: 22-71. DOI: 10.1016/j.inffus.2021.02.012
[6] 徐永会, 杨德智, 刘芳名. 基于对数极坐标和频域率的互信息图像配准[J]. 舰船电子工程, 2022, 42(11): 86-89, 150. XU Yonghui, YANG Dezhi, LIU Fangming. Mutual information image registration based on logarithmic polar coordinates and frequency domain rate[J]. Ship Electronic Engineering, 2022, 42(11): 86-89, 150.
[7] CUI Z, QI W, LIU Y. A fast image template matching algorithm based on normalized cross correlation[C]//Journal of Physics: Conference Series, 2020, 1693(1): 012163.
[8] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. http://pdfs.semanticscholar.org/6984/591a4ecff1b6b3d9549a3a801a37acc23426.pdf
[9] MA W, WEN Z, WU Y, et al. Remote sensing image registration with Modified SIFT and enhanced feature matching[J]. IEEE Geoscience & Remote Sensing Letters, 2016, 14(1): 3-7. http://www.onacademic.com/detail/journal_1000039770692810_af5e.html
[10] YE Y, SHAN J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. arXiv preprint arXiv: 2103.16871, 2021.
[11] DeTone D, Malisiewicz T, Rabinovich A. Superpoint: self-supervised interest point detection and description[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 224-236.
[12] Dusmanu M, Rocco I, Pajdla T, et al. D2-Net: a trainable cnn for joint detection and description of local features[J]. arXiv preprint arXiv: 1905.03561, 2019.
[13] 蓝朝桢, 卢万杰, 于君明. 异源遥感影像特征匹配的深度学习算法[J]. 测绘学报, 2021, 50(2): 189-202. LAN Chaozhen, LU Wanjie, YU Junming, et al. Deep learning algorithm for feature matching of cross modality remote sensing images[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(2): 189-202.
[14] ZHANG H, LI L, NI W, et al. Explore better network framework for high-resolution optical and SAR image matching[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-18.
[15] TIAN Y, FAN B, WU F. L2-net: Deep learning of discriminative patch descriptor in euclidean space[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 661-669.
[16] WANG Y, YANG J, WANG L, et al. Light field image super-resolution using deformable convolution[J]. IEEE Transactions on Image Processing, 2020, 30: 1057-1071.
[17] ZHANG L, Rusinkiewicz S. Learning to detect features in texture images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6325-6333.
[18] JIA X, ZHU C, LI M, et al. LLVIP: A visible-infrared paired dataset for low-light vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 3496-3504.
[19] Toet A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249-251. http://www.xueshufan.com/publication/2757470902
[20] Ghazali K H B, MA J. An innovative face detection based on skin color segmentation[J]. International Journal of Computer Applications, 2011, 34(2): 6-10. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=66C46CCFE38048B39749283BE539BD63?doi=10.1.1.259.1352&rep=rep1&type=pdf