Infrared Small Target Detection Method Based on Multi-Scale Feature Fusion
-
摘要: 红外小目标检测因其探测距离远、抗干扰能力强等特点,在空中目标探测与跟踪系统中得到了广泛的应用。针对目前红外小目标检测算法在复杂背景下检测准确率低、虚警率高等缺点。提出了一种基于多尺度特征融合的端到端红外小目标检测模型(multi-scale feature fusion single shot multibox detecto,MFSSD)。考虑到红外小目标的特点,通过细化和融合特征图的方法提出了一种特征融合模块,通过SP模块提高特征图不同通道的相关性,3种不同序列红外图像的实验结果表明,该算法在红外小目标检测中的平均检测精度高达87.8%。与传统的多尺度目标检测算法相比,准确率和召回率都有显著提高。Abstract: Infrared small target detection is widely used in aerial target detection and tracking systems owing to its long detection range and strong anti-jamming ability. Aiming at to overcome the shortcomings of the current infrared small target detection algorithm, such as a low precision rate and high false alarm rate when dealing with complex backgrounds, we propose an end-to-end infrared small target detection model (called MFSSD) based on multi-scale feature fusion. Considering the traits of the targets, we propose a feature fusion module using a refinement and fusion feature map method and improve the correlation of different channels through the SP module. The experimental results of three different sequences of infrared image detection show that the average detection accuracy of the MFSSD algorithm for infrared small target detection was as high as 87.8%. Compared with those of the traditional multi-scale target detection algorithm, both the precision rate and recall rate have been significantly improved.
-
Keywords:
- attention mechanism /
- infrared small target /
- SSD /
- multi-scale feature fusion
-
0. 引言
图像融合是一种图像增强技术,它的目标是将多个传感器采集到的有效信息结合到一起,得到一幅信息较全面的图像,以供后续处理或辅助决策。红外与可见光融合是近几年较为热门的一种图像融合技术。其中红外成像传感器能根据热辐射的不同,可将目标与背景区域区分开,具有全天时全天候工作的能力,即使在雨雪等恶劣条件下仍具有良好的目标检测识别能力,但图像分辨率低、对比度差、边缘模糊;可见光图像可以提供与人眼视觉相似的高分辨率,能获取场景、纹理等信息,但容易受外界光照、天气等因素的影响。因此,将可见光与红外图像的信息互补融合在一起,可生成目标显著、纹理细节丰富的高质量图像,广泛应用于军事侦察、实时监控、汽车自动驾驶等领域[1-2]。
早期研究人员一般采用基于稀疏表示(Sparse Representation,SR)[3]、低秩表示(Low Rank Repre-sentation,LRR)[4-5]、多尺度变换等传统算法实现红外与可见光图像的融合。基于SR和LRR的融合方法[6-9]中,利用滑动窗把原始影像分割成影像块,再把影像块构建成矩阵,该矩阵被反馈送到SR(或LRR)中计算SR(或LRR)系数,利用这些系数表征图像特征。通过该运算,将图像融合问题转化为系数融合问题。融合系数由适当的融合策略生成,然后在SR(或LRR)框架中重构融合图像。多尺度变换方法[10-14]首先对源图像进行多尺度分解,然后设计相应的融合规则对不同尺度的图像进行融合,最后进行多尺度逆变换重构融合图像。这些图像融合算法的融合性能高度依赖于所使用的特征提取方法,且需人工设计融合规则,计算复杂度高,缺乏通用性。
近年来,由于卷积运算强大的特征提取能力,基于深度学习的图像融合算法在图像融合领域得到了飞速发展。2018年,Liu等人[15]提出一种基于卷积神经网络的多聚焦图像融合方法,打破了传统融合算法手动设计图像活动水平测量的约束,但该算法网络层数较少,特征提取能力不足,融合图像存在信息缺失。2019年,Ma等人[16]提出FusionGAN,将生成对抗网络引入图像融合领域,但该算法在对抗训练时,判别器仅以可见光图像作为参照,使得融合图像对比度强但细节纹理不明显。2020年,Ma等人[17]又提出一种GANMcC算法,利用多分类约束生成对抗网络进一步将图像融合问题转化为多分类限定问题,但该算法缺少对源图像非典型特征的抑制。Prabhakar等人[18]提出了一种无监督的深度学习框架DeepFuse,实现多曝光图像的融合,其自编码网络思想被很多研究者采纳,但其网络结构简单,图像深度特征提取不充分。Li等人[19]将密集连接模块引入编码器结构中,以获取图像深层特征,但该算法网络结构简单,不能提取图像多尺度特征,融合图像对比度不足。Zhang等人[20]提出了一种基于卷积神经网络的融合框架,这是一种简单而有效的图像融合架构,但其仅用单一尺度对图像进行特征提取,导致部分特征缺失。
针对上述问题,本文提出一种多尺度和卷积注意力相结合的红外与可将光图像融合算法。首先,编码器采用多尺度卷积操作提取红外和可见光图像不同感受野的特征信息,以克服单一尺度卷积核特征提取不足的问题,同时为了获取全局关联信息,引入改进的可变形卷积注意力模块(Deformable-Convolutional Block Attention Module, D-CBAM)[21],把网络生成的特征图和通过空间注意力和通道注意力得到的注意力特征图进行加权,增强网络对红外和可见光图像重要特征的表达能力。其次,将编码器提取到的红外和可见光的图像特征输入融合层,融合策略中引入空间注意力和通道注意力机制,以融合红外与可见光的典型目标和纹理细节等重要特征。最后,构建三层卷积块组成的解码器,对融合后的特征进行重构,得到最终的融合图像。训练阶段舍弃融合层,并利用混合损失函数进行约束,提升模型学习图像均方误差、结构和色彩等图像特征的能力。
1. 本文算法
1.1 网络总体框架
多尺度和卷积注意力相结合的红外与可见光图像融合方法总体框架如图 1所示。
整体框架由3部分组成:编码器、融合层和解码器。融合时,首先将红外与可见光图像作为源图像输入编码器,通过一层卷积核大小为3×3的卷积层和三层多尺度可变形卷积注意力模块(Multi-scale Deformable-Convolutional Block Attention Module, MSCB)组成的编码器提取源图像的多通道显著特征信息;然后,引入基于空间注意力和通道注意力的双重注意力机制融合策略对编码器提取到的特征进行融合;最后,在解码器中对融合后的特征信息进行重构,输出最终的融合图像。
1.2 编码器
本文编码器由一个单一尺度卷积核的卷积块和3个MSCB组成,每个MSCB包含4个独立分支和一个D-CBAM。4个独立分支采用不同尺度的卷积核,可以提取图像不同感受野的特征信息,丰富图像信息。卷积注意力模块可以捕获红外与可见光图像的全局依赖关系,增强红外与可见光轮廓及纹理细节等信息。
1.2.1 多尺度可变形卷积注意力网络
红外与可见光图像融合旨在将红外目标和可见光的场景纹理信息更好地结合在一起,因此需要提取源图像多尺度的区域特征,以更好地表征红外目标和可见光的纹理细节信息。而在常见的基于卷积神经网络的深度学习方法中,大都采用单一尺度卷积核的卷积块提取图像特征,导致无法对源图像的特征信息进行全面的提取。Szegedy等人[22]提出深度卷积神经网络Inception module模型,该模型通过使用不同大小卷积核的卷积块对源图像不同感受野的特征信息进行提取,从而获得图像不同尺度的特征信息,成功应用于图像分类和图像检测等多种任务中。受其启发,本文提出一种多尺度卷积注意力模块MSCB,结构如图 2所示。
其中,Fi表示输入特征,Fo表示经MSCB提取加强后的特征,即MSCB的输出。每个MSCB包含4个独立分支和一个注意力模块,每个分支结构由不同卷积核的卷积层组成,MSCB模块参数如表 1所示。
表 1 MSCB模块参数设置Table 1. MSCB module parameter settingsKernel size Outputs channel Activation function Branch1 1×1 16 R-Relu Branch2 3×3Maxpooling
1×116
16R-Relu Branch3 1×1
3×3
3×332
64
16R-Relu
R-Relu
R-ReluBranch4 1×1
1×7
7×164
128
16R-Relu
R-Relu
R-Relu分支一可以减少中间层信息的损失;分支二使网络能够更好地提取源图像的背景信息;分支三与分支四增加网络感受野,提取多个尺度的特征信息,丰富融合图像信息。其中,分支三用两个卷积核大小为3×3的卷积层替代卷积核大小为5×5的卷积层,分支四用一个卷积核大小为1×7的卷积层和一个卷积核大小为7×1的卷积层替代卷积核大小为7×7的卷积层,每一分支使用卷积核大小为1×1的卷积层为该分支降维,以降低模型参数量和计算量、增加网络深度,加快计算速度并增强网络的非线性特性。之后,将4个分支的输出进行级联操作,然后将其输入到D-CBAM中,对每一通道信息赋值权重,使更具作用的信息被赋予更大权重,大大提升了对图像特征的提取能力,从而提升融合图像的质量。
1.2.2 可变形卷积注意力机制
在深度学习构建图像融合的众多方法中,注意力机制是最有效的建模方法之一。目前常用的注意力机制主要有通道注意力、空间注意力、通道与空间注意力等;通道注意力机制旨在显示不同通道之间的相关性,空间注意力机制旨在提升关键区域的特征表达,通道与空间注意力机制结合了通道注意力和空间注意力的形式形成一种更加综合的特征注意力机制,例如卷积注意力模块(Convolutional Block Attention Module, CBAM)[23]。
CBAM包含通道注意力(Channel Attention Module, CAM)和空间注意力(Spatial Attention Module, SAM)两个子模块,所提算法选用可变形卷积注意力模块(D-CBAM),就是将CBAM中的SAM子模块中的卷积层换成可变形卷积块,从而增大卷积块的感受野,使重要信息更易被关注到,并予以更大权重,使编码器提取到更加重要的特征信息,并降低信息冗余。其结构示意图如图 3所示。
1.3 融合层
简单的加权平均融合策略没有对提取的特征图进行筛选,容易引入噪声造成融合图像存在伪影[24]。空间注意力和通道注意力可以同时在空间和通道维度上对深度网络提取的深度特征进行提取,从而增强红外与可见光轮廓和纹理细节等特征信息。因而,本文使用基于空间和通道注意力双重注意力机制的融合策略,融合策略结构如图 4所示。
图 4中,Fv和Fi为由编码器分别从可见光图像和红外图像中提取的多尺度深度特征,FS和FC分别为通过空间注意力模型和通道注意力获得的融合特征,Ff为经融合层融合得到的多尺度深度特征,将其作为解码器网络的输入。其中,由FS和FC得到Ff的表达式为:
$$ F_{\rm f}=0.6×F_{\rm S}+0.4×F_{\rm C} $$ (1) 1.3.1 空间注意力模块
空间注意力模型是在图像融合任务中利用基于空间的融合策略,因红外图像中的显著目标亮度较大,为增强融合图像的显著目标对比度,将soft-max算子进行改进,输入特征Fv和Fi通过全局平均池化层和改进后的soft-max算子(Isoft-max)计算获得权重图αv和αi,其计算表达式为:
$$ \begin{aligned} & \alpha_{\mathrm{v}}(x, y)=\left\{\begin{array}{l} 0, I_{\mathrm{ir}}(x, y)>220 \\ \frac{\mid \mathrm{e}^{-F_v(x, y) \|_1}}{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}+\mathrm{e}^{\left\|F_{\mathrm{v}}(x, y)\right\|_1}}, 25 \leq I_{\mathrm{ir}}(x, y) \leq 220 \\ 1, I_{\mathrm{ir}}(x, y)<25 \end{array}\right. \\ & \alpha_{\mathrm{i}}(x, y)=\left\{\begin{array}{l} 1, I_{\mathrm{ir}}(x, y)>220 \\ \frac{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}}{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}+\mathrm{e}^{\left\|F_{\mathrm{v}}(x, y)\right\|_1}}, 25 \leq I_{\mathrm{ir}}(x, y) \leq 220 \\ 0, I_{\mathrm{ir}}(x, y)<25 \end{array}\right. \end{aligned}$$ (2) 式中:||⋅||1表示L1范数;(x, y)表示像素对应位置坐标。
然后,将输入特征(Fv和Fi)与权重图(αv和αi)做相乘操作得到增强后的可见光图像特征$ {\hat F_{\text{v}}} $和红外图像特征$ {\hat F_{\text{i}}} $。最后,将增强后的特征相加得到空间注意力模型增强后的特征Fs,计算表达式为:
$$ F_{\rm S}= {\hat F_{\text{v}}} + {\hat F_{\text{i}}} $$ (3) 1.3.2 通道注意力模块
通道注意力模型是在图像融合任务中利用基于信道信息的融合策略,输入特征Fv和Fi通过全局池化算子计算获得初始加权向量,这里,全局池化算子选用核范数算子,它是一个通道的奇异值之和,通道所包含重要信息越多奇异值之和越大;最后通过soft-max算子计算得到加权向量βv和βi,计算表达式为:
$$ {\beta _n}\left( m \right) = \frac{{G\left( {{F_n}\left( m \right)} \right)}}{{G\left( {{F_{\rm i}}\left( m \right)} \right) + G\left( {{F_{\rm v}}\left( m \right)} \right)}} $$ (4) 式中:n∈{v, i},m表示输入特征中通道的对应索引;G表示全局池化算子。
然后,将输入特征Fv和Fi与加权向量βv和βi做相乘操作得到增强后的可见光图像特征$ {\tilde F_{\text{v}}} $和红外图像特征$ {\tilde F_{\text{i}}} $。最后,将增强后的特征相加得到通道注意力模型增强后的特征FC,计算表达式为:
$$ F_{\rm C}= {\tilde F_{\text{v}}} + {\tilde F_{\text{i}}} $$ (5) 1.4 解码器
解码器网络结构由三层卷积核大小为3×3卷积块组成,步长均为1,输出通道分别为32、16、1,将融合层的输出作为解码器网络的输入,经最后一层卷积重构出灰度融合图像。网络卷积块均舍弃批量归一化层(Batch Normalization),以减少融合图像伪影,提高计算网络计算速率。激活函数均为R-Relu。
1.5 损失函数
设计了一种训练阶段的损失函数L,由均方误差LMSE、多尺度结构相似性度量误差LMS-ssim和色彩感知误差LC共同约束,保证网络进行合理的优化迭代,其表达式为:
$$ L=L_{\rm {MSE}}+μL_{\rm C}+λL_{\rm {Ms-ssim}} $$ (6) 式中:λ和μ为权重系数。
均方误差是利用融合图像与源图像之间像素差的均方值衡量两幅图像间的差异,计算表达式为:
$$ {L_{{\text{MSE}}}} = \frac{1}{{W \times H}}\Sigma {\left( {{F_{{\text{to}}}} - {I_{{\text{ti}}}}} \right)^2} $$ (7) 式中:Fto表示重构图像;Iti表示输入图像;W表示图像的宽;H表示图像的高。
色彩感知误差是通过计算图像的颜色直方图误差来增强融合图像的亮度对比度,从而保证融合图像能够突出可见光图像的纹理以及红外图像的热辐射信息,其计算表达式为:
$$ {L_{\text{C}}} = \frac{1}{{255}}\parallel {\text{Histogram}}\left( O \right) - {\text{Histogram}}\left( I \right){\parallel _2} $$ (8) 式中:Histogram(⋅)表示颜色直方图;||⋅||2表示二范数。
多尺度结构相似性度量误差通过亮度因子L(x, y)对比度因子C(x, y)和结构因子S(x, y)衡量输入图像与重构图像的相似程度,其计算表达式为:
$$ L_{\mathrm{Ms}-\text {ssim }}=1-\mathrm{MS} \_\operatorname{SSIM}(O, I) $$ (9) $$ \left\{\begin{array}{c} L(x, y)=\frac{2 \mu_x \mu_y+c_1}{\mu_x^2+\mu_y^2+c_1} \\ C(x, y)=\frac{2 \sigma_x \sigma_y+c_2}{\sigma_x^2+\sigma_y^2+c_2} \\ S(x, y)=\frac{\sigma_{x y}+c_3}{\sigma_x \sigma_y+c_3} \\ \operatorname{MS}_{-} \operatorname{SSIM}(x, y)=\left[L_M(x, y)\right]^{\alpha_M} \\ \prod\limits_{j=1}^M\left[C_j(x, y)\right]^{\beta_j} \cdot\left[S_j(x, y)\right]^{\gamma_j} \end{array}\right. $$ (10) 式中:MS_SSIM(x, y)表示两个图像间的多尺度结构相似度;(x, y)表示像素坐标;μx和μy分别表示x和y的均值;σx和σy分别表示x和y的标准差,σxy表示x、y的协方差,αj=βj=γj,j={1, …, M},c1, c2, c3是常数,用于保证函数稳定性。
2. 实验结果
2.1 实验设置
训练阶段时舍弃融合层,只训练编码器网络和解码器网络,使模型能更精确地重建输入图像,减少重建图像的损失,训练网络结构如图 5所示。
训练数据集选用MS-COCO数据集[25],选择80000张图像转换为灰度图像,并调整为256 pixel×256 pixel作为输入图像,网络优化器选用Adam, epoch=2, batch size=4,学习率为1×10-4,填充方式为反射填充,填充数p的计算表达式如式(11)所示:
$$ p = {\text{ron(}}\frac{{{\text{kernel}}}}{2}) $$ (11) 式中:ron()为取整函数,kernel为卷积核大小。损失函数参数λ=700,μ=0.01,硬件配置环境为NVIDIA GeForce RTX 3090 24GB、12th Gen Intel(R) Core(TM) i7-12700。
为验证所提方法的有效性,选择7种近几年提出的经典融合算法进行比较,包括统一无监督网络(U2Fusion)[26]、压缩分解网络(SDNet)[27]、密集连接网络(DenseFuse)[19]、生成对抗网络(FusionGAN)[16]、多分类约束(GANMcC)[17]、通用的有监督图像融合网络(IFCNN)[20]、嵌套连接网络(NestFuse)[28],并通过主客观评价指标进行评价分析。
2.2 融合图像主观评价
在TNO [29]和RoadScene数据集[30]中分别选取两组(Scene 1~2)和4组(Scene 3~6)图像进行实验分析,实验结果如图 6所示,采用实线框标记背景纹理、虚线标记红外显著目标。
可以看出,SDNet算法采用压缩分解网络实现红外与可见光图像融合,一定程度上保留了红外显著目标,但存在伪影,树叶、天空等背景纹理方面表现较差;NestFuse算法采用嵌套连接网络实现图像融合,对树叶等背景纹理信息处理表现较好,但云层等背景信息对比度差;DenseFuse算法采用密集连接网络保留红外图像与可见光图像特征,融合图像在保留背景纹理方面表现较好,但未能突出红外目标且树叶等背景纹理信息处理欠佳;FusionGAN算法采用了生成对抗网络实现红外与可见光图像融合,保留了红外显著目标,但树叶等背景纹理信息严重丢失;GANMcC算法在突出红外辐射信息方面较好,但融合图像存在少量伪影,细节纹理清晰度较低;IFCNN算法生成的融合图像未能很好区分红外显著目标与背景纹理,对比度较低;如图 6中Scene1所示,U2Fusion算法未能突出红外显著目标,对比度较差;所提算法生成的融合图像更能凸显红外显著目标,同时保留背景纹理细节,更符合人类视觉系统特征。
2.3 融合图像客观评价
主观评价存在人为主观因素,具有一定的随机性和片面性。为了更好地分析融合图像的质量,选取4种基于融合图像质量的客观评价指标均方误差(mean squared error,MSE)、信息熵(entropy,EN)、标准差(standard deviation,STD)、空间频率(spatial frequency,SF)和3种基于融合图像与源图像的客观评价指标互信息(mutual information,MI)、边缘保持度(QAB/F)、结构相似度(structural similarity,SSIM)对融合图像质量进行对比实验分析。
从TNO和VOT数据集[31]中共选取40对红外与可见光图像,并以5对图像为一组,分为8组作为对比测试集。表 2中示出了通过现有融合算法和所提算法获得的所有融合图像的7个评价指标得分的平均值。将得出的指标得分按分组取均值后以折线图的形式进行可视化,图 7为不同算法的客观评价指标折线图。
表 2 TNO数据集与VOT数据集对比实验客观评价指标均值Table 2. Mean values of objective evaluation indicators in comparative experiments between TNO dataset and VOT datasetAlgorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2704 10.45 11.54 0.68 0.45 36.33 6.95 SDNet 2936 10.49 11.82 0.70 0.45 33.14 6.69 DenseFuse 2696 10.61 8.77 0.72 0.45 34.83 6.78 NestFuse 2999 11.33 10.02 0.71 0.53 41.67 6.98 IFCNN 2701 10.68 12.42 0.71 0.53 35.43 6.74 FusionGAN 3645 10.48 6.08 0.66 0.22 29.61 6.52 GANMcC 3290 10.55 6.14 0.69 0.28 33.33 6.72 Ours 2657 11.67 10.91 0.71 0.56 42.71 7.01 Note: Bold font is the optimal value for each column 可以看出,所提算法在实验中,7项指标中有5项指标为最优值。SSIM指标得分与DenseFuse得分仅有较小差距;尤其较GANMcC算法,QAB/F指标提高了约100%,SF指标提高了约77.69%,说明用所提图像融合算法融合的图像中纹理与边缘信息更加清晰丰富。同时,MSE、SF、QAB/F、STD4项指标较其他7种对比算法的平均值提高了10.3%、23.6%、48.5%、23.5%。说明所提图像融合算法相较于其它对比算法具有较好的边缘保持性、源图像信息保留度、视觉效果及较高的融合图像质量。
为进一步验证所提算法的性能,选择含有221对红外与可见光图像对的RoadScene数据集与其它7种融合算法进行比较,现有融合算法和所提出的融合算法获得的所有融合图像的7个评价指标得分的平均值如表 3所示,其中加粗字体为最优值。从实验各项评价指标得分的均值可以看出,所提算法在7项指标中的5项指标均为最优值。其中MSE、SF、QAB/F、STD指标分别平均提高了21%、16.6%、28.6%、16.6%;从而进一步表明所提算法相较于其它7种对比算法具有更好的图像融合效果。
表 3 RoadScene数据集对比实验客观评价指标均值Table 3. Mean of objective evaluation indicators for comparative experiments on the RoadScene datasetAlgorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2273 11.77 15.01 0.68 0.51 42.87 7.26 SDNet 2866 12.10 15.03 0.70 0.51 44.97 7.31 DenseFuse 2919 11.82 12.32 0.69 0.48 42.57 7.22 NestFuse 2319 12.45 13.28 0.67 0.50 49.97 7.38 IFCNN 2328 11.77 15.07 0.70 0.51 39.18 7.12 FusionGAN 4460 11.65 8.32 0.59 0.26 38.98 7.06 GANMcC 3807 11.80 8.99 0.65 0.35 43.76 7.23 Ours 2231 12.57 13.90 0.69 0.54 50.03 7.40 Note: Bold font is the optimal value for each column 以上实验结果说明所提算法在红外与可见光图像融合任务中不仅可以保留丰富信息,还有更好的结构和清晰度,且融合图像视觉效果更加自然。
2.4 消融实验
为进一步验证所提算法中提出的各模块的有效性,进行以下消融实验:实验1编码器使用3个单一尺度卷积块(Conv);实验2编码器使用3个单一尺度卷积和卷积注意力机制(Conv+D-CBAM);实验3编码器使用3个多尺度卷积注意力模块(MSCB)。
在TNO数据集中随机选择一组图像结果作为消融实验结果,实验结果如图 8所示。
通过观察发现,实验2融合图像亮度信息和细节纹理信息较好,但对比度较差,实验1相较于实验2对比度有较多提升,但细节纹理信息不足。实验3融合结果改善了上述缺点,结合了二者优点,融合图像很好地保留了红外与可见光图像中的特征信息,纹理信息丰富,有较好对比度。融合效果良好。
另外,表 4是实验融合图像的客观评价指标结果,最优值用加粗标记。所提算法取得了6个最优值,在SF、MI、STD和QAB/F指标上相较于实验2提升较多,这说明融合图像在信息保留度、细节纹理以及视觉方面效果更优。
表 4 消融实验客观指标Table 4. Objective indicators of ablation experimentsExperiment MSE MI SF SSIM QAB/F STD EN Conv 2002 10.58 8.59 0.70 0.45 35.88 6.77 Conv + D-CBAM 1832 10.61 8.86 0.69 0.47 36.21 6.80 MSCB 2122 11.51 10.08 0.71 0.51 39.51 6.95 Note: Bold font is the optimal value for each column 3. 结论
本文提出了一种多尺度和卷积注意力相结合的红外与可见光图像融合算法。首先,在自编码器网络中采用多尺特征提取模块和卷积注意力机制对源图像特征进行提取,同时提取源图像的浅层细节特征和深层显著特征;其次,采用一种基于两阶段注意力模型的融合策略,融合可见光与红外图像的典型目标特征和纹理细节特征,舍弃无用特征,经编码器网络重构最终的融合图像。在两组对比实验中,相较于其他对比实验,所提算法在7种客观评价指标中均有5种评价指标取得最佳。其中,在TNO与VOT数据集对比实验中,在MSE、SF、QAB/F、STD指标相较于其他7种对比算法均值分别提高了10.3%、23.6%、48.5%、23.5%;在RoadScene数据集对比实验中,MSE、SF、QAB/F、STD指标相较于其他7种对比算法均值分别提高了21%、16.6%、28.6%、16.6%。通过对比实验结果证明,所提算法在红外与可见光图像融合任务中不仅可以保留丰富的信息,还有更好的结构和边缘信息清晰度,在客观方面和主观方面均取得较好的融合效果。
-
表 1 红外小目标数据集描述
Table 1 Details of the infrared small target dataset
Name Total number Image resolution Detail Data1 399 256×256 The background is a sky back-ground
with varying degrees of thermal noise and a single targetData2 100 256×256 Background is the intersection of sky
and ground background, a single targetData3 998 256×256 The background is a sky back-ground with two
targets and cross flying表 2 实验中的比较算法
Table 2 The comparison algorithms in the experiment
Model Model description 1 SSD 2 SSD+FFM(FFM module
adopts up-sampling and down-sampling methods for fusion)3 SSD +FFM(FFM module
adopts subpixel convolutional layer and path layer methods for fusion)4 SSD + FFM(FFM module
adopts up-sampling and down-sampling methods for fusion) + SP module5(ours) SSD+FFM(FFM module
adopts subpixel convolutional layer and path layer methods for fusion)+ SP module表 3 不同网络算法的性能比较
Table 3 Comparison of algorithm performance of different networks
Model Input Train Test Map Fps 1 256 1297 200 82.5 29 2 256 1297 200 85.5 23 3 256 1297 200 86.2 25 4 256 1297 200 86.1 15 5 256 1297 200 87.8 17 -
[1] SHAO Xiaopeng, FAN Hua, LU Guangxu, et al. An improved infrared dim and small target detection algorithm based on the contrast mechanism of human visual system[J]. Infrared Physics & Technology, 2012, 55(5): 403-408.
[2] Coppo Peter. Simulation of fire detection by infrared imagers from geostationary satellites[J]. Remote Sensing of Environment, 2015, 162: 84-98. DOI: 10.1016/j.rse.2015.02.016
[3] 王周春, 崔文楠, 张涛. 基于支持向量机的长波红外目标分类识别算法[J]. 红外技术, 2021, 43(2): 153-161. WANG Z, CUI W, ZHANG T. A long-wave infrared target classification and recognition algorithm based on support vector machine[J]. Infrared Technology, 2021, 43(2): 153-161.
[4] ZHANG X, REN K, WAN M, et al. Infrared small target tracking based on sample constrained particle filtering and sparse representation[J]. Infrared Physics & Technology, 2017, 87: 72-82. http://www.sciencedirect.com/science/article/pii/S1350449517302864
[5] QIN Y, LI B. Effective Infrared Small Target Detection Utilizing a Novel Local Contrast Method[J]. IEEE Geoscience & Remote Sensing Letters, 2016: 1890-1894. http://ieeexplore.ieee.org/document/7725517
[6] DENG L, HU Z, QUAN Z, et al. Adaptive top-hat filter based on quantum genetic algorithm for infrared small target detection[J]. Multimedia Tools & Applications, 2017(6): 1-13. DOI: 10.1007/s11042-017-4592-2
[7] 王瑞, 朱志宇, 张冰. 基于人类视觉机制和粒子滤波的红外小目标跟踪[J]. 江苏科技大学学报: 自然科学版, 2018, 32(4): 74-78. https://www.cnki.com.cn/Article/CJFDTOTAL-HDCB201804013.htm WANG R, ZHU Z, ZHANG B. Infrared small target tracking based on human vision mechanism and particle filtering[J]. Journal of Jiangsu University of Science and Technology: Natural Science Edition, 2018, 32(4): 74-78. https://www.cnki.com.cn/Article/CJFDTOTAL-HDCB201804013.htm
[8] Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran Associates Inc., 2012: 84-90.
[9] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. Computer Science, 2014, https://www.oalib.com/paper/4068791.
[10] HE K, ZHANG X, REN S, et al. Identity Mappings in Deep Residual Networks[M]. Springer, Cham, 2016.
[11] Szegedy C, WEI L, JIA Y, et al. Going Deeper with Convolutions[J]. IEEE Computer Society, 2015(6): 19.
[12] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. IEEE Computer Society, 2013, 81: 580-587.
[13] Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV), 2015: 1440-1448.
[14] REN S, HE K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. http://www.tandfonline.com/servlet/linkout?suffix=CIT0014&dbid=8&doi=10.1080%2F2150704X.2018.1475770&key=27295650
[15] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Computer Vision & Pattern Recognition. IEEE, 2016: 779-788.
[16] LIU W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. European Conference on Computer Vision, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2
[17] 李慕锴, 张涛, 崔文楠. 基于YOLOv3的红外行人小目标检测技术研究[J]. 红外技术, 2020, 42(2): 176-181. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202002014.htm LI M K, ZHANG T, CUI W. Research on Infrared Pedestrian Small Target Detection Based onYOLOv3[J]. Infrared Technology, 2020, 42(2): 176-181. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202002014.htm
[18] 于周吉. 基于卷积神经网络的红外弱小目标检测算法[J]. 光学与光电技术, 2020, 18(5): 63-67. https://www.cnki.com.cn/Article/CJFDTOTAL-GXGD202005012.htm YU Z J. Infrared dim target detection algorithm based on convolutional neural network[J]. Optics & Optoelectronic Technology, 2020, 18(5): 63-67. https://www.cnki.com.cn/Article/CJFDTOTAL-GXGD202005012.htm
[19] SHI M, WANG H, Infrared Dim and Small Target Detection Based on Denoising Autoencoder Network[J]. Mobile Networks and Applications, 2020, 25(4): 1469-1483. DOI: 10.1007/s11036-019-01377-6
[20] Ryu J, Kim S. Data Driven Proposal and Deep Learning-based Small Infrared Drone Detection[J]. Journal of Institute of Control, Robotics and Systems, 2018, 24: 1146-1151. DOI: 10.5302/J.ICROS.2018.18.0157
[21] Ryu J, Kim S. Heterogeneous Gray-Temperature Fusion-Based Deep Learning Architecture for Far Infrared Small Target Detection[J]. Journal of Sensors, 2019(7): 1-15. http://www.researchgate.net/publication/335356131_Heterogeneous_Gray-Temperature_Fusion-Based_Deep_Learning_Architecture_for_Far_Infrared_Small_Target_Detection
[22] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. IEEE, 2017(11): 6517-6525. http://ieeexplore.ieee.org/document/8100173
[23] SHI W, Caballero J, F Huszár, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J]. IEEE, 2016(12): 1063-6919. http://ieeexplore.ieee.org/document/7780576