Infrared and Visible Image Fusion Combining Multi-scale and Convolutional Attention
-
摘要:
针对红外与可见光图像融合时,单一尺度特征提取不足、红外目标与可见光纹理细节丢失等问题,提出一种多尺度和卷积注意力相结合的红外与可见光图像融合算法。首先,设计多尺度特征提取模块和可变形卷积注意力模块相结合的编码器网络,多感受野提取红外与可见光图像的重要特征信息。然后,采用基于空间和通道双注意力机制的融合策略,进一步融合红外和可见光图像的典型特征。最后,由3层卷积层构成解码器网络,用于重构融合图像。此外,设计基于均方误差、多尺度结构相似度和色彩的混合损失函数约束网络训练,进一步提高融合图像与源图像的相似性。本算法在公开数据集上与7种图像融合算法进行比较,在主观评价和客观评价方面,所提算法相较其它对比算法具有较好的边缘保持性、源图像信息保留度,较高的融合图像质量。
Abstract:A multiscale and convolutional attention-based infrared and visible image fusion algorithm is proposed to address the issues of insufficient single-scale feature extraction and loss of details, such as infrared targets and visible textures, when fusing infrared and visible images. First, an encoder network, combining a multiscale feature extraction module and deformable convolutional attention module, is designed to extract important feature information of infrared and visible images from multiple receptive fields. Subsequently, a fusion strategy based on spatial and channel dual-attention mechanisms is adopted to further fuse the typical features of infrared and visible images. Finally, a decoder network composed of three convolutional layers is used to reconstruct the fused image. Additionally, hybrid loss function constraint network training based on mean squared error, multiscale structure similarity, and color is designed to further improve the similarity between the fused and source images. The results of the experiment are compared with seven image-fusion algorithms using a public dataset. In terms of subjective and objective evaluations, the proposed algorithm exhibits better edge preservation, source image information retention, and higher fusion image quality than other algorithms.
-
0. 引言
红外小目标(如空中目标、海上目标以及地面目标等)检测是一项非常重要的任务,它涉及许多视觉任务,如海上监视[1]、红外跟踪[2]、红外预警[3]和红外成像制导[4]等。相比基于可见光图像的目标识别,红外小目标具有如下特点:首先,红外小目标在图像中所占的像素点非常有限,通常仅表现为一个点,缺乏明确的尺度和形状特征。根据国际光学工程学会(Society of Photo-Optical Instrumentation Engineers,SPIE)对红外小目标的定义:小目标成像的尺寸小于81像素即小于256×256的0.15%[5]。其次,红外图像中的背景具有较高的复杂性,包括建筑物、海洋、空中(云层)和陆地等各种环境。在这些背景条件下,红外小目标往往面临对比度较低的挑战,容易与背景融合在一起,难以被准确检测。如图 1所示,红外小目标图像中目标与背景的相似度高,红外小目标数量少且分布不均匀,容易被忽略或误检。因此,上述的这些问题使得精确检测红外小目标十分困难。
图 1 部分红外小目标图像样本。(a) 建筑物背景下的红外小目标,(b) 海洋背景下的红外小目标,(c) 陆地背景下的红外小目标,(d) 空中(云层)背景下的红外小目标Figure 1. Some samples of infrared small target images. (a) depicts infrared small target in building background, (b) depicts infrared small target in sea background, (c) depicts infrared small target in land background, and (d) depicts infrared small target in sky background传统的红外小目标检测方法通常基于各种假设设计手工制作的特征来检测红外小目标。这些方法包括基于形态学滤波的方法、基于局部对比的方法以及基于主成分分析的方法等。其中,基于形态学滤波的方法利用数学形态学中的滤波算子来检测红外小目标,如TopHat[6],MaxMedian[7]等。基于局部对比的方法则使用局部对比度作为特征来检测红外小目标。Wei等[8]提出一种多尺度基于块的对比度量方式,将单个邻域扩展为8个不同尺度的邻域。Aghaziyarati等[9]提出了一种基于平均绝对灰度差的局部对比度度量,以降低漏检率。而基于主成分分析的方法则使用主成分分析来提取红外小目标的特征,以进行检测和分类。Gao等[10]利用低秩矩阵恢复的思想解决红外小目标检测问题。而为了应对复杂的背景,Wang等[11]结合变分正则化和主成分追踪(Total Variation Regularization and Principal Component Pursuit, TV-PCP)来描述背景特征。然而,这些传统的方法通常需要手动选择和设计特征,在处理复杂场景和复杂的红外小目标时具有一定的局限性。
相比之下,基于深度学习方法,如基于生成对抗网络(Generative Adversarial Network, GAN)和基于编码器-解码器结构的方法,他们通过数据驱动的方式去学习红外小目标的特征。GAN-Based方法在生成器和判决器之间采用对抗性学习的方式来平衡误检和漏检,如图 2(a)所示。Wang等[12]提出了一种基于对抗学习的方法将图像分割视为生成对抗网络的优化问题,其主要思想是使用对抗性学习来平衡误检和漏检。但由于在模型的训练过程中获得最佳的平衡模型比较困难,因此基于生成对抗网络的方法会存在模型崩溃问题。而基于编码器-解码器的方法使用编码器提取红外小目标图像的特征并使用解码器对红外小目标进行重构,如图 2(b)所示。由于其简单的结构和训练过程,基于编码器-解码器结构的方法受到了越来越多的关注。Li等[13]设计了一个带有级联通道和空间注意模块(Channel and Spatial Attention Module,CSAM)的三向密集嵌套交互模块(Dense Nested Interactive Module,DNIM),以实现渐进式特征交互和自适应特征增强。Wu等[14]通过将红外小物体检测建模为语义分割问题,提出了一种简单明了的红外小物体检测框架,称为U-Net中的U-Net(UIU-Net)。Dai等[15-16]引入了局部对比度度量的概念,提出了深度参数较少的非线性特征细化层。
与传统方法相比,深度学习方法可以自动提取特征,克服手动选择和设计特征的限制,能够在处理复杂场景和复杂的红外小目标时取得更好的性能。然而,基于卷积神经网络(Convolutional Neural Network,CNN)的编码器通常使用固定大小的卷积核,其感受野有限,无法完全捕捉目标与背景之间的全局相关性,也就是像素之间的相似性。这对于红外小目标检测是非常不利的,因为在特征提取阶段对全局相关性进行建模可以提高多尺度特征的辨别能力。此外,多尺度特征融合方法有助于增强红外小目标的特征表示。但常用的解码器通常采用固定的解码路径来融合多尺度特征。例如,Li等[17]直接融合多级特征,通过级联操作实现特征融合。而Zhang等[18]则是将多级特征集成到多个分辨率中,并在特定分辨率下用这些特征预测最终结果。然而,上述融合方法没有考虑多尺度特征之间的重要程度。在红外小目标检测任务中,Huang等[19]也只是简单地将深层特征和浅层特征沿通道维度拼接起来,没有针对不同特征进行通道或空间信息的交互。Dai等[15]考虑深层特征和浅层特征之间的通道依赖性,设计通道注意力来调整深层特征的通道信息。他们设计了一个非对称上下文模块(Asymmetric Contextual Modulation, ACM)来替换U-Net[20]的普通跳跃连接。但上述的这些方法均采用固定的解码路径去融合多尺度特征。固定的解码路径限制了不同尺度特征之间的交互,意味着解码器不能充分利用不同特征之间的互补信息,从而导致次优的红外小目标重构性能。
视觉Transformer[21]采用自注意机制能够用于解决CNN-Based编码器存在的感受野受限问题,该机制能够捕获红外小目标图像中不同位置之间的全局关系,即能够建模远程依赖关系。Chen等[22]提出了TransUNet,他们认为Transformer可以作为医学图像分割任务的强大编码器,通过结合U-Net[20]去恢复局部空间信息来增强更精细的细节。在红外小目标检测领域,Liu等[23]首先提出了探索视觉Transformer检测红外小目标的工作,并在红外小目标检测中取得成功。他们首先使用CNN来提取局部特征。然后,他们采用Vision Transformer(ViT)从局部特征中获取有关红外小目标定位的高级信息。然而,他们的单层ViT结构只适用于最后一个CNN层提取的特征。因此,他们的方法不能完全捕捉形状描述的低级信息,容易混淆真实目标和背景。最新方法的MTU-Net(Multi-level TransUNet)[24]则结合了多层ViT模块和CNN。首先使用CNN-Based编码器去提取多尺度特征。然后,通过MVTM(Multilevel ViT Module)细化特征以捕获多尺度特征的长距离依赖关系。以上的这些方法表明视觉Transformer在红外小目标检测任务中具有很好的应用前景。同时,为了提高解码器重构红外小目标的能力,设计能够充分利用多尺度特征之间互补信息的新型解码模块至关重要。
基于上述动机,本文提出了一种基于编码-解码结构的红外小目标检测方法。首先使用PVT(pyramid vision transformer)[25]作为编码器去提取多尺度特征。其次,设计了一个由交互式解码器和辅助解码器组成的双解码器模块去充分利用不同尺度特征之间的互补信息。交互式解码器通过级联自上而下融合、加权交叉融合和自下而上融合3个过程去融合多尺度特征。在自上而下的融合中,通过将浅层特征引入深层特征中以提高红外小目标的空间表征。在加权交叉融合中,通过将可学习的权重分配给不同的特征以突出它们重要程度。而在自下而上的融合中,通过将深层特征中的语义信息引入浅层特征以增强红外小目标的语义表征。此外,辅助解码器直接融合多尺度特征以获得更加丰富的上下文信息去进一步补充更多细节和语义特征信息。总之,双解码器模块可以有效融合多尺度特征,增强解码器重构红外小目标的能力。
1. 网络结构
1.1 网络的整体结构
本文提出的红外小目标检测方法由编码器和解码器两部分组成,如图 3(a)所示。首先使用基于视觉Transformer的编码器来提取输入图像的多尺度特征,因为视觉Transformer采用纯自注意力(self-attention)机制能够建模像素之间的全局关系,从而有效地解决了传统CNN-Based编码器感受野受限的问题,提升了多尺度特征的表示能力。解码器则用于融合多尺度特征并重构红外小目标,以达到更精确的检测效果。
1.2 编码器模块
本文选择基于视觉Transformer的编码器即pyramid vision transformer(PVT)作为特征提取的骨干网络。PVT在视觉Transformer中嵌入了金字塔结构并采用纯自注意机制去提取多尺度特征。由图 3(a)所示,编码器模块分为4个串联的阶段,每个阶段通过视觉Transformer去提取不同尺度的特征。具体地,给定一张单通道的红外小目标图像I=RH×W,其中H和W分别表示输入图像的高度和宽度。PVT从输入的红外小目标图像中提取多尺度特征F,多尺度特征F表示为$ F=\left\{F^i \in \mathbb{R}^{C_i \times H_i \times W_i} \mid i=1,2,3,4\right\} $,其中Fi表示编码器的第i个阶段提取的特征,Ci表示第i个阶段所提取特征的通道数,Hi和Wi分别表示第i个阶段所提取特征的高度和宽度。
1.3 双解码器模块
双解码器模块是本文提出的一个关键模块,由两个解码器模块组成。交互式解码器由3个级联的融合过程组成,旨在有效地融合多尺度特征。这3个融合过程分别是自上而下融合、加权交叉融合以及自下而上融合。具体来说,自上而下融合从编码器的浅层特征开始,通过下采样和融合操作逐层增强特征的表达;加权交叉融合则采用一种自适应的方法,通过学习的方式融合多尺度特征;自下而上融合则从编码器的深层特征开始,通过上采样和融合操作逐层重构红外小目标。辅助解码器直接对多尺度特征在通道维度进行拼接,这样可以更充分地利用不同尺度的特征信息,补充更多的细节和语义信息,以获得更好的特征融合效果。通过这样的设计,本文的方法能够更加充分地利用不同尺度的特征,提高了红外小目标检测的性能。
1.3.1 辅助解码器
如图 3(b)所示,辅助解码器模块中,本文采用上采样操作将编码器提取的不同尺度特征统一为相同的分辨率,即88×88像素。这一操作使得不同尺度的特征能够在空间上进行对齐,方便进行融合和后续的处理。经过上采样操作后,得到了同一分辨率下新的多尺度特征P。新的多尺度特征P可以表示为$ P=\left\{P^i \in \mathbb{R}^{c_i \times 8 \times \times 88} \mid i=1,2,3,4\right\} $。然后,在通道维度上将它们拼接在一起,形成了一个组合特征Pc。接下来,使用1×1卷积对组合特征进行降维,得到一个全局特征Pg∈R1×88×88。最后,将全局特征Pg上采样以匹配输入图像的分辨率,并得到预测结果G1。具体的细节如公式(1)所示。
$$ \begin{aligned} G^1= & \operatorname{Up}\left(\operatorname { Conv } \left(\operatorname { Cat } \left(\operatorname{Up}\left(F^1\right), \operatorname{Up}\left(F^2\right), \operatorname{Up}\left(F^3\right),\right.\right.\right. \\ & \left.\left.\left.\operatorname{Up}\left(F^4\right)\right)\right)\right) \in \mathbb{R}^{1 \times H^{\times} W} \end{aligned} $$ (1) 式中:Up(⋅)表示上采样操作;Cat(⋅)表示在通道维度上进行拼接;Conv(⋅)表示1×1卷积操作。
1.3.2 交互式解码器
交互式解码器的结构如图 3(c)所示。针对编码器提取的多尺度特征F,为了方便进行后续的特征融合,采用了1×1卷积操作对每个特征进行维度变换,使得它们具有相同的维度。通过卷积操作后得到了新的多尺度特征S。新的多尺度特征可以表示为$ S = \left\{ {{S^i} \in {\mathbb{R}^{32 \times {H_i} \times {W_i}}}\left| {i = 1,2,3,4} \right.} \right\} $。交互式解码器是由3个不同的融合过程级联组合而成的关键模块。下面将对这个模块进行详细介绍。
首先,自上而下融合是指从浅层特征向深层特征进行逐级融合的过程。浅层特征通常包含了图像的细节信息,而深层特征具有更抽象和语义化的信息。自上而下融合过程能够逐渐将浅层特征的细节信息融合到深层特征中,使得特征具备更全面的表征能力。具体做法如下:首先,通过下采样操作,将浅层特征的分辨率调整为与深层特征相同。然后,将下采样后的浅层特征与深层特征进行逐元素相加,实现特征的叠加。融合的方式如公式(2)所示:
$$ T^i=\operatorname{Down}\left(S^{i-1}\right)+S^i $$ (2) 式中:Down(⋅)表示下采样操作;Si表示多尺度特征中的第i个特征。需要注意的是,对于最上层的特征不进行下采样操作。即S1和T1表示同一个特征。
其次,加权交叉融合是一种动态权重融合的方式。不同尺度的特征对于红外小目标的检测有不同的贡献度,因此需要根据具体情况来调整它们的融合程度。加权交叉融合通过学习动态权重,对不同尺度特征进行加权融合,使得每个特征都能够发挥其最大的作用,从而提高整体的检测性能。具体来说,加权交叉融合过程涉及以下几个具体步骤:首先,对于相邻的特征,进行上采样或下采样操作,使它们具有相同的分辨率。这是为了确保不同尺度的特征能够对齐,方便后续的融合操作。接下来,为每个特征分配一个可学习的权重因子w,用于控制不同特征之间的融合强度。这些权重因子在模型训练过程中会自适应地更新,以最大限度地利用不同特征之间的互补信息,并突出每个特征的重要性。最后,通过加权求和的方式将特征进行融合,得到融合后的特征表示。通过以上步骤,加权交叉融合过程能够根据每个特征的重要性和互补性,自适应地融合不同尺度的特征。公式(3)描述了加权交叉融合的过程。
$$ D=\left\{D^i=\sum\limits_{j=1}^N w_{i, j} T^i \mid i=1,2,3,4 ; j=1,2,3,4\right\} $$ (3) 式中:N的取值与i有关,当i=1, 4时,N的取值为2;而当i=2, 3时,N的值为3。wi, j赋给每个特征的权重值,i表示第i个特征,j表示第j个权重值。
最后,自下而上融合指从深层特征向浅层特征进行逐级融合的过程。通过将深层特征向上传递并与浅层特征进行融合,可以将语义信息引入到浅层特征中,提高特征的表征能力。具体做法如下:首先,通过上采样操作,将深层特征的分辨率调整到与浅层特征相同,以确保它们在空间上对齐。然后,将上采样后的深层特征和对应的浅层特征进行逐元素相加,实现特征的叠加。融合的方式如公式(4)所示:
$$O^i=\mathrm{Up}\left(D^{i+1}\right)+D^i $$ (4) 式中:Up(⋅)表示上采样操作;Di表示多尺度特征中的第i个特征。需要注意的是,对于最下层的特征不进行上采样操作。即O4和D4表示同一个特征。
通过此模块后得到了融合后的多尺度特征$ O=\left\{O^i \in \mathbb{R}^{32 \times H_i \times W_i} \mid i=1,2,3,4\right\} $,其具有相同的维度,即具有相同的通道数。为了获得最终的预测结果,首先,通过上采样后得到了具有一致分辨率的多尺度特征$ U=\left\{U^i \in \mathbb{R}^{32 \times 8 \times 888} \mid i=1,2,3,4\right\} $。然后,对多尺度特征U采用逐元素相加的方式获得了叠加之后的特征Ua。与辅助解码器类似,使用1×1卷积对特征Ua进行降维,得到了一个全局特征Ug。最后,将全局特征Ug上采样以匹配输入图像的分辨率,并得到预测结果G2。具体的细节如公式(5)所示:
$$ \begin{aligned} G^2= & \operatorname{Up}\left(\operatorname { Conv } \left(\operatorname { Add } \left(\operatorname{Up}\left(O^1\right), \operatorname{Up}\left(O^2\right), \operatorname{Up}\left(O^3\right),\right.\right.\right. \\ & \left.\left.\left.\operatorname{Up}\left(O^4\right)\right)\right)\right) \in \mathbb{R}^{1 \times H^{\times} W} \end{aligned} $$ (5) 式中:Up(⋅)表示上采样操作;Add(⋅)表示在逐像素相加;Conv(⋅)表示1×1卷积操作。
1.3.3 双解码器的输出
根据图 3(a)所示,双解码器模块的最终输出结果由两个部分组成。首先是辅助解码器得到的预测结果G1,其次是交互式解码器通过将不同尺度的特征进行交互融合后得到的预测结果G2。为了充分利用辅助解码器和交互式解码器各自的优势,我们采用了逐元素相加的方式将这两个预测结果进行叠加,得到了最终的预测结果G。这种叠加方式能够综合利用两个解码器的预测结果,从而更好的重构红外小目标。
1.4 损失函数
二分类任务中通常使用二进制交叉熵损失函数(The Binary Cross-Entropy loss, BCE)作为模型的损失函数。如公式(7)所示:
$$ L_{\mathrm{BCE}}=-y \log \hat{y}-(1-y) \log (1-\hat{y}) $$ (7) 式中:y表示真实的标签值;$ \hat y $表示预测值。通常情况下,二进制交叉熵损失函数也被广泛应用于红外小目标检测任务中,但是在红外小目标检测任务中,会出现前景像素和背景像素极度不平衡的情况。因为在红外小目标图像中,前景像素(即小目标)的数量远远少于背景像素(即非小目标)。如果直接采用平等对待前景和背景像素的二进制交叉熵损失函数,会导致模型过度关注背景像素,而无法有效地检测前景像素。
为了缓解不平衡的问题,本文尝试使用Focal loss[26]损失函数。Focal loss最初是为解决目标检测中的类别不平衡问题而设计的,通过降低易分类样本的权重,让模型更加关注难分类样本,从而提高目标检测的性能。然而,红外小目标检测与传统目标检测存在较大的差异,因此,Focal loss是否适用于红外小目标检测任务需要实验验证。Focal loss的具体表述如公式(8)所示:
$$ {L_{{\text{Focal}}}} = - \alpha {\left( {1 - \hat y} \right)^\gamma }y\log \hat y - \left( {1 - \alpha } \right){\hat y^\gamma }\left( {1 - y} \right)\log \left( {1 - \hat y} \right) $$ (8) 式中:α表示平衡因子;γ表示调制因子;y表示真实的标签值;$ \hat y $表示预测值。
实验结果表明,与BCE相比,Focal loss能够略微提升检测性能。但是,为了更好地缓解前景像素和背景像素不平衡问题,本文考虑对Focal loss进行改进以使其更好地适用于红外小目标检测任务。具体的做法是,在Focal loss中添加了一个权重因子θ。θ增加了难分类样本的损失值,以保证模型在训练过程中能够更加关注这些难分类样本。实验表明,改进的损失函数可以获得更好的检测性能。其公式如(9)所示:
$$ \begin{aligned} & L_{\mathrm{IFocal}}=-\alpha(1-\hat{y})^\gamma y \log \hat{y}- \\ & \qquad\left[(1-\alpha) \hat{y}^\gamma+\theta\right](1-y) \log (1-\hat{y}) \end{aligned}$$ (9) 2. 实验结果与分析
2.1 数据集介绍
1)ISTS-DATA[12]:ISTS-DATA是一个专门用于卷积神经网络训练的红外小目标数据集。它也是第一个针对红外小目标检测而设计的数据集。数据集中的训练集由10000张图像组成,这些图像包含了各种自然场景和合成场景下的红外小目标,背景环境复杂,能够充分考察算法的泛化能力和鲁棒性。此外,该数据集还包含100张测试图像,用于测试算法的准确性和稳定性。
2)NUAA-SIRST[15]:由427张红外小目标图像组成,其中包含480个目标实例。大多数图像只包含一个目标,但也有少数图像包含多个目标。在这个数据集中,很多目标都非常暗淡,且隐藏在杂乱无章的复杂背景中,这为小目标检测任务增加了难度。本文选择NUAA-SIRST数据集作为测试集来验证方法的泛化能力。
3)IRSTD-1K[27]:一个包含1000张红外小目标图像的数据集,这些图像由红外相机拍摄,涵盖了不同种类的小目标,例如无人机、生物、船舶以及车辆等。此外,数据集中的场景也非常多样化,包括大海、河流、林木、山区、城市和云等多种背景。同时,数据集中存在着噪音和杂波等因素,对小目标的检测带来了挑战。同样地,选择IRSTD-1K数据集作为测试集进行测试,以进一步验证方法的泛化能力。
2.2 训练环境和参数设置
本文中的模型训练采用PyTorch框架,实验所用的计算机CPU为i5-12400,主频2.50 GHz,GPU为Nvidia GTX 1080Ti。本文使用改进的Focal loss进行训练并使用AdamW优化器进行优化。初始学习率为1e-4,batch size为4,训练的轮数(epoch)设置为50。本文在模型训练阶段使用ISTS-DATA数据集,并在测试阶段使用了上述提到的3个数据集。为了确保输入网络的数据具有一致的尺寸,对数据集进行了预处理。采用了PyTorch框架中的库函数,如调整图像尺寸(Resize)、将图像归一化(Normalize)以及将图像转化为张量(ToTensor)等,进行图像尺寸的调整和预处理。经过预处理后,所有图像被调整为统一的尺寸,即352×352像素的分辨率。这样的统一尺寸有助于确保网络能够处理相同尺寸的输入,并提供一致的特征表示,从而更好地进行红外小目标检测。
2.3 评价指标
本文使用常用的评价指标来评估各种算法的检测性能。即Precision, Recall, F1和mIoU。它们的定义如下:
$$ \Pr {\text{ecision}} = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} $$ (10) $$ {\text{Recall}} = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}} $$ (11) $$ {F_1} = \frac{{2 \times \Pr {\text{ecision}} \times {\text{Re call}}}}{{\Pr {\text{ecision}} + {\text{Re call}}}} $$ (12) $$ {\text{IoU = }}\frac{{{\text{TP}}}}{{{\text{TP + FP + FN}}}} $$ (13) 式中:TP表示被模型正确预测为目标类像素的数量;FP表示被模型预测为目标类的背景像素数量;FN表示被模型预测为背景类的目标像素数量。F1综合考虑了Precision和Recall,是一个被广泛使用的评价指标。本文选择F1作为主要的性能评价指标。同时,为了更全面地评估算法检测结果,还选择了每个类别IoU的平均值,即mIoU,作为另一个重要的评价指标。
2.4 对比实验和结果分析
为了证明本文提出的方法在检测精度和检测效率等方面的综合性能,本章节选取了多种基于传统方法和基于深度学习的方法进行对比,包括Top-Hat(Top-HatTransform)[6]、LEF(Local Energy Factor)[28]、IPI(Infrared patch-image model)[29]、MDvsFA-cGAN(Miss Detection vs. False Alarm-cGAN)[12]、ALCNet(Attentional Local Contrast Network)[16]、LSPM(Local Similarity Pyramid Modules)[19]、UIU-Net(U-Net in U-Net)[14]、DNANet(Dense Nested Attention Network)[13]等。为了进行公平比较,本文在相同的数据集上对基于深度学习的方法在相同的条件下进行训练并在3个不同的测试数据集上进行测试。
2.4.1 ISTS-DATA数据集上的比较
首先,本文在ISTS-DATA数据集上对上述方法进行了全面的比较,评估它们在4个评价指标上的性能表现。同时,为了更全面地评估方法的表现,本文还进行了定性的实验比较,并将结果可视化展示在图 4中。从表 1中可以看出,本文的方法在ISTS-DATA数据集获得了最好的F1(0.7032)和mIoU(0.5384),与传统的方法相比具有显著的优势。此外,相对于基于深度学习的方法,本文的方法也表现优异。F1综合考虑了Precision和Recall去评价算法的性能。因此,单一的Precision和Recall并不能准确地评价方法的好坏。比如,IPI得到了最高的Precision(0.7537)但是却牺牲了Recall,最终使得F1的值很低。而本文的方法能够在Precision和Recall之间达到很好的平衡。此外,从表 1中可以得到,传统红外小目标检测方法的性能明显低于基于深度学习的方法。
表 1 不同算法在ISTS-DATA数据集上的实验结果Table 1. Experimental results of different algorithms on the ISTS-DATA datasetMethods Precision Recall F1 mIoU Top-Hat 0.5106 0.2202 0.3077 0.1536 LEF 0.5071 0.2745 0.3562 0.1675 IPI 0.7537 0.3452 0.4735 0.2036 MDvsFA-cGAN 0.6335 0.6562 0.6447 0.4686 ALCNet 0.6658 0.6641 0.6649 0.4995 LSPM 0.6559 0.6762 0.6659 0.5078 DNANet 0.6233 0.6876 0.6539 0.4857 UIU-Net 0.5969 0.6972 0.6432 0.4740 Ours 0.6858 0.7216 0.7032 0.5384 在ISTS-DATA数据集上定性的比较结果如图 4所示。我们选择了4张具有代表性的红外小目标图像,涵盖了不同背景环境和目标类型。这些图像包括陆地、海洋、空中以及建筑物等背景下的红外小目标。第一列表示原始图像,第二列表示标签值,其余各列分别表示各种方法的预测结果。从图 4所示的结果中可以看出,虽然包括TopHat和LEF在内的传统方法可以准确地检测出不同背景中的红外小目标,但背景的形状仍然清晰地展现出来了。这表明传统方法无法有效地将目标与背景分开。同样地,基于深度学习的方法,如MDvsFA-cGAN、ALCNet、UIU-Net和DNANet,也会遇到同样的问题。而且MDvsFA-cGAN方法还存在漏检问题,它无法检测到被云层遮挡的红外小目标。本文的方法在不同的场景中均取得了令人满意的结果。基于视觉Transformer的编码器在提取红外小目标图像的多尺度特征时可以对图像中所有像素之间的关系进行长距离建模,从而增强红外小目标的特征表示。此外,本文的方法采用了双解码器模块,可以充分利用不同尺度特征之间的互补信息,并考虑不同特征之间的交互,从而在重构红外小目标方面表现出更好的性能。
2.4.2 NUAA-SIRST和IRSTD-1k上的比较
为了验证本文提出方法的泛化能力,选择了3种目前基于深度学习方法中比较先进的方法(LSPM、DNANet和UIU-Net)进行比较。本文的方法和以上3种方法的比较均在ISTS-DATA数据集上训练得到的最优模型上进行测试。实验结果如表 2所示。
表 2 不同算法在NUAA-SIRST和IRSTD-1k数据集上的实验结果Table 2. Experimental results of different algorithms on NUAA-SIRST and IRSTD-1k datasetsMethods NUAA-SIRST IRSTD-1k F1 mIoU F1 mIoU LSPM 0.7313 0.5764 0.5516 0.3809 DNANet 0.7065 0.5462 0.5207 0.3502 UIU-Net 0.6645 0.4976 0.4998 0.3331 Ours 0.7609 0.6202 0.6238 0.4517 通过表 2的结果可以发现,本文提出的方法在NUAA-SIRST和IRSTD-1k这两个数据集上都表现出了最佳的检测性能。在NUAA-SIRST数据集上,与其他3种方法相比,本文的方法获得了最高的F1(0.7609)和mIoU(0.6202)。这些结果说明本文所提出的方法在不同的数据集上都能有较好的检测性能。
2.4.3 测试结果分析
根据测试结果,我们可以观察到各个方法在3个数据集上的表现存在较大的差异。这种差异可能由以下原因所引起:
首先,考虑图像中背景与目标的强度。通过从3个测试数据集中随机选择的红外小目标图像如图 5所示,可以看到不同数据集之间的背景特点差异。在NUAA-SIRST数据集中,目标与背景之间的差异较为明显,背景对目标的干扰相对较小。然而,在IRSTD-1K和ISTS-DAT数据集中,图像的背景更加复杂,而且小目标的亮度较低,这使得目标与背景之间的区分较为困难,导致模型在这个两个数据集上的表现较差。
其次,考虑数据集的背景类型和目标数量。根据表 3中的数据,我们可以看到ISTS-DATA和NUAA-SIRST测试数据集中的红外小目标图像主要背景类型相似,并且主要包含单目标图像。然而,在IRSTD-1K测试数据集中,存在更多的多目标图像。相比其他两个数据集,模型可能无法完全准确地检测出图像中的所有红外小目标,从而影响了检测效果。此外,在此数据集中出现了大量以林木为背景的图像,如图 5所示,背景环境明显比其他两个数据集更复杂。这一差异也导致了模型在此数据集上的检测效果较差。
表 3 数据集的分析与比较Table 3. Analysis and comparison of DatasetsDataset Quantity/pieces Background type Small target types Single object count/Multiple object count ISTS-DATA 100 Land, Clouds, Buildings, Ocean, et al. Land, Aerial, and Marine Targets 75/25 NUAA-SIRST 427 Clouds, Buildings, et al. Primarily Aerial Targets 365/62 IRSTD-1k 1000 Clouds, Trees, et al. Mainly aerial and land targets. 655/345 综上所述,图像中背景与目标的强度、背景类型以及目标数量等是导致模型在不同数据集上表现差异的主要因素。这些因素的差异性可能导致模型在某些数据集上无法准确区分目标和背景,从而影响了检测性能。
2.5 模型复杂度比较
当输入图像的分辨率为352×352像素时,求得模型的参数量(Params)和浮点运算量(floating-point operations per second, FLOPs)。这两个指标用于评价模型的复杂度。根据表 4的数据,与几种典型的深度学习方法相比,本文的方法具有最低的FLOPs。这意味着本文的方法具有更快的推理速度。与使用卷积运算进行特征提取的网络不同,本文的方法采用基于视觉Transformer的网络来提取多尺度特征。在特征提取阶段,没有使用卷积运算,而是采用了自注意力机制来捕捉图像中的特征关系,从而显著减少了参数的数量。通过使用基于视觉Transformer的网络,能够在保持良好检测性能的同时降低了模型的复杂度。
表 4 深度学习方法参数量和浮点运算量比较Table 4. Comparison of FLOPs and Params of deep learning methodsMethods FLOPs Params MDvsFA-cGAN 988.44G 15.23M ALCNet 14.52G 8.56M LSPM 233.31G 31.14M DNANet 53.99G 4.70M UIU-Net 206.08G 50.54M Ours 8.84G 7.18M 2.6 消融实验
在本节中,我们首先进行了损失函数的消融实验,以评估其对模型性能的贡献。接下来,我们验证了本文方法中每个模块的有效性。
2.6.1 损失函数比较
通过对比实验来验证改进Focal loss的有效性。具体而言,在训练模型时分别采用了BCE、Focal loss和基于Focal loss改进的损失函数。实验结果如表 5所示,相比于BCE损失,Focal loss能够略微提高检测性能,将F1由0.6675提升至0.6758。但是,本文中使用的改进Focal loss损失函数在评价指标F1上表现最好,与其他两个损失函数相比,该损失函数能更好地适用于红外小目标检测任务。在Focal loss中添加的权重因子能够使模型更关注难分类的样本,有助于提升检测性能。
表 5 不同损失函数下的F1Table 5. The value of F1 under different loss functionsLoss Function F1 BCE loss 0.6675 Focal loss 0.6758 Improved focal loss (Ours) 0.7032 2.6.2 编码器比较
为了验证PVT作为编码器去提取多尺度特征的性能,本文进行了对比实验。在以往的红外小目标检测研究中,通常使用VGG16或ResNet50等传统卷积神经网络作为编码器来提取多尺度特征。因此,通过将VGG16和ResNet50分别替换为PVT,并在相同的实验设置下进行对比,我们能够评估PVT作为编码器在红外小目标检测中的性能表现。这样的对比实验能够提供有关不同编码器对于红外小目标检测的影响的信息,进一步揭示PVT在该任务中的优势和潜力。
实验结果如表 6所示。通过表 6的结果可以发现,使用PVT作为编码器去提取多尺度特征相比于使用VGG16和ResNet50,在检测性能上具有明显的优势。特别是,本文所提出的方法在ISTS-DATA数据集上取得了较好的检测性能,F1为0.7032,比VGG16和ResNet50均提升了0.03左右。
表 6 不同编码器的性能比较Table 6. Comparison of different encodersEncoder F1 PVT (ours) 0.7032 VGG16 0.6714 ResNet50 0.6774 2.6.3 解码器比较
本文的对比实验基准包括了PVT、交互式解码器(ITD)和辅助解码器(AD)。为了评估交互式解码器的贡献,我们进行了两个实验。首先,在第一个实验中,我们采用了基于特征金字塔结构的解码器(Feature Pyramid Network, FPN)来替换ITD,并通过实验测试。实验结果如表 7所示。
表 7 不同编码器的性能比较Table 7. Comparison of different decodersMethods F1 PVT + ITD + AD (ours) 0.7032 PVT + FPN + AD 0.6706 PVT + AD 0.6565 PVT + ITD 0.6831 PVT + FPN 0.6652 根据表 7的结果可知,ITD的检测性能优于FPN。相比于FPN,ITD能够更好地利用不同特征之间的互补信息,并促进浅层特征和深层特征之间的充分交互。通过促进特征之间的信息交互,ITD能够弥补FPN在特征传递和融合方面的不足。这样,ITD可以更好地捕捉目标的细节和上下文信息,从而提高了检测的准确性和鲁棒性。另一个实验是去掉交互式解码器,仅使用辅助解码器进行实验。从表 7的结果可以明显看出,模型的检测性能显著下降。这进一步证明了交互式解码器的有效性和重要性。仅使用辅助解码器,模型无法充分利用特征之间的交互信息,导致特征的表征能力受限。此外,由表 7中的实验结果可知,即使未使用辅助解码器,仅使用ITD或FPN也能够实现较好的检测性能。然而,仅使用AD的效果并不理想,因为AD直接融合了来自编码器的多尺度特征,而没有考虑特征之间的交互作用。相比之下,ITD和FPN都考虑了特征之间的信息交互,从而提升了特征的表征能力。然而,无论是ITD还是FPN,在有无AD的情况下,检测性能存在差别。这说明AD对提高红外小目标的检测性能方面有一定的作用。AD直接在通道维度上拼接多尺度特征,捕捉了这些特征中的细节信息和语义信息,与ITD或FPN的结果进行叠加,从而提升了特征的表征能力。双解模块的方式有助于解码器更准确地重构红外小目标,提高了检测性能。
3. 结束语
本文提出了一种新颖的方法,利用基于视觉Transformer网络作为编码器和双解码器模块来实现红外小目标的检测。首先,本文使用基于视觉Transformer的网络作为编码器,用于提取多尺度特征。与传统的卷积操作不同,这种基于自注意力机制的编码器能够更好地捕捉图像中的全局依赖关系,从而提高特征的表征能力。其次,设计的双解码器模块可以更好地利用多尺度特征之间的互补信息,促进不同尺度特征之间的交互,以更好地重构红外小目标。本文进行了大量实验来证明此方法的有效性。在公共数据集上的表现优于目前最先进的方法,并且在不同的数据集上具有较好的泛化性能。
-
表 1 MSCB模块参数设置
Table 1 MSCB module parameter settings
Kernel size Outputs channel Activation function Branch1 1×1 16 R-Relu Branch2 3×3Maxpooling
1×116
16R-Relu Branch3 1×1
3×3
3×332
64
16R-Relu
R-Relu
R-ReluBranch4 1×1
1×7
7×164
128
16R-Relu
R-Relu
R-Relu表 2 TNO数据集与VOT数据集对比实验客观评价指标均值
Table 2 Mean values of objective evaluation indicators in comparative experiments between TNO dataset and VOT dataset
Algorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2704 10.45 11.54 0.68 0.45 36.33 6.95 SDNet 2936 10.49 11.82 0.70 0.45 33.14 6.69 DenseFuse 2696 10.61 8.77 0.72 0.45 34.83 6.78 NestFuse 2999 11.33 10.02 0.71 0.53 41.67 6.98 IFCNN 2701 10.68 12.42 0.71 0.53 35.43 6.74 FusionGAN 3645 10.48 6.08 0.66 0.22 29.61 6.52 GANMcC 3290 10.55 6.14 0.69 0.28 33.33 6.72 Ours 2657 11.67 10.91 0.71 0.56 42.71 7.01 Note: Bold font is the optimal value for each column 表 3 RoadScene数据集对比实验客观评价指标均值
Table 3 Mean of objective evaluation indicators for comparative experiments on the RoadScene dataset
Algorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2273 11.77 15.01 0.68 0.51 42.87 7.26 SDNet 2866 12.10 15.03 0.70 0.51 44.97 7.31 DenseFuse 2919 11.82 12.32 0.69 0.48 42.57 7.22 NestFuse 2319 12.45 13.28 0.67 0.50 49.97 7.38 IFCNN 2328 11.77 15.07 0.70 0.51 39.18 7.12 FusionGAN 4460 11.65 8.32 0.59 0.26 38.98 7.06 GANMcC 3807 11.80 8.99 0.65 0.35 43.76 7.23 Ours 2231 12.57 13.90 0.69 0.54 50.03 7.40 Note: Bold font is the optimal value for each column 表 4 消融实验客观指标
Table 4 Objective indicators of ablation experiments
Experiment MSE MI SF SSIM QAB/F STD EN Conv 2002 10.58 8.59 0.70 0.45 35.88 6.77 Conv + D-CBAM 1832 10.61 8.86 0.69 0.47 36.21 6.80 MSCB 2122 11.51 10.08 0.71 0.51 39.51 6.95 Note: Bold font is the optimal value for each column -
[1] 代立杨, 刘刚, 肖刚. 基于FRC框架的红外与可见光图像融合方法[J]. 控制与决策, 2021, 36(11): 2690-2698. DAI L Y, LIU G, XIAO G. Infrared and visible image fusion based on FRC algorithm[J]. Control and Decision, 2021, 36(11): 2690-2698.
[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019, 45: 153-178. DOI: 10.1016/j.inffus.2018.02.004
[3] LI X S, WAN W J, ZHOU F Q, et al. Medical image fusion based on sparse representation and neighbor energy activity[J]. Biomedical Signal Processing and Control, 2023, 80(2): 104353.
[4] LIU G, LIN Z, YAN S, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 171-184.
[5] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576 SUN Bin, ZHUGE Wuwei, GAO Yunxiang, et al. Infrared and visible image fusion based on latent low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576
[6] LI H, WU X J. Multi-focus image fusion using dictionary learning and low-rank representation[C]//Proceedings of the 9th International Conference on Image and Graphics, 2017: 675-686.
[7] LIU C H, QI Y, DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics and Technology, 2017, 83: 94-102. DOI: 10.1016/j.infrared.2017.04.018
[8] GAO R, Vorobyov S A, ZHAO H. Image fusion with cosparse analysis operator[J]. IEEE Signal Processing Letters, 2017, 24(7): 943-947. DOI: 10.1109/LSP.2017.2696055
[9] LI Y H, LIU G, Bavirisetti D P, et al. Infrared-visible image fusion method based on sparse and prior joint saliency detection and LatLRR-FPDE[J]. Digital Signal Processing, 2023, 134: 103910. DOI: 10.1016/j.dsp.2023.103910
[10] 蒋杰伟, 刘尚辉, 金库, 等. 基于FCM与引导滤波的红外与可见光图像融合[J]. 红外技术, 2023, 45(3): 249-256. http://hwjs.nvir.cn/article/id/67d60996-565d-4597-96a1-937255cc33cc JIANG Jiewei, LIU Shanghui, JIN Ku, et al. Infrared and visible-light image fusion based on FCM and guided filtering[J]. Infrared Technology, 2023, 45(3): 249-256. http://hwjs.nvir.cn/article/id/67d60996-565d-4597-96a1-937255cc33cc
[11] 李文, 叶坤涛, 舒蕾蕾, 等. 基于高斯模糊逻辑和ADCSCM的红外与可见光图像融合算法[J]. 红外技术, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c LI W, YE K T, SHU L L, et al. Infrared and visible image fusion algorithm based on Gaussian fuzzy logic and adaptive dual-channel spiking cortical model[J]. Infrared Technology, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c
[12] LI S, KANG X, HU J. Image fusion with guided filtering[J]. IEEE Transactions on Image Processing, 2013, 22(7): 2864-2875. DOI: 10.1109/TIP.2013.2244222
[13] 霍星, 邹韵, 陈影, 等. 双尺度分解和显著性分析相结合的红外与可见光图像融合[J]. 中国图象图形学报, 2021, 26(12): 2813-2825. HUO X, ZOU Y, CHEN Y, et al. Dual-scale decomposition and saliency analysis based infrared and visible image fusion[J]. Journal of Image and Graphics, 2021, 26(12): 2813-2825.
[14] 刘明葳, 王任华, 李静, 等. 各向异性导向滤波的红外与可见光图像融合[J]. 中国图象图形学报, 2021, 26(10): 2421-2432. DOI: 10.11834/jig.200339 LIU M W, WANG R H, LI J, et al. Infrared and visible image fusion with multi-scale anisotropic guided filtering[J]. Journal of Image and Graphics, 2021, 26(10): 2421-2432. DOI: 10.11834/jig.200339
[15] LIU Y, CHEN X, WANG Z, et al. Deep learning for pixel-level image fusion: recent advances and future prospects[J]. Inf. Fusion, 2018, 42: 158-173. DOI: 10.1016/j.inffus.2017.10.007
[16] MA J, WEI Y, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Inf. Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[17] MA J, ZHANG H, SHAO Z, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.
[18] Prabhakar K R, Srikar V S, Babu R V. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure imagepairs[C]//IEEE International Conference on Computer Vision (ICCV), 2017: 4724-4732.
[19] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623. DOI: 10.1109/TIP.2018.2887342
[20] ZHANG Y, LIU Y, SUN P, et al. IFCNN: a general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011
[21] 陈永, 张娇娇, 王镇. 多尺度密集连接注意力的红外与可见光图像融合[J]. 光学精密工程, 2022, 30(18): 2253-2266. DOI: 10.37188/OPE.20223018.2253 CHEN Yong, ZHANG Jiaojiao, WANG Zhen. Infrared and visible image fusion based on multi-scale dense attention connection network[J]. Optics and Precision Engineering, 2022, 30(18): 2253-2266. DOI: 10.37188/OPE.20223018.2253
[22] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 2818-2826.
[23] WOO S, PARK J, LEE J, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision, 2018, 06521: 3-19.
[24] 李霖, 王红梅, 李辰凯. 红外与可见光图像深度学习融合方法综述[J]. 红外与激光工程, 2022, 51(12): 20220125. LI L, WANG H M, LI C K. A review of deep learning fusion methods for infrared and visible images[J]. Infrared and Laser Engineering, 2022, 51(12): 20220125.
[25] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision, 2014: 740-755.
[26] XU H, MA J, JIANG J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502-518. DOI: 10.1109/TPAMI.2020.3012548
[27] ZHANG H, MA J. SDNet: a versatile squeeze-and-decomposition network for real-time image fusion[J]. International Journal of Computer Vision, 2021, 129: 2761-785. DOI: 10.1007/s11263-021-01501-8
[28] LI H, WU X J, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230
[29] TOET A. TNO image fusion dataset [EB/OL]. [2021-02-20]. https://figshare.com/articles/TN Image Fusion Dataset/1008029.
[30] XU Han. Roadscene database[DB/OL]. [2020-08-07]. https://github.com/hanna-xu/RoadScene.
[31] Kristan M, Matas J, Leonardis A, et al. The eighth visual object tracking VOT2020 challenge results[C]//Proceedings of the 16th European Conference on Computer Vision, 2020, 12539: 547-601.