基于结构与分解的红外光强与偏振图像融合

陈锦妮; 陈宇洋; 李云红; 拜晓桦

基于结构与分解的红外光强与偏振图像融合

西安工程大学电子信息学院, 陕西西安 710699

基金项目:

陕西省教育厅专项项目 14JK1294

陕西省科技厅一般项目 2022GY-053

陕西省科技厅一般项目 2021GY-076

详细信息

作者简介:
陈锦妮（1980-），女，博士，硕士生导师，讲师，主要从事信息与信号处理方面的研究。E-mail：chenjnxpu@163.com

通讯作者:
陈宇洋（1997-），男，硕士，学生，主要从事图像融合方面的研究。E-mail：844296749@qq.com

中图分类号: TP751.1
计量
- 文章访问数: 231
- HTML全文浏览量: 68
- PDF下载量: 62
出版历程
- 收稿日期: 2022-05-29
- 修回日期: 2022-07-19
- 刊出日期: 2023-03-19

Fusion of Infrared Intensity and Polarized Images Based on Structure and Decomposition

School of Electronic Information, Xi'an Polytechnic University, Xi'an 710699, China

摘要

摘要: 在一些特定环境下，红外传感器无法探测到目标时，需要将偏振技术与红外技术相融合。为了获得更清楚的融合图像，采用一种基于多尺度结构分解的图像融合方法实现红外光强与偏振图像融合。该算法提出将红外图像与偏振图分解成3个独立部分：平均强度、信号强度和信号结构。其中平均强度部分，采用一种反正切的权重函数进行融合，信号强度采用最大值的融合原则，而信号结构采用一种基于信号强度幂函数的加权平均方进行融合，最后重构得到融合图像。为了更快进行融合、降低计算的复杂度，将分解过程通过均值滤波代替，再通过上采样与下采样得到最终的融合图像。为了得到更好的融合图像，通过不同融合参数实验对比，选择较优的融合参数。最后实验表明使用所提出的反正切权重函数与融合参数设置，在与传统的多尺度算法的比较中，4项评价指标取得优势，且主观上保留更多的纹理细节、提升对比度以及抑制伪影。
- 红外偏振 /
- 多尺度结构分解 /
- 图像融合
Abstract: In specific environments, when an infrared sensor cannot detect a target, it is necessary to integrate polarization and infrared technologies. To obtain a clearer fused image, this study adopted a method based on a multiscale structure and feature image fusion to realize infrared and polarization image fusion. The algorithm decomposed the infrared image and polarization map into three independent parts: average intensity, signal intensity, and signal structure. An arctangent weight function was proposed for fusion in the average intensity part, the signal intensity adopted the maximum fusion principle, and the signal structure adopted a weighted average square based on the power function of the signal intensity for fusion, and finally, the fused image was reconstructed. To fuse faster and reduce computational complexity, the decomposition process was replaced with mean filtering, and the final fused image was obtained by upsampling and downsampling. To obtain a better fusion image, better fusion parameters were selected through an experimental comparison of different fusion parameters. Experiments showed that by using the proposed arctangent weight function and fusion parameter setting, the four evaluation indexes had advantages over the traditional multiscale algorithm and subjectively retained more texture details, improved contrast, and suppressed artifacts.
- infrared and polarization /
- multiscale structural decomposition /
- image fusion

HTML全文

0. 引言

红外小目标（如空中目标、海上目标以及地面目标等）检测是一项非常重要的任务，它涉及许多视觉任务，如海上监视^[1]、红外跟踪^[2]、红外预警^[3]和红外成像制导^[4]等。相比基于可见光图像的目标识别，红外小目标具有如下特点：首先，红外小目标在图像中所占的像素点非常有限，通常仅表现为一个点，缺乏明确的尺度和形状特征。根据国际光学工程学会（Society of Photo-Optical Instrumentation Engineers，SPIE）对红外小目标的定义：小目标成像的尺寸小于81像素即小于256×256的0.15%^[5]。其次，红外图像中的背景具有较高的复杂性，包括建筑物、海洋、空中（云层）和陆地等各种环境。在这些背景条件下，红外小目标往往面临对比度较低的挑战，容易与背景融合在一起，难以被准确检测。如图 1所示，红外小目标图像中目标与背景的相似度高，红外小目标数量少且分布不均匀，容易被忽略或误检。因此，上述的这些问题使得精确检测红外小目标十分困难。

图 1 部分红外小目标图像样本。(a) 建筑物背景下的红外小目标，(b) 海洋背景下的红外小目标，(c) 陆地背景下的红外小目标，(d) 空中(云层)背景下的红外小目标

Figure 1. Some samples of infrared small target images. (a) depicts infrared small target in building background, (b) depicts infrared small target in sea background, (c) depicts infrared small target in land background, and (d) depicts infrared small target in sky background

下载: 全尺寸图片幻灯片

传统的红外小目标检测方法通常基于各种假设设计手工制作的特征来检测红外小目标。这些方法包括基于形态学滤波的方法、基于局部对比的方法以及基于主成分分析的方法等。其中，基于形态学滤波的方法利用数学形态学中的滤波算子来检测红外小目标，如TopHat^[6]，MaxMedian^[7]等。基于局部对比的方法则使用局部对比度作为特征来检测红外小目标。Wei等^[8]提出一种多尺度基于块的对比度量方式，将单个邻域扩展为8个不同尺度的邻域。Aghaziyarati等^[9]提出了一种基于平均绝对灰度差的局部对比度度量，以降低漏检率。而基于主成分分析的方法则使用主成分分析来提取红外小目标的特征，以进行检测和分类。Gao等^[10]利用低秩矩阵恢复的思想解决红外小目标检测问题。而为了应对复杂的背景，Wang等^[11]结合变分正则化和主成分追踪（Total Variation Regularization and Principal Component Pursuit, TV-PCP）来描述背景特征。然而，这些传统的方法通常需要手动选择和设计特征，在处理复杂场景和复杂的红外小目标时具有一定的局限性。

相比之下，基于深度学习方法，如基于生成对抗网络（Generative Adversarial Network, GAN）和基于编码器-解码器结构的方法，他们通过数据驱动的方式去学习红外小目标的特征。GAN-Based方法在生成器和判决器之间采用对抗性学习的方式来平衡误检和漏检，如图 2(a)所示。Wang等^[12]提出了一种基于对抗学习的方法将图像分割视为生成对抗网络的优化问题，其主要思想是使用对抗性学习来平衡误检和漏检。但由于在模型的训练过程中获得最佳的平衡模型比较困难，因此基于生成对抗网络的方法会存在模型崩溃问题。而基于编码器-解码器的方法使用编码器提取红外小目标图像的特征并使用解码器对红外小目标进行重构，如图 2(b)所示。由于其简单的结构和训练过程，基于编码器-解码器结构的方法受到了越来越多的关注。Li等^[13]设计了一个带有级联通道和空间注意模块（Channel and Spatial Attention Module，CSAM）的三向密集嵌套交互模块（Dense Nested Interactive Module，DNIM），以实现渐进式特征交互和自适应特征增强。Wu等^[14]通过将红外小物体检测建模为语义分割问题，提出了一种简单明了的红外小物体检测框架，称为U-Net中的U-Net（UIU-Net）。Dai等^[15-16]引入了局部对比度度量的概念，提出了深度参数较少的非线性特征细化层。

图 2 两种典型方法的网络结构。(a)基于GAN的方法，(b)基于编码器-解码器结构的方法

Figure 2. The network architecture of two typical methods. (a) the GAN-Based method and (b) the Encoder-Decoder-Based method

下载: 全尺寸图片幻灯片

与传统方法相比，深度学习方法可以自动提取特征，克服手动选择和设计特征的限制，能够在处理复杂场景和复杂的红外小目标时取得更好的性能。然而，基于卷积神经网络（Convolutional Neural Network，CNN）的编码器通常使用固定大小的卷积核，其感受野有限，无法完全捕捉目标与背景之间的全局相关性，也就是像素之间的相似性。这对于红外小目标检测是非常不利的，因为在特征提取阶段对全局相关性进行建模可以提高多尺度特征的辨别能力。此外，多尺度特征融合方法有助于增强红外小目标的特征表示。但常用的解码器通常采用固定的解码路径来融合多尺度特征。例如，Li等^[17]直接融合多级特征，通过级联操作实现特征融合。而Zhang等^[18]则是将多级特征集成到多个分辨率中，并在特定分辨率下用这些特征预测最终结果。然而，上述融合方法没有考虑多尺度特征之间的重要程度。在红外小目标检测任务中，Huang等^[19]也只是简单地将深层特征和浅层特征沿通道维度拼接起来，没有针对不同特征进行通道或空间信息的交互。Dai等^[15]考虑深层特征和浅层特征之间的通道依赖性，设计通道注意力来调整深层特征的通道信息。他们设计了一个非对称上下文模块（Asymmetric Contextual Modulation, ACM）来替换U-Net^[20]的普通跳跃连接。但上述的这些方法均采用固定的解码路径去融合多尺度特征。固定的解码路径限制了不同尺度特征之间的交互，意味着解码器不能充分利用不同特征之间的互补信息，从而导致次优的红外小目标重构性能。

视觉Transformer^[21]采用自注意机制能够用于解决CNN-Based编码器存在的感受野受限问题，该机制能够捕获红外小目标图像中不同位置之间的全局关系，即能够建模远程依赖关系。Chen等^[22]提出了TransUNet，他们认为Transformer可以作为医学图像分割任务的强大编码器，通过结合U-Net^[20]去恢复局部空间信息来增强更精细的细节。在红外小目标检测领域，Liu等^[23]首先提出了探索视觉Transformer检测红外小目标的工作，并在红外小目标检测中取得成功。他们首先使用CNN来提取局部特征。然后，他们采用Vision Transformer（ViT）从局部特征中获取有关红外小目标定位的高级信息。然而，他们的单层ViT结构只适用于最后一个CNN层提取的特征。因此，他们的方法不能完全捕捉形状描述的低级信息，容易混淆真实目标和背景。最新方法的MTU-Net（Multi-level TransUNet）^[24]则结合了多层ViT模块和CNN。首先使用CNN-Based编码器去提取多尺度特征。然后，通过MVTM（Multilevel ViT Module）细化特征以捕获多尺度特征的长距离依赖关系。以上的这些方法表明视觉Transformer在红外小目标检测任务中具有很好的应用前景。同时，为了提高解码器重构红外小目标的能力，设计能够充分利用多尺度特征之间互补信息的新型解码模块至关重要。

基于上述动机，本文提出了一种基于编码-解码结构的红外小目标检测方法。首先使用PVT（pyramid vision transformer）^[25]作为编码器去提取多尺度特征。其次，设计了一个由交互式解码器和辅助解码器组成的双解码器模块去充分利用不同尺度特征之间的互补信息。交互式解码器通过级联自上而下融合、加权交叉融合和自下而上融合3个过程去融合多尺度特征。在自上而下的融合中，通过将浅层特征引入深层特征中以提高红外小目标的空间表征。在加权交叉融合中，通过将可学习的权重分配给不同的特征以突出它们重要程度。而在自下而上的融合中，通过将深层特征中的语义信息引入浅层特征以增强红外小目标的语义表征。此外，辅助解码器直接融合多尺度特征以获得更加丰富的上下文信息去进一步补充更多细节和语义特征信息。总之，双解码器模块可以有效融合多尺度特征，增强解码器重构红外小目标的能力。

1. 网络结构

1.1 网络的整体结构

本文提出的红外小目标检测方法由编码器和解码器两部分组成，如图 3(a)所示。首先使用基于视觉Transformer的编码器来提取输入图像的多尺度特征，因为视觉Transformer采用纯自注意力（self-attention）机制能够建模像素之间的全局关系，从而有效地解决了传统CNN-Based编码器感受野受限的问题，提升了多尺度特征的表示能力。解码器则用于融合多尺度特征并重构红外小目标，以达到更精确的检测效果。

图 3 本文的方法。图(a)本文方法的总体结构，图(b)辅助解码器的实现过程。图(c)交互式解码器的实现过程

Figure 3. The pipeline of our proposed method. The overall architecture in (a), the auxiliary decoder (AD) implementation process in (b), and the interactive decoder (ITD) implementation process in (c)

下载: 全尺寸图片幻灯片

1.2 编码器模块

本文选择基于视觉Transformer的编码器即pyramid vision transformer（PVT）作为特征提取的骨干网络。PVT在视觉Transformer中嵌入了金字塔结构并采用纯自注意机制去提取多尺度特征。由图 3(a)所示，编码器模块分为4个串联的阶段，每个阶段通过视觉Transformer去提取不同尺度的特征。具体地，给定一张单通道的红外小目标图像I=R^H×W，其中H和W分别表示输入图像的高度和宽度。PVT从输入的红外小目标图像中提取多尺度特征F，多尺度特征F表示为$ F=\left\{F^i \in \mathbb{R}^{C_i \times H_i \times W_i} \mid i=1,2,3,4\right\} $，其中Fⁱ表示编码器的第i个阶段提取的特征，C_i表示第i个阶段所提取特征的通道数，H_i和W_i分别表示第i个阶段所提取特征的高度和宽度。

1.3 双解码器模块

双解码器模块是本文提出的一个关键模块，由两个解码器模块组成。交互式解码器由3个级联的融合过程组成，旨在有效地融合多尺度特征。这3个融合过程分别是自上而下融合、加权交叉融合以及自下而上融合。具体来说，自上而下融合从编码器的浅层特征开始，通过下采样和融合操作逐层增强特征的表达；加权交叉融合则采用一种自适应的方法，通过学习的方式融合多尺度特征；自下而上融合则从编码器的深层特征开始，通过上采样和融合操作逐层重构红外小目标。辅助解码器直接对多尺度特征在通道维度进行拼接，这样可以更充分地利用不同尺度的特征信息，补充更多的细节和语义信息，以获得更好的特征融合效果。通过这样的设计，本文的方法能够更加充分地利用不同尺度的特征，提高了红外小目标检测的性能。

1.3.1 辅助解码器

如图 3(b)所示，辅助解码器模块中，本文采用上采样操作将编码器提取的不同尺度特征统一为相同的分辨率，即88×88像素。这一操作使得不同尺度的特征能够在空间上进行对齐，方便进行融合和后续的处理。经过上采样操作后，得到了同一分辨率下新的多尺度特征P。新的多尺度特征P可以表示为$ P=\left\{P^i \in \mathbb{R}^{c_i \times 8 \times \times 88} \mid i=1,2,3,4\right\} $。然后，在通道维度上将它们拼接在一起，形成了一个组合特征P_c。接下来，使用1×1卷积对组合特征进行降维，得到一个全局特征P_g∈R^1×88×88。最后，将全局特征P_g上采样以匹配输入图像的分辨率，并得到预测结果G¹。具体的细节如公式(1)所示。

$$ \begin{aligned} G^1= & \operatorname{Up}\left(\operatorname { Conv } \left(\operatorname { Cat } \left(\operatorname{Up}\left(F^1\right), \operatorname{Up}\left(F^2\right), \operatorname{Up}\left(F^3\right),\right.\right.\right. \\ & \left.\left.\left.\operatorname{Up}\left(F^4\right)\right)\right)\right) \in \mathbb{R}^{1 \times H^{\times} W} \end{aligned} $$

(1)

式中：Up(⋅)表示上采样操作；Cat(⋅)表示在通道维度上进行拼接；Conv(⋅)表示1×1卷积操作。

1.3.2 交互式解码器

交互式解码器的结构如图 3(c)所示。针对编码器提取的多尺度特征F，为了方便进行后续的特征融合，采用了1×1卷积操作对每个特征进行维度变换，使得它们具有相同的维度。通过卷积操作后得到了新的多尺度特征S。新的多尺度特征可以表示为$ S = \left\{ {{S^i} \in {\mathbb{R}^{32 \times {H_i} \times {W_i}}}\left| {i = 1,2,3,4} \right.} \right\} $。交互式解码器是由3个不同的融合过程级联组合而成的关键模块。下面将对这个模块进行详细介绍。

首先，自上而下融合是指从浅层特征向深层特征进行逐级融合的过程。浅层特征通常包含了图像的细节信息，而深层特征具有更抽象和语义化的信息。自上而下融合过程能够逐渐将浅层特征的细节信息融合到深层特征中，使得特征具备更全面的表征能力。具体做法如下：首先，通过下采样操作，将浅层特征的分辨率调整为与深层特征相同。然后，将下采样后的浅层特征与深层特征进行逐元素相加，实现特征的叠加。融合的方式如公式(2)所示：

$$ T^i=\operatorname{Down}\left(S^{i-1}\right)+S^i $$

(2)

式中：Down(⋅)表示下采样操作；Sⁱ表示多尺度特征中的第i个特征。需要注意的是，对于最上层的特征不进行下采样操作。即S¹和T¹表示同一个特征。

其次，加权交叉融合是一种动态权重融合的方式。不同尺度的特征对于红外小目标的检测有不同的贡献度，因此需要根据具体情况来调整它们的融合程度。加权交叉融合通过学习动态权重，对不同尺度特征进行加权融合，使得每个特征都能够发挥其最大的作用，从而提高整体的检测性能。具体来说，加权交叉融合过程涉及以下几个具体步骤：首先，对于相邻的特征，进行上采样或下采样操作，使它们具有相同的分辨率。这是为了确保不同尺度的特征能够对齐，方便后续的融合操作。接下来，为每个特征分配一个可学习的权重因子w，用于控制不同特征之间的融合强度。这些权重因子在模型训练过程中会自适应地更新，以最大限度地利用不同特征之间的互补信息，并突出每个特征的重要性。最后，通过加权求和的方式将特征进行融合，得到融合后的特征表示。通过以上步骤，加权交叉融合过程能够根据每个特征的重要性和互补性，自适应地融合不同尺度的特征。公式(3)描述了加权交叉融合的过程。

$$ D=\left\{D^i=\sum\limits_{j=1}^N w_{i, j} T^i \mid i=1,2,3,4 ; j=1,2,3,4\right\} $$

(3)

式中：N的取值与i有关，当i=1, 4时，N的取值为2；而当i=2, 3时，N的值为3。w_{i, j}赋给每个特征的权重值，i表示第i个特征，j表示第j个权重值。

最后，自下而上融合指从深层特征向浅层特征进行逐级融合的过程。通过将深层特征向上传递并与浅层特征进行融合，可以将语义信息引入到浅层特征中，提高特征的表征能力。具体做法如下：首先，通过上采样操作，将深层特征的分辨率调整到与浅层特征相同，以确保它们在空间上对齐。然后，将上采样后的深层特征和对应的浅层特征进行逐元素相加，实现特征的叠加。融合的方式如公式(4)所示：

$$O^i=\mathrm{Up}\left(D^{i+1}\right)+D^i $$

(4)

式中：Up(⋅)表示上采样操作；Dⁱ表示多尺度特征中的第i个特征。需要注意的是，对于最下层的特征不进行上采样操作。即O⁴和D⁴表示同一个特征。

通过此模块后得到了融合后的多尺度特征$ O=\left\{O^i \in \mathbb{R}^{32 \times H_i \times W_i} \mid i=1,2,3,4\right\} $，其具有相同的维度，即具有相同的通道数。为了获得最终的预测结果，首先，通过上采样后得到了具有一致分辨率的多尺度特征$ U=\left\{U^i \in \mathbb{R}^{32 \times 8 \times 888} \mid i=1,2,3,4\right\} $。然后，对多尺度特征U采用逐元素相加的方式获得了叠加之后的特征U_a。与辅助解码器类似，使用1×1卷积对特征U_a进行降维，得到了一个全局特征U_g。最后，将全局特征U_g上采样以匹配输入图像的分辨率，并得到预测结果G²。具体的细节如公式(5)所示：

$$ \begin{aligned} G^2= & \operatorname{Up}\left(\operatorname { Conv } \left(\operatorname { Add } \left(\operatorname{Up}\left(O^1\right), \operatorname{Up}\left(O^2\right), \operatorname{Up}\left(O^3\right),\right.\right.\right. \\ & \left.\left.\left.\operatorname{Up}\left(O^4\right)\right)\right)\right) \in \mathbb{R}^{1 \times H^{\times} W} \end{aligned} $$

(5)

式中：Up(⋅)表示上采样操作；Add(⋅)表示在逐像素相加；Conv(⋅)表示1×1卷积操作。

1.3.3 双解码器的输出

根据图 3(a)所示，双解码器模块的最终输出结果由两个部分组成。首先是辅助解码器得到的预测结果G¹，其次是交互式解码器通过将不同尺度的特征进行交互融合后得到的预测结果G²。为了充分利用辅助解码器和交互式解码器各自的优势，我们采用了逐元素相加的方式将这两个预测结果进行叠加，得到了最终的预测结果G。这种叠加方式能够综合利用两个解码器的预测结果，从而更好的重构红外小目标。

1.4 损失函数

二分类任务中通常使用二进制交叉熵损失函数（The Binary Cross-Entropy loss, BCE）作为模型的损失函数。如公式(7)所示：

$$ L_{\mathrm{BCE}}=-y \log \hat{y}-(1-y) \log (1-\hat{y}) $$

(7)

式中：y表示真实的标签值；$ \hat y $表示预测值。通常情况下，二进制交叉熵损失函数也被广泛应用于红外小目标检测任务中，但是在红外小目标检测任务中，会出现前景像素和背景像素极度不平衡的情况。因为在红外小目标图像中，前景像素（即小目标）的数量远远少于背景像素（即非小目标）。如果直接采用平等对待前景和背景像素的二进制交叉熵损失函数，会导致模型过度关注背景像素，而无法有效地检测前景像素。

为了缓解不平衡的问题，本文尝试使用Focal loss^[26]损失函数。Focal loss最初是为解决目标检测中的类别不平衡问题而设计的，通过降低易分类样本的权重，让模型更加关注难分类样本，从而提高目标检测的性能。然而，红外小目标检测与传统目标检测存在较大的差异，因此，Focal loss是否适用于红外小目标检测任务需要实验验证。Focal loss的具体表述如公式(8)所示：

$$ {L_{{\text{Focal}}}} = - \alpha {\left( {1 - \hat y} \right)^\gamma }y\log \hat y - \left( {1 - \alpha } \right){\hat y^\gamma }\left( {1 - y} \right)\log \left( {1 - \hat y} \right) $$

(8)

式中：α表示平衡因子；γ表示调制因子；y表示真实的标签值；$ \hat y $表示预测值。

实验结果表明，与BCE相比，Focal loss能够略微提升检测性能。但是，为了更好地缓解前景像素和背景像素不平衡问题，本文考虑对Focal loss进行改进以使其更好地适用于红外小目标检测任务。具体的做法是，在Focal loss中添加了一个权重因子θ。θ增加了难分类样本的损失值，以保证模型在训练过程中能够更加关注这些难分类样本。实验表明，改进的损失函数可以获得更好的检测性能。其公式如(9)所示：

$$ \begin{aligned} & L_{\mathrm{IFocal}}=-\alpha(1-\hat{y})^\gamma y \log \hat{y}- \\ & \qquad\left[(1-\alpha) \hat{y}^\gamma+\theta\right](1-y) \log (1-\hat{y}) \end{aligned}$$

(9)

2. 实验结果与分析

2.1 数据集介绍

1）ISTS-DATA^[12]：ISTS-DATA是一个专门用于卷积神经网络训练的红外小目标数据集。它也是第一个针对红外小目标检测而设计的数据集。数据集中的训练集由10000张图像组成，这些图像包含了各种自然场景和合成场景下的红外小目标，背景环境复杂，能够充分考察算法的泛化能力和鲁棒性。此外，该数据集还包含100张测试图像，用于测试算法的准确性和稳定性。

2）NUAA-SIRST^[15]：由427张红外小目标图像组成，其中包含480个目标实例。大多数图像只包含一个目标，但也有少数图像包含多个目标。在这个数据集中，很多目标都非常暗淡，且隐藏在杂乱无章的复杂背景中，这为小目标检测任务增加了难度。本文选择NUAA-SIRST数据集作为测试集来验证方法的泛化能力。

3）IRSTD-1K^[27]：一个包含1000张红外小目标图像的数据集，这些图像由红外相机拍摄，涵盖了不同种类的小目标，例如无人机、生物、船舶以及车辆等。此外，数据集中的场景也非常多样化，包括大海、河流、林木、山区、城市和云等多种背景。同时，数据集中存在着噪音和杂波等因素，对小目标的检测带来了挑战。同样地，选择IRSTD-1K数据集作为测试集进行测试，以进一步验证方法的泛化能力。

2.2 训练环境和参数设置

本文中的模型训练采用PyTorch框架，实验所用的计算机CPU为i5-12400，主频2.50 GHz，GPU为Nvidia GTX 1080Ti。本文使用改进的Focal loss进行训练并使用AdamW优化器进行优化。初始学习率为1e－4，batch size为4，训练的轮数（epoch）设置为50。本文在模型训练阶段使用ISTS-DATA数据集，并在测试阶段使用了上述提到的3个数据集。为了确保输入网络的数据具有一致的尺寸，对数据集进行了预处理。采用了PyTorch框架中的库函数，如调整图像尺寸（Resize）、将图像归一化（Normalize）以及将图像转化为张量（ToTensor）等，进行图像尺寸的调整和预处理。经过预处理后，所有图像被调整为统一的尺寸，即352×352像素的分辨率。这样的统一尺寸有助于确保网络能够处理相同尺寸的输入，并提供一致的特征表示，从而更好地进行红外小目标检测。

2.3 评价指标

本文使用常用的评价指标来评估各种算法的检测性能。即Precision, Recall, F₁和mIoU。它们的定义如下：

$$ \Pr {\text{ecision}} = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} $$

(10)

$$ {\text{Recall}} = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}} $$

(11)

$$ {F_1} = \frac{{2 \times \Pr {\text{ecision}} \times {\text{Re call}}}}{{\Pr {\text{ecision}} + {\text{Re call}}}} $$

(12)

$$ {\text{IoU = }}\frac{{{\text{TP}}}}{{{\text{TP + FP + FN}}}} $$

(13)

式中：TP表示被模型正确预测为目标类像素的数量；FP表示被模型预测为目标类的背景像素数量；FN表示被模型预测为背景类的目标像素数量。F₁综合考虑了Precision和Recall，是一个被广泛使用的评价指标。本文选择F₁作为主要的性能评价指标。同时，为了更全面地评估算法检测结果，还选择了每个类别IoU的平均值，即mIoU，作为另一个重要的评价指标。

2.4 对比实验和结果分析

为了证明本文提出的方法在检测精度和检测效率等方面的综合性能，本章节选取了多种基于传统方法和基于深度学习的方法进行对比，包括Top-Hat（Top-HatTransform）^[6]、LEF（Local Energy Factor）^[28]、IPI（Infrared patch-image model）^[29]、MDvsFA-cGAN（Miss Detection vs. False Alarm-cGAN）^[12]、ALCNet（Attentional Local Contrast Network）^[16]、LSPM（Local Similarity Pyramid Modules）^[19]、UIU-Net（U-Net in U-Net）^[14]、DNANet（Dense Nested Attention Network）^[13]等。为了进行公平比较，本文在相同的数据集上对基于深度学习的方法在相同的条件下进行训练并在3个不同的测试数据集上进行测试。

2.4.1 ISTS-DATA数据集上的比较

首先，本文在ISTS-DATA数据集上对上述方法进行了全面的比较，评估它们在4个评价指标上的性能表现。同时，为了更全面地评估方法的表现，本文还进行了定性的实验比较，并将结果可视化展示在图 4中。从表 1中可以看出，本文的方法在ISTS-DATA数据集获得了最好的F₁（0.7032）和mIoU（0.5384），与传统的方法相比具有显著的优势。此外，相对于基于深度学习的方法，本文的方法也表现优异。F₁综合考虑了Precision和Recall去评价算法的性能。因此，单一的Precision和Recall并不能准确地评价方法的好坏。比如，IPI得到了最高的Precision（0.7537）但是却牺牲了Recall，最终使得F₁的值很低。而本文的方法能够在Precision和Recall之间达到很好的平衡。此外，从表 1中可以得到，传统红外小目标检测方法的性能明显低于基于深度学习的方法。

图 4 不同方法的可视化结果。红色、黄色和蓝色的框分别代表正确检测到的目标、未检测到的目标和错误检测到的目标

Figure 4. Visualization results of different methods. Boxes in red, yellow, and blue represent correctly detected targets, miss detected targets, and falsely detected targets, respectively

下载: 全尺寸图片幻灯片

表 1 不同算法在ISTS-DATA数据集上的实验结果

Table 1. Experimental results of different algorithms on the ISTS-DATA dataset

Methods	Precision	Recall	F₁	mIoU
Top-Hat	0.5106	0.2202	0.3077	0.1536
LEF	0.5071	0.2745	0.3562	0.1675
IPI	0.7537	0.3452	0.4735	0.2036
MDvsFA-cGAN	0.6335	0.6562	0.6447	0.4686
ALCNet	0.6658	0.6641	0.6649	0.4995
LSPM	0.6559	0.6762	0.6659	0.5078
DNANet	0.6233	0.6876	0.6539	0.4857
UIU-Net	0.5969	0.6972	0.6432	0.4740
Ours	0.6858	0.7216	0.7032	0.5384

下载: 导出CSV

| 显示表格

在ISTS-DATA数据集上定性的比较结果如图 4所示。我们选择了4张具有代表性的红外小目标图像，涵盖了不同背景环境和目标类型。这些图像包括陆地、海洋、空中以及建筑物等背景下的红外小目标。第一列表示原始图像，第二列表示标签值，其余各列分别表示各种方法的预测结果。从图 4所示的结果中可以看出，虽然包括TopHat和LEF在内的传统方法可以准确地检测出不同背景中的红外小目标，但背景的形状仍然清晰地展现出来了。这表明传统方法无法有效地将目标与背景分开。同样地，基于深度学习的方法，如MDvsFA-cGAN、ALCNet、UIU-Net和DNANet，也会遇到同样的问题。而且MDvsFA-cGAN方法还存在漏检问题，它无法检测到被云层遮挡的红外小目标。本文的方法在不同的场景中均取得了令人满意的结果。基于视觉Transformer的编码器在提取红外小目标图像的多尺度特征时可以对图像中所有像素之间的关系进行长距离建模，从而增强红外小目标的特征表示。此外，本文的方法采用了双解码器模块，可以充分利用不同尺度特征之间的互补信息，并考虑不同特征之间的交互，从而在重构红外小目标方面表现出更好的性能。

2.4.2 NUAA-SIRST和IRSTD-1k上的比较

为了验证本文提出方法的泛化能力，选择了3种目前基于深度学习方法中比较先进的方法（LSPM、DNANet和UIU-Net）进行比较。本文的方法和以上3种方法的比较均在ISTS-DATA数据集上训练得到的最优模型上进行测试。实验结果如表 2所示。

表 2 不同算法在NUAA-SIRST和IRSTD-1k数据集上的实验结果

Table 2. Experimental results of different algorithms on NUAA-SIRST and IRSTD-1k datasets

Methods	NUAA-SIRST		IRSTD-1k
Methods	F₁	mIoU	F₁	mIoU
LSPM	0.7313	0.5764	0.5516	0.3809
DNANet	0.7065	0.5462	0.5207	0.3502
UIU-Net	0.6645	0.4976	0.4998	0.3331
Ours	0.7609	0.6202	0.6238	0.4517

下载: 导出CSV

| 显示表格

通过表 2的结果可以发现，本文提出的方法在NUAA-SIRST和IRSTD-1k这两个数据集上都表现出了最佳的检测性能。在NUAA-SIRST数据集上，与其他3种方法相比，本文的方法获得了最高的F₁（0.7609）和mIoU（0.6202）。这些结果说明本文所提出的方法在不同的数据集上都能有较好的检测性能。

2.4.3 测试结果分析

根据测试结果，我们可以观察到各个方法在3个数据集上的表现存在较大的差异。这种差异可能由以下原因所引起：

首先，考虑图像中背景与目标的强度。通过从3个测试数据集中随机选择的红外小目标图像如图 5所示，可以看到不同数据集之间的背景特点差异。在NUAA-SIRST数据集中，目标与背景之间的差异较为明显，背景对目标的干扰相对较小。然而，在IRSTD-1K和ISTS-DAT数据集中，图像的背景更加复杂，而且小目标的亮度较低，这使得目标与背景之间的区分较为困难，导致模型在这个两个数据集上的表现较差。

图 5 测试数据集中红外小目标图像对比

Figure 5. Comparison of infrared small target images in the test datasets

下载: 全尺寸图片幻灯片

其次，考虑数据集的背景类型和目标数量。根据表 3中的数据，我们可以看到ISTS-DATA和NUAA-SIRST测试数据集中的红外小目标图像主要背景类型相似，并且主要包含单目标图像。然而，在IRSTD-1K测试数据集中，存在更多的多目标图像。相比其他两个数据集，模型可能无法完全准确地检测出图像中的所有红外小目标，从而影响了检测效果。此外，在此数据集中出现了大量以林木为背景的图像，如图 5所示，背景环境明显比其他两个数据集更复杂。这一差异也导致了模型在此数据集上的检测效果较差。

表 3 数据集的分析与比较

Table 3. Analysis and comparison of Datasets

Dataset	Quantity/pieces	Background type	Small target types	Single object count/Multiple object count
ISTS-DATA	100	Land, Clouds, Buildings, Ocean, et al.	Land, Aerial, and Marine Targets	75/25
NUAA-SIRST	427	Clouds, Buildings, et al.	Primarily Aerial Targets	365/62
IRSTD-1k	1000	Clouds, Trees, et al.	Mainly aerial and land targets.	655/345

下载: 导出CSV

| 显示表格

综上所述，图像中背景与目标的强度、背景类型以及目标数量等是导致模型在不同数据集上表现差异的主要因素。这些因素的差异性可能导致模型在某些数据集上无法准确区分目标和背景，从而影响了检测性能。

2.5 模型复杂度比较

当输入图像的分辨率为352×352像素时，求得模型的参数量（Params）和浮点运算量（floating-point operations per second, FLOPs）。这两个指标用于评价模型的复杂度。根据表 4的数据，与几种典型的深度学习方法相比，本文的方法具有最低的FLOPs。这意味着本文的方法具有更快的推理速度。与使用卷积运算进行特征提取的网络不同，本文的方法采用基于视觉Transformer的网络来提取多尺度特征。在特征提取阶段，没有使用卷积运算，而是采用了自注意力机制来捕捉图像中的特征关系，从而显著减少了参数的数量。通过使用基于视觉Transformer的网络，能够在保持良好检测性能的同时降低了模型的复杂度。

表 4 深度学习方法参数量和浮点运算量比较

Table 4. Comparison of FLOPs and Params of deep learning methods

Methods	FLOPs	Params
MDvsFA-cGAN	988.44G	15.23M
ALCNet	14.52G	8.56M
LSPM	233.31G	31.14M
DNANet	53.99G	4.70M
UIU-Net	206.08G	50.54M
Ours	8.84G	7.18M

下载: 导出CSV

| 显示表格

2.6 消融实验

在本节中，我们首先进行了损失函数的消融实验，以评估其对模型性能的贡献。接下来，我们验证了本文方法中每个模块的有效性。

2.6.1 损失函数比较

通过对比实验来验证改进Focal loss的有效性。具体而言，在训练模型时分别采用了BCE、Focal loss和基于Focal loss改进的损失函数。实验结果如表 5所示，相比于BCE损失，Focal loss能够略微提高检测性能，将F₁由0.6675提升至0.6758。但是，本文中使用的改进Focal loss损失函数在评价指标F₁上表现最好，与其他两个损失函数相比，该损失函数能更好地适用于红外小目标检测任务。在Focal loss中添加的权重因子能够使模型更关注难分类的样本，有助于提升检测性能。

表 5 不同损失函数下的F₁

Table 5. The value of F₁ under different loss functions

Loss Function	F₁
BCE loss	0.6675
Focal loss	0.6758
Improved focal loss (Ours)	0.7032

下载: 导出CSV

| 显示表格

2.6.2 编码器比较

为了验证PVT作为编码器去提取多尺度特征的性能，本文进行了对比实验。在以往的红外小目标检测研究中，通常使用VGG16或ResNet50等传统卷积神经网络作为编码器来提取多尺度特征。因此，通过将VGG16和ResNet50分别替换为PVT，并在相同的实验设置下进行对比，我们能够评估PVT作为编码器在红外小目标检测中的性能表现。这样的对比实验能够提供有关不同编码器对于红外小目标检测的影响的信息，进一步揭示PVT在该任务中的优势和潜力。

实验结果如表 6所示。通过表 6的结果可以发现，使用PVT作为编码器去提取多尺度特征相比于使用VGG16和ResNet50，在检测性能上具有明显的优势。特别是，本文所提出的方法在ISTS-DATA数据集上取得了较好的检测性能，F₁为0.7032，比VGG16和ResNet50均提升了0.03左右。

表 6 不同编码器的性能比较

Table 6. Comparison of different encoders

Encoder	F₁
PVT (ours)	0.7032
VGG16	0.6714
ResNet50	0.6774

下载: 导出CSV

| 显示表格

2.6.3 解码器比较

本文的对比实验基准包括了PVT、交互式解码器（ITD）和辅助解码器（AD）。为了评估交互式解码器的贡献，我们进行了两个实验。首先，在第一个实验中，我们采用了基于特征金字塔结构的解码器（Feature Pyramid Network, FPN）来替换ITD，并通过实验测试。实验结果如表 7所示。

表 7 不同编码器的性能比较

Table 7. Comparison of different decoders

Methods	F₁
PVT + ITD + AD (ours)	0.7032
PVT + FPN + AD	0.6706
PVT + AD	0.6565
PVT + ITD	0.6831
PVT + FPN	0.6652

下载: 导出CSV

| 显示表格

根据表 7的结果可知，ITD的检测性能优于FPN。相比于FPN，ITD能够更好地利用不同特征之间的互补信息，并促进浅层特征和深层特征之间的充分交互。通过促进特征之间的信息交互，ITD能够弥补FPN在特征传递和融合方面的不足。这样，ITD可以更好地捕捉目标的细节和上下文信息，从而提高了检测的准确性和鲁棒性。另一个实验是去掉交互式解码器，仅使用辅助解码器进行实验。从表 7的结果可以明显看出，模型的检测性能显著下降。这进一步证明了交互式解码器的有效性和重要性。仅使用辅助解码器，模型无法充分利用特征之间的交互信息，导致特征的表征能力受限。此外，由表 7中的实验结果可知，即使未使用辅助解码器，仅使用ITD或FPN也能够实现较好的检测性能。然而，仅使用AD的效果并不理想，因为AD直接融合了来自编码器的多尺度特征，而没有考虑特征之间的交互作用。相比之下，ITD和FPN都考虑了特征之间的信息交互，从而提升了特征的表征能力。然而，无论是ITD还是FPN，在有无AD的情况下，检测性能存在差别。这说明AD对提高红外小目标的检测性能方面有一定的作用。AD直接在通道维度上拼接多尺度特征，捕捉了这些特征中的细节信息和语义信息，与ITD或FPN的结果进行叠加，从而提升了特征的表征能力。双解模块的方式有助于解码器更准确地重构红外小目标，提高了检测性能。

3. 结束语

本文提出了一种新颖的方法，利用基于视觉Transformer网络作为编码器和双解码器模块来实现红外小目标的检测。首先，本文使用基于视觉Transformer的网络作为编码器，用于提取多尺度特征。与传统的卷积操作不同，这种基于自注意力机制的编码器能够更好地捕捉图像中的全局依赖关系，从而提高特征的表征能力。其次，设计的双解码器模块可以更好地利用多尺度特征之间的互补信息，促进不同尺度特征之间的交互，以更好地重构红外小目标。本文进行了大量实验来证明此方法的有效性。在公共数据集上的表现优于目前最先进的方法，并且在不同的数据集上具有较好的泛化性能。

图 1 控制权重函数非线性曲线

Figure 1. Nonlinear curves of control weight function

下载: 全尺寸图片幻灯片

图 2 展示多尺度结构分解算法在J＝4时的融合过程

Figure 2. Fusion process of multi-scale structural feature algorithm when J＝4

下载: 全尺寸图片幻灯片

图 3 Airport在8种多尺度融合算法的结果图。(a)红外图像；(b)偏振图像；(c)对比度金字塔；(d)离散小波变换；(e)梯度金字塔；(f)拉普拉斯金字塔；(g)主成分分析；(h)低通金字塔；(i)平移不变小波变换；(j)本文算法

Figure 3. Results of airport in 8 multiscale fusion algorithms. (a) IR; (b) DOLP; (c) CP; (d) DWT; (e) GP; (f) LP; (g) PCA; (h) RP; (i) SIDWT; (j)Proposed

下载: 全尺寸图片幻灯片

图 4 Road在8种多尺度融合算法的结果图。(a)红外图像；(b)偏振图像；(c)对比度金字塔；(d)离散小波变换；(e)梯度金字塔；(f)拉普拉斯金字塔；(g)主成分分析；(h)低通金字塔；(i)平移不变小波变换；(j)本文算法

Figure 4. Results of road in 8 multiscale fusion algorithms. (a) IR; (b) DOLP; (c) CP; (d) DWT; (e) GP; (f) LP; (g) PCA; (h) RP; (i) SIDWT; (j)Proposed

下载: 全尺寸图片幻灯片

图 5 Car在8种多尺度融合算法的结果图。(a)红外图像；(b)偏振图像；(c)对比度金字塔；(d)离散小波变换；(e)梯度金字塔；(f)拉普拉斯金字塔；(g)主成分分析；(h)低通金字塔；(i)平移不变小波变换；(j)本文算法

Figure 5. Results of car in 8 multiscale fusion algorithms. (a) IR; (b) DOLP; (c) CP; (d) DWT; (e) GP; (f) LP; (g) PCA; (h) RP; (i) SIDWT; (j)Proposed

下载: 全尺寸图片幻灯片

图 6 Windows在8种多尺度融合算法的结果图。(a)红外图像；(b)偏振图像；(c)对比度金字塔；(d)离散小波变换；(e)梯度金字塔；(f)拉普拉斯金字塔；(g)主成分分析；(h)低通金字塔；(i)平移不变小波变换；(j)本文算法

Figure 6. Results of windows in 8 multiscale fusion algorithms. (a) IR; (b) DOLP; (c) CP; (d) DWT; (e) GP; (f) LP; (g) PCA; (h) RP; (i) SIDWT; (j)Proposed

下载: 全尺寸图片幻灯片

图 7 Outdoor在8种多尺度融合算法的结果图。(a)红外图像；(b)偏振图像；(c)对比度金字塔；(d)离散小波变换；(e)梯度金字塔；(f)拉普拉斯金字塔；(g)主成分分析；(h)低通金字塔；(i)平移不变小波变换；(j)本文算法

Figure 7. Results of outdoor in 8 multiscale fusion algorithms. (a) IR; (b) DOLP; (c) CP; (d) DWT; (e) GP; (f) LP; (g) PCA; (h) RP; (i) SIDWT; (j)Proposed

下载: 全尺寸图片幻灯片

表 1 5组融合图像下不同λ的平均质量评价

Table 1 Average quality evaluation of different lambda under 5 groups of fused images

Parameter	lambda =5	lambda =10	lambda =30	lambda =60	lambda = 100	lambda = 200
EN	7.2050	7.1933	7.1731	7.1663	7.1633	7.1621
	0.5614	0.5620	0.5615	0.5609	0.5608	0.5607
SCD	1.5584	1.5400	1.5492	1.5637	1.5718	1.5785
SD	9.6199	9.5843	9.6108	9.6562	9.6403	9.6628
VIF	0.7385	0.7375	0.7364	0.7360	0.7359	0.7357
MS_SSIM	0.9661	0.9653	0.9644	0.9642	0.9643	0.9643
SSIM	0.9695	0.9691	0.9684	0.9682	0.9681	0.9680

下载: 导出CSV

表 2 融合图像的客观评价指标

Table 2 Objective evaluation indexes of fused images

Image	Evaluation	CP	DWT	GP	LP	PCA	RP	SIDWT	Proposed
Airport	EN	7.4038	6.5629	6.5538	6.5413	6.3577	7.2649	6.5136	6.4584
	Q^AB/F	0.2645	0.4154	0.4438	0.4599	0.3590	0.3114	0.4735	0.5238
	SCD	0.8556	1.1152	1.1035	1.3192	0.9929	1.3989	1.2233	0.7526
	SD	8.9371	8.4546	8.7057	8.3978	9.1176	9.4301	8.4619	8.1108
	VIF	0.7788	0.4912	0.5371	0.5760	0.5500	0.5795	0.5728	0.6035
	MS_SSIM	0.5425	0.9414	0.9518	0.9685	0.9289	0.6326	0.9752	0.9713
	SSIM	0.5021	0.9374	0.9541	0.9565	0.9217	0.5491	0.9715	0.9715
Road	EN	7.4540	7.2851	7.1242	7.4016	7.4545	7.4713	7.2958	7.7729
	Q^AB/F	0.2534	0.4296	0.4426	0.4726	0.4537	0.2949	0.4729	0.5103
	SCD	1.4472	1.6042	1.5539	1.6783	0.3136	1.5853	1.6133	1.7381
	SD	9.5398	10.4314	10.3399	10.3981	10.4773	9.9832	10.4107	10.4351
	VIF	0.9118	0.5729	0.6390	0.6850	0.9295	0.5813	0.6657	0.8105
	MS_SSIM	0.5506	0.8840	0.9042	0.9400	0.7670	0.6510	0.9382	0.9617
	SSIM	0.5906	0.9179	0.9387	0.9495	0.6648	0.6875	0.9590	0.9575
Car	EN	6.8170	6.9337	6.8247	6.9915	7.2436	6.9526	6.9374	7.4851
	Q^AB/F	0.3286	0.5521	0.5660	0.6039	0.6784	0.2854	0.6042	0.6583
	SCD	1.3841	1.4742	1.4815	1.5420	0.4592	1.4293	1.4974	1.7339
	SD	9.2526	9.6851	9.6849	9.8760	9.8916	9.6622	9.8453	9.7009
	VIF	0.5617	0.6112	0.6733	0.7692	1.0708	0.4070	0.6982	0.9140
	MS_SSIM	0.6908	0.8840	0.9042	0.9400	0.7670	0.6510	0.9382	0.9817
	SSIM	0.6762	0.9395	0.9444	0.9630	0.8894	0.7033	0.9688	0.9753
Windows	EN	7.3378	6.6612	6.5249	7.4594	7.2594	7.1577	6.6466	7.2811
	Q^AB/F	0.1769	0.4799	0.4937	0.3786	0.3686	0.2412	0.5176	0.5272
	SCD	1.1893	1.6507	1.6235	0.3339	0.3139	1.4610	1.6734	1.8535
	SD	9.1006	9.3828	9.3866	10.9746	10.9446	8.8531	9.3979	10.7113
	VIF	0.7658	0.3381	0.3302	1.0025	1.0125	0.4664	0.3704	0.4488
	MS_SSIM	0.3876	0.9059	0.9236	0.6470	0.6370	0.4996	0.9550	0.9461
	SSIM	0.4673	0.9554	0.9644	0.6249	0.6148	0.5762	0.9782	0.9688
Outdoor	EN	6.7270	6.6479	6.4716	6.7282	6.6535	6.6863	6.6336	7.0276
	Q^AB/F	0.5419	0.5050	0.5196	0.5485	0.6341	0.4022	0.5335	0.5873
	SCD	1.5299	1.5146	1.4948	1.6165	0.0819	1.6062	1.5021	1.7136
	SD	8.2680	8.5149	8.2519	8.4752	7.0202	8.1989	8.4533	9.1415
	VIF	0.7738	0.5876	0.6941	0.7670	0.9916	0.5369	0.7160	0.9157
	MS_SSIM	0.8585	0.9122	0.9260	0.9607	0.6508	0.8497	0.9586	0.9700
	SSIM	0.8927	0.9452	0.9555	0.9689	0.8242	0.8731	0.9754	0.9744
Average values of 5 fused images	EN	7.1479	6.8182	6.6998	7.0244	6.9937	7.1066	6.8054	7.2050
	Q^AB/F	0.3131	0.4764	0.4931	0.4927	0.4988	0.3070	0.5204	0.5614
	SCD	1.2812	1.4718	1.4514	1.2980	0.4323	1.4962	1.5019	1.5584
	SD	9.0196	9.2938	9.2738	9.6243	9.4903	9.2255	9.3138	9.6199
	VIF	0.7584	0.5202	0.5748	0.7599	0.9109	0.5142	0.6046	0.7385
	MS_SSIM	0.6060	0.9139	0.9252	0.8967	0.7762	0.6632	0.9573	0.9661
	SSIM	0.6258	0.9391	0.9514	0.8925	0.7830	0.6778	0.9706	0.9695

下载: 导出CSV

参考文献(23)

[1]	张肃, 付强, 段锦, 等. 基于提升小波的低对比度目标偏振识别技术[J]. 光学学报, 2015, 35(2): 0211002. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB201502017.htm ZHANG S, FU Q, DUAN J, et al. Low contrast target polarization recognition technology based on lifting wavelet[J]. Acta Optica Sinica, 2015, 35(2): 0211002. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB201502017.htm
[2]	陈潮起, 孟祥超, 邵枫, 等. 一种基于多尺度低秩分解的红外与可见光图像融合方法[J]. 光学学报, 2020, 40(11): 1110001. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB202011008.htm CHEN C, MENG X, SHAO F, et al. Infrared and visible image fusion method based on multiscale low-rank decomposition[J]. Acta Optica Sinica, 2020, 40(11): 1110001. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB202011008.htm
[3]	CHEN J, LI X J, LUO L B, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]. Information Sciences, 2020, 508: 64-78. DOI: 10.1016/j.ins.2019.08.066
[4]	汪美玉, 陈代梅, 赵根保. 基于目标提取与拉普拉斯变换的红外和可见光图像融合算法[J]. 激光与电子学进展, 2017, 54(1): 011002. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201701013.htm WANG M, CHEN D, ZHAO G. Image fusion algorithm of infrared and visible images based on target extraction and laplace transformation[J]. Laser & Optoelectronics Progress, 2017, 54(1): 011002. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201701013.htm
[5]	杨九章, 刘炜剑, 程阳. 基于对比度金字塔与双边滤波的非对称红外与可见光图像融合[J]. 红外技术, 2021, 43(9): 840-844. http://hwjs.nvir.cn/article/id/1c7de46d-f30d-48dc-8841-9e8bf3c91107 YANG J, LIU W, CHEN Y. Asymmetric infrared and visible image fusion based on contrast pyramid and bilateral filtering[J]. Infrared Technology, 2021, 43(9): 840-844. http://hwjs.nvir.cn/article/id/1c7de46d-f30d-48dc-8841-9e8bf3c91107
[6]	黄光华, 倪国强, 张彬. 一种基于视觉阈值特性的图像融合方法[J]. 北京理工大学学报, 2006(10): 907-911. DOI: 10.3969/j.issn.1001-0645.2006.10.015 HUANG G, NI G, ZHANG B. Image fusion by a visual threshold based pyramid[J]. Transactions of Beijing Institute of Technology, 2006(10): 907-911. DOI: 10.3969/j.issn.1001-0645.2006.10.015
[7]	李建林, 俞建成, 孙胜利. 基于梯度金字塔图像融合的研究[J]. 科学技术与工程, 2007(22): 5818-5822. https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200722017.htm LI J, YU J, SUN S. Study of image fusion based on grad pyramid algorithm[J]. Science Technology and Engineering, 2007(22): 5818-5822. https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200722017.htm
[8]	杨风暴, 董安冉, 张雷, 等. DWT、NSCT和改进PCA协同组合红外偏振图像融合[J]. 红外技术, 2017, 39(3): 201-208. http://hwjs.nvir.cn/article/id/hwjs201703001 YANG F, DONG A, ZHANG L, et al. Infrared polarization image fusion using the synergistic combination of DWT, NSCT and improved PCA[J]. Infrared Technology, 2017, 39(3): 201-208. http://hwjs.nvir.cn/article/id/hwjs201703001
[9]	安富, 杨风暴, 李伟伟, 等. 基于DWT的红外偏振与光强图像的融合[J]. 光电技术应用, 2013, 28(2): 18-22. https://www.cnki.com.cn/Article/CJFDTOTAL-GDYG201302008.htm AN F, YANG F, LI W, et al. Fusion of infrared polarization and intensity images based on DWT[J]. Electro-Optic Technology Application, 2013, 28(2): 18-22. https://www.cnki.com.cn/Article/CJFDTOTAL-GDYG201302008.htm
[10]	WANG X, WEI Y L, LIU Fu. A new multi-source image sequence fusion algorithm based on SIDWT[C]//2013 Seventh International Conference on Image and Graphics, 2013: 568-571.
[11]	YANG F, WEI H. Fusion of infrared polarization and intensity images using support value transform and fuzzy combination rules[J]. Infrared Physics & Technology, 2013, 60: 235-243.
[12]	ZHU Pan, HUANG Zhanhua. A fusion method for infrared-visible image and infrared-polarization image based on multi-scale center-surround top-hat transform[J]. Optical Review, 2017, 24(3): 1-13.
[13]	LI H, QI X B, XIE W Y. Fast infrared and visible image fusion with structural decomposition[J]. Knowledge-Based Systems, 2020, 204: 106182.
[14]	MA K, HUI L, YONG H, et al. Robust multi-exposure image fusion: a structural patch decomposition approach[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2519-2532.
[15]	KOU F, LI Z G, WEN C Y, et al. Multi-scale exposure fusion via gradient domain guided image filtering[C]//2017 IEEE International Conference on Multimedia and Expo, 2017: 1105-1110.
[16]	LI H, JIA X X, ZHANG Lei. Clustering based content and color adaptive tone mapping[J]. Computer Vision and Image Understanding, 2018, 168: 37-49.
[17]	Aardt V Jan. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 1-28.
[18]	Piella G, Heijmans H. A new quality metric for image fusion[C]// International Conference on Image Processing, 2003: 173-176.
[19]	Aslantas V, Bende E. A new image quality metric for image fusion: The sum of the correlations of differences[J]. AEU-International Journal of Electronics and Communications, 2015, 69(12): 1890-1896.
[20]	Altman D G, Bland J M. Statistics notes - Standard deviations and standard errors[J]. British Medical Journal, 2005, 331(7521): 903-903.
[21]	Sheikh H R, Bovik A C. Image information and visual quality[J]. IEEE Transaction on Image Processing, 2006, 15(2): 430-444.
[22]	WANG Z, Simoncelli E P, Bovik A C. Multiscale structural similarity for image quality assessment[C]//Proc IEEE Asilomar Conference on Signals, 2003: 1398-1402.
[23]	ZHOU W, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Trans Image Process, 2004, 13(4): 600-612.

施引文献

资源附件(0)

图(7) / 表(2)

计量

文章访问数: 231
HTML全文浏览量: 68
PDF下载量: 62
被引次数: 0

0. 引言
1. 网络结构
1.1 网络的整体结构
1.2 编码器模块
1.3 双解码器模块
1.3.1 辅助解码器
1.3.2 交互式解码器
1.3.3 双解码器的输出
1.4 损失函数
2. 实验结果与分析
2.1 数据集介绍
2.2 训练环境和参数设置
2.3 评价指标
2.4 对比实验和结果分析
2.4.1 ISTS-DATA数据集上的比较
2.4.2 NUAA-SIRST和IRSTD-1k上的比较
2.4.3 测试结果分析
2.5 模型复杂度比较
2.6 消融实验
2.6.1 损失函数比较
2.6.2 编码器比较
2.6.3 解码器比较
3. 结束语

0. 引言
1. 网络结构
1.1 网络的整体结构
1.2 编码器模块
1.3 双解码器模块
1.3.1 辅助解码器
1.3.2 交互式解码器
1.3.3 双解码器的输出
1.4 损失函数
2. 实验结果与分析
2.1 数据集介绍
2.2 训练环境和参数设置
2.3 评价指标
2.4 对比实验和结果分析
2.4.1 ISTS-DATA数据集上的比较
2.4.2 NUAA-SIRST和IRSTD-1k上的比较
2.4.3 测试结果分析
2.5 模型复杂度比较
2.6 消融实验
2.6.1 损失函数比较
2.6.2 编码器比较
2.6.3 解码器比较
3. 结束语

参考文献(23)

施引文献

资源附件(0)

基于结构与分解的红外光强与偏振图像融合

作者简介: 陈锦妮（1980-），女，博士，硕士生导师，讲师，主要从事信息与信号处理方面的研究。E-mail：chenjnxpu@163.com

通讯作者: 陈宇洋（1997-），男，硕士，学生，主要从事图像融合方面的研究。E-mail：844296749@qq.com

计量

出版历程

Fusion of Infrared Intensity and Polarized Images Based on Structure and Decomposition

0. 引言

1. 网络结构

1.1 网络的整体结构

1.2 编码器模块

1.3 双解码器模块

1.3.1 辅助解码器

1.3.2 交互式解码器

1.3.3 双解码器的输出

1.4 损失函数

2. 实验结果与分析

2.1 数据集介绍

2.2 训练环境和参数设置

2.3 评价指标

2.4 对比实验和结果分析

2.4.1 ISTS-DATA数据集上的比较

2.4.2 NUAA-SIRST和IRSTD-1k上的比较

2.4.3 测试结果分析

2.5 模型复杂度比较

2.6 消融实验

2.6.1 损失函数比较

2.6.2 编码器比较

2.6.3 解码器比较

3. 结束语

计量

出版历程

目录

0. 引言

1. 网络结构

1.1 网络的整体结构

1.2 编码器模块

1.3 双解码器模块

1.3.1 辅助解码器

1.3.2 交互式解码器

1.3.3 双解码器的输出

1.4 损失函数

2. 实验结果与分析

2.1 数据集介绍

2.2 训练环境和参数设置

2.3 评价指标

2.4 对比实验和结果分析

2.4.1 ISTS-DATA数据集上的比较

2.4.2 NUAA-SIRST和IRSTD-1k上的比较

2.4.3 测试结果分析

2.5 模型复杂度比较

2.6 消融实验

2.6.1 损失函数比较

2.6.2 编码器比较

2.6.3 解码器比较

3. 结束语

作者简介:
陈锦妮（1980-），女，博士，硕士生导师，讲师，主要从事信息与信号处理方面的研究。E-mail：chenjnxpu@163.com

通讯作者:
陈宇洋（1997-），男，硕士，学生，主要从事图像融合方面的研究。E-mail：844296749@qq.com