红外与可见光图像多尺度Transformer融合方法

陈彦林, 王志社, 邵文禹, 杨帆, 孙婧

陈彦林, 王志社, 邵文禹, 杨帆, 孙婧. 红外与可见光图像多尺度Transformer融合方法[J]. 红外技术, 2023, 45(3): 266-275.
引用本文: 陈彦林, 王志社, 邵文禹, 杨帆, 孙婧. 红外与可见光图像多尺度Transformer融合方法[J]. 红外技术, 2023, 45(3): 266-275.
CHEN Yanlin, WANG Zhishe, SHAO Wenyu, YANG Fan, SUN Jing. Multi-scale Transformer Fusion Method for Infrared and Visible Images[J]. Infrared Technology , 2023, 45(3): 266-275.
Citation: CHEN Yanlin, WANG Zhishe, SHAO Wenyu, YANG Fan, SUN Jing. Multi-scale Transformer Fusion Method for Infrared and Visible Images[J]. Infrared Technology , 2023, 45(3): 266-275.

红外与可见光图像多尺度Transformer融合方法

基金项目: 

山西省基础研究计划资助项目 201901D111260

信息探测与处理山西省重点实验室开放基金 ISPT2020-4

详细信息
    作者简介:

    陈彦林(1995-)男,硕士研究生,研究方向为图像融合,深度学习。E-mail:chentyust@163.com

    通讯作者:

    王志社(1982-),男,副教授,博士,研究方向为图像融合,深度学习,机器视觉。E-mail:wangzs@tyust.edu.cn

  • 中图分类号: TP391

Multi-scale Transformer Fusion Method for Infrared and Visible Images

  • 摘要: 目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。
    Abstract: Mainstream fusion methods based on deep learning employ a convolutional operation to extract local image features; however, the interaction between an image and convolution kernel is content-independent, and the long-range dependency cannot be well modeled. Consequently, the loss of important contextual information may be unavoidable and further limit the fusion performance of infrared and visible images. To this end, we present a simple and effective fusion network for infrared and visible images, namely, the multiscale transformer fusion method (MsTFusion). We first designed a novel Conv Swin Transformer block to model long-range dependency. A convolutional layer was used to improve the representative ability of the global features. Subsequently, we constructed a multiscale self-attentional encoding-decoding network to extract and reconstruct global features without the help of local features. Moreover, we designed a learnable fusion layer for feature sequences that employed softmax operations to calculate the attention weight of the feature sequences and highlight the salient features of the source image. The proposed method is an end-to-end model that uses a fully attentional model to interact with image content and attention weights. We conducted a series of experiments on TNO and road scene datasets, and the experimental results demonstrated that the proposed MsTFusion transcended other methods in terms of subjective visual observations and objective indicator comparisons. By integrating the self-attention mechanism, our method built a fully attentional fusion model for infrared and visible image fusion and modeled the long-range dependency for global feature extraction and reconstruction to overcome the limitations of deep learning-based models. Compared with other state-of-the-art traditional and deep learning methods, MsTFusion achieved remarkable fusion performance with strong generalization ability and competitive computational efficiency.
  • 红外传感器可以捕获隐藏的热源目标,具有较强的抗干扰能力,即使在恶劣条件下仍可以有效区分红外目标与背景信息,但难以获取目标的结构特征和纹理细节。可见光传感器通过光反射成像,可以有效地反映场景细节和纹理信息,符合人眼的视觉特性,但易受光照条件和天气变化的影响。红外与可见光图像融合技术可以综合两类传感器的优势,将两幅图像的有效信息结合在一起,生成具有更高对比度、更丰富纹理细节的融合图像。图像融合技术可以广泛应用于许多重要的视觉领域,如实时监控[1]、目标跟踪[2]、目标检测[3]、行人识别[4]等。

    传统图像融合方法通过固定模型提取图像特征,采用人为设定的融合规则进行合并,然后利用反变换生成最终的融合图像。目前传统的融合方法依据理论大致可分为:多尺度变换[5]、稀疏表示[6-7]、显著性融合[8]、子空间分析[9]以及其他方法[10-12]。文献[7]提出了基于潜在低秩表示的红外和可见光图像融合方法,该方法将源图像分解为基层和显著层,针对不同层的特点设计对应的融合规则。基层采用L1范数和稀疏系数融合规则,显著层则利用加权平均方式突出对比度较强的目标区域。文献[10]提出了基于感知一致性空间(Perception Unified Color Space,PUCS)和双树复小波变换(Dual Tree Complex Wavelet Transform,DTCWT)融合算法,该方法首先对源图像进行多尺度分解,之后分别对低频子带分量和高频子带分量采用区域能量自适应加权规则和拉普拉斯能量梯度值向量规则进行融合。由于红外传感器和可见光传感器成像特性的不同,红外图像以像素亮度表示显著目标,可见光图像通过边缘和梯度来体现纹理结构细节。传统融合方法不加以区分地提取源图像的特征信息,没有充分考虑和利用红外与可见光图像不同的内在特性,因此不可避免地降低了融合性能。除此之外,融合规则通常需要人为设计,在融合任务中缺乏通用性。

    深度学习由于具有很强的特征提取和数据表示能力,且可以利用神经网络强大的非线性拟合能力,故在图像融合领域得到了飞速发展[13]。目前的深度学习融合方法大致可以分为卷积神经网络方法[14-20]、生成对抗网络方法[21-23]和基于Transformer的融合方法[24-28]。文献[15]提出了DenseFuse,采用卷积神经网络(Convolutional Neural Network, CNN)来设计图像融合模型,通过Dense Block提取图像深度特征,并手工设计了相应的融合策略,最后通过解码器重构融合图像。文献[21]提出了FusionGAN,将图像融合视作一个生成器与鉴别器不断对抗的过程,通过鉴别器的对抗学习不断优化生成器,从而获得最终的融合图像。文献[23]提出了红外与可见光图像交互注意力生成对抗融合方法,在融合层设计可学习的注意力机制,建立局部特征的长距离关系。虽然上述方法已经取得了良好的融合性能,但仍有一些问题需要进一步解决。首先,通过卷积运算提取图像局部特征,建立图像中长距离依赖关系的能力有限,使得最终的融合图像丢失了部分重要的全局特征和上下文信息。其次,网络的融合性能受卷积基本原理的约束,图像与卷积核之间的交互过程与图像内容无关。

    在基于Transformer的融合方法中,文献[24]提出了CGTF(convolution -guided transformer framework),CGTF通过卷积特征提取模块(convolution feature extraction module, CFEM)提取局部特征,然后利用Transformer特征提取模块(Transformer feature extraction module, TFEM)捕获图像的长距离依赖关系。此外,CGTF采用了密集连接增强图像在提取和重构过程中的传递。文献[25]提出了TGFuse,采用卷积层和Transformer一起构建了生成器模块,并通过VGG(Visual Geometry Group)网络模型设计了鉴别器模块。文献[26]提出了SwinFuse。该方法构建了一个纯Transformer编码结构用于提取图像深度特征与全局信息,且建立了一个由全局特征提取、融合层和特征重构3个模块组成的非端到端网络模型。特别地,该方法设计了一种新的基于L1-范数的序列矩阵融合策略,并分别从行和列向量维度上计算序列的权重系数。文献[28]提出了Image fusion transformer(IFT)。IFT设计了一种基于Transformer的多尺度融合模块(ST Fusion)。IFT图像融合网络的编码器通过卷积操作提取特征信息,融合模块ST Fusion由一个CNN和一个Transformer分支组成,它们分别用于捕获源图像的局部和远程信息。且网络最终通过卷积操作重构图像的特征信息。

    针对上述问题,本文提出了红外与可见光图像多尺度Transformer融合(Multi-scale Transformer Fusion Method,MsTFusion)方法。首先,利用Swin Transformer模型构建了Conv Swin Transformer模块,建模图像的长距离依赖关系,提取的全局特征更聚焦红外目标和可见光场景细节。其次,设计多尺度自注意力编码-解码网络,编码网络所提取到的全局特征在聚焦红外目标和可见光场景细节方面具有较强的表征能力, 解码网络使融合图像能够重构红外图像典型目标和可见光图像纹理细节。构建红外与可见光特征序列的融合策略,建立红外与可见光图像内容和注意力权重的特征交互,获得的融合结果能够突出红外图像典型目标和可见光图像纹理细节,实现两类图像端到端融合。

    多尺度Transformer图像融合方法原理如图 1(a)所示,整体网络框架由3个部分组成:编码网络、融合层和解码网络。首先,在编码网络中,红外与可见光图像作为源图像分别输入双编码器结构,使用卷积核为1×1的卷积层来将低维图像转换为高维特征。编码网络由4组不同尺度的Conv Swin Transformer Block组成,如图 1(a)所示。图像通过下采样操作在逐步缩小图像分辨率的同时扩充通道数,4组Conv Swin Transformer Block对应的图像大小和通道数分别为:W×HW/2×H/2、W/4×H/4、W/8×H/8和C、2C、4C、8C。之后,网络的编码模块分别提取各个尺度特征图像的全局特征。其次,设计了应用于四组不同尺度的红外与可见光序列融合层,如图 1(a)中的FL模块所示,分别对不同尺度的特征序列进行融合以获得四个尺度的融合结果。最后,在解码网络部分,利用Conv Swin Transformer Block组建了解码网络,通过上采样和通道连接的方式,逐步恢复原图像大小并合并特征图像的通道数。最终通过卷积核为1×1的卷积层生成最终的融合图像,从而实现了多尺度融合图像的全局特征重构。整个网络框架中的下采样操作均采用平均池化,上采样操作采用了最近邻插值法。最终输出采用Tanh激活函数,而网络中的其他卷积层都采用PReLU激活函数。

    图  1  多尺度Transformer图像融合方法原理
    Figure  1.  Principle of multi-scale Transformer image fusion method

    图 1(b)所示,本文设计Conv Swin Transformer模块(CSTB)由连续的Swin Transformer layer(STL)[29]和卷积层组成。通过卷积操作和转换生成的序列向量,由6层连续的STL进行有效地特征提取和全局建模,以获得最优的网络性能。在每一组CSTB的末尾设置了卷积层, 不仅可以增强图像中特征信息,而且可以实现不同通道之间的信息交互。

    图 1(c)中的STL是一种双层结构,每层STL由Layer Norm层、Window Attention层、残差连接和具有GELU非线性的MLP层组成。第一层结构将输入图像划分成若干个大小相等的不重叠窗口,然后分别计算每个窗口的局部注意力。对于每一个局部窗口,其对应生成的query, key和value矩阵QKV如公式(1)所示:

    $$ \boldsymbol{Q}=\mathit{\Phi}_{\mathrm{z}} \boldsymbol{W}_Q, \boldsymbol{K}=\mathit{\Phi}_{\mathrm{z}} \boldsymbol{W}_K, \boldsymbol{V}=\mathit{\Phi}_{\mathrm{z}} \boldsymbol{W}_V $$ (1)

    式中:WQWKWV是基于局部窗口Φz生成的映射矩阵,分别与Φz相乘得到矩阵QKV,由此可以生成局部窗口自注意力矩阵,如公式(2)所示:

    $$\boldsymbol{\mathrm{Attention}}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{SoftMax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d}}+P\right) \boldsymbol{V}$$ (2)

    式中:P为相对位置编码;d表示映射矩阵QK的向量维度;Attention表示自注意力矩阵。然后,STL中的第二层结构计算滑动窗口后的标准多头自注意力。通过双层滑窗机制可以使不同窗口之间进行信息交互,对整幅图像中的不同窗口所包含的特征信息进行全局建模。

    融合层示意图如图 2所示,融合层针对红外与可见光序列设计了一种有效的融合策略。对于红外与可见光的特征序列分别提取到的全局特征信息ΦirΦvis,首先通过SoftMax函数计算红外与可见光特征序列各自的注意力权重ϕirϕvis,如公式(3)与公式(4)所示:

    图  2  融合层示意图
    Figure  2.  Schematic diagram of fusion strategy
    $$ {\varphi _{{\text{ir}}}} = \frac{{\exp ({\mathit{\Phi} _{{\text{ir}}}})}}{{\exp ({\mathit{\Phi} _{{\text{ir}}}}) + \exp ({\mathit{\Phi} _{{\text{vis}}}})}} $$ (3)
    $$ {\varphi _{{\text{vis}}}} = \frac{{\exp ({\mathit{\Phi} _{{\text{vis}}}})}}{{\exp ({\mathit{\Phi} _{{\text{ir}}}}) + \exp ({\mathit{\Phi} _{{\text{vis}}}})}} $$ (4)

    将生成的ϕirϕvis与输入的全局特征ΦirΦvis进行元素相乘后,采取对应元素相加运算,得到最终的融合特征序列Φf。如公式(5)所示:

    $$ \mathit{\Phi}_{\mathrm{f}}=\mathit{\Phi}_{\mathrm{ir}} \cdot \varphi_{\mathrm{ir}}+\mathit{\Phi}_{\mathrm{vis}} \cdot \varphi_{\mathrm{vis}} $$ (5)

    融合网络的损失函数由均方误差损失函数(Lmse)和结构相似度损失函数(Lssim)组成,二者共同监督网络训练。如公式(6)和(7)所示:

    $$ {L_{{\text{mse}}}} = \frac{1}{{HW}}[{\omega _{{\text{ir}}}}\sum {{{({I_{\text{f}}} - {I_{{\text{ir}}}})}^2}} + {\omega _{{\text{vis}}}}\sum {{{({I_{\text{f}}} - {I_{{\text{vis}}}})}^2}} ] $$ (6)
    $$ {L_{{\text{ssim}}}} = {\omega _{{\text{ir}}}}(1 - {\text{SSIM}}({I_{\text{f}}} - {I_{{\text{ir}}}})) + {\omega _{{\text{vis}}}}(1 - {\text{SSIM}}({I_{\text{f}}} - {I_{{\text{vis}}}})) $$ (7)

    式中:IirIvis分别表示输入的红外图像与可见光图像;If表示最终生成的融合图像。ωirωvis分别表示红外图像与可见光图像的权重系数。

    SSIM损失函数可以衡量两幅图像的结构相似度,用于模型更好地从图像中学习结构信息,如场景细节和结构纹理,且值越大表示输出图像和源图像的差距越小。仅使用SSIM损失函数训练网络容易出现颜色偏差和亮度变化的影响。因此采用MSE损失函数进行弥补,与SSIM损失函数共同训练网络。总损失函数如公式(8)所示:

    $$ L_{\text {total }}=L_{\text {mse }}+\mathit{\lambda} L_{\mathrm{ssim}} $$ (8)

    式中:λ是一个超参数,用于调整两种损失函数之间的差异。

    在训练阶段,MsTFusion采用滑动步长为12,将原始的TNO数据集裁剪获得10653组红外与可见光图像去训练图像融合网络。所有的图像都被调整到512×512大小的分辨率,并转成[-1,1]范围的灰度图像。超参数设置为ωir=0.5,ωvis=0.5,λ=1000。对于所有的Swin Transformer模块来说,在基于窗口的多头自注意中,窗口的大小设置为8,每组CSTB中设置6层Swin Transformer Layer结构。4个不同尺度的CSTB中多头自注意头数依次设置为1,2,4,8。训练平台是Intel I9-10850K CPU, 64 GB内存,NVIDIA GeForce RTX 3090 GPU,编程环境是Python和PyTorch平台。使用ADAM优化器更新模型参数,batch size和epoch的大小分别设置为1和4,学习率设置为1e-5

    在测试阶段,使用TNO[30]、Roadscene[31]两个数据集进行验证,选择了MDLatLRR[32]、IFCNN[14]、DenseFuse[15]、RFN-Nest[16]、FusionGAN[21]、GANMcC[22]、PMGI[18]、SwinFuse[26]、IFT[28]9种具有代表性的方法与本文融合方法进行比较。使用主观视觉描述和客观指标评价两方面去评估该方法,主观视觉描述是从清晰度、图像细节、对比度等方面对融合图像的质量进行主观评价。在客观评价中,选取6个客观评价指标与其他典型的传统与深度学习融合方法进行对比,其中包含了空间频率(Spatial Frequency,SF)、视觉保真度(Visual Information Fidelity,VIF)、信息熵(Entropy,EN)、标准差(Standard Deviation,SD)、互信息(Mutual Information,MI)、非线性相关信息熵(Nonlinear Correlation Information Entropy,NCIE)。

    为了验证多尺度Transformer图像融合模型的有效性,消融实验分别从融合策略、STL层数设置和有无Conv Layer三个方面和MsTFusion融合模型进行了主观和客观比较,选择了4个对比模型分别是Addition、STL=5、STL=7、No_conv。实验选取了TNO数据集中的20组图像和6个评价指标。5种模型的主观对比结果如图 3所示,从图中可以看出,Addition、STL=5、STL=7、No_conv4种模型所生成的融合结果丢失了部分红外目标亮度信息和可见光的纹理细节。而相比之下,MsTFusion融合模型保留了更显著的红外目标与更清晰的可见光纹理细节,生成了对比度更高、更均衡的融合结果。但仅从主观对比的视觉效果进行比较,不同模型之间的差异并不充分,下文将从客观指标评价上比较不同模型的融合性能。

    图  3  5种融合模型的主观对比结果
    Figure  3.  The subjective comparison results of five fusion models

    5种模型的客观评价对比结果如表 1所示,最优值与次优值分别以加粗和下划线进行标注。从表中可以看出,自注意力融合模型的性能高于简单的Add模型,证明基于注意力所设计的融合方法优于相加融合。在STL Number的消融实验中,当Swin Transformer Layer(STL)的数量设置为6层时取得最佳的融合结果。此外,Conv Swin Transformer Block的模型设计明显优于No_conv模型,证明网络模型中在CSTB的末尾设置卷积层可以提高最终的图像融合质量。本文方法取得了SF、VIF、EN、SD、MI和NCIE共6个指标的最优值,对比其余4个模型,多尺度Transformer融合方法获得了最优的图像融合结果。

    表  1  5种融合模型的客观对比结果
    Table  1.  The objective comparison results of five fusion model
    Models Parameters SF VIF EN SD MI NCIE
    Fusion Layer Add 9.51591 0.36018 7.22888 47.80041 2.55456 0.80587
    Ours 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    STL Number 5 9.31619 0.35836 7.20091 48.01473 2.57833 0.80592
    6 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    7 9.40830 0.37508 7.22529 48.40002 2.49068 0.80564
    Conv Layer No 9.39838 0.36835 7.21169 47.38488 2.45803 0.80556
    Yes 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    下载: 导出CSV 
    | 显示表格

    为了验证本文方法的优越性,选取TNO数据集中的20组图像进行实验验证,并从其中选取了4组典型的红外与可见光图像进行主观评价,包括“Nato_camp”、“Street”、“Bench”和“Kaptein_1123”。TNO数据集的4组典型图像主观对比结果如图 4~图 7所示。为了更好地展示对比效果,对红外目标用红色方框标注,可见光部分的纹理细节以绿色方框标注,并对标记的局部细节进行放大处理。通过对实验结果进行观察对比可以发现,传统融合方法MDLatLRR生成的融合图像保留了部分可见光的纹理细节,但红外目标信息相对较弱,图像中红外目标的亮度偏低,且图像背景较暗。深度学习融合方法IFCNN和DenseFuse设计了简单的网络结构,采用了平均加法融合策略,所获得的结果倾向于保留更多的可见光纹理细节,但红外目标亮度较弱,信息缺失严重。RFN-Nest虽然采用了两阶段训练的多尺度网络框架,但其结果仍不能很好地保留典型的红外目标,红外图像的信息丢失严重。FusionGAN和GANMcC引入了对抗学习机制,所获得的融合结果倾向于保留典型红外目标,而可见光细节相对模糊和缺乏。而相比之下,PMGI融合方法获得了相对较好的融合效果,在保留丰富可见光细节的同时提高了目标与背景的对比度。SwinFuse保留了清晰的可见光纹理细节,生成的融合图像具有较高的对比度。而IFT融合方法仅利用Transformer设计网络中的融合规则,生成的融合结果中红外目标信息相对较弱,亮度偏低,且图像背景较暗。与其他图像融合方法相比,MsTFusion所设计的方法保留了红外图像的高亮度目标和可见光图像的纹理细节,获得了更高的对比度,具有更好的视觉效果。

    图  4  TNO数据集Nato_camp主观评价对比结果
    Figure  4.  The subjective comparison results of Nato_camp from the TNO dataset
    图  5  TNO数据集Street主观评价对比结果
    Figure  5.  The subjective comparison results of Street from the TNO dataset
    图  6  TNO数据集Bench主观评价对比结果
    Figure  6.  The subjective comparison results of Bench from the TNO dataset
    图  7  TNO数据集Kaptein_1123主观评价对比结果
    Figure  7.  The subjective comparison results of Kaptein_1123 from the TNO dataset

    图 8给出了TNO数据集的客观评价指标对比结果,图中依次显示了6种评价指标的客观对比结果,采用不同颜色的折线展示10种方法的客观对比结果。横坐标显示从TNO数据集中选取了20组图像,纵坐标表示对应图像评价指标的平均值,MsTFusion融合方法的客观指标结果用红色点状折线表示。从6组指标折线图中可以看出,在EN、MI和NCIE中取得最高值,在SD、VIF中排名第二,仅次于SwinFuse。通过客观评价指标对比,本文方法比典型的传统方法和深度学习方法获得了更显著的融合性能,因此,客观指标评价与主观视觉描述得到了相同的结论。

    图  8  TNO数据集不同融合方法指标EN、SD、MI、SF、NCIE、VIF对比结果
    Figure  8.  The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from the TNO dataset

    为进一步验证该融合方法的有效性,选取Roadscene数据集中的40组红外与可见光图像进行实验验证。从Roadscene数据集中选取了“FLIR_07210”和“FLIR_08954”两组典型图像进行主观对比。对比结果如图 9图 10所示。从图中观察可知,对于绿色线框标注的可见光细节,如图 9中的标志牌“STOP”字样与图 10中的汽车灯光,MDLatLRR、IFCNN、DenseFuse和RFN-Nest方法所获取的融合结果倾向于可见光图像,有效保留了可见光图像的场景信息和纹理细节。但典型的红外目标亮度不明显,图像对比度较低。而FusionGAN、GANMcC、PMGI和SEDRFuse的融合结果倾向于红外图像,图 9中的路灯与图 10中的行人目标都显示上述几种方法能够保留红外图像中的典型目标,但融合图像中丢失了大量的纹理细节,且图像的目标边缘模糊。SwinFuse具有显著的红外目标,且保留了清晰的可见光纹理细节,生成的融合图像具有较高的对比度。而IFT融合结果中红外目标亮度较弱,图像背景较暗,可见光的场景细节模糊。通过主观对比,本文方法的融合图像对于典型的红外目标保留了更高的亮度,且具备更加清晰和完整的纹理细节,获得了优于其他9种方法的视觉效果,更符合人类视觉系统。图 11给出了Roadscene数据集的客观指标对比结果,本文方法取得了EN、SD、VIF和NCIE四个指标上的最优值,取得了MI指标的次优值。从客观指标折线图可以看出,最高的VIF和SD指标证明了该融合方法获得的融合图像具有较高的清晰度和对比度,更符合人类视觉系统。EN指标取得最优值表明MsTFusion所设计的图像融合网络能够提取到更多的特征信息。指标SF表明MsTFusion的融合结果可以保留较为丰富的边缘细节和纹理结构。此外,本文测试了9种典型融合方法与本文方法的计算效率,除了传统方法MDLatLRR在CPU上进行测试,其余所有方法都在GPU上进行了测试。通过分别测试每种融合方法生成融合图像的时间来计算得到最终的时间效率,并通过反复多次的实验以验证最终结果的稳定性。表 2给出了不同融合方法计算效率对比结果。从结果来看,本文方法的计算效率略低于IFCNN、DenseFuse、RFN-Nest和SwinFuse,其主要原因是前3种方法构建了具有多个卷积层的简单网络架构,并设计了加权平均融合策略。而SwinFuse是一种基于Swin Transformer的单尺度网络结构,并且通过卷积层重构得到最终的融合图像。综上所述,红外与可见光图像多尺度Transformer融合方法具有更好的融合性能,更强的泛化能力和有竞争性的计算效率。

    图  9  Roadscene数据集FLIR_07210主观评价对比结果
    Figure  9.  The subjective comparison results of FLIR 07210 from the Roadscene dataset
    图  10  Roadscene数据集FLIR_08954主观评价对比结果
    Figure  10.  The subjective comparison results of FLIR_08954 from the Roadscene dataset
    图  11  Roadscene数据集不同融合方法指标指标EN、SD、MI、SF、NCIE、VIF对比结果
    Figure  11.  The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from Roadscene dataset
    表  2  不同融合方法计算效率对比结果
    Table  2.  The comparison results of computation efficiency for different fusion methods  s
    Method TNO Roadscene
    MDLatLRR 7.941×101 3.839×101
    IFCNN 4.554×10-2 2.246×10-2
    DenseFuse 8.509×10-2 4.001×10-2
    RFN-Nest 1.777×10-1 8.609×10-2
    FusionGAN 2.015 1.093
    GANMcC 4.21 2.195
    PMGI 5.445×10-1 2.928×10-1
    SwinFuse 2.145×10-1 1.291×10-1
    IFT 8.141×10-1 4.025×10-1
    Ours 5.091×10-1 2.848×10-1
    下载: 导出CSV 
    | 显示表格

    本文提出了红外与可见光图像多尺度Transformer融合方法。整体的网络框架由3个部分组成:编码网络、融合层和解码网络,首先,构建了4个不同尺度的Conv Swin Transformer Block模块,能够有效提取源图像的全局特征信息。利用Swin Transformer建模图像的长距离依赖关系,所提取到的全局特征比仅通过卷积操作获得的局部特征具有更强的表征能力。其次,设计了针对红外与可见光特征序列的融合层,通过SoftMax计算特征序列的注意力权重,最终的融合结果保留了源图像的红外亮度与可见光细节。在TNO、Roadscene数据集上的实验结果表明,与其他9种典型的传统方法和深度学习方法相比,本文设计的融合方法在主观描述与客观评价方面取得更优的融合结果,证明其具有更好的融合性能,较强的计算效率以及更强的泛化能力。

  • 图  1   多尺度Transformer图像融合方法原理

    Figure  1.   Principle of multi-scale Transformer image fusion method

    图  2   融合层示意图

    Figure  2.   Schematic diagram of fusion strategy

    图  3   5种融合模型的主观对比结果

    Figure  3.   The subjective comparison results of five fusion models

    图  4   TNO数据集Nato_camp主观评价对比结果

    Figure  4.   The subjective comparison results of Nato_camp from the TNO dataset

    图  5   TNO数据集Street主观评价对比结果

    Figure  5.   The subjective comparison results of Street from the TNO dataset

    图  6   TNO数据集Bench主观评价对比结果

    Figure  6.   The subjective comparison results of Bench from the TNO dataset

    图  7   TNO数据集Kaptein_1123主观评价对比结果

    Figure  7.   The subjective comparison results of Kaptein_1123 from the TNO dataset

    图  8   TNO数据集不同融合方法指标EN、SD、MI、SF、NCIE、VIF对比结果

    Figure  8.   The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from the TNO dataset

    图  9   Roadscene数据集FLIR_07210主观评价对比结果

    Figure  9.   The subjective comparison results of FLIR 07210 from the Roadscene dataset

    图  10   Roadscene数据集FLIR_08954主观评价对比结果

    Figure  10.   The subjective comparison results of FLIR_08954 from the Roadscene dataset

    图  11   Roadscene数据集不同融合方法指标指标EN、SD、MI、SF、NCIE、VIF对比结果

    Figure  11.   The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from Roadscene dataset

    表  1   5种融合模型的客观对比结果

    Table  1   The objective comparison results of five fusion model

    Models Parameters SF VIF EN SD MI NCIE
    Fusion Layer Add 9.51591 0.36018 7.22888 47.80041 2.55456 0.80587
    Ours 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    STL Number 5 9.31619 0.35836 7.20091 48.01473 2.57833 0.80592
    6 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    7 9.40830 0.37508 7.22529 48.40002 2.49068 0.80564
    Conv Layer No 9.39838 0.36835 7.21169 47.38488 2.45803 0.80556
    Yes 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    下载: 导出CSV

    表  2   不同融合方法计算效率对比结果

    Table  2   The comparison results of computation efficiency for different fusion methods  s

    Method TNO Roadscene
    MDLatLRR 7.941×101 3.839×101
    IFCNN 4.554×10-2 2.246×10-2
    DenseFuse 8.509×10-2 4.001×10-2
    RFN-Nest 1.777×10-1 8.609×10-2
    FusionGAN 2.015 1.093
    GANMcC 4.21 2.195
    PMGI 5.445×10-1 2.928×10-1
    SwinFuse 2.145×10-1 1.291×10-1
    IFT 8.141×10-1 4.025×10-1
    Ours 5.091×10-1 2.848×10-1
    下载: 导出CSV
  • [1]

    Paramanandham N, Rajendiran K. Multi sensor image fusion for surveillance applications using hybrid image fusion algorithm[J]. Multimedia Tools and Applications, 2018, 77(10): 12405-12436. DOI: 10.1007/s11042-017-4895-3

    [2]

    ZHANG Xingchen, YE Ping, QIAO Dan, et al. Object fusion tracking based on visible and infrared images: a comprehensive review[J]. Information Fusion, 2020, 63: 166-187. DOI: 10.1016/j.inffus.2020.05.002

    [3]

    TU Zhengzheng, LI Zhun, LI Chenglong, et al. Multi-interactive dual- decoder for RGB-thermal salient object detection[J]. IEEE Transactions on Image Processing, 2021, 30: 5678-5691. DOI: 10.1109/TIP.2021.3087412

    [4] 汪荣贵, 王静, 杨娟, 等. 基于红外和可见光模态的随机融合特征金子塔行人重识别[J]. 光电工程, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669.

    WANG Ronggui, WANG Jing, YANG Juan, et al. Random feature fusion of golden Tower for pedestrian rerecognition based on infrared and visible modes[J]. Opto-Electronic Engineering, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669

    [5]

    WANG Zhishe, XU Jiawei, JIANG Xiaolin, et al. Infrared and visible image fusion via hybrid decomposition of NSCT and morphological sequential toggle operator[J]. Optik, 2020, 201: 163497. DOI: 10.1016/j.ijleo.2019.163497

    [6]

    LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746. DOI: 10.1109/TIP.2020.2975984

    [7] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576

    SUN Bin, ZHUGE Wuwei, GAO Yunxiang et al. Infrared and visible image fusion based on potential low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576

    [8]

    MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.

    [9]

    KONG Weiwei, LEI Yang, ZHAO Huaixun. Adaptive fusion method of visible light and infrared images based on non-subsampled shearlet transform and fast non-negative matrix factorization[J]. Infrared Physics & Technology, 2014, 67: 161-172.

    [10] 姜迈, 沙贵君, 李宁. 基于PUCS与DTCWT的红外与弱可见光图像融合[J]. 红外技术, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954

    JIANG Mai, SHA Guijun, LI Ning. Infrared and inferior visible image fusion based on PUCS and DTCWT [J]. Infrared Technology, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954

    [11]

    WANG Zhishe, YANG Fengbao, PENG Zhihao, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]. Optik, 2015, 126(23): 4184-4190. DOI: 10.1016/j.ijleo.2015.08.118

    [12]

    LIU Yu, CHEN Xun, PENG Hu, et al. Multi-focus imagefusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36: 191-207. DOI: 10.1016/j.inffus.2016.12.001

    [13]

    ZHANG Hao, XU Han, TIAN Xin, et al. Image fusion meets deep learning: A survey and perspective[J]. Information Fusion, 2021, 76: 323-336. DOI: 10.1016/j.inffus.2021.06.008

    [14]

    ZHANG Yu, LIU Yu, SUN Peng, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011

    [15]

    LI Hui, WU Xiaojun. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614- 2623. DOI: 10.1109/TIP.2018.2887342

    [16]

    LI Hui, WU Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023

    [17]

    JIAN Lihua, YANG Xiaomin, LIU Zheng, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.

    [18]

    ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12797-12804.

    [19]

    WANG Zhishe, WANG Junyao, WU Yuanyuan, et al. UNFusion: a unified multi-scale densely connected network for infrared and visible image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3360- 3374.

    [20]

    WANG Zhishe; WU Yuanyuan; WANG Junyao, et al. Res2Fusion: infrared and visible image fusion based on dense Res2net and double non-local attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-12.

    [21]

    MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.

    [22]

    MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.

    [23] 王志社, 邵文禹, 杨风暴, 等. 红外与可见光图像交互注意力生成对抗融合方法[J]. 光子学报, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm

    WANG Zhishe, SHAO Wenyu, YANG Fengbao, et al. A generative antagonism fusion method for interactive attention of infrared and visible images [J]. Acta Photonica Sinica, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm

    [24]

    LI Jing, ZHU Jianming, LI Chang, et al. CGTF: Convolution-Guided Transformer for Infrared and Visible Image Fusion [J]. IEEE Transactions on Instrumentation and Measurement. 2022, 71: 1-14.

    [25]

    RAO Dongyu, WU Xiaojun, XU Tianyang. TGFuse: An infrared and visible image fusion approach based on transformer and generative adversarial network [J/OL].arXiv preprint arXiv: 2201.10147. 2022.

    [26]

    WANG Zhishe, CHEN Yanlin, SHAO Wenyu, et al. SwinFuse: a residual swin transformer fusion network for infrared and visible images[J/OL]. arXiv preprint arXiv: 2204.11436. 2022.

    [27]

    ZHAO Haibo, NIE Rencan. DNDT: infrared and visible image fusion via DenseNet and dual-transformer[C]// International Conference on Information Technology and Biomedical Engineering (ICITBE), 2021: 71-75.

    [28]

    VS V, Valanarasu J M J, Oza P, et al. Image fusion transformer [J/OL]. arXiv preprint arXiv: 2107.09011. 2021.

    [29]

    LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.

    [30]

    TOET A. TNO Image Fusion Datase[DB/OL]. [2014-04-26].https://figshare.com/articles/TNImageFusionDataset/1008029.

    [31]

    XU Han. Roadscene Database[DB/OL]. [2020-08-07].https://github.com/hanna-xu/RoadScene.

    [32]

    LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746.

  • 期刊类型引用(4)

    1. 王敷轩,庞珊. 基于多粒度跨模态特征增强的红外与可见光图像融合. 东莞理工学院学报. 2024(03): 32-37 . 百度学术
    2. 李立,易诗,刘茜,程兴豪,王铖. 基于密集残差生成对抗网络的红外图像去模糊. 红外技术. 2024(06): 663-671 . 本站查看
    3. 杨艳春,雷慧云,杨万轩. 基于快速联合双边滤波器和改进PCNN的红外与可见光图像融合. 红外技术. 2024(08): 892-901 . 本站查看
    4. 陈广秋,温奇璋,尹文卿,段锦,黄丹丹. 用于红外与可见光图像融合的注意力残差密集融合网络. 电子测量与仪器学报. 2023(08): 182-193 . 百度学术

    其他类型引用(4)

图(11)  /  表(2)
计量
  • 文章访问数:  390
  • HTML全文浏览量:  500
  • PDF下载量:  166
  • 被引次数: 8
出版历程
  • 收稿日期:  2022-08-22
  • 修回日期:  2022-09-12
  • 刊出日期:  2023-03-19

目录

/

返回文章
返回