DSEL-CNN: Image Fusion Algorithm Combining Attention Mechanism and Balanced Loss
-
摘要:
在红外与可见光图像融合时,融合后图像常出现显著目标不突出、可见光信息表达不充分的问题,且在亮度不均衡条件下,易出现边缘模糊和局部信息不均衡。因此,提出了结合注意力机制与均衡损失的图像融合算法(Depthwise Separable, Squeeze-and-Excitation, and Equilibrium Loss-based Convolutional Neural Network, DSEL-CNN)。首先,使用深度可分离卷积提取图像特征;其次,在融合策略中使用Squeeze-and-Excitation注意力机制来提高有效信息的权重;最后,利用均衡组合损失函数计算融合后图像损失,进行图像信息均衡。与FusionGAN、DenseFuse和其它4种融合算法在TNO和MSRS公开数据集中进行主客观对比实验,其中互信息值、视觉信息保真度、边缘信息保留指标较其它6种算法分别最高提高了1.033、0.083、0.069,实验结果表明所提算法与6种常用融合算法相比,在融合图像视觉感观、信息含量、边缘和纹理保留方面均有提升。
Abstract:In infrared and visible image fusion, fused images often suffer from insufficient prominence of significant targets, inadequate expression of visible light information, edge blurring, and local information imbalance under uneven lighting conditions. To address these issues, an image fusion algorithm that combines attention mechanisms and equilibrium loss, termed the depthwise separable, squeeze-and-excitation, and equilibrium loss-based convolutional neural network (DSEL-CNN), is proposed. First, a depth-wise separable convolution is used to extract the image features. Subsequently, a fusion strategy is used to apply the squeeze-and-excitation attention mechanism to enhance the weight of effective information. Finally, an equilibrium composite loss function is utilized to calculate the loss of the fused image to ensure balanced information. A comparison of the fusion generative adversarial network (FusionGAN), DenseFuse, and four other fusion algorithms on the TNO and multi-spectral road scenarios (MSRS) public datasets showed that the proposed method achieved the highest improvements in mutual information (MI), visual information fidelity (VIF), and edge retention index (Qabf) by 1.033, 0.083, and 0.069, respectively. Experimental results demonstrate that the proposed algorithm outperforms six commonly used fusion methods in terms of visual perception, information content, and edge and texture preservation in fused images.
-
Keywords:
- image processing /
- image fusion /
- depth separable convolution /
- attention mechanism /
- loss function
-
0. 引言
红外成像技术已经在各个领域广泛应用,尤其在目标检测领域占据重要地位[1],但由于光照条件、复杂背景、电子器件的影响,单一类型成像设备无法得到清晰图像[2],将红外与可见光图像进行图像融合能够弥补单一成像的缺陷,能获得目标突出、细节清晰的图像,对目标检测和分割等视觉任务有重要意义[3]。
图像融合分为传统融合方式和基于深度学习的融合方法。传统的图像融合方法[4]能够根据物理机制的不同,强调可见光与红外图像的各自特点,如可见光图像中常包含大量清晰的细节信息,红外图像则可以突出显性目标,不受光照条件影响,常用NSST算法作为基础融合算法。如叶坤涛等人提出结合改进显著性检测与NSST的红外与可见光图像融合的方法,结合显著性图特性进行NSST的低频子带融合,视觉效果有了明显提升[5]。但传统的融合方法依靠人为设计融合策略,鲁棒性较差,特征融合不充分[6]。随着深度学习的研究日益成熟,使用神经网络进行图像融合可以弥补人为设计融合策略的不足[7],基于深度学习的融合方法已经成为图像融合领域的重要分支[8]。Ma等人首次提出了端到端的生成对抗式网络FusionGAN模型,该模型不用设置融合规则,通过生成器与判别器之间的对抗进行图像融合[9],但存在融合后图像缺少可见光纹理的问题。对此,Shen等人提出ICAFusion,使用双路注意力模块来提取多重特征[10]。随后,Ma等人又提出了双判别器条件生成对抗网络(DDcGAN),利用两个判别器分别区分融合图像和源图像的结构和信息损失,并使用反卷积层来学习低分辨率和高分辨率的映射关系[11]。Zhang等人提出一种基于卷积神经网络的通用图像融合网络(IFCNN),根据输入图像的类型选择对应的融合规则,提高了模型的泛化能力[12]。Jian等人针对低光照条件下图像融合,提出了具有残差网络的对称编码器-译码器,通过注意力机制进行特征融合[13]。上述融合算法都有较好的融合效果,但在亮度不均衡条件下进行融合时仍存在细节丢失、融合不充分、不均衡的问题。
针对以上问题,提出结合注意力机制与均衡损失的图像融合算法(Depthwise Separable, Squeeze-and-Excitation, and Equilibrium Loss-based Convolutional Neural Network, DSEL-CNN)。本算法使用计算量更小的深度可分离卷积网络对输入图像进行特征提取,加入Squeeze-and-Excitation(SE)注意力机制提高源图像中有效信息在融合中的作用,同时增强模型对全局特征的感知度;图像重建后利用均方误差(Mean Squared Error,MSE)损失函数与亮度均衡损失函数构成均衡组合损失函数,MSE损失确保融合图像与源图像的结构信息相近,使用亮度均衡损失避免局部亮度不均,获得信息均衡、清晰的融合图像。本文算法经实验验证,融合后图像保留了丰富的图像信息,红外显著目标突出,可见光细节清晰,并有效解决了亮度不均衡情况下信息融合不充分,轮廓模糊的问题。
1. DSEL-CNN算法
本文所提出的算法网络结构如图 1所示,在进行红外与可见光图像融合时主要步骤如下:
1)特征提取:首先,对输入的红外图像与可见光图像进行通道拼接,使用深度可分离卷积对其特征提取。深度卷积提取空间特征,点卷积则将这些特征合并到更高维的通道中。卷积操作后,使用标准化处理输出,通过ReLU函数进行非线性化,提取复杂特征。
2)特征融合:SE模块通过自适应平均池化来聚合全局的特征信息,使用Sigmoid函数生成每个通道的重要权重,强化重要特征并抑制不重要的特征。
3)图像重建:通过卷积将融合并加权后的特征图的通道数降低,最终转换成为3通道的RGB图像,得到重建后的图像。
4)均衡组合损失函数:利用均衡组合损失函数计算融合图像与源图像的MSE和亮度均衡损失。通过调整权重控制因子,来均衡图像内容的保真度和亮度分布的均衡性。
1.1 深度可分离卷积
深度可分离卷积(Depthwise Separable Convolution)是卷积神经网络(CNN)中较为高效的卷积神经网络,将标准卷积中的空间卷积和通道卷积分解成两个计算量更小的深度卷积和逐点卷积[14],更细粒度地处理每个通道的特征,并通过逐点卷积操作对各个通道的空间信息进行独立学习和捕捉,与常规卷积操作相比计算量大幅下降,且对局部细节特征的捕捉效果更好,使用深度可分离卷积进行特征提取的示意图,如图 2所示。
在深度卷积中,对每个输入通道分别进行卷积操作。假设输入特征图的大小为H×W×C,其中H是高度,W是宽度,C是通道数,深度卷积的卷积核大小为K×K。深度卷积的计算公式如式(1):
$$ Y_{m, n, c}=\sum\limits_{i=0}^{K-1} \sum\limits_{j=0}^{K-1} X_{m+i, n+j, c} \cdot W_{i, j, c} $$ (1) 式中:Ym, n, c表示在(m, n)和通道c处的输出特征图的值;Xm+i, n+j, c表示在(m+i, n+j)和通道c处的输入特征图的值;Wi, j, c表示在(i, j)和通道c处的深度卷积核的值。
在逐点卷积中,使用1×1的卷积核对该输出进行卷积操作,将通道数从C映射到C′。逐点卷积的计算公式如式(2):
$$ Y_{m, n, c}^{\prime}=\sum\limits_{c=0}^{C-1} Y_{m, n, c} \cdot W_{1,1, c, c^{\prime}}^{\prime} $$ (2) 式中:Y′m, n, c表示最终输出特征图在位置(m, n)和通道c′处的值;Ym, n, c表示深度卷积输出特征图在位置(m, n)通道c处的值;$ {W'_{1,1,c,c'}} $表示逐点卷积核在通道c和c′之间的权重值。
1.2 Squeeze-and-Excitation模块
为弥补深度可卷积提取特征时会在一定程度上忽略全局信息的不足,使用Squeeze-and-Excitation(SE)注意力机制[15],SE模块引入通道注意力机制,动态地调整每个通道的权重,以增强重要特征,抑制不重要的特征,通过“压缩”和“激励”两个步骤来生成通道注意力图,如图 3所示,实现了对特征图的自适应重标定。
在“压缩”过程中,通过全局平均池化操作将输入特征图的空间维度压缩,生成一个通道描述向量,包含了全局范围内的信息。对于输入大小为H×W×C的图像X,压缩操作公式如式(3):
$$ {z_c} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{X_{i,j,c}}} } $$ (3) 式中:zc表示第c个通道的全局平均池化值,是一个1×1×c的向量。
在“激励”过程中,SE模块通过两个全连接层和非线性激活函数生成一个通道注意力权重向量。首先,通过第一个全连接层将通道描述向量zc映射到一个低维空间,使用ReLU激活函数进行非线性变换。接着,通过第二个全连接层将其映射回原通道数,并使用Sigmoid激活函数生成最终的通道注意力权重向量s。激励操作的公式如式(4):
$$ \boldsymbol{s}=\sigma\left(\boldsymbol{W}_2 \cdot \delta\left(\boldsymbol{W}_1 \cdot z\right)\right) $$ (4) 式中:W1和W2分别为两个全连接层的权重矩阵;δ表示ReLU激活函数;σ为Sigmoid激活函数;s为生成的通道注意力权重向量,大小为1×1×c。
通过“压缩”和“激励”,SE模块在保持低计算量的情况下,显著提高了卷积神经网络提取特征的有效性。
1.3 融合规则与重建
在特征融合部分使用基于注意力机制的加权融合方法,通过计算各个特征图的注意力权重,以加权的方式融合特征,从而增强融合图像的质量和表现能力。首先,将从红外和可见光图像中提取的特征图在新维度上进行拼接。从红外图像和可见光图像中提取的特征分别为FIR和FVIS,则拼接后的特征如式(5)所示:
$$ F=\left\{F_{\mathrm{IR}}, F_{\mathrm{VIS}}\right\} $$ (5) 式中:F表示包含所有特征图的集合。接下来,通过将每个特征图沿新维度进行拼接,并应用Sigmoid函数来计算每个特征图的注意力权重。注意力权重计算公式如式(6)所示:
$$ A_i=\sigma\left(F_i\right) $$ (6) 式中:Ai为第i个特征图的注意力权重;σ为Sigmoid激活函数;Fi为第i个特征图。为确保所有注意力权重的和为1,Softmax函数实现归一化处理如式(7)所示:
$$ {\partial _i} = \frac{{\exp \left( {{A_i}} \right)}}{{\sum\limits_{j = 1}^N {\exp \left( {{A_j}} \right)} }} $$ (7) 式中:∂i为归一化后的注意力权重;N为特征图的总数量。
在计算出注意力权重后,对每个特征图进行加权处理,并相加得到融合后的特征图,如式(8)、(9)所示:
$$ {F'_i} = {\partial _i} \cdot {F_i} $$ (8) $$ F = \sum\limits_{i = 1}^N {{{F'}_i}} $$ (9) 特征融合后的特征图F具有丰富的特征信息。为将这些特征映射回原始图像空间,输出通道数与原始图像的通道数相同,使用标准卷积进行图像重建。同时为避免由于激活函数的非线性作用导致像素值逸出,使用限制操作(Clamping)进行约束,定义如式(10)所示:
$$ {\text{clamp}}\left( {x,a,b} \right) = \left\{ {\begin{array}{*{20}{l}} {a\quad x < a} \\ {x\quad a \leqslant x \leqslant b} \\ {b\quad x > b} \end{array}} \right. $$ (10) 式中:x表示输入像素值;a是下限,b是上限,将输出图像像素值限制在[a, b]内,本文取区间[0, 1]。
1.4 均衡组合损失函数
合适的损失函数能够评估模型的性能,并通过对模型预测与期望输出之间的偏差进行惩罚,从而指导模型参数的更新。为使本红外与可见光图像融合网络更好保留多光谱图像融合的有效特征,避免出现局部曝光,使用均方误差和亮度均衡损失加权组合作为整个模型的损失函数,即均衡组合损失函数。
MSE是用于评估输出图像与目标图像之间的像素差异。通过计算预测值与实际值之间误差的平方平均值,来量化模型预测的准确性,数学表达式如式(11),较低的MSE值意味着模型的预测结果更加精确,图像细节更为清晰。
$$ {L_{{\text{MSE}}}} = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left( {{y_i}{{\hat y}_i}} \right)}^2}} $$ (11) 式中:yi表示实际值;$ {\hat y_i} $表示模型的预测值;N是样本总数。
亮度均衡损失(Illumination Balance Loss,IBL)旨在确保图像的不同区域之间具有一致的亮度水平。IBL通过比较相邻小块的平均亮度强度将多源图像的特征无缝融合到一个单一且连贯的输出图像中,其步骤如下:
1)计算融合图像的像素直方图h(i),将像素幅值范围划分为宽度是1/B的B个区间,在每个区间内统计该区间的像素数,进行归一化,如式(12)所示:
$$ h\left( i \right) = \frac{1}{N}\sum\limits_{j = 1}^N {I\left( {\frac{{i - 0.5}}{B} \leqslant {x_j} \leqslant \frac{{i + 0.5}}{B}} \right)} $$ (12) 式中:N是图像像素总数;xj是第j个像素的强度值;I为指示函数,当像素落在区域内时,值取1;反之,取0;
2)计算直方图的平均强度,即所有区间中心强度值的加权平均,权重为对应区间的归一化频率;
3)定义一个均衡的直方图h(ba),使每个区间的频率相等,均衡直方图的每个区间的值均为1/B;
4)取实际直方图h(i)均衡的直方图h(ba)之间的均方误差作为亮度均衡损失,如式(13)所示:
$$ {L_{{\text{IB}}}} = \frac{1}{B}\sum\limits_{i = 1}^B {{{\left( {{h_i} - {h_{\left( {{\text{ba}}} \right)}}} \right)}^2}} $$ (13) 根据式(11)和式(13),将LMSE和LIB加权组合构成均衡组合损失函数,如式(14)所示:
$$ {\text{Loss}} = \alpha \cdot \left( {{L_{{\text{MSE,vis}}}} + {L_{{\text{MSE,ir}}}}} \right) + \beta \cdot {L_{{\text{IB}}}} $$ (14) 式中:LMSE, vis和LMSE, ir分别是可见光与红外图像的MSE损失,分别衡量输出图像与源可见光图像和源红外图像之间的信息均方误差;α是控制两个MSE损失的控制因子,来平衡输出图像与源图像之间的误差,较大的α值会使输出图像更接近源图像的结构和细节特征;β为控制光照平衡损失权重的控制因子,光照平衡损失衡量的是输出图像的直方图分布与均匀分布的均方误差,适当小范围调整β值,可以避免输出图像出现亮度失衡。
在模型训练过程中,首先根据源图像与输出图像之间的误差来计算组合损失函数,包含MSE损失和光照平衡损失,来衡量输出图像与源图像之间的误差以及输出图像的光照均匀性。随后,使用反向传播计算损失函数的梯度,并通过链式法则从输出层逐层向输入层传递,在梯度下降更新过程中使用SGD优化器调整参数值,迭代更新使模型的表现能力不断提升至稳定。SGD优化器的更新规则如式(15)所示:
$$ {\theta _{t + 1}} = {\theta _t} - \eta \cdot \frac{{\partial {\text{Loss}}}}{{\partial {\theta _t}}} $$ (15) 式中:θt是当前各层网络的参数权重,通常是随机初始化的;η是学习率,决定每次更新的步长大小,为稳定训练,通常将其设置为10-4或10-3;$ \frac{{\partial {\text{Loss}}}}{{\partial {\theta _t}}} $是损失函数对当前参数θt的梯度值。
2. 实验验证及分析
2.1 实验设置
为验证本算法的有效性,选用两个图像融合常用数据集TNO[16]和MSRS[17]进行实验验证,其中TNO是单一亮度的数据集、MSRS为多光照数据集。由i5-12500H CPU,RTX3080(10GB) GPU搭建的PyTorch1.8.1、Python3.8(ubuntu18.04)、Cuda11.1环境作为实验平台。训练集共有1556组数据,并按照8:2的训练比进行训练与测试,其中112组来自TNO数据集、1444组来自MSRS数据集,另外选取具有代表性的105组图像数据进行对比试验。为平衡图像信息表达程度和光照条件对图像观感的影响,经反复实验分析,较大的α会造成融合图像锐化严重,为保证源图像信息能够充分保留避免过度锐化,设置α=0.5;由于亮度信息对图像整体影响较为严重,β仅在小范围内调节,经实验对比β=0.05时图像亮度信息最均衡化,故设置β=0.05,训练迭代次数epoch=30、使用SGD优化器,学习率为1×10-4(以下实验参数设置一致)。
将本文算法与6种典型深度学习算法及传统NSST算法进行对比试验,分别为Fusion GAN[9]、DDcGAN[10]、IFCNN[12]、DenseFuse[18]、PIAFusion[19]和MFEIF[20]。其中,DenseFuse算法由编码器、融合层和解码器构成,能够对融合图像进行正则化;PIAFusion算法是一种基于光照感知网络的融合算法,使用跨模态差分感知融合模块,适用于不同光照条件下的图像融合任务;MFEIF算法是Liu等人提出的基于多尺度特征集成和边缘注意引导的图像融合算法,引入了边缘注意力机制,平滑噪声的同时关注更多边缘信息。
2.2 评价指标
图像融合算法的评价指标主要分为两大类,分别是主观评价和客观评价。其中,主观评价是通过人的主观感受来评估图像的质量和特性。这种方法依赖于人眼的视觉感受,通过让观察者对图像的清晰度、对比度、颜色准确性等方面进行评估,从而评价图像融合效果的好坏程度。
为更客观分析算法的可行性与有效性,对消融实验和对比试验进行客观评价,本文选用图像融合中常用的客观评价指标,分别是信息熵(Entropy, EN)、平均梯度(Average Gradient, AG)、空间频率(Spatial Frequency, SF)、互信息(Mutual Information, MI)、视觉信息保真度(Visual Information Fidelity, VIF)、边缘信息保留指标(Qabf)以及耗时(Time)。其中,EN和MI用来评价融合图像的信息丰富度,两者值越大,表示图像信息保留越完整;AG和SF用来评价融合图像的特征信息,值越大,表示图像细节纹理越丰富;VIF是基于人类视觉系统的评价指标,用于衡量融合图像的视觉信息值越高,表示融合图像视觉感观越好;Qabf是基于梯度信息用于衡量融合图像中边缘信息质量的指标,其值越大,边缘保越完整;对比实验中取每组评价指标的平均值作对比分析。
2.3 对比实验及结果分析
8组实验结果如图 4所示,其中,左侧3列图源自TNO数据集,右侧3列源自MSRS数据集,绿框内容为显著目标及其放大图,红框内容为局部细节及其放大图。由图(c)中T2、M1和M3的绿框可以看出Fusion GAN算法不能充分融合红外图像的显著信息,边缘信息较为模糊;图(d)DDcGAN的融合结果中T1的绿框中出现伪影,DenseFuse算法的融合结果T1红框中背景锐化过度,出现较多噪点;IFCNN虽在融合时平衡了图像亮度,但也弱化了红外图像中的显著目标;PIAFusion和MFEIF算法融合结果虽未出现背景模糊,红外目标融合不佳的现象,与图(j)相比,融合图像中红外目标不够突出,对比度略低,如图(f)T3绿框中红外目标模糊、图(g)M3红框中右侧楼梯与墙体轮廓不明显。图(i)为使用传统算法NSST进行融合的结果,全局效果较好但在融合细节信息不充分,尤其是T3与M3中红框房屋轮廓以及楼梯台阶细节不清晰,融合效果与图(j)相比略差;在(j)图TNO数据集场景下的红框中栅栏、路灯轮廓明显、屋顶的纹理清晰,绿框中人体的轮廓、外衣形状以及T3左侧窗内目标清楚;MSRS数据集场景下红框中远侧楼梯窗户、楼梯以及墙体轮廓清晰、对比度高。与上述7种算法相比本融合算法能保留红外与可见光图像中绝大部分有效信息,边缘和纹理清晰,有较好的视觉效果。
由表 1所示,表中加粗部分为每组定量指标的最优值,通过对不同融合算法的客观评价指标定量分析得出,针对数据集TNO,DenseFuse算法融合图像MI值最高,融合信息较为丰富,MFEIF算法在Qabf指标上仅高于本文算法0.003,这是由于使用均衡组合损失函数对融合后图像起到了一定的平滑作用,削弱了像素梯度的不良影响,其余指标最优值均由本文融合算法所得,其中EN值高于FusionGAN算法0.647,VIF值高于DenseFuse算法0.083,与传统算法NSST融合结果相比,无论从全局信息保留还是局部细节融合方面都有一定优势。针对数据集MSRS,本文算法的MI值比FusionGAN算法高1.033,在Qabf指标上比FusionGAN算法高0.069。另外,本文算法耗时少于FusionGAN等6种基于深度学习的图像融合算法,且比DDcGAN用时少4.103 s,具有较好的实时融合优势。
表 1 不同融合算法在TNO、MSRS数据集上的客观评价指标Table 1. Objective evaluation metrics of different fusion algorithms on TNO, MSRS datasetsTNO MSRS EN AG SF MI VIF Qabf Time/s EN AG SF MI VIF Qabf Time/s FusionGAN 6.622 1.813 5.742 1.122 0.921 0.625 2.323 5.498 1.465 4.358 1.540 0.746 0.722 2.861 DDcGAN 6.859 2.487 7.021 1.516 0.928 0.490 5.174 5.361 1.947 3.577 1.671 0.771 0.763 5.694 DenseFuse 6.959 2.216 7.066 1.648 0.847 0.604 1.368 5.405 1.317 3.608 1.623 0.769 0.766 1.238 IFCNN 7.032 2.064 7.163 1.115 0.921 0.408 1.643 5.357 1.412 4.152 1.824 0.791 0.733 1.753 PIAFusion 6.683 1.785 5.942 1.291 0.919 0.638 1.927 5.801 1.694 4.632 1.572 0.755 0.742 1.978 MFEIF 7.011 2.572 6.493 1.273 0.926 0.564 2.151 5.415 1.923 3.676 1.581 0.777 0.754 2.132 NSST 6.228 1.932 6.314 1.336 0.883 0.417 - 5.324 1.659 3.526 1.628 0.756 0.692 - Ours 7.269 3.118 7.326 1.344 0.930 0.636 1.071 5.889 2.013 5.597 2.573 0.827 0.791 1.126 2.4 消融实验及分析
为验证本文融合算法中加入SE注意力模块与均衡组合损失函数对融合结果的有效性。对TNO数据集和MSRS数据集中已配准好的图像数据进行消融实验,分别与无SE注意力模块(NSE)、无亮度均衡损失(NLI)、无MSE损失(NLM)进行对比,消融实验结果如图 5、6所示。
与本文完整算法相比,图 5、6的(b)图中未加入注意力机制的融合结果在框内边缘模糊,纹理不清晰;图 5(c)中未加入亮度均衡损失的融合结果虽然对比度有一定提升,但存在局部曝光的问题;图 5、6的(d)图是未使用MSE损失函数的融合结果,图中绿框内放大细节信息融合不充分。本算法添加了注意力机制融合规则、亮度均衡和MSE组合损失函数,在图像融合时兼顾信息丰富度和背景亮度均衡,达到了较好的融合效果。由表 2定量分析可得,本文算法得到的融合图像,仅在TNO数据集场景下Qabf值与MSRS场景下平均梯度AG值略低,这是由于加入均衡组合损失函数平滑了部分噪声导致梯度值减小,此外其它指标均是最优值。
表 2 不同模块在TNO、MSRS数据集上的客观评价指标Table 2. Objective evaluation metrics of different modules on TNO, MSRS datasetsMethod TNO MSRS EN AG SF MI VIF Qabf EN AG SF MI VIF Qabf NSE 6.679 0.0385 8.905 0.913 0.608 0.591 5.855 0.0128 3.955 1.454 0.793 0.754 NLI 6.701 0.0326 10.327 0.938 0.617 0.473 5.785 0.0140 3.955 1.469 0.761 0.728 NLM 6.457 0.0288 9.487 0.816 0.612 0.436 5.303 0.0276 6.281 1.275 0.736 0.672 SE+LI+LM 6.712 0.0391 10.352 0.956 0.622 0.572 5.879 0.0228 6.328 1.482 0.831 0.933 3. 结语
本文提出了一种结合注意力机制与均衡损失的图像融合算法(DSEL-CNN)。在卷积神经网络的基础架构下,使用计算量更小的深度可分离卷积进行图像的特征提取,并加入SE注意力机制,自适应调整通道权重,动态调整特征的重要性,这种灵活的设计允许模型在训练过程中学习和适应不同图像源的特征,提升模型的全局特征感知能力,同时保持了计算的高效性;使用均衡组合损失函数,调整控制因子与源图像分别比较并计算梯度,更加关注可见光图像和红外图像中各自的有效信息,同时均衡光照条件的影响,使图像信息更加丰富均匀。经消融实验证明,本算法所添加模块,在进行图像融合时能够有效突出显著信息,增强细节信息的对比度,同时避免了红外目标模糊有伪影和局部过曝问题。经与7种常用图像融合算法对比,在TNO和MSRS数据集下,本算法在图像视觉观感、图像信息丰富度和边缘纹理保留等方面均有提升。
-
表 1 不同融合算法在TNO、MSRS数据集上的客观评价指标
Table 1 Objective evaluation metrics of different fusion algorithms on TNO, MSRS datasets
TNO MSRS EN AG SF MI VIF Qabf Time/s EN AG SF MI VIF Qabf Time/s FusionGAN 6.622 1.813 5.742 1.122 0.921 0.625 2.323 5.498 1.465 4.358 1.540 0.746 0.722 2.861 DDcGAN 6.859 2.487 7.021 1.516 0.928 0.490 5.174 5.361 1.947 3.577 1.671 0.771 0.763 5.694 DenseFuse 6.959 2.216 7.066 1.648 0.847 0.604 1.368 5.405 1.317 3.608 1.623 0.769 0.766 1.238 IFCNN 7.032 2.064 7.163 1.115 0.921 0.408 1.643 5.357 1.412 4.152 1.824 0.791 0.733 1.753 PIAFusion 6.683 1.785 5.942 1.291 0.919 0.638 1.927 5.801 1.694 4.632 1.572 0.755 0.742 1.978 MFEIF 7.011 2.572 6.493 1.273 0.926 0.564 2.151 5.415 1.923 3.676 1.581 0.777 0.754 2.132 NSST 6.228 1.932 6.314 1.336 0.883 0.417 - 5.324 1.659 3.526 1.628 0.756 0.692 - Ours 7.269 3.118 7.326 1.344 0.930 0.636 1.071 5.889 2.013 5.597 2.573 0.827 0.791 1.126 表 2 不同模块在TNO、MSRS数据集上的客观评价指标
Table 2 Objective evaluation metrics of different modules on TNO, MSRS datasets
Method TNO MSRS EN AG SF MI VIF Qabf EN AG SF MI VIF Qabf NSE 6.679 0.0385 8.905 0.913 0.608 0.591 5.855 0.0128 3.955 1.454 0.793 0.754 NLI 6.701 0.0326 10.327 0.938 0.617 0.473 5.785 0.0140 3.955 1.469 0.761 0.728 NLM 6.457 0.0288 9.487 0.816 0.612 0.436 5.303 0.0276 6.281 1.275 0.736 0.672 SE+LI+LM 6.712 0.0391 10.352 0.956 0.622 0.572 5.879 0.0228 6.328 1.482 0.831 0.933 -
[1] 张健, 黄安穴. 基于改进LatLRR算法的红外与可见光图像融合研究[J]. 红外技术, 2024, 46(6): 672-680. http://hwjs.nvir.cn/article/id/7363bd38-a7f7-4e58-af46-b1038bb9cc30 ZHANG Jian, HUANG Anxue. Infrared and visible image fusion based on improved LatLRR algorithm[J]. Infrared Technology, 2024, 46(6): 672-680. http://hwjs.nvir.cn/article/id/7363bd38-a7f7-4e58-af46-b1038bb9cc30
[2] 刘爽利, 黄雪莉, 刘磊, 等. 光电载荷下的红外和可见光图像融合综述[J]. 计算机工程与应用, 2024, 60(1): 28-39. LIU Shuangli, HUANG Xueli, LIU Lei, et al. Infrared and visible image fusion under photoelectric loads[J]. Computer Engineering and Applications, 2024, 60(1): 28-39.
[3] 刘刚, 肖刚. 基于双路级联对抗机制的红外与可见光图像融合方法[J]. 光子学报, 2021, 50(9): 321-331. LIU Gang, XIAO Gang. Infrared and visible image fusion method based on dual-path cascade adversarial mechanism[J]. Acta Photonica Sinica, 2021, 50(9): 321-331.
[4] 沈英, 黄春红, 黄峰, 等. 红外与可见光图像融合技术的研究进展[J]. 红外与激光工程, 2021, 50(9): 20200467. SHEN Ying, HUANG Chunhong, HUANG Feng, et al. Research progress of infrared and visible image fusion technology[J]. Infrared and Laser Engineering, 2021, 50(9): 20200467.
[5] 叶坤涛, 李文, 舒蕾蕾, 等. 结合改进显著性检测与NSST的红外与可见光图像融合方法[J]. 红外技术, 2021, 43(12): 1212-1221. http://hwjs.nvir.cn/article/id/bfd9f932-e0bd-4669-b698-b02d42e31805 YE Kuntao, LI Wen, SHU Leilei, et al. Infrared and visible image fusion method based on improved saliency detection and non-subsampled shearlet transform[J]. Infrared Technology, 2021, 43(12): 1212-1221. http://hwjs.nvir.cn/article/id/bfd9f932-e0bd-4669-b698-b02d42e31805
[6] 杨帆, 王志社, 孙婧, 等. 红外与可见光图像交互自注意力融合方法[J]. 光子学报, 2024, 53(6): 0610003. YANG Fan, WANG Zhishe, SUN Jing, et al. Infrared and visible image fusion method via interactive self-attention[J]. Acta Photonica Sinica, 2024, 53(6): 0610003.
[7] 王天元, 罗晓清, 张战成. 自注意力引导的红外与可见光图像融合算法[J]. 红外技术, 2023, 45(2): 171-177. http://hwjs.nvir.cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe WANG Tianyuan, LUO Xiaoqing, ZHANG Zhancheng. Infrared and visible image fusion based on self-attention learning[J]. Infrared Technology, 2023, 45(2): 171-177. http://hwjs.nvir.cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe
[8] 闵莉, 曹思健, 赵怀慈, 等. 改进生成对抗网络实现红外与可见光图像融合[J]. 红外与激光工程, 2022, 51(4): 20210291. MIN Li, CAO Sijian, ZHAO Huaici, et al. Infrared and visible image fusion using improved generative adversarial networks[J]. Infrared and Laser Engineering, 2022, 51(4): 20210291.
[9] MA J, YU W, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[10] SHEN J, CHEN Y, LIU Y, et al. ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection[J]. Pattern Recognition, 2024, 145: 109913. DOI: 10.1016/j.patcog.2023.109913
[11] MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995. DOI: 10.1109/TIP.2020.2977573
[12] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011
[13] JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.
[14] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.
[15] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[16] Toet A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249-251. DOI: 10.1016/j.dib.2017.09.038
[17] MA J, TANG L, FAN F, et al. SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(7): 1200-1217. DOI: 10.1109/JAS.2022.105686
[18] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[19] TANG L, YUAN J, ZHANG H, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.
[20] LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-581.