面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法

廖光凤, 关志伟, 陈强

廖光凤, 关志伟, 陈强. 面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法[J]. 红外技术, 2025, 47(3): 367-375.
引用本文: 廖光凤, 关志伟, 陈强. 面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法[J]. 红外技术, 2025, 47(3): 367-375.
LIAO Guangfeng, GUAN Zhiwei, CHEN Qiang. An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion[J]. Infrared Technology , 2025, 47(3): 367-375.
Citation: LIAO Guangfeng, GUAN Zhiwei, CHEN Qiang. An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion[J]. Infrared Technology , 2025, 47(3): 367-375.

面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法

基金项目: 

2021年天津市科技领军(培育)企业重大创新项目 22YDPYGX00050

天津市多元投入基金重点项目 21JCZDJC00800

天津市应用基础研究项目 22JCZDJC00390

天津市教委科研计划项目 2021KJ018

天津市科技局技术创新引导专项基金 23YDTPJC00980

详细信息
    作者简介:

    廖光凤(1999-),女,硕士研究生,主要从事智能网联汽车技术方面的研究。E-mail:751790304@qq.com

    通讯作者:

    陈强(1981-),男,博士,硕士生导师,主要从事环境感知技术方面的研究。E-mail:chen@tute.edu.cn

  • 中图分类号: TP183

An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion

  • 摘要:

    针对现有的红外与可见光图像融合算法对全局和多尺度特征提取不充分,对不同模态图像的关键信息提取不精准的问题,提出了基于双鉴别器生成对抗网络的红外与可见光图像融合算法。首先,生成器结合卷积和自注意力机制,捕获多尺度局部特征和全局特征;其次,将注意力机制与跳跃连接结合,充分利用多尺度特征并减少下采样过程中的信息丢失;最后,两个鉴别器引导生成器关注红外图像的前景显著目标和可见光图像的背景纹理信息,使融合图像保留更多关键信息。在公开数据集M3FD和MSRS上的实验结果表明,与对比算法相比,6种评价指标结果显著提高,其中平均梯度(Average Gradient, AG)在两个数据集上相较于次优结果分别提高了27.83%和21.06%。本文算法的融合结果细节丰富,具有较好的视觉效果。

    Abstract:

    An infrared and visible image fusion algorithm, based on a dual-discriminator generative adversarial network, is proposed to address issues, such as the insufficient extraction of global and multiscale features and the imprecise extraction of key information, in existing infrared and visible image fusion algorithms. First, a generator combines convolution and self-attention mechanisms to capture multiscale local and global features. Second, the attention mechanism is combined with skip connections to fully utilize multiscale features and reduce information loss during the downsampling process. Finally, two discriminators guide the generator to focus on the salient targets of the infrared images and background texture information of visible-light images, allowing the fused image to retain more critical information. Experimental results on the public multi-scenario multi-modality (M3FD) and multi-spectral road scenarios (MSRS) datasets show that compared with the baseline algorithms, the results of the six evaluation metrics improved significantly. Specifically, the average gradient (AG) increased by 27.83% and 21.06% on the two datasets, respectively, compared with the second-best results. The fusion results of the proposed algorithm are rich in detail and exhibit superior visual effects.

  • 由于理论和技术的限制,单模态传感器拍摄的图像无法有效、全面地描述成像场景[1]。例如红外传感器可以在恶劣条件下获得物体的热辐射以突出目标,但图像本身缺乏纹理特征;可见光传感器获得的图像包含丰富的纹理信息和较高的分辨率,但容易受光照条件和遮挡等因素的影响。采用多模态融合技术将红外图像与可见光图像优势互补,可以充分利用两者优点,突出前景目标的同时可获得丰富的纹理信息。

    当前融合方法根据不同理论可以分为基于多尺度变换的方法、基于稀疏表示的方法、基于子空间的方法、基于显著性的方法和混合方法,但上述方法的特征提取能力较差,需要手动设计融合策略[2]

    近年来,随着深度学习的快速发展,国内外学者在图像融合方法上开展了许多研究。Jian等[3]提出了一种基于CNN(Convolutional Neural Network)的对称编码器-解码器网络,通过下采样获取多尺度特征,使用softmax函数实现了基于注意力机制的融合策略,生成的融合图像保留了更多细节。Tang等[4]采用基于CNN的端到端的融合框架,提出光照感知损失函数,融合网络通过跨模态差分感知融合模块和融合策略能自适应地融合图像,全天候生成包含显著目标和丰富细节信息的融合图像。Ma等[5]基于CNN提出一种端到端的STDFusionNet网络,该网络使用显著目标掩膜对关键特征进行提取和重建以获取更为优秀的融合表现。上述基于CNN的方法取得了优秀的效果,但由于图像融合任务缺少参考图像,通常以无监督的方式训练,CNN在无监督任务中的性能受到限制。

    生成对抗网络(Generative Adversarial Network,GAN)[6]在无监督任务中展现出优秀的性能。Liu等[7]提出TarDAL网络,将基于GAN的图像融合网络与目标检测任务相结合,进行协同训练,使融合图像更适合后续的检测任务,但卷积只有局部特征提取能力,该网络缺少捕获全局依赖的能力。Rao等[8]提出基于CNN-Transformer作为生成器的GAN混合网络,该网络同时拥有CNN的局部特征提取能力和Transformer的全局信息建模能力,提升了融合图像的质量,但Transformer会引入较大的计算负担,基于上述问题,本文提出一种基于双鉴别器生成对抗网络的红外与可见光图像融合算法。首先,生成器采用U型编码器-解码器结构,通过引入轻量化的自注意力机制捕获像素间的长距离依赖关系,结合点注意力机制的跳跃连接防止下采样中信息丢失。其次,解码器采用亚像素卷积,防止上采样过程引入额外的噪声,进一步提升融合图像质量。最后,使用显著性掩膜和两个鉴别器将融合图像的前景目标和背景细节信息与源图像进行对比,充分保留源图像的关键信息。

    图像融合任务缺少理想的参考图像,无监督训练会导致网络对不同模态的特征提取不平衡和对重要信息提取不充分的问题[5]。为了解决上述问题,提出了如图 1所示的网络结构,该网络包含一个生成器和两个鉴别器,生成器采用U型结构,结合卷积和自注意力机制,能同时提取多尺度局部特征和全局特征;鉴别器结合显著性掩膜将融合图像与源图像对比,引入掩膜机制使鉴别器更精准地聚焦不同模态图像中的关键信息。具体来说,对生成器产生的融合结果进行掩膜处理,提取出前景目标和背景细节,再分别输入到目标鉴别器和细节鉴别器,与经过相同掩膜处理的源图像进行对比,鉴别器将对比结果反馈给生成器。生成器在与鉴别器的对抗训练中不断优化,最终生成细节丰富、目标突出的融合图像。

    图  1  红外与可见光图像融合方案
    Figure  1.  Infrared and visible image fusion scheme

    在图像融合任务中,注意力机制基于输入图像自适应地计算注意力权重矩阵,并根据权重矩阵调整网络对不同区域的关注程度,使网络聚焦图像的关键区域,从而更精准地提取关键信息。

    因此,为了增强网络对红外和可见光融合图像的特征提取能力,本文提出的融合算法结合了交叉注意力(Criss Cross Attention, CCA)[9]和点注意力(Pixel Attention, PA)[10]机制。

    CCA是一种轻量化的自注意力机制,能以较低的计算负担建立像素间的长距离依赖关系,从而提升网络的全局特征提取能力。如图 2所示,输入特征H经过3个1×1卷积映射得到Q, K, V,然后对QV进行Affinity操作,获取特征图中每一个像素点与纵横方向上像素点的关系,接下来对获取到的信息进行softmax归一化处理,得到权重矩阵A,其中像素间的位置关系通过Aggregation操作对V进行加权,最后与原输入特征H相加得到最终输出特征I。将两个CCA注意力模块进行串联,可以建立所有像素的长距离依赖关系。

    图  2  CCA机制
    Figure  2.  CCA mechanism

    PA使用较低的计算负担自适应地调整特征图中每个像素的权重,过滤噪声,提取关键信息,增强模型对特征的感知能力。如图 3所示,输入特征经过1个1×1的卷积,然后进行sigmoid操作获取注意力权重矩阵,将注意力权重矩阵与输入特征相乘得到输出特征矩阵。

    图  3  PA机制
    Figure  3.  PA mechanism

    网络生成器采用与U-Net[11]一致的编码器-解码器结构,结构如图 4所示。首先,编码器网络使用两条支路提取红外与可见光图像的特征。其中,两条支路分别由2个卷积模块(Conv)以及2个MB卷积模块(MBConv)[12]构成,训练过程中两条支路相互独立,不共享权重。其次,将两条支路提取的特征在通道维度上进行拼接实现初步特征融合,然后,将拼接后的特征图像输入到如图 5所示的残差稠密模块(Residual dense block, RDB)[13],并对RDB进行改进,添加PA注意力机制对输入特征图中的信息进行精炼,减少冗余信息。

    图  4  生成器结构
    Figure  4.  The architecture of generator
    图  5  RDB结构
    Figure  5.  The architecture of RDB

    网络瓶颈层使用CCA注意力机制提取全局特征,建立像素间的长距离依赖关系。为提取多尺度特征,并降低CCA注意力模块的计算负担,使用步长为2的卷积实现4次下采样,在下采样中添加PA注意力模块防止信息丢失和梯度消失、爆炸问题。编码器网络中的Conv卷积核大小均为3×3,填充设置为1,使用批量归一化(Batch Normalization)以及PRelu激活函数。

    解码器网络由4个上采样模块和Conv与Pixel Shuffle模块[14]结合的亚像素卷积上采样模块组成,对编码器网络提取到的特征进行重建。首先,使用Conv提升特征图通道数,对通道上的像素使用Pixel Shuffle模块进行重组以提高分辨率;其次,拼接上采样的特征图与通过跳跃连接传递的下采样特征图并进行融合;在最后一个上采样模块之后,使用1×1的Conv将通道数减少至1,采用Tanh激活函数将融合图像的输出像素值范围限制在[-1, 1],与输入图像保持一致。

    两个鉴别器采用相同的网络结构,用于鉴别融合图像中的前景显著目标和背景细节信息与源图像中对应的信息是否一致,结构如图 6所示。第一层由Conv层和LeakyRelu激活函数构成,最后一层使用1×1卷积替换全连接层将通道数减少至1,其余三层都由Conv层、批量归一化层以及LeakyRelu激活函数构成。

    图  6  鉴别器结构
    Figure  6.  The architecture of discriminator

    本文使用的损失函数由生成器损失函数LG、前景显著目标鉴别器损失函数LDT以及背景细节信息鉴别器损失函数LDD组成。

    LG由对抗损失Ladv以及内容损失Lcon组成,Ladv用于判断融合图像中的前景显著目标以及背景细节是否与源图像一致,将结果反馈给生成器并引导生成器的优化方向,Ladv的定义如下:

    $$ L_{\mathrm{adv}}=-E\left[\log \left(D_{\mathrm{T}}\left(I_{\mathrm{f}} \circ I_{\mathrm{m}}\right)\right)\right]-E\left[\log \left(D_{\mathrm{D}}\left(I_{\mathrm{f}} \circ\left(1-I_{\mathrm{m}}\right)\right)\right)\right] $$ (1)

    式中:DTDD分别为前景显著目标鉴别器和背景细节鉴别器;If为生成器输出的融合图像;Im是通过显著性检测网络对输入红外图像进行处理得到的显著性掩膜。IfIm表示将融合图像与显著性掩膜进行逐像素乘法,得到前景显著目标,If○(1-Im)则是将掩膜图像进行反转并与融合图像相乘得到背景细节。

    Lcon由结构相似性损失LSSIM和梯度损失Lgra以及像素损失Lpixel组成,其中LSSIM表示为:

    $$ L_{{\text{SSIM}}}^{{\text{vi}}} = 1 - {\text{SSIM}}\left( {{I_{\text{f}}} \circ \left( {1 - {I_{\text{m}}}} \right),{I_{{\text{vi}}}} \circ \left( {1 - {I_{\text{m}}}} \right)} \right) $$ (2)
    $$ L_{{\text{SSIM}}}^{{\text{ir}}} = 1 - {\text{SSIM}}\left( {{I_{\text{f}}} \circ {I_{\text{m}}},{I_{{\text{ir}}}} \circ {I_{\text{m}}}} \right) $$ (3)
    $$ {L_{{\text{SSIM}}}} = L_{{\text{SSIM}}}^{{\text{vi}}} + L_{{\text{SSIM}}}^{{\text{ir}}} $$ (4)

    式中:Ivi为可见光图像;Iir为红外图像。

    梯度损失Lgra使网络模型能够关注到融合图像中的边缘和纹理细节是否与源图像一致,Lgra表示为:

    $$ {L_{{\text{gra}}}} = \frac{1}{{HW}}{\left\| {\nabla {I_{\text{f}}} - \max \left( {\nabla {I_{{\text{vi}}}},\nabla {I_{{\text{ir}}}}} \right)} \right\|_1} $$ (5)

    式中:HW分别表示图像的高和宽;∇表示Sobel梯度算子;||⋅||1代表l1范数。

    像素损失Lpixel采用L1损失,使融合图像的像素强度分布与源图像一致,Lpixel表示为:

    $$ L_{{\text{pixel}}}^{{\text{ir}}} = \frac{1}{{HW}}\left\| {{I_{\text{m}}} \circ \left( {{I_{\text{f}}} - {I_{{\text{ir}}}}} \right)} \right\| $$ (6)
    $$ L_{{\text{pixel}}}^{{\text{vi}}} = \frac{1}{{HW}}{\left\| {\left( {1 - {I_{\text{m}}}} \right) \circ \left( {{I_{\text{f}}} - {I_{{\text{vi}}}}} \right)} \right\|_1} $$ (7)
    $$ {L_{{\text{pixel}}}} = L_{{\text{pixel}}}^{{\text{ir}}} + L_{{\text{pixel}}}^{{\text{vi}}} $$ (8)

    综上,设计的生成器损失函数为:

    $$ L_{\mathrm{G}}=\lambda_1 L_{\mathrm{adv}}+\lambda_2 L_{\mathrm{SSIM}}+\lambda_3 L_{\mathrm{gra}}+\lambda_4 L_{\mathrm{pixel}} $$ (9)

    式中:λ1λ2λ3λ4分别表示权重系数。

    鉴别器DTDD采用同样的损失函数,但关注的内容不同,DT用于鉴别融合图像中的前景显著目标是否与红外图像中的一致,DD用于对比融合图像与可见光图像中的背景细节,分别表示为:

    $$ {L_{{\text{DT}}}} = - E\left[ {\log \left( {{D_{\text{T}}}\left( {{I_{\text{m}}} \circ {I_{{\text{ir}}}}} \right)} \right)} \right] - E\left[ {\log \left( {1 - {D_T}\left( {{I_{\text{f}}} \circ {I_{{\text{ir}}}}} \right)} \right)} \right] $$ (10)
    $$ \begin{array}{l} {L_{{\text{DD}}}} = - E\left[ {\log \left( {{D_{\text{D}}}\left( {\left( {1 - {I_{\text{m}}}} \right) \circ {I_{{\text{vi}}}}} \right)} \right)} \right] - \hfill \\ \quad E\left[ {\log \left( {1 - {D_{\text{D}}}\left( {\left( {1 - {I_{\text{m}}}} \right) \circ {I_{{\text{vi}}}}} \right)} \right)} \right] \hfill \\ \end{array}{} $$ (11)

    选取MSRS数据集[4]和M3FD数据集[7]作为实验数据集。MSRS数据集包含1444组对齐的高质量红外和可见光图像,其中包括715组白天图像和729组夜间图像。M3FD数据集包含4500组对齐的红外和可见光图像。本文共采用4961组图像作为训练数据,其中包含MSRS数据集的1083组图像、M3FD数据集的3878组图像。对4961组图像随机裁剪进行图像增强,每一张图像裁剪成14张大小为320×320的图片,最终得到69454组训练数据。同时,通过U2Net[15]对训练集中的红外图像进行显著性检测,获取显著性掩膜。训练过程中,随机选取13890组图像作为验证集,并选取M3FD数据集中fusion部分的283组图片和MSRS数据集中test部分的361组图片作为测试集。所有图像的像素范围在输入网络之前被标准化为[-1, 1]。为了保留RGB图像中的色彩信息,将可见光图像从RGB颜色空间值映射到YCbCr颜色空间,然后将可见光图像的Y通道和红外图像作为输入进行融合。最后结合融合图像作为新的Y通道和可见光图像的Cb和Cr通道,再重新映射到RGB颜色空间。

    本文所使用的硬件平台为搭配有Nvidia RTX 4090 GPU和Intel I9-13900KF CPU的计算机,系统版本为Windows 11。所提出的模型通过Pytorch框架实现,在PyCharm平台上进行训练和测试。训练epoch设置为30,batchsize设置为8,生成器和鉴别器均采用Adam优化器,初始学习率设置为1×10-4,最终衰减至1×10-6。损失函数采用权重分别为:λ1=0.1,λ2=1,λ3=0.5,λ4=0.5。

    测试过程中,选取五个场景的图像进行分析,包括夜间光线充足、夜间昏暗、大雾、隧道、白天。与现有算法DDcGAN[16]、DenseFuse[17]、LRRNet[18]、NestFuse[19]、RFN-Nest[20]的融合结果进行比较,对标注的区域进行局部放大。

    图 7所示,在夜间光照充足条件下,基于DDcGAN的融合结果人物目标不突出且边缘模糊,交通信号灯轮廓模糊,亮度较低;基于DenseFuse的融合结果红外热辐射信息保留不充分,人物目标显著性不强;基于LRRNet的融合结果建筑目标与背景难以区分;基于NestFuse的融合结果红外目标较为突出,但可见光信息轮廓不清晰;基于RFN-Nest的融合结果亮度较低;本文算法的融合结果人物目标显著,且交通信号灯对比度高,轮廓清晰。

    图  7  夜间光照充足条件下对比结果
    Figure  7.  Comparison of results at night with sufficient light

    图 8所示,在夜间昏暗条件下,基于DDcGAN、LRRNet和RFN-Nest的融合方法对红外目标信息保留不充分,人物目标显著性低,不利于观察;基于DenseFuse的融合结果放大区域模糊;基于NestFuse的融合方法人物目标显著,但图像对比度低;本文算法对红外热辐射信息保留较为充分,人物目标明显。

    图  8  夜间昏暗条件下对比结果
    Figure  8.  Comparison of results in low light conditions at night

    图 9所示,在大雾条件下,基于DDcGAN、DenseFuse和RFN-Nest的融合结果树木与天空无法区分开,树枝等纹理不清晰,并且人物目标不够明显,整体画面模糊;基于LRRNet的融合结果红外热辐射信息保留不充分;基于NestFuse的融合结果能较好保留红外热辐射目标信息,但图片亮度较低;本文算法的融合结果中树木与天空能够很好地区分开,且人物目标清晰、对比度高,利于观察。

    图  9  大雾条件下对比结果
    Figure  9.  Comparison of results under foggy conditions

    图 10所示,在隧道图像中,基于DDcGAN和DenseFuse的融合结果红外热辐射信息保留不充分,图像对比度低;基于LRRNet和RFN-Nest的融合结果车辆目标显著性较低;基于NestFuse的融合结果红外目标突出,但隧道文字模糊;本文算法的融合结果的红外目标突出明显,隧道文字清晰。

    图  10  隧道情况下对比结果
    Figure  10.  Comparison of results in tunnel case

    图 11所示,在白天图像中,基于DDcGAN、DenseFuse和NestFuse的融合结果对可见光的信息保留不清晰,红色框放大部分的摄像头模糊;基于LRRNet的融合方法对细节信息保留不完整,图像中的树干纹理与背景无法区分开,人物目标不显著;基于RFN-Nest的融合结果视觉观感不佳,人物边缘模糊;在本文方法的融合结果中,红外目标显著,摄像头形状轮廓保留清晰。

    图  11  白天对比结果
    Figure  11.  Comparison of results under daylight conditions

    为了全面评估所提出的方法,采用客观评价指标进行定量分析,包括信息熵(Entropy, EN)、互信息(Mutual Information, MI)、空间频率(Spatial Frequency, SF)、标准差(Standard Deviation, SD)、基于梯度的融合性能(Qabf)、平均梯度(AG)[21]。将本文算法与其他5种方法进行比较,包括DDcGAN、DenseFuse、LRRNet、NestFuse和RFN-Nest。5种用于对比的融合方法通过作者公开的代码进行实验,实验参数与原文一致。6个评价指标在对比算法上的平均值如表 1表 2所示,加粗字体为每种指标最优的结果。

    表  1  M3FD数据集的定量分析
    Table  1.  Quantitative comparisons on the M3FD
    EN MI SF SD Qabf AG
    DDcGAN 6.3775 2.7990 6.7409 24.1168 0.2589 2.3080
    DenseFuse 6.6955 2.9281 9.2404 30.8108 0.4814 3.2054
    LRRNet 6.4355 2.8201 10.6596 27.1722 0.4892 3.5832
    NestFuse 6.7967 3.4503 10.9647 32.8006 0.5277 3.6390
    RFN-Nest 6.8659 2.8897 7.5290 33.3992 0.3754 2.7471
    Ours 6.8400 3.8980 13.4326 35.3704 0.5833 4.6136
    下载: 导出CSV 
    | 显示表格
    表  2  MSRS数据集的定量分析
    Table  2.  Quantitative comparisons of on the MSRS
    EN MI SF SD Qabf AG
    DDcGAN 5.8754 2.4820 5.7872 22.3322 0.2685 1.8848
    DenseFuse 6.1857 2.6777 7.3881 29.0080 0.4794 2.5167
    LRRNet 6.1925 2.9334 8.4421 31.7756 0.4440 2.6286
    NestFuse 6.5043 3.6730 9.7030 38.1962 0.6286 3.0880
    RFN-Nest 6.1957 2.4469 6.1339 29.0760 0.3749 2.1015
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV 
    | 显示表格

    表 1可以看出,在M3FD数据集上本文方法在MI、SF、SD、Qabf、AG指标上具有最佳平均值。对于EN指标,本文算法取得了次优结果,但与最佳结果仅有0.37%的差距。在MI、SF、Qabf、AG评价指标上,本文方法与次优算法NestFuse相比,MI评价指标提高了12.98%,SF评价指标提高了22.51%,Qabf指标提高了10.54%,AG评价指标提高了27.83%。在SD指标上,本文方法相比于次优算法提高了5.90%。从表 2可以看出,在MSRS数据集上本文方法在EN、SF、SD、Qabf、AG指标上的平均值高于其他方法,其中,指标EN、SF、SD、Qabf、AG的值相比于算法NestFuse提高了2.42%、18.10%、11.9%、3.20%、21.06%。综上所述,本文提出的模型在客观评价中取得最优的结果。

    为进一步地验证本文算法的性能,更直观、详细地展示实验结果的对比,从M3FD数据集和MSRS数据集中分别挑选15对图像在4个评价指标上进行定量比较,图 12图 13分别展示了不同算法在融合红外与可见光图像后评价指标的情况。

    图  12  M3FD数据集定量分析
    Figure  12.  Quantitative analysis on the M3FD Dataset
    图  13  MSRS数据集定量分析
    Figure  13.  Quantitative analysis on the MSRS Dataset

    从图 12中可以清晰地看出,本文提出的融合方法在SF指标上具有较大优势,指标明显高于其他5种融合方法,表明融合图像具有更高的清晰度,可以保留源图中更多的细节纹理信息。从图 13中可以看出,本文提出的融合方法的4个指标MI、EN、SF、SD的平均值都高于对比算法的平均值,融合图像质量更高,拥有更好的视觉效果。其中,MI、EN越大表明融合图像信息更丰富,包含更多的源图像信息,SF、SD越大表明图像清晰度越高。综合来看,本文所提出的算法在客观评价指标上具有较好的结果,整体优于其他对比算法。

    在MSRS数据集上对所提出的模型进行消融实验,比较分别去除PA、CCA、mask模块后各评价指标的平均值,实验结果如表 3所示。

    表  3  消融实验的定量分析
    Table  3.  Quantitative comparisons of ablation
    Models EN MI SF SD Qabf AG
    CCA+mask 6.4515 2.6611 9.4092 40.8056 0.5148 2.8907
    PA+mask 6.0226 2.1242 9.1762 37.3983 0.2622 2.4948
    PA+CCA 6.0910 2.1238 8.2665 32.3402 0.3747 2.3349
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV 
    | 显示表格

    实验表明,去除PA、CCA、mask模块后,指标MI、SF、EN、Qabf、AG均有明显下降。去除PA模块后,MI的平均值相比完整模型降低了24.68%;去除CCA模块后,SF的平均值下降了19.92%;去除mask后,EN的平均值降低了8.57%。说明本文所提出的算法在6个评价指标上取得最佳结果,在添加了PA、CCA、mask模块后,融合图像的质量得到大幅提升,证明了所提出的融合方法的有效性。

    本文提出了一种基于双鉴别器生成对抗网络的红外与可见光融合算法,生成器结合卷积和CCA自注意力机制,精准提取局部信息并进行全局建模,使网络能有效保留源图像的红外目标信息和背景纹理信息;编码器-解码器结构结合PA注意力机制与跳跃连接,能够提取多尺度信息,使融合图像信息更加丰富;通过对图像进行掩膜处理,两个鉴别器能引导网络参数优化的方向,提高特征提取的准确率。实验结果表明,本文方法能保留丰富的可见光图像细节和红外热辐射信息,显著提升图像清晰度和主观视觉效果,在客观评价指标上整体优于其他五种对比算法。本文提出的融合算法主要以满足视觉观感为目标,后续将继续探究以目标检测识别以及分割等高级视觉任务为导向的图像融合算法。

  • 图  1   红外与可见光图像融合方案

    Figure  1.   Infrared and visible image fusion scheme

    图  2   CCA机制

    Figure  2.   CCA mechanism

    图  3   PA机制

    Figure  3.   PA mechanism

    图  4   生成器结构

    Figure  4.   The architecture of generator

    图  5   RDB结构

    Figure  5.   The architecture of RDB

    图  6   鉴别器结构

    Figure  6.   The architecture of discriminator

    图  7   夜间光照充足条件下对比结果

    Figure  7.   Comparison of results at night with sufficient light

    图  8   夜间昏暗条件下对比结果

    Figure  8.   Comparison of results in low light conditions at night

    图  9   大雾条件下对比结果

    Figure  9.   Comparison of results under foggy conditions

    图  10   隧道情况下对比结果

    Figure  10.   Comparison of results in tunnel case

    图  11   白天对比结果

    Figure  11.   Comparison of results under daylight conditions

    图  12   M3FD数据集定量分析

    Figure  12.   Quantitative analysis on the M3FD Dataset

    图  13   MSRS数据集定量分析

    Figure  13.   Quantitative analysis on the MSRS Dataset

    表  1   M3FD数据集的定量分析

    Table  1   Quantitative comparisons on the M3FD

    EN MI SF SD Qabf AG
    DDcGAN 6.3775 2.7990 6.7409 24.1168 0.2589 2.3080
    DenseFuse 6.6955 2.9281 9.2404 30.8108 0.4814 3.2054
    LRRNet 6.4355 2.8201 10.6596 27.1722 0.4892 3.5832
    NestFuse 6.7967 3.4503 10.9647 32.8006 0.5277 3.6390
    RFN-Nest 6.8659 2.8897 7.5290 33.3992 0.3754 2.7471
    Ours 6.8400 3.8980 13.4326 35.3704 0.5833 4.6136
    下载: 导出CSV

    表  2   MSRS数据集的定量分析

    Table  2   Quantitative comparisons of on the MSRS

    EN MI SF SD Qabf AG
    DDcGAN 5.8754 2.4820 5.7872 22.3322 0.2685 1.8848
    DenseFuse 6.1857 2.6777 7.3881 29.0080 0.4794 2.5167
    LRRNet 6.1925 2.9334 8.4421 31.7756 0.4440 2.6286
    NestFuse 6.5043 3.6730 9.7030 38.1962 0.6286 3.0880
    RFN-Nest 6.1957 2.4469 6.1339 29.0760 0.3749 2.1015
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV

    表  3   消融实验的定量分析

    Table  3   Quantitative comparisons of ablation

    Models EN MI SF SD Qabf AG
    CCA+mask 6.4515 2.6611 9.4092 40.8056 0.5148 2.8907
    PA+mask 6.0226 2.1242 9.1762 37.3983 0.2622 2.4948
    PA+CCA 6.0910 2.1238 8.2665 32.3402 0.3747 2.3349
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV
  • [1]

    ZHANG H, XU H, TIAN X, et al. Image fusion meets deep learning: a survey and perspective[J]. Information Fusion, 2021, 76: 323-336. DOI: 10.1016/j.inffus.2021.06.008

    [2] 谭明川, 聂仁灿, 张谷铖, 等. 基于深度学习的红外与可见光图像融合综述[J]. 云南大学学报(自然科学版), 2023, 45(2): 326-343.

    TAN M, NIE R, ZHANG G, et al. A review of infrared and visible image fusion based on deep learning[J]. Journal of Yunnan University (Natural Science Edition), 2023, 45(2): 326-343.

    [3]

    JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.

    [4]

    TANG L, YUAN J, ZHANG H, et al. PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.

    [5]

    MA J, TANG L, XU M, et al. STDFusionNet: an infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13.

    [6]

    Goodfellow I, Pouget Abadie J, Mirza M, et al. Generative adversarial nets[J/OL]. Advances in Neural Information Processing Systems, 2014: 2672-2680, https://arxiv.org/abs/1406.2661.

    [7]

    LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.

    [8]

    RAO D, XU T, WU X J. TGFuse: An infrared and visible image fusion approach based on transformer and generative adversarial network[J/OL]. IEEE Transactions on Image Processing, 2023, Doi: 10.1109/TIP.2023.3273451.

    [9]

    HUANG Z, WANG X, HUANG L, et al. Ccnet: Criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 603-612.

    [10]

    ZHAO H, KONG X, HE J, et al. Efficient image super-resolution using pixel attention[C]//Computer VisionECCV, 2020: 56-72.

    [11]

    Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI, 2015: 234-241.

    [12]

    Sandler M, Howard A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

    [13]

    ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 2472-2481.

    [14]

    SHI W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1874-1883.

    [15]

    QIN X, ZHANG Z, HUANG C, et al. U2-Net: Going deeper with nested U-structure for salient object detection[J]. Pattern Recognition, 2020, 106: 107404. DOI: 10.1016/j.patcog.2020.107404

    [16]

    MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995. DOI: 10.1109/TIP.2020.2977573

    [17]

    LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.

    [18]

    LI H, XU T, WU X J, et al. Lrrnet: A novel representation learning guided fusion network for infrared and visible images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 11040-11052. DOI: 10.1109/TPAMI.2023.3268209

    [19]

    LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230

    [20]

    LI H, WU X J, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023

    [21]

    TANG L, YUAN J, MA J. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42. DOI: 10.1016/j.inffus.2021.12.004

图(13)  /  表(3)
计量
  • 文章访问数:  45
  • HTML全文浏览量:  2
  • PDF下载量:  16
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-18
  • 修回日期:  2024-07-21
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日