Infrared and Visible Image Fusion Using Double Attention Generative Adversarial Networks
-
摘要: 针对大多数基于GAN的红外与可见光图像融合方法仅在生成器使用注意力机制,而鉴别阶段缺乏注意力感知能力的问题,提出了一种基于双注意力机制生成对抗网络(double attention generative adversarial networks, DAGAN)的红外与可见光图像融合方法。DAGAN提出一种多尺度注意力模块,该模块在不同尺度空间中将空间注意力和通道注意力结合,并将其应用在图像生成阶段和鉴别阶段,使生成器和鉴别器均能感知图像中最具鉴别性的区域,同时提出了一种注意力损失函数,利用鉴别阶段的注意力图计算注意力损失,保存更多目标信息和背景信息。公开数据集TNO测试表明:与其他7种融合方法相比,DAGAN具有最好的视觉效果与最高的融合效率。Abstract: In this study, an infrared and visible image fusion using double attention generative adversarial networks(DAGAN) is proposed to address the issue of most infrared and visible light image fusion methods based on GaN using only the attention mechanism in the generator and lacking the attention perception ability in the identification stage. Using DAGAN, a multi-scale attention module that combines spatial and channel attentions in different scale spaces and applies it in the image generation and discrimination stages such that both the generator and discriminator can identify the most discriminative region in the image, was proposed. Simultaneously, an attention loss function that uses the attention map in the discrimination stage to calculate the attention loss and save more target and background information was proposed. The TNO test of a public dataset shows that, compared with the other seven fusion methods, DAGAN has the best visual effect and the highest fusion efficiency.
-
Keywords:
- infrared and visible image fusion /
- public security /
- GAN /
- attention mechanism /
- generator /
- discriminator
-
0. 引言
红外与可见光图像融合已经在公安敏感目标跟踪识别、军事侦察、公安反恐、公安边防、执法搜救、森林防火、周界防护、事故鉴定取证等方面发挥重要作用,逐渐服务于边境防控、社会安全治理、反恐防恐等公安业务,因此公安技术部门需要掌握红外与可见光图像融合技术。
近年来,红外与可见光图像融合技术大多基于生成对抗网络(generative adversarial network, GAN)[1],并且随着注意力机制应用研究的不断深入,其已经开始在红外与可见光图像融合得到应用,把注意力机制引入到GAN网络结构中用于红外与可见光图像融合以提高图像融合质量,但是大多数引入注意力机制基于GAN的红外与可见光图像融合方法,仅在生成器使用注意力机制,使生成器能够聚焦于红外目标信息和可见光的纹理细节信息[2],但是鉴别器缺乏类似生成器的感知能力,因此在鉴别图像时仍然从图像的整体内容考虑,从而降低了鉴别器的鉴别能力和效率。
在图像超分辨率研究领域,Chen等人提出了一种基于GAN的联合注意力鉴别器的图像超分辨率方法,该方法将两种注意力机制同时引入鉴别器,分别聚焦于浅层和中高层的通道,从而提高浅层和中高层的特征鉴别能力,该方法提升了一定程度的图像超分辨率效果[3]。
受此启发,针对引入注意力机制基于GAN的红外与可见光图像融合方法,本文提出设计一个多尺度注意力模块,在考虑图像的空间信息时从不同尺度出发,将该注意力模块被同时应用于生成器和鉴别器,形成基于双注意力机制生成对抗网络(double attention-based generative adversarial networks, DAGAN)的红外与可见光图像融合方法。该方法可以使生成器能够聚焦红外的目标信息和可见光图像的背景细节信息,同时鉴别器也能够通过注意力模块更多地从典型特征区域而非整幅图像来鉴别图像,从而提高鉴别能力和效率。
1. 融合算法
1.1 算法框架
DFGAN融合算法旨在训练一个生成器以生成信息更为丰富的融合图像,当网络中的鉴别器无法正确鉴别输入图像为融合图像或源图像时则认为融合图像已经包含足够多源图像信息。DAGAN融合算法包含一个生成器和两个鉴别器,其网络结构如图 1所示。在生成器中设计两个多尺度注意力网络和一个融合网络,多尺度注意力网络为:红外多尺度注意力网络和可见光多尺度注意力网络,分别用来提取红外和可见光图像注意力图,使生成器能够聚焦于红外图像的目标区域和可见光图像的背景细节信息。DAGAN采用双鉴别器结构,使融合图像保存更多源图像信息。同时,在两个鉴别器中也引入注意力模块,使鉴别器能够通过注意力模块更多地从典型特征区域而非整幅图像来鉴别图像,从而提高鉴别能力和效率。
1.2 生成器网络结构
DAGAN的生成器结构如图 1蓝色虚线框所示,包含红外多尺度注意力网络、可见光多尺度注意力网络和融合网络。因为红外与可见光图像具有不同的模态,其包含的信息也存在较大差异,例如红外图像聚焦于目标信息,可见光图像包含丰富的背景细节信息。因此,红外与可见光图像的注意力图也不相同,所以在生成器中设计两个注意力网络分别提取注意力图。再将红外与可见光图像的注意力图与源图像在通道方向连接,作为融合网络输入,由此使融合网络能够聚焦于红外和可见光的典型特征区域,提高图像融合质量。生成器中红外多尺度注意力模块和可见光图像注意力模块具有相同的网络结构,多尺度注意力模块网络结构和融合网络结构如表 1所示,表中Conv表示卷积层,I表示输入,O表示输出,K表示卷积核尺寸,S表示卷积步长,P表示填充操作,例如“I1, O32, K3, S1, P1”表示输入特征数为1,输出为32,卷积核尺寸为3×3,卷积步长为1,填充(padding)尺寸为1,PReLU为激活函数。
表 1 生成器网络结构Table 1. Generator network structureNetwork layer Multi scale attention module network architecture Converged network architecture First layer Conv(I1, O32, K3, S1, P1), PReLU Conv(I 4, O32, K3, S1, P1), PReLU Second layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 32, O64, K3, S1, P1), PReLU Third layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 64, O128, K3, S1, P1), PReLU Fourth layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 128, O1, K3, S1, P1), PReLU 1.3 多尺度注意力计算模块
多尺度注意力计算模块旨在通过计算注意力图使生成器和鉴别器聚焦于典型特征区域,其网络结构如图 2所示,其中多尺度注意力计算模块的输入数据为源图像卷积层特征。由于源图像所包含的对象往往具有不规则性,单一尺度往往不能充分提取空间特征信息[4-5],因此本文通过不同尺度的池化操作计算多尺度特征。针对不同尺度特征考虑特征的重要性,使网络能够聚焦于重要特征而忽略冗余特征,即网络通过特征的全局信息计算不同特征的权重,重新标定输入特征[6],具体计算过程为多尺度注意力模块通过训练获得在s池化尺度下的第k个特征fsk的权重Wsk,其公式如下:
$$ {W_s}^k = \sigma ({w_1}\sum\nolimits_{i,j} {f_s^k(i,j)} ) $$ (1) 式(1)中:$ \sum\nolimits_{i,j} {f_s^k(i,j)} $为特征全局信息计算;σ代表Sigmoid函数;w1为函数系数,其尺寸为1×1×k;Wsk为特征权重,再将计算得到的特征权重Wsk与原始特征对相乘来强调不同特征间的相对重要性。在此基础上将重新标定的特征按照通道方向求和,其计算公式如下。
$$ {F_{\rm{sum}}} = \sum\limits_1^k {W_s^k} \cdot {H_{\rm{up}}}(f_s^k) $$ (2) 式(2)中:Fsum为重新标定的特征在通道方向上的和;Hup为针对不同尺度特征的上采样过程。在此基础上对每个尺度的Fsum做归一化操作得到不同尺度的注意力图Fs。为了获得最终的注意力图,将不同尺度的注意力图Fs在通道方向连接,并沿着通道方向取各个像素位置的最大值,因为在注意力图中像素值能反映该位置特征的重要性[7]。
1.4 鉴别器网络结构
DAGAN融合算法包含两个鉴别器,鉴别器结构如图 1绿色虚线框所示。算法中鉴别器1旨在鉴别红外和融合图像,鉴别器2主要用来鉴别可见光和融合图像。两个鉴别器具有相同的网络结构,如表 2所示。为了使鉴别器能够更多地关注典型特征区域而非整幅图像来鉴别输入图像,以此来提高鉴别器鉴别的能力和效率,本文方法将提出的多尺度注意力模块引入到鉴别器中。因此,在鉴别阶段,输入图像首先经过多尺度注意力模块计算注意力图,然后将注意力图与输入图像在通道方向连接使鉴别器也具有典型特征区域的感知能力,具体计算流程如图 1绿色虚线框所示。
表 2 鉴别器网络结构Table 2. Discriminator network structureNetwork layer Multi scale attention module network architecture First layer Conv(I1, O64, K3, S1, P0), LeakyReLU Second layer Conv(I64, O64, K3, S2, P0), LeakyReLU Third layer Conv(I64, O128, K3, S1, P0), LeakyReLU Fourth layer Conv(I128, O128, K3, S2, P0), LeakyReLU Fifth layer Conv(I128, O256, K3, S1, P0), LeakyReLU Sixth layer Conv(I256, O256, K3, S2, P0), LeakyReLU Seventh layer FC(1024) Eighth layer FC(1) 1.5 损失函数
1)生成器损失
DAGAN融合算法的生成器损失主要包括3部分:对抗损失、内容损失和注意力损失。生成器损失的定义如下:
$$ L_{\mathrm{G}}=L_{\mathrm{adv}}(G)+\lambda L_{\mathrm{con}}+\xi L_{\mathrm{att}} $$ (3) 式(3)中:LG为生成器损失;Ladv表示对抗损失;Lcon表示内容损失;Latt代表本文提出的注意力损失;λ和ξ为超参数。内容损失Lcon旨在使生成图像不断接近于红外图像,因为红外传感器通过捕获热辐射信息成像,图像特征主要通过像素强度来表示,所以内容损失Lcon主要计算红外图像和融合图像的像素强度差异,Lcon的定义如下。
$$ L_{\mathrm{con}}=\frac{1}{H W}\left\|I_{\mathrm{f}}-I_{\mathrm{ir}}\right\|_{\mathrm{F}}^2$$ (4) 式(4)中:H和W分别为图像的长和宽;If和Iir分别表示融合图像和红外图像。
DAGAN将注意力机制引入到鉴别器,使鉴别器更多地关注典型特征区域而非整幅图像来鉴别输入图像。因此,当鉴别器无法正确鉴别两幅输入图像时,两幅图像在鉴别器中计算得到的注意力图应具有相似特征。所以为了使融合图像保存更多的注意力区域信息,本文通过计算同一鉴别器中两幅源图像和融合图像注意力图间的差异来计算注意力损失,其计算公式如下:
$$ L_{\mathrm{att}}=\frac{1}{H W} \sum\limits_{x=1}^H \sum\limits_{y=1}^W\left[\left(\operatorname{att} D_{\mathrm{i}-\mathrm{f}}(x, y)-\operatorname{att} D_{\mathrm{i}-\mathrm{f}}(x, y)-\operatorname{att} D_{\mathrm{i}-\mathrm{v}}(x, y)\right)^2+\right.$$ (5) 式(5)中:H和W分别为图像的长和宽;$ {\mathrm{att}}{D_{\mathrm{i}-\mathrm{f}}} $和$ {\mathrm{att}}{D_{\mathrm{i}-\mathrm{i}}} $分别表示鉴别器1(输入为红外和融合图像)中当输入分别为融合图像和红外图像时的注意力图;$ {\mathrm{att}}{D_{\mathrm{v}-\mathrm{f}}} $和$ {\mathrm{att}}{D_{\mathrm{v}-\mathrm{v}}} $分别表示鉴别器2(输入为可见光和融合图像)中当输入分别为融合图像和可见光图像时的注意力图。
在DAGAN融合框架中为了使融合图像保存更多的红外目标信息和可见光中的背景细节信息,设计了两个鉴别器。因此对抗损失的计算公式如下。
$$ L_{\mathrm{adv}}(G)=-E_{I_{\mathrm{f}} \sim P_{\mathrm{If}}}\left[D_{\mathrm{ir}}\left(I_{\mathrm{f}}\right)\right]-E_{I_{\mathrm{f}} \sim P_{\mathrm{If}_{\mathrm{f}}}}\left[D_{\mathrm{vis}}\left(I_{\mathrm{f}}\right)\right]$$ (6) 式(6)中:If表示融合图像;$ {P_{\mathrm{If}}} $表示融合图像的数据分布;Dir表示以红外和融合图像作为输入的鉴别器;Dvis表示以可见光和融合图像作为输入的鉴别器。
2)鉴别器损失函数
DAGAN融合算法中采用双鉴别器结构,且在该算法中使用了Wasserstein GAN(Wasserstein generative adversarial networks, WGAN[8]),因此DAGAN的鉴别器损失定义如下:
$$ \begin{aligned} L_{D_{\mathrm{ir} / \mathrm{vis}}}= & -E_{x \sim P_{\mathrm{ir} / \mathrm{vis}}}\left[D_{\mathrm{ir} / \mathrm{vis}}(x)\right]+E_{I_{\mathrm{f}} \sim P_{\mathrm{If}}}\left[D_{\mathrm{ir} / \mathrm{vis}}\left(I_{\mathrm{f}}\right)\right]+ \\ & \varphi E_{\tilde{x}}\left[\left\|\nabla_{\tilde{x}} D_{\text {ir } / \text { vis }}(\tilde{x})\right\|_2-1\right] \end{aligned}$$ (7) 式(7)中:$ L_{D_{\mathrm{ir} / \mathrm{vis}}} $分别表示以红外与融合图像作为输入的鉴别器损失和以可见光与融合图像作为输入的鉴别器损失;Pir/vis表示红外与可见光图像数据分布;$ {P_{I_{\mathrm{f}}}} $表示融合图像数据分布。
2. 实验分析
2.1 实验数据及参数设置
由于在公共安全管理等工作中,公安部门主要聚焦于人员、车辆等信息,尤其在公安边防、反恐防恐和重点目标安全保卫等工作中更注重人员和车辆信息分析。因此,为了更好地服务公安实战应用,本文主要选取以人员、车辆和建筑等为主的TNO红外与可见光数据集进行训练。TNO红外与可见光数据集[9]是由荷兰国家应用科学院制作,主要用于图像融合研究。TNO数据集主要以军事场景为背景,其主要采集包括士兵、车辆、建筑物等在不同环境中的红外与可见光图像。TNO数据集中每对可见光和红外图像均在相同场景采集,TNO数据集是由Athena、DHV、FEL和TRICLOBS成像系统捕获,包括可见光、近红外和热红外等单波段灰度图像,该数据集中所有图像均经过预处理具有相同的图像尺寸,且所有图像对均已经过配准处理。
为了扩大DAGAN训练数据集,本文对数据集图像对按照步长12,裁剪为多个120×120尺寸的子图像扩大训练数据集,最终获得24200张子图像。经过大量实验,模型参数最终初始化如下:m,λ和ξ分别设为5, 1和0.6。试验环境的硬件配置为:CPU采用Intel i7-10700处理器,1TSSD,128 G内存,GPU采用NVIDIA GeForce GTX 860M。
本文采用定性和定量评价结合的方式与7种已公开的对比方法进行对比分析,这7种方法分别为:基于生成对抗网络(generating countermeasure network, fusion GAN)的红外与可见光图像融合方法[10]、基于拉普拉斯金字塔的融合方法(Laplacian pyramid, LP)[11]、基于低通金字塔(ratio of low pass pyramid, RP)融合方法[12]、基于像素和区域的双数复小波(dual-tree complex wavelet transform, DTCWT)图像融合方法[13]、基于小波变换(wavelet transform, Wavelet)的融合方法[14]、基于曲线波变换(curvelet transform, CVT)的图像融合方法 [15]、基于非下采样轮廓波(nonsubsampled contourlet, NSCT)的图像融合方法[16]。
2.2 实验结果分析
2.2.1 双注意力机制消融实验
为证明注意力机制的有效性,首先分析部分红外和可见光图像对的注意力图和融合结果,如图 3所示,图中前两列为红外图像及其注意力图,第三和第四列为可见光图像及其注意力图,最后一列为融合结果。由图 3可知,红外注意力图主要关注红外目标信息,而可见光注意力图主要聚焦于背景细节信息。因此,注意力机制能够帮助生成器关注红外目标信息和可见光的背景信息。另外,在融合图像中得到增强的区域和注意力图所关注区域一致,由此也证明了注意力机制的有效性。
在DAGAN算法中,注意力机制被同时应用于生成器和鉴别器,为证明其合理性和有效性,本章设置两个消融实验,首先在DAGAN融合框架下去掉生成器和鉴别器中的注意力机制训练模型(称为无注意力模块)。另外,生成器中的注意力机制已经广泛应用于大量的研究中,因此本节仅针对鉴别器中的注意力机制做消融实验,即去掉鉴别器中的注意力模块,仅保留生成器中的注意力模块(称为鉴别器不含注意力模块)。无注意力模块消融实验结果和鉴别器不含注意力模块消融实验结果如图 4第4行和第6行所示。图 4中前两行为红外与可见光图像,最后一行为DAGAN融合结果,与无注意力模块消融实验结果相比,DAGAN融合结果既能够较好地保存红外目标信息,又能够保存较多的背景细节信息。鉴别器不含注意力模块消融实验结果虽然也得到了不错的融合图像,但其注意力区域信息保存不足,例如图中红色方框内区域与DAGAN融合结果相对应区域相比对比度较低,且信息保存完整度不高。
2.2.2 多尺度注意力模块消融实验
为了验证多尺度注意力模块中多尺度操作的合理性和有效性,在DAGAN融合框架下,本节针对多尺度操作进行消融实验(被称为不使用多尺度),其实验结果如图 4第5行所示。
不使用多尺度的融合结果在一定程度上能够保存红外和可见光图像中所包含的信息,也能够取得不错的融合结果。但与DAGAN融合结果相比,不使用多尺度的融合结果清晰度和对比度不足,例如第一列和第3列示例图像红框内区域,DAGAN融合结果具有更好的视觉效果,如DAGAN融合结果具有更高的对比度和清晰度。此外,在第2列示例图像的红框区域中,DAGAN融合结果比不使用多尺度的融合结果保存了更多的信息。
2.2.3 注意力损失函数消融实验
为了验证注意力损失函数在模型中的有效性和合理性,本节针对注意力损失函数进行消融实验(称为无注意力损失),实验结果如图 4第3行所示。
对比可知DAGAN融合结果能够保存更多的融合信息,例如在图中的红色框内区域,DAGAN融合结果保存了更多的红外强度信息,具有更丰富的细节。同时,与无注意力损失融合结果相比DAGAN融合结果具有更清晰的背景和更多的纹理细节信息。结合图 3中展示的注意力图和图 4消融实验对比结果,发现DAGAN使用注意力损失函数能够使融合结果保存更多的注意力区域信息,同时也具有更好的视觉效果。
2.2.4 基于TNO数据集的实验结果分析
为了验证DAGAN融合方法的有效性,本节将DAGAN与7种已公开对比算法在TNO数据集上做融合实验,通过定性和定量分析两种评价方式对融合结果进行综合分析评价。
1)定性评价
为充分对比DAGAN与其他7种方法融合结果,本节在TNO数据集的实验结果中选择两组融合结果进行详细对比。两组实验结果如图 5所示,图中左侧两列和右侧两列分别为所有方法在两组红外与可见光源图像上的融合结果,其中第一行为红外与可见光图像。
由图可知,虽然每种方法都能在一定程度上保存原图像信息,并取得较好的融合结果,但DAGAN融合方法具有最好的视觉效果。此外,基于传统方法的融合结果虽然能够从红外和可见光保存有用信息,但是融合结果仍然存在模糊和背景不清晰现象。与DAGAN融合方法相比RP、Wavelet、CVT和NSCT的融合结果中红外目标信息和可见光图像的背景信息保存均不足或存在图像模糊现象。DTCWT和LP融合方法虽然在红外目标信息保存方面有比较好的效果,但是目标的亮度和完整度仍然不如DAGAN融合结果,同时DTCWT和LP融合结果中的背景细节信息保存也不如DAGAN。
与基于GAN的融合方法FusionGAN相比,虽然FusionGAN融合结果中的红外目标信息保存较好,同时具有较高的亮度,但其背景细节信息保存不如DAGAN方法,DAGAN具有更清晰的背景和更丰富的纹理细节信息。
2)定量评价
本节通过定量分析的方法对DAGAN和7种对比方法进行对比分析,为避免仅采用单一指标评价融合方法的片面性,本文采用多种指标结合的方法来综合评价。本研究主要采用信息熵(EN)[17]、标准差(SD)[18]、互信息(MI)[19]和峰值信噪比(PSNR)[20]等定量评价指标,在所有指标中,值越大代表图像融合质量越高。
本文基于图 5的红外与可见光图像融合结果将DAGAN融合方法与其他7种对比方法在4个定量分析指标上做定量评价,评价结果如图 6所示,图中横坐标代表采样数据编号,纵坐标分别代表MI、SD、EN、PSNR指标值,图中各方法的值为10个数据的平均值。
由图可知,DAGAN融合算法在4个指标上均具有最优值。其中MI用来衡量融合图像从源图像转换得到的信息的总量,EN以信息论作为基础通过计算图像的总信息量来评估图像的质量,SD反映图像的对比度,PSNR反映图像处理过程中的失真情况。因此,通过分析可知DAGAN融合方法不仅在定性分析中具有最好的视觉效果,同时在定量评价中也具有最好的评价结果。
2.2.5 计算效率对比
本文采用图像融合的平均时间来对比不同算法的计算效率[21],7种对比方法和本文方法的融合时间如表 3所示,每个方法的计算代价均代表融合图像所用时间的平均值。通过对比发现DAGAN计算效率优于FusionGAN和其他融合方法,具有最高的融合效率。
表 3 DAGAN与不同方法的计算时间对比Table 3. Comparison of calculation time between DAGAN and different methodss Method CVT DTCWT LP RP Wavelet NSCT FusionGAN DAGAN Computing time 0.7586 0.8024 0.4599 0.4615 0.6332 0.9839 0.2658 0.1882 3. 总结
DAGAN融合方法的贡献在于:①本文提出方法将多尺度注意力模块同时嵌入到生成器和鉴别器,由此使生成器能够感知红外和可见光图像的典型特征区域,使融合图像能够更好地保存可见光的背景细节信息和红外图像的目标信息。同时,该方法将多尺度注意力模块嵌入到鉴别器中,使鉴别器能够聚焦典型特征区域而非整幅图像来鉴别输入图像,以此来提高鉴别器鉴别的能力和效率。②该方法提出了一个多尺度注意力模块来提取红外与可见光图像注意力图,该注意力模块将网络卷积层的深度特征作为输入,通过多尺度池化操作提取不同尺度特征。在注意力模块设计中也同时考虑了特征间的相对重要性,通过计算不同特征间的相对重要性,重新标定输入特征。③为了更好地保存源图像的典型特征区域(注意力区域),本文设计了一个注意力损失函数。当融合图像和源图像无法被鉴别器正确鉴别时,那么在鉴别器的注意力模块中融合图像和源图像应当具有相似的注意力图。
本文主要针对红外与可见光静态图像融合方法进行研究,而在公安应用中更多面临的是实时视频数据处理工作,例如在大多数情况下安防监控数据均为可见光和红外视频图像。因此,红外与可见光图像融合研究应从静态图像融合转向实时视频融合。同时,针对目标跟踪识别、周界防护等领域,可在图像融合的基础上,开展红外目标识别、跟踪等研究工作,以拓宽红外与可见光图像融合技术的应用场景,并提升其在公安应用中的实战效果。
-
表 1 生成器网络结构
Table 1 Generator network structure
Network layer Multi scale attention module network architecture Converged network architecture First layer Conv(I1, O32, K3, S1, P1), PReLU Conv(I 4, O32, K3, S1, P1), PReLU Second layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 32, O64, K3, S1, P1), PReLU Third layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 64, O128, K3, S1, P1), PReLU Fourth layer Conv(I32, O32, K3, S1, P1), PReLU Conv(I 128, O1, K3, S1, P1), PReLU 表 2 鉴别器网络结构
Table 2 Discriminator network structure
Network layer Multi scale attention module network architecture First layer Conv(I1, O64, K3, S1, P0), LeakyReLU Second layer Conv(I64, O64, K3, S2, P0), LeakyReLU Third layer Conv(I64, O128, K3, S1, P0), LeakyReLU Fourth layer Conv(I128, O128, K3, S2, P0), LeakyReLU Fifth layer Conv(I128, O256, K3, S1, P0), LeakyReLU Sixth layer Conv(I256, O256, K3, S2, P0), LeakyReLU Seventh layer FC(1024) Eighth layer FC(1) 表 3 DAGAN与不同方法的计算时间对比
Table 3 Comparison of calculation time between DAGAN and different methods
s Method CVT DTCWT LP RP Wavelet NSCT FusionGAN DAGAN Computing time 0.7586 0.8024 0.4599 0.4615 0.6332 0.9839 0.2658 0.1882 -
[1] 董安勇, 杜庆治, 苏斌, 等. 基于卷积神经网络的红外与可见光图像融合[J]. 红外技术, 2020, 42(7): 660-669. http://hwjs.nvir.cn/article/id/hwjs202007009 DONG Anyong, DU Qingzhi, SU Bin, et al. Infrared and visible image fusion based on convolutional neural network[J]. Infrared Technology, 2020, 42(7): 660-669. http://hwjs.nvir.cn/article/id/hwjs202007009
[2] 罗迪, 王从庆, 周勇军. 一种基于生成对抗网络与注意力机制的可见光和红外图像融合方法[J]. 红外技术, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a LUO Di, WANG Congqing, ZHOU Yongjun. A visible and infrared image fusion method based on generative adversarial networks and attention mechanism[J]. Infrared Technology, 2021, 43(6): 566-574. http://hwjs.nvir.cn/article/id/3403109e-d8d7-45ed-904f-eb4bc246275a
[3] CHEN R, XIE Y, LUO X, et al. Joint-attention discriminator for accurate super-resolution via adversarial training[C]//Proceedings of the 27th ACM International Conference on Multimedia, 2019: 711-719.
[4] LIU N, HAN J, YANG M-H. Picanet: pixel-wise contextual attention learning for accurate saliency detection[J]. IEEE Transactions on Image Processing, 2020, 29: 6438-6451. DOI: 10.1109/TIP.2020.2988568
[5] CHEN J, WAN L, ZHU J, et al. Multi-scale spatial and channel-wise attention for improving object detection in remote sensing imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 17(4): 681-685.
[6] ZHOU B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2921-2929.
[7] Zagoruyko S, Komodakis N. Paying more attention to attention: improving the performance of convolutional neural networks via attention transfer[J/OL]. arXiv preprint arXiv: 161203928, 2016, 1: (https://doi.org/10.48550/arXiv.1612.03928).
[8] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein GANs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 5769-5779.
[9] Alexander Toet. The tno multiband image data collection[J]. Journal Data in Brief, 2017, 15: 249-251. DOI: 10.1016/j.dib.2017.09.038
[10] MA J, YU W, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[11] Burt P, Adelson E. The Laplacian pyramid as a compact image code[J]. IEEE Transactions on Communications, 1983, 31(4): 532-540. DOI: 10.1109/TCOM.1983.1095851
[12] Toet A. Image fusion by a ratio of low-pass pyramid[J]. Pattern Recognition Letters, 1989, 9(4): 245-253. DOI: 10.1016/0167-8655(89)90003-2
[13] Lewis J J, O'Callaghan R J, Nikolov S G, et al. Pixel-and region-based image fusion with complex wavelets[J]. Information Fusion, 2007, 8(2): 119-130. DOI: 10.1016/j.inffus.2005.09.006
[14] Chipman L J, Orr T M, Graham L N. Wavelets and Image Fusion[C]// International Conference on Image Processing of IEEE, 1995: 248-251.
[15] Nencini F, Garzelli A, Baronti S, et al. Remote sensing image fusion using the curvelet transform[J]. Information Fusion, 2007, 8(2): 143-156. DOI: 10.1016/j.inffus.2006.02.001
[16] Adu J, GAN J, WANG Y, et al. Image fusion based on nonsubsampled contourlet transform for infrared and visible light image[J]. Infrared Physics & Technology, 2013, 61: 94-100.
[17] Roberts J W, Van Aardt J A, Ahmed F B. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 023522. DOI: 10.1117/1.2945910
[18] SHI W, ZHU C, TIAN Y, et al. Wavelet-based image fusion and quality assessment[J]. International Journal of Applied Earth Observation and Geoinformation, 2005, 6(3-4): 241-251. DOI: 10.1016/j.jag.2004.10.010
[19] QU G, ZHANG D, YAN P. Information measure for performance of image fusion[J]. Electronics Letters, 2002, 38(7): 313-315.
[20] HE L I, LEI L, CHAO Y, et al. An improved fusion algorithm for infrared and visible images based on multi-scale transform[J]. Semiconductor Optoelectronics, 2016, 74: 28-37.
[21] MA J, YU W, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.
-
期刊类型引用(1)
1. 徐孟艳,屈炎伟. 远程医疗患者信息访问的多重身份认证仿真. 计算机仿真. 2025(01): 447-451 . 百度学术
其他类型引用(0)