Infrared and Visible Image Fusion Combining Multi-scale and Convolutional Attention
-
摘要:
针对红外与可见光图像融合时,单一尺度特征提取不足、红外目标与可见光纹理细节丢失等问题,提出一种多尺度和卷积注意力相结合的红外与可见光图像融合算法。首先,设计多尺度特征提取模块和可变形卷积注意力模块相结合的编码器网络,多感受野提取红外与可见光图像的重要特征信息。然后,采用基于空间和通道双注意力机制的融合策略,进一步融合红外和可见光图像的典型特征。最后,由3层卷积层构成解码器网络,用于重构融合图像。此外,设计基于均方误差、多尺度结构相似度和色彩的混合损失函数约束网络训练,进一步提高融合图像与源图像的相似性。本算法在公开数据集上与7种图像融合算法进行比较,在主观评价和客观评价方面,所提算法相较其它对比算法具有较好的边缘保持性、源图像信息保留度,较高的融合图像质量。
Abstract:A multiscale and convolutional attention-based infrared and visible image fusion algorithm is proposed to address the issues of insufficient single-scale feature extraction and loss of details, such as infrared targets and visible textures, when fusing infrared and visible images. First, an encoder network, combining a multiscale feature extraction module and deformable convolutional attention module, is designed to extract important feature information of infrared and visible images from multiple receptive fields. Subsequently, a fusion strategy based on spatial and channel dual-attention mechanisms is adopted to further fuse the typical features of infrared and visible images. Finally, a decoder network composed of three convolutional layers is used to reconstruct the fused image. Additionally, hybrid loss function constraint network training based on mean squared error, multiscale structure similarity, and color is designed to further improve the similarity between the fused and source images. The results of the experiment are compared with seven image-fusion algorithms using a public dataset. In terms of subjective and objective evaluations, the proposed algorithm exhibits better edge preservation, source image information retention, and higher fusion image quality than other algorithms.
-
0. 引言
建设海洋强国是实现中华民族伟大复兴的重大战略任务,有效实施利用海洋资源战略并掌握高效开发海洋资源技术的国家,必将在未来的经济和社会发展中占取先机。获取海洋信息是充分了解海洋的关键,作为海洋信息的载体,水下图像在海洋资源探索和水下作业任务方面发挥着重要作用。但是,由于水下成像环境的复杂和光在水中传播的散射效应[1]等因素,采集的水下图像通常会产生严重的退化问题,主要呈现为颜色偏差、对比度低和细节模糊等,严重限制了水下图像在海洋勘测、水下目标检测[2]和水下机器人[3]等实际场景中的应用。因此,亟须寻找一种有效的增强方法来解决水下图像的退化问题。
水下图像处理一般可以分为图像复原和图像增强[4]两大类。其中,基于非物理模型的增强方法主要是通过修改像素值来提高水下图像的视觉质量,忽略了水下图像的物理退化过程。例如,Hitam等人[5]提出了一种直方图均衡算法用于处理水下图像,减少了噪声的产生同时提高了对比度。此外,Huang等人[6]构建了一种基于自适应参数采集的全局直方图拉伸方法(relative global histogram stretching,RGHS),保留了图像细节的同时有效消除了噪声的影响。基于物理模型的复原方法主要是对成像过程进行建模,通过反演水下物理成像模型获得高质量的水下图像。Paulo等人[7]利用暗通道先验(dark channel prior,DCP)原理,设计了一种估计水下环境传输的水下DCP算法,克服了DCP在水下成像应用中的局限性。此外,Peng等人[8]设计了一种基于图像模糊和光吸收的水下场景深度估计方法(image blurriness and light absorption,IBLA),在不同色调和光照条件下都能很好地恢复水下图像。基于物理模型的复原方法考虑了造成水下图像退化的原因,使图像增强效果得到进一步提高,但该方法需要物理先验知识,对模型的参数估计存在一定的偏差,恢复结果易产生失真问题。基于数据驱动的增强方法被认为是水下图像增强领域的深度学习技术,在水下图像增强方面表现出卓越的性能。例如,Li等人[9]将水下成像模型与水下场景的光学特性相结合,提出了一种利用卷积神经网络的水下图像增强模型(UWCNN),能够直接构建清晰的水下图像。Islam等人[3]基于条件生成对抗网络设计了一种实时增强模型(FUnIE-GAN),根据图像的全局内容、色彩表现和局部纹理评估图像质量。Salma等人[10]构建了含有两个生成器的条件生成对抗网络算法(generative adversarial network with dual generator dewatering,DGD-cGAN),分别用于去除色偏和雾化。尽管深度学习算法在水下图像增强领域已经取得了不错的成果,但是未能考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题,这限制了基于数据驱动方法性能的进一步提高。
近几年,Transformer[11]因其强大的特征提取能力在计算机视觉领域得到了越来越多的关注,且自注意力机制可以有效地对全局特征进行建模并融合多尺度特征,提升算法对图像细节的重建能力。针对现有方法所存在的问题,本文提出了一种结合Transformer与生成对抗网络(generative adversarial network,GAN)的水下图像增强算法(TGAN)。该算法以生成对抗网络为基础框架,生成网络中引入了基于空间自注意力机制的全局特征建模Transformer模块(global feature modeling transformer,GFMT)和多尺度特征融合Transformer模块(multiscale feature fusion transformer,MSFFT),加强了算法对衰减更严重的颜色通道和空间区域的关注,可有效解决现有方法增强后的图像存在的局部色偏、清晰度低、亮度低等问题。
1. 相关理论
1.1 生成对抗网络
GAN包括生成网络和判别网络两个部分,通过对抗训练在生成网络和判别网络之间建立一个数学函数。生成网络采用参数化概率生成模型,接收随机噪声并通过逆变换采样,有效地拟合输入训练集数据的实际分布情况,进而生成符合输入训练集数据特点的近似信息。判别网络是一种分类模型,对于输入的两种数据,其数据处理流程是将真实的训练数据记为真标签,生成网络生成的虚假数据记为假标签,通过计算损失值,对真实数据的判别趋近于真,对生成数据的判别趋近于假,并反馈给生成网络,不断训练模型,更新网络的参数。GAN的目标函数可以用式(1)表示:
$$ \min\limits_G \max\limits_D V(D, G)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))] $$ (1) 式中:x表示输入生成网络的随机噪声;y表示真实的训练数据;G(x)表示生成网络生成的虚假数据;E表示数学期望;判别网络D旨在最大化V(D, G);生成网络G旨在最小化V(D, G)。通过这种对抗性的学习方式,GAN可以生成高质量的、与真实数据相似的虚假数据。GAN的整体网络结构如图 1所示。
1.2 Transformer模型
Transformer是一种基于自注意力机制(self-attention mechanism)的深度神经网络模型,由编码器和解码器组成。编码器用于将输入序列编码成一个高维的特征向量,而解码器则使用编码器的输出来生成目标序列。Transformer的核心算法是大量的多头自注意力模块,能够直接提取数据样本的整体特征,从而更好地处理长序列和对序列的全局信息进行建模。同时,Transformer也使用了残差连接和层标准化技术来加速训练,并且可以通过并行计算来进一步提高效率。单层Transformer模型的结构如图 2所示。
2. 本文算法
2.1 TGAN网络增强模型
本文提出的水下图像增强网络模型TGAN由生成网络和判别网络两部分组成。生成网络的目的是学习清晰的水下图像的概率分布,并且通过反向传播算法训练生成网络中的权重,最终生成质量更好的水下图像,其由4部分组成,分别是编码器、GFMT模块、MSFFT模块和解码器。编码器由连续的卷积层和下采样操作组成,它负责提取输入图像的特征。解码器由连续的反卷积层和上采样操作组成,它负责将编码器提取的特征图映射回原始图像的尺寸,并还原更精细的图像细节。对于输入生成网络中的原始图像,首先经过5次下采样操作,然后作为GFMT模块的输入,再经过GFMT模块特征重映射后,输出直接发送到第一个上采样模块。同时4个下采样模块的输出作为MSFFT模块的输入,解码器中4个不同尺度的上采样模块将接收来自MSFFT模块的4个输出。
判别网络旨在区分出生成网络输出的图像和参考图像,其结构类似于PatchGAN[12]网络,包含5个下采样模块,输出为16×16×1大小的补丁块,该输出表示两个输入图像之间的平均差异程度。当某个对应区域存在较大的差异时,输出中对应该位置的像素值会越接近于0,反之则接近于1,每个补丁像素点对应于输入图像的一个局部感受野。这种方法的优点在于,不仅减少了参数量和计算量,还能够对图像进行局部细节增强。TGAN的网络结构及数据处理流程如图 3所示。
2.2 GFMT全局特征建模模块
针对水下图像在不同空间区域退化不均匀的问题,本文设计了一种基于空间自注意力机制的全局特征建模Transformer模块(GFMT)来替换生成网络中原有的瓶颈层(bottleneck)[13]。GFMT模块能够准确地建模水下图像的全局特征,加强网络对衰减较为严重的空间区域的关注,从而使增强后的水下图像细节更清晰,内容分布更均匀。GFMT模块的详细结构如图 4所示。
GFMT模块的数据处理流程如下,对于输入GFMT的特征图Fin,首先使用线性投影将特征图拉伸成特征序列Sin,可表示为:
$$ S_{\mathrm{in}}=\boldsymbol{W}^* \boldsymbol{F}_{\mathrm{in}} $$ (2) 式中:W表示权重矩阵;W*Fin表示线性投影操作。
然后将特征序列Sin输入到Transformer层中,Transformer层包含多头注意力模块(Multi-Head Attention,MHA)和前馈网络(Feed Forward Networks,FFN),FFN包括一个标准化层和一个全连接层(多层感知机,Multilayer Perceptron,MLP),Transformer层的输出可由下式计算:
$$ S^{\prime} =\operatorname{MHA}\left(\mathrm{LN}\left(S_{\text {in }}\right)\right)+S_{\text {in }} $$ (3) $$ S =\operatorname{FFN}\left(\mathrm{LN}\left(S^{\prime}\right)\right)+S^{\prime} $$ (4) 式中:LN(layer normalization)表示层标准化;S表示Transformer层的输出序列。经过特征重映射后GFMT模块的输出与输入大小保持一致。
2.3 MSFFT特征提取模块
为解决水下图像在不同颜色通道衰减不一致的问题[14],本文设计了一种多尺度特征融合Transformer模块(MSFFT),MSFFT模块利用通道自注意力机制对编码器输出的特征进行通道级多尺度特征融合,并将融合结果传递给解码器,能够加强网络对衰减更严重的颜色通道的关注,从而实现色彩均匀的水下图像增强,有效解决水下图像存在的颜色偏差问题。MSFFT模块的详细结构如图 5所示。
MSFFT模块的输入是不同尺度的特征图Fi(i=1, 2, 3, 4),其整体的数据处理流程是首先使用线性投影操作将特征图拉伸成特征序列Si(i=1, 2, 3, 4),然后计算得到6个矩阵Qi(i=1, 2, 3, 4)、K和V:
$$ \boldsymbol{Q}_i=\boldsymbol{S}_i \boldsymbol{W}_{Q_t}, \boldsymbol{K}=\boldsymbol{S} \boldsymbol{W}_K, \boldsymbol{V}=\boldsymbol{S} \boldsymbol{W}_V $$ (5) 式中:$ {\boldsymbol W_{{Q_i}}} $(i=1, 2, 3, 4),WK和WV表示可学习的权重矩阵;S是由Si(i=1, 2, 3, 4)在通道维度上叠加生成的。
计算得到的6个矩阵Qi(i=1, 2, 3, 4)、K和V经过通道注意力输出CAi,可表示为:
$$ \mathrm{CA}_i=\operatorname{SoftMax}\left(\operatorname{IN}\left(\frac{\boldsymbol{Q}_i^{\mathrm{T}} \boldsymbol{K}}{\sqrt[2]{C}}\right)\right) \boldsymbol{V}^{\mathrm{T}} $$ (6) 式中:IN(instance normalization)表示实例归一化操作[15];C表示4个尺度上通道数之和;QiT和VT表示Qi和V的转置矩阵。这个注意力操作是沿着通道轴而不是经典的补丁轴[16]执行,引导网络关注图像质量下降更严重的颜色通道。
CAi经过前馈网络传播得到输出Qi(i=1, 2, 3, 4),也就是通道级多头注意力模块(CMHA)的输出可以表示为:
$$ \boldsymbol{Q}_i=\mathrm{CA}_i+\operatorname{MLP}\left(\mathrm{LN}\left(\mathrm{CA}_i\right)\right) $$ (7) 式中:MLP代表多层感知机,公式(7)的操作需要依次执行4次。
最后,对4个特征序列Qi(i=1, 2, 3, 4)执行特征映射,将它们重组为特征图作为解码器上采样模块的输入。
2.4 损失函数
为了利用LAB颜色空间更宽的色域表示范围以及对亮度和对比度进行更准确的描述,本文设计了一种结合RGB和LAB颜色空间的双颜色空间损失函数来训练增强网络模型。首先,将RGB颜色空间的图像转换到LAB颜色空间,可表示为:
$$ L^{G(x)}, A^{G(x)}, B^{G(x)}=\operatorname{RGB} 2 \operatorname{LAB}(G(x)) $$ (8) $$ L^y, A^y, B^y=\operatorname{RGB} 2 \operatorname{LAB}(G(y)) $$ (9) 式中:x,y和G(x)分别表示原始的水下图像、原始图像对应的参考图像和生成网络输出的图像。
LAB颜色空间中的损失函数可表示为公式(10):
$$ \begin{array}{l} \operatorname{Loss}_{L A S}(G(x), y)=E_{x, y}\left(\left[L^{y}-L^{Q(x)}\right)^{2}-\right. \\ \left.\sum\limits_{i=1}^{n} Q\left(A_{i}^{y}\right) \log \left(Q\left(A_{i}^{e(x)}\right)\right)-\sum\limits_{i=1}^{n} Q\left(B_{i}^{y}\right) \log \left(Q\left(B_{i}^{Q(x)}\right)\right)\right] \end{array} $$ (10) 式中:Q表示量化操作,用于将连续值映射到离散值;E表示数学期望;L、A、B分别表示LAB颜色空间中图像的亮度分量、从绿色到红色的分量和从蓝色到黄色的分量。
生成网络的3个损失函数分别为RGB颜色空间下的L2损失函数(表示为LossRGB),色彩感知损失Lossper[17]和LossLAB,可表示为:
$$ \operatorname{Loss}_{\mathrm{Res}}=E_{x, y}\left[\|y-G(x)\|_{\mathrm{L}}\right] $$ (11) $$ \operatorname{Loss}_{\text {pot }}=\sqrt{\frac{\left(512+r_{\operatorname{mata}}\right) r^{2}}{256}+4 g^{2}+\frac{\left(767-r_{\operatorname{man}}\right) b^{2}}{256}} $$ (12) 式中:r、g、b分别表示生成图像与参考图像在红、绿、蓝颜色通道上的差值;rmean表示生成图像与参考图像红色通道的平均值。
此外,引入标准的GAN损失函数来表示生成图像和参考图像之间的差异,公式如下:
$$ L_{\mathrm{GAN}}(G, D)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))]$$ (13) 式中:D表示判别网络,旨在最大化LGAN(G, D),以准确地区分生成的图像与参考图像;G表示生成网络,作用是将生成图像和参考图像之间的差异最小化。
整体的损失函数可表示为:
$$ \begin{gathered} L = \arg \mathop {\min }\limits_G \mathop {\max }\limits_D {L_{{\text{GAN}}}}\left( {G,D} \right) + \alpha {\text{Los}}{{\text{s}}_{{\text{LAB}}}}\left( {G\left( x \right),y} \right) + \hfill \\ \beta {\text{Los}}{{\text{s}}_{{\text{RGB}}}}\left( {G\left( x \right),y} \right) + \gamma {\text{Los}}{{\text{s}}_{{\text{per}}}}\left( {G\left( x \right),y} \right) \hfill \\ \end{gathered} $$ (14) 式中:α,β,γ为超参数,进行大量实验对比后分别设置为0.2,0.2,0.6。
3. 实验结果与分析
3.1 实验数据
现有的水下图像数据集或多或少存在着图像数量、水下场景少,甚至不是真实的水下场景等缺点,限制了基于数据驱动的水下图像增强方法的性能。因此本文构建了包含4900张图像的数据集UITD,分为训练集和测试集两个部分。训练集包含2400对场景丰富的水下图像和对应的参考图像,其中1000对来自LSUI数据集[18],800对来自UIEB数据集[19],600对来自EUVP数据集[3]。测试集由两部分组成,第一部分Test-1是从EUVP数据集中挑选的60张有参考的水下图像,第二部分Test-2是从UIEB数据集中挑选的40张无参考的水下图像。
3.2 实验设置
本实验在Ubuntu操作系统下,通过PyTorch深度学习框架实现。硬件配置如下:AMD 5950X CPU,64 GB运行内存,NVIDIA GeForce RTX3090(24 GB)GPU。
训练时,batchsize设置为6,所有输入图像调整到固定大小(256×256×3),像素值归一化到[0, 1]区间。使用Adam优化算法对模型进行800个epoch训练,优化算法参数β1设置为0.9,β2设置为0.999,对于前500个epoch和后300个epoch,网络初始学习率分别设置为0.0005和0.0002,学习率每40个epoch下降20%。
3.3 实验分析
本文进行了消融实验和对比实验,并在独立测试集上对实验结果进行了定性和定量的对比分析。对于带有参考图像的测试数据集,本文使用峰值信噪比(peak signal-to-noise ratio,PSNR)[20]和结构相似性(structural similarity,SSIM)[21]指标进行全参考评估,这两个指标反映了待评价图像与参考图像的接近程度,其中PSNR值越高代表图像内容越接近,SSIM值越高代表结构和纹理越相似。对于无参考测试数据集中的图像,本文使用了无参考评价指标UCIQE(undewater color image quality evaluation)[22],UIQM(underwater image quality measure)[23]和NIQE(natural image quality evaluator)[24]。UCIQE利用色度、饱和度和对比度的线性组合进行定量评估,分别量化色偏、低清晰度和低对比度。UIQM是水下图像色度度量、水下图像清晰度度量和水下图像对比度度量的线性组合。NIQE利用在自然图像中观察到的信息对图像质量进行评估。其中,UIQM和UCIQE值越高则图像质量越好,NIQE值越小则图像越自然。
3.3.1 消融实验
为了验证本文模型的GFMT模块,MSFFT模块和LossLAB损失项3个组件对于增强效果的影响,本文在Test-1数据集上进行了消融实验。对比的模型包括:不含3个组件的基准模型(benchmark model,BL),仅包含GFMT模块的模型(BL+GFMT),仅包含MSFFT模块的模型(BL+MSFFT),仅包含LossLAB损失项的模型(BL+LossLAB)以及完整模型(TGAN)。除对比项外,其余各方面均保持一致。不同模型在测试集Test-1上的定性对比如图 6所示。
观察图 6可知,BL+GFMT增强结果比BL具有更少的噪声和伪影,这得益于GFMT模块能够关注水下图像衰减更严重的空间区域,但水下图像的颜色偏差问题仍然存在;由于MSFFT模块能够将不同尺度的特征融合之后进行增强,BL+MSFFT的增强结果有效提高了水下图像的对比度和饱和度,但是图像的亮度方面表现不佳;BL+LossLAB的增强结果整体颜色更接近参考图像。虽然BL+GFMT和BL+MSFFT的增强结果分布均匀,但整体颜色不够准确,完整模型的增强结果具有最好的视觉质量。由此可知,所研究的3个组件在增强过程中都有其特定的功能性,它们的集成可以提高网络的整体性能。
同时,为客观评价各组件的功能性,对Test-1数据集进行定量分析,得到的结果如表 1。完整模型在Test-1数据集上取得了最好的定量性能,增强后的图像最接近参考图像,这证明了结合GFMT模块,MSFFT模块和LossLAB损失项3个组件对于增强效果的有效性。
表 1 在测试集Test-1上的消融实验结果Table 1. Experimental results of ablation study on Test-1Models PSNR SSIM BL 19.2556 0.7014 BL+GFMT 21.6849 0.7635 BL+MSFFT 22.3719 0.7813 BL+LossLAB 21.4161 0.7281 TGAN 24.0546 0.8257 3.3.2 对比实验
为了进一步评估本文算法对水下图像增强的有效性,分别在Test-1和Test-2数据集上将本文算法与现有的7个经典的水下图像增强方法进行定性和定量的对比分析,对比方法包括基于非物理模型的增强方法(CLAHE[5],RGHS[6])、基于物理模型的复原方法(UDCP[7],IBLA[8])和基于数据驱动的增强方法(UWCNN[9],FUnIE-GAN[10],DGD-cGAN[11])。
不同方法在测试集Test-1上的定性对比结果如图 7所示,基于非物理模型的CLAHE方法增强过的图像会出现曝光现象,与参考图像在颜色和细节上存在一定差距。RGHS方法处理深绿色图像时效果较差。基于物理模型的UDCP方法会加重图像的色偏现象,尤其是绿色和红色偏差。IBLA方法能解决一定程度上的色偏问题,但整体增强效果欠佳。基于数据驱动的UWCNN方法处理后的图像呈现出黄色颜色偏差,且亮度偏暗。FUnIE-GAN方法对深绿色图像增强效果较差,且图像的细节方面还有提升空间。DGD-cGAN方法增强后的图像亮度会得到一定提升,但绿色偏差问题依然存在。相比之下,本文所提算法在颜色校正、提升亮度、增强对比度和饱和度等方面均展示出极具竞争力的性能,并且有效地增强了图像细节,在部分图片上取得了比参考图像更好的视觉效果。
图 7 不同方法在测试集Test-1上的定性对比(a)水下图像;(b)CLAHE;(c)RGHS;(d)UDCP;(e)IBLA;(f)UWCNN;(g)FUnIE-GAN;(h)DGD-cGAN;(i)本文方法;(j)参考图像Figure 7. Qualitative comparison of different methods on Test-1. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method; (j)Reference images为客观验证本文算法的性能,采用PSNR和SSIM两种参考图像质量评价指标,将本文算法与上述其他方法做定量对比分析。两种指标的均值如表 2所示。由表 2可知,本文算法在PSNR和SSIM评价指标上的平均值为24.0546和0.8257,均优于其他对比方法,分别比第二名提升了5.8%和1.8%,这证明了GFMT和MSFFT模块可以在捕捉全局特征的同时,有效加强对衰减严重的颜色通道和空间区域的关注,从而使本文算法在图像细节增强、校正色偏、提高对比度和提升亮度方面都有表现出很好的效果。
表 2 不同方法在测试集Test-1上的定量对比Table 2. Quantitative comparison of different methods on Test-1Methods PSNR SSIM CLAHE 18.4342 0.7653 RGHS 18.2053 0.7672 UDCP 14.0555 0.5650 IBLA 19.9222 0.7487 UWCNN 18.1209 0.7420 FUnIE-GAN 22.7413 0.8112 DGD-cGAN 17.3954 0.6955 TGAN 24.0546 0.8257 为了更加全面和准确地评估本文算法的性能,在无参考测试集Test-2上,同样将本文算法与上述其他方法进行定性和定量对比分析。定性对比分析结果如图 8。观察图 8可以发现,CLAHE方法不能完全消除色偏问题。RGHS方法虽提升了一定亮度,但在颜色校正方面效果不佳。基于物理模型的UDCP和IBLA方法复原后的图像加重了色偏且亮度过低。UWCNN方法增强后的图像颜色偏黄,且亮度偏低。FUnIE-GAN方法处理后的图像偏暗,细节纹理不够突出。DGD-cGAN方法处理后的图像整体颜色偏绿,增强效果较差。与上述方法相比,本文算法在对比度和清晰度提升,细节增强以及校正颜色偏差等方面展示出最令人满意的效果,增强后的图像纹理更加突出且视觉感受更好。
为客观地评价各方法在无参考测试集Test-2上的性能,本文选取3个非参考图像质量评价指标UCIQE、UIQM和NIQE对增强结果进行定量对比分析。表 3展示了不同方法在测试集Test-2上的评价指标平均得分。从表 3中可以看出,本文方法在UCIQE和UIQM评价指标上取得了最优的结果,NIQE评价指标仅大于IBLA方法,这进一步说明了本文方法在图像细节增强、自然表现和视觉感知提升等方面的表现更为突出。
表 3 不同方法在测试集Test-2的定量对比Table 3. Quantitative comparison of different methods on Test-2Methods UCIQE UIQM NIQE CLAHE 0.4516 3.1570 6.5814 RGHS 0.4673 2.4674 6.4705 UDCP 0.4216 2.0992 5.7852 IBLA 0.4731 2.3331 5.7619 UWCNN 0.3508 3.0378 6.7935 FUnIE-GAN 0.4314 3.0997 6.2796 DGD-cGAN 0.3689 3.1810 7.2689 TGAN 0.4846 3.2963 5.7743 4. 结论
水下图像增强是完成各种水下作业的重要支撑技术。针对水下图像存在的对比度低、清晰度差和色彩失真等退化问题,本文提出了一种基于Transformer和生成对抗网络的水下图像增强算法(TGAN)。生成网络中集成的Transformer模块可以解决现有方法中没有考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题,其中GFMT模块能够准确获取水下图像的全局特征,加强网络对图像衰减较为严重区域的关注,从而使算法增强后的图像细节更加清晰。MSFFT模块可以捕获多尺度特征,聚焦退化严重的颜色通道,实现色彩均匀的水下图像增强。此外,结合RGB和LAB颜色空间特征设计的多项损失函数提高了输出图像的亮度和对比度。实验表明,本文算法在评价指标PSNR、SSIM、UCIQE和UIQM上均取得了最优结果,在水下图像增强方面能够有效地校正色偏,均匀地提高清晰度,同时提升图像的整体视觉感知效果。但基于Transformer网络的训练通常需要较大的数据集,未来的工作将尝试对模型进行改进,以提升在小数据集上模型的训练效果。
-
表 1 MSCB模块参数设置
Table 1 MSCB module parameter settings
Kernel size Outputs channel Activation function Branch1 1×1 16 R-Relu Branch2 3×3Maxpooling
1×116
16R-Relu Branch3 1×1
3×3
3×332
64
16R-Relu
R-Relu
R-ReluBranch4 1×1
1×7
7×164
128
16R-Relu
R-Relu
R-Relu表 2 TNO数据集与VOT数据集对比实验客观评价指标均值
Table 2 Mean values of objective evaluation indicators in comparative experiments between TNO dataset and VOT dataset
Algorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2704 10.45 11.54 0.68 0.45 36.33 6.95 SDNet 2936 10.49 11.82 0.70 0.45 33.14 6.69 DenseFuse 2696 10.61 8.77 0.72 0.45 34.83 6.78 NestFuse 2999 11.33 10.02 0.71 0.53 41.67 6.98 IFCNN 2701 10.68 12.42 0.71 0.53 35.43 6.74 FusionGAN 3645 10.48 6.08 0.66 0.22 29.61 6.52 GANMcC 3290 10.55 6.14 0.69 0.28 33.33 6.72 Ours 2657 11.67 10.91 0.71 0.56 42.71 7.01 Note: Bold font is the optimal value for each column 表 3 RoadScene数据集对比实验客观评价指标均值
Table 3 Mean of objective evaluation indicators for comparative experiments on the RoadScene dataset
Algorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2273 11.77 15.01 0.68 0.51 42.87 7.26 SDNet 2866 12.10 15.03 0.70 0.51 44.97 7.31 DenseFuse 2919 11.82 12.32 0.69 0.48 42.57 7.22 NestFuse 2319 12.45 13.28 0.67 0.50 49.97 7.38 IFCNN 2328 11.77 15.07 0.70 0.51 39.18 7.12 FusionGAN 4460 11.65 8.32 0.59 0.26 38.98 7.06 GANMcC 3807 11.80 8.99 0.65 0.35 43.76 7.23 Ours 2231 12.57 13.90 0.69 0.54 50.03 7.40 Note: Bold font is the optimal value for each column 表 4 消融实验客观指标
Table 4 Objective indicators of ablation experiments
Experiment MSE MI SF SSIM QAB/F STD EN Conv 2002 10.58 8.59 0.70 0.45 35.88 6.77 Conv + D-CBAM 1832 10.61 8.86 0.69 0.47 36.21 6.80 MSCB 2122 11.51 10.08 0.71 0.51 39.51 6.95 Note: Bold font is the optimal value for each column -
[1] 代立杨, 刘刚, 肖刚. 基于FRC框架的红外与可见光图像融合方法[J]. 控制与决策, 2021, 36(11): 2690-2698. DAI L Y, LIU G, XIAO G. Infrared and visible image fusion based on FRC algorithm[J]. Control and Decision, 2021, 36(11): 2690-2698.
[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019, 45: 153-178. DOI: 10.1016/j.inffus.2018.02.004
[3] LI X S, WAN W J, ZHOU F Q, et al. Medical image fusion based on sparse representation and neighbor energy activity[J]. Biomedical Signal Processing and Control, 2023, 80(2): 104353.
[4] LIU G, LIN Z, YAN S, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 171-184.
[5] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576 SUN Bin, ZHUGE Wuwei, GAO Yunxiang, et al. Infrared and visible image fusion based on latent low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576
[6] LI H, WU X J. Multi-focus image fusion using dictionary learning and low-rank representation[C]//Proceedings of the 9th International Conference on Image and Graphics, 2017: 675-686.
[7] LIU C H, QI Y, DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics and Technology, 2017, 83: 94-102. DOI: 10.1016/j.infrared.2017.04.018
[8] GAO R, Vorobyov S A, ZHAO H. Image fusion with cosparse analysis operator[J]. IEEE Signal Processing Letters, 2017, 24(7): 943-947. DOI: 10.1109/LSP.2017.2696055
[9] LI Y H, LIU G, Bavirisetti D P, et al. Infrared-visible image fusion method based on sparse and prior joint saliency detection and LatLRR-FPDE[J]. Digital Signal Processing, 2023, 134: 103910. DOI: 10.1016/j.dsp.2023.103910
[10] 蒋杰伟, 刘尚辉, 金库, 等. 基于FCM与引导滤波的红外与可见光图像融合[J]. 红外技术, 2023, 45(3): 249-256. http://hwjs.nvir.cn/article/id/67d60996-565d-4597-96a1-937255cc33cc JIANG Jiewei, LIU Shanghui, JIN Ku, et al. Infrared and visible-light image fusion based on FCM and guided filtering[J]. Infrared Technology, 2023, 45(3): 249-256. http://hwjs.nvir.cn/article/id/67d60996-565d-4597-96a1-937255cc33cc
[11] 李文, 叶坤涛, 舒蕾蕾, 等. 基于高斯模糊逻辑和ADCSCM的红外与可见光图像融合算法[J]. 红外技术, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c LI W, YE K T, SHU L L, et al. Infrared and visible image fusion algorithm based on Gaussian fuzzy logic and adaptive dual-channel spiking cortical model[J]. Infrared Technology, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c
[12] LI S, KANG X, HU J. Image fusion with guided filtering[J]. IEEE Transactions on Image Processing, 2013, 22(7): 2864-2875. DOI: 10.1109/TIP.2013.2244222
[13] 霍星, 邹韵, 陈影, 等. 双尺度分解和显著性分析相结合的红外与可见光图像融合[J]. 中国图象图形学报, 2021, 26(12): 2813-2825. HUO X, ZOU Y, CHEN Y, et al. Dual-scale decomposition and saliency analysis based infrared and visible image fusion[J]. Journal of Image and Graphics, 2021, 26(12): 2813-2825.
[14] 刘明葳, 王任华, 李静, 等. 各向异性导向滤波的红外与可见光图像融合[J]. 中国图象图形学报, 2021, 26(10): 2421-2432. DOI: 10.11834/jig.200339 LIU M W, WANG R H, LI J, et al. Infrared and visible image fusion with multi-scale anisotropic guided filtering[J]. Journal of Image and Graphics, 2021, 26(10): 2421-2432. DOI: 10.11834/jig.200339
[15] LIU Y, CHEN X, WANG Z, et al. Deep learning for pixel-level image fusion: recent advances and future prospects[J]. Inf. Fusion, 2018, 42: 158-173. DOI: 10.1016/j.inffus.2017.10.007
[16] MA J, WEI Y, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Inf. Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[17] MA J, ZHANG H, SHAO Z, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.
[18] Prabhakar K R, Srikar V S, Babu R V. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure imagepairs[C]//IEEE International Conference on Computer Vision (ICCV), 2017: 4724-4732.
[19] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623. DOI: 10.1109/TIP.2018.2887342
[20] ZHANG Y, LIU Y, SUN P, et al. IFCNN: a general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011
[21] 陈永, 张娇娇, 王镇. 多尺度密集连接注意力的红外与可见光图像融合[J]. 光学精密工程, 2022, 30(18): 2253-2266. DOI: 10.37188/OPE.20223018.2253 CHEN Yong, ZHANG Jiaojiao, WANG Zhen. Infrared and visible image fusion based on multi-scale dense attention connection network[J]. Optics and Precision Engineering, 2022, 30(18): 2253-2266. DOI: 10.37188/OPE.20223018.2253
[22] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 2818-2826.
[23] WOO S, PARK J, LEE J, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision, 2018, 06521: 3-19.
[24] 李霖, 王红梅, 李辰凯. 红外与可见光图像深度学习融合方法综述[J]. 红外与激光工程, 2022, 51(12): 20220125. LI L, WANG H M, LI C K. A review of deep learning fusion methods for infrared and visible images[J]. Infrared and Laser Engineering, 2022, 51(12): 20220125.
[25] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision, 2014: 740-755.
[26] XU H, MA J, JIANG J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502-518. DOI: 10.1109/TPAMI.2020.3012548
[27] ZHANG H, MA J. SDNet: a versatile squeeze-and-decomposition network for real-time image fusion[J]. International Journal of Computer Vision, 2021, 129: 2761-785. DOI: 10.1007/s11263-021-01501-8
[28] LI H, WU X J, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230
[29] TOET A. TNO image fusion dataset [EB/OL]. [2021-02-20]. https://figshare.com/articles/TN Image Fusion Dataset/1008029.
[30] XU Han. Roadscene database[DB/OL]. [2020-08-07]. https://github.com/hanna-xu/RoadScene.
[31] Kristan M, Matas J, Leonardis A, et al. The eighth visual object tracking VOT2020 challenge results[C]//Proceedings of the 16th European Conference on Computer Vision, 2020, 12539: 547-601.