Infrared and Visible-Light Image Fusion Based on FCM and Guided Filtering
-
摘要: 针对传统红外与可见光图像融合算法中存在的目标模糊、细节丢失、算法不稳定等问题,提出了一种基于模糊C均值聚类(Fuzzy C-means, FCM)与引导滤波的红外与可见光图像融合方法。原图像经过非下采样剪切波变换(Nonsubsampled Shearlet Transform, NSST)后对低频子带进行引导滤波增强,再利用FCM与双通道脉冲发放皮层模型(Dual Channel Spiking Cortical Model, DCSCM)结合对高低频子带进行融合,最后经NSST逆变换得到融合图像。实验结果表明,本文算法稳定,主观评价上所得融合图像目标明确,细节保留较为完整,客观评价上在标准差、互信息、平均梯度、信息熵和边缘保留因子等评价标准中表现优良。
-
关键词:
- 图像处理 /
- 模糊C均值聚类 /
- 引导滤波 /
- 双通道脉冲发放皮层模型
Abstract: To solve the problems of vague targets, detail loss, and algorithm instability in traditional infrared and visible-light image fusion algorithms, a fusion method based on fuzzy c-means (FCM) clustering and guided filtering is proposed. The low-frequency sub-band was enhanced by guided filtering after applying a non-subsampled shearlet transform (NSST) to the original image. The low- and high-frequency sub-bands were then fused using FCM clustering and a dual-channel spiking cortical model. Finally, the fused image was obtained using an inverse NSST transform. The experimental results showed that the proposed algorithm was stable, the fusion image had clear targets and relatively complete details in the subjective evaluation, and the algorithm had an excellent standard deviation, mutual information, average gradient, information entropy, and edge retention factor in the objective evaluation. -
0. 引言
建设海洋强国是实现中华民族伟大复兴的重大战略任务,有效实施利用海洋资源战略并掌握高效开发海洋资源技术的国家,必将在未来的经济和社会发展中占取先机。获取海洋信息是充分了解海洋的关键,作为海洋信息的载体,水下图像在海洋资源探索和水下作业任务方面发挥着重要作用。但是,由于水下成像环境的复杂和光在水中传播的散射效应[1]等因素,采集的水下图像通常会产生严重的退化问题,主要呈现为颜色偏差、对比度低和细节模糊等,严重限制了水下图像在海洋勘测、水下目标检测[2]和水下机器人[3]等实际场景中的应用。因此,亟须寻找一种有效的增强方法来解决水下图像的退化问题。
水下图像处理一般可以分为图像复原和图像增强[4]两大类。其中,基于非物理模型的增强方法主要是通过修改像素值来提高水下图像的视觉质量,忽略了水下图像的物理退化过程。例如,Hitam等人[5]提出了一种直方图均衡算法用于处理水下图像,减少了噪声的产生同时提高了对比度。此外,Huang等人[6]构建了一种基于自适应参数采集的全局直方图拉伸方法(relative global histogram stretching,RGHS),保留了图像细节的同时有效消除了噪声的影响。基于物理模型的复原方法主要是对成像过程进行建模,通过反演水下物理成像模型获得高质量的水下图像。Paulo等人[7]利用暗通道先验(dark channel prior,DCP)原理,设计了一种估计水下环境传输的水下DCP算法,克服了DCP在水下成像应用中的局限性。此外,Peng等人[8]设计了一种基于图像模糊和光吸收的水下场景深度估计方法(image blurriness and light absorption,IBLA),在不同色调和光照条件下都能很好地恢复水下图像。基于物理模型的复原方法考虑了造成水下图像退化的原因,使图像增强效果得到进一步提高,但该方法需要物理先验知识,对模型的参数估计存在一定的偏差,恢复结果易产生失真问题。基于数据驱动的增强方法被认为是水下图像增强领域的深度学习技术,在水下图像增强方面表现出卓越的性能。例如,Li等人[9]将水下成像模型与水下场景的光学特性相结合,提出了一种利用卷积神经网络的水下图像增强模型(UWCNN),能够直接构建清晰的水下图像。Islam等人[3]基于条件生成对抗网络设计了一种实时增强模型(FUnIE-GAN),根据图像的全局内容、色彩表现和局部纹理评估图像质量。Salma等人[10]构建了含有两个生成器的条件生成对抗网络算法(generative adversarial network with dual generator dewatering,DGD-cGAN),分别用于去除色偏和雾化。尽管深度学习算法在水下图像增强领域已经取得了不错的成果,但是未能考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题,这限制了基于数据驱动方法性能的进一步提高。
近几年,Transformer[11]因其强大的特征提取能力在计算机视觉领域得到了越来越多的关注,且自注意力机制可以有效地对全局特征进行建模并融合多尺度特征,提升算法对图像细节的重建能力。针对现有方法所存在的问题,本文提出了一种结合Transformer与生成对抗网络(generative adversarial network,GAN)的水下图像增强算法(TGAN)。该算法以生成对抗网络为基础框架,生成网络中引入了基于空间自注意力机制的全局特征建模Transformer模块(global feature modeling transformer,GFMT)和多尺度特征融合Transformer模块(multiscale feature fusion transformer,MSFFT),加强了算法对衰减更严重的颜色通道和空间区域的关注,可有效解决现有方法增强后的图像存在的局部色偏、清晰度低、亮度低等问题。
1. 相关理论
1.1 生成对抗网络
GAN包括生成网络和判别网络两个部分,通过对抗训练在生成网络和判别网络之间建立一个数学函数。生成网络采用参数化概率生成模型,接收随机噪声并通过逆变换采样,有效地拟合输入训练集数据的实际分布情况,进而生成符合输入训练集数据特点的近似信息。判别网络是一种分类模型,对于输入的两种数据,其数据处理流程是将真实的训练数据记为真标签,生成网络生成的虚假数据记为假标签,通过计算损失值,对真实数据的判别趋近于真,对生成数据的判别趋近于假,并反馈给生成网络,不断训练模型,更新网络的参数。GAN的目标函数可以用式(1)表示:
$$ \min\limits_G \max\limits_D V(D, G)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))] $$ (1) 式中:x表示输入生成网络的随机噪声;y表示真实的训练数据;G(x)表示生成网络生成的虚假数据;E表示数学期望;判别网络D旨在最大化V(D, G);生成网络G旨在最小化V(D, G)。通过这种对抗性的学习方式,GAN可以生成高质量的、与真实数据相似的虚假数据。GAN的整体网络结构如图 1所示。
1.2 Transformer模型
Transformer是一种基于自注意力机制(self-attention mechanism)的深度神经网络模型,由编码器和解码器组成。编码器用于将输入序列编码成一个高维的特征向量,而解码器则使用编码器的输出来生成目标序列。Transformer的核心算法是大量的多头自注意力模块,能够直接提取数据样本的整体特征,从而更好地处理长序列和对序列的全局信息进行建模。同时,Transformer也使用了残差连接和层标准化技术来加速训练,并且可以通过并行计算来进一步提高效率。单层Transformer模型的结构如图 2所示。
2. 本文算法
2.1 TGAN网络增强模型
本文提出的水下图像增强网络模型TGAN由生成网络和判别网络两部分组成。生成网络的目的是学习清晰的水下图像的概率分布,并且通过反向传播算法训练生成网络中的权重,最终生成质量更好的水下图像,其由4部分组成,分别是编码器、GFMT模块、MSFFT模块和解码器。编码器由连续的卷积层和下采样操作组成,它负责提取输入图像的特征。解码器由连续的反卷积层和上采样操作组成,它负责将编码器提取的特征图映射回原始图像的尺寸,并还原更精细的图像细节。对于输入生成网络中的原始图像,首先经过5次下采样操作,然后作为GFMT模块的输入,再经过GFMT模块特征重映射后,输出直接发送到第一个上采样模块。同时4个下采样模块的输出作为MSFFT模块的输入,解码器中4个不同尺度的上采样模块将接收来自MSFFT模块的4个输出。
判别网络旨在区分出生成网络输出的图像和参考图像,其结构类似于PatchGAN[12]网络,包含5个下采样模块,输出为16×16×1大小的补丁块,该输出表示两个输入图像之间的平均差异程度。当某个对应区域存在较大的差异时,输出中对应该位置的像素值会越接近于0,反之则接近于1,每个补丁像素点对应于输入图像的一个局部感受野。这种方法的优点在于,不仅减少了参数量和计算量,还能够对图像进行局部细节增强。TGAN的网络结构及数据处理流程如图 3所示。
2.2 GFMT全局特征建模模块
针对水下图像在不同空间区域退化不均匀的问题,本文设计了一种基于空间自注意力机制的全局特征建模Transformer模块(GFMT)来替换生成网络中原有的瓶颈层(bottleneck)[13]。GFMT模块能够准确地建模水下图像的全局特征,加强网络对衰减较为严重的空间区域的关注,从而使增强后的水下图像细节更清晰,内容分布更均匀。GFMT模块的详细结构如图 4所示。
GFMT模块的数据处理流程如下,对于输入GFMT的特征图Fin,首先使用线性投影将特征图拉伸成特征序列Sin,可表示为:
$$ S_{\mathrm{in}}=\boldsymbol{W}^* \boldsymbol{F}_{\mathrm{in}} $$ (2) 式中:W表示权重矩阵;W*Fin表示线性投影操作。
然后将特征序列Sin输入到Transformer层中,Transformer层包含多头注意力模块(Multi-Head Attention,MHA)和前馈网络(Feed Forward Networks,FFN),FFN包括一个标准化层和一个全连接层(多层感知机,Multilayer Perceptron,MLP),Transformer层的输出可由下式计算:
$$ S^{\prime} =\operatorname{MHA}\left(\mathrm{LN}\left(S_{\text {in }}\right)\right)+S_{\text {in }} $$ (3) $$ S =\operatorname{FFN}\left(\mathrm{LN}\left(S^{\prime}\right)\right)+S^{\prime} $$ (4) 式中:LN(layer normalization)表示层标准化;S表示Transformer层的输出序列。经过特征重映射后GFMT模块的输出与输入大小保持一致。
2.3 MSFFT特征提取模块
为解决水下图像在不同颜色通道衰减不一致的问题[14],本文设计了一种多尺度特征融合Transformer模块(MSFFT),MSFFT模块利用通道自注意力机制对编码器输出的特征进行通道级多尺度特征融合,并将融合结果传递给解码器,能够加强网络对衰减更严重的颜色通道的关注,从而实现色彩均匀的水下图像增强,有效解决水下图像存在的颜色偏差问题。MSFFT模块的详细结构如图 5所示。
MSFFT模块的输入是不同尺度的特征图Fi(i=1, 2, 3, 4),其整体的数据处理流程是首先使用线性投影操作将特征图拉伸成特征序列Si(i=1, 2, 3, 4),然后计算得到6个矩阵Qi(i=1, 2, 3, 4)、K和V:
$$ \boldsymbol{Q}_i=\boldsymbol{S}_i \boldsymbol{W}_{Q_t}, \boldsymbol{K}=\boldsymbol{S} \boldsymbol{W}_K, \boldsymbol{V}=\boldsymbol{S} \boldsymbol{W}_V $$ (5) 式中:$ {\boldsymbol W_{{Q_i}}} $(i=1, 2, 3, 4),WK和WV表示可学习的权重矩阵;S是由Si(i=1, 2, 3, 4)在通道维度上叠加生成的。
计算得到的6个矩阵Qi(i=1, 2, 3, 4)、K和V经过通道注意力输出CAi,可表示为:
$$ \mathrm{CA}_i=\operatorname{SoftMax}\left(\operatorname{IN}\left(\frac{\boldsymbol{Q}_i^{\mathrm{T}} \boldsymbol{K}}{\sqrt[2]{C}}\right)\right) \boldsymbol{V}^{\mathrm{T}} $$ (6) 式中:IN(instance normalization)表示实例归一化操作[15];C表示4个尺度上通道数之和;QiT和VT表示Qi和V的转置矩阵。这个注意力操作是沿着通道轴而不是经典的补丁轴[16]执行,引导网络关注图像质量下降更严重的颜色通道。
CAi经过前馈网络传播得到输出Qi(i=1, 2, 3, 4),也就是通道级多头注意力模块(CMHA)的输出可以表示为:
$$ \boldsymbol{Q}_i=\mathrm{CA}_i+\operatorname{MLP}\left(\mathrm{LN}\left(\mathrm{CA}_i\right)\right) $$ (7) 式中:MLP代表多层感知机,公式(7)的操作需要依次执行4次。
最后,对4个特征序列Qi(i=1, 2, 3, 4)执行特征映射,将它们重组为特征图作为解码器上采样模块的输入。
2.4 损失函数
为了利用LAB颜色空间更宽的色域表示范围以及对亮度和对比度进行更准确的描述,本文设计了一种结合RGB和LAB颜色空间的双颜色空间损失函数来训练增强网络模型。首先,将RGB颜色空间的图像转换到LAB颜色空间,可表示为:
$$ L^{G(x)}, A^{G(x)}, B^{G(x)}=\operatorname{RGB} 2 \operatorname{LAB}(G(x)) $$ (8) $$ L^y, A^y, B^y=\operatorname{RGB} 2 \operatorname{LAB}(G(y)) $$ (9) 式中:x,y和G(x)分别表示原始的水下图像、原始图像对应的参考图像和生成网络输出的图像。
LAB颜色空间中的损失函数可表示为公式(10):
$$ \begin{array}{l} \operatorname{Loss}_{L A S}(G(x), y)=E_{x, y}\left(\left[L^{y}-L^{Q(x)}\right)^{2}-\right. \\ \left.\sum\limits_{i=1}^{n} Q\left(A_{i}^{y}\right) \log \left(Q\left(A_{i}^{e(x)}\right)\right)-\sum\limits_{i=1}^{n} Q\left(B_{i}^{y}\right) \log \left(Q\left(B_{i}^{Q(x)}\right)\right)\right] \end{array} $$ (10) 式中:Q表示量化操作,用于将连续值映射到离散值;E表示数学期望;L、A、B分别表示LAB颜色空间中图像的亮度分量、从绿色到红色的分量和从蓝色到黄色的分量。
生成网络的3个损失函数分别为RGB颜色空间下的L2损失函数(表示为LossRGB),色彩感知损失Lossper[17]和LossLAB,可表示为:
$$ \operatorname{Loss}_{\mathrm{Res}}=E_{x, y}\left[\|y-G(x)\|_{\mathrm{L}}\right] $$ (11) $$ \operatorname{Loss}_{\text {pot }}=\sqrt{\frac{\left(512+r_{\operatorname{mata}}\right) r^{2}}{256}+4 g^{2}+\frac{\left(767-r_{\operatorname{man}}\right) b^{2}}{256}} $$ (12) 式中:r、g、b分别表示生成图像与参考图像在红、绿、蓝颜色通道上的差值;rmean表示生成图像与参考图像红色通道的平均值。
此外,引入标准的GAN损失函数来表示生成图像和参考图像之间的差异,公式如下:
$$ L_{\mathrm{GAN}}(G, D)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))]$$ (13) 式中:D表示判别网络,旨在最大化LGAN(G, D),以准确地区分生成的图像与参考图像;G表示生成网络,作用是将生成图像和参考图像之间的差异最小化。
整体的损失函数可表示为:
$$ \begin{gathered} L = \arg \mathop {\min }\limits_G \mathop {\max }\limits_D {L_{{\text{GAN}}}}\left( {G,D} \right) + \alpha {\text{Los}}{{\text{s}}_{{\text{LAB}}}}\left( {G\left( x \right),y} \right) + \hfill \\ \beta {\text{Los}}{{\text{s}}_{{\text{RGB}}}}\left( {G\left( x \right),y} \right) + \gamma {\text{Los}}{{\text{s}}_{{\text{per}}}}\left( {G\left( x \right),y} \right) \hfill \\ \end{gathered} $$ (14) 式中:α,β,γ为超参数,进行大量实验对比后分别设置为0.2,0.2,0.6。
3. 实验结果与分析
3.1 实验数据
现有的水下图像数据集或多或少存在着图像数量、水下场景少,甚至不是真实的水下场景等缺点,限制了基于数据驱动的水下图像增强方法的性能。因此本文构建了包含4900张图像的数据集UITD,分为训练集和测试集两个部分。训练集包含2400对场景丰富的水下图像和对应的参考图像,其中1000对来自LSUI数据集[18],800对来自UIEB数据集[19],600对来自EUVP数据集[3]。测试集由两部分组成,第一部分Test-1是从EUVP数据集中挑选的60张有参考的水下图像,第二部分Test-2是从UIEB数据集中挑选的40张无参考的水下图像。
3.2 实验设置
本实验在Ubuntu操作系统下,通过PyTorch深度学习框架实现。硬件配置如下:AMD 5950X CPU,64 GB运行内存,NVIDIA GeForce RTX3090(24 GB)GPU。
训练时,batchsize设置为6,所有输入图像调整到固定大小(256×256×3),像素值归一化到[0, 1]区间。使用Adam优化算法对模型进行800个epoch训练,优化算法参数β1设置为0.9,β2设置为0.999,对于前500个epoch和后300个epoch,网络初始学习率分别设置为0.0005和0.0002,学习率每40个epoch下降20%。
3.3 实验分析
本文进行了消融实验和对比实验,并在独立测试集上对实验结果进行了定性和定量的对比分析。对于带有参考图像的测试数据集,本文使用峰值信噪比(peak signal-to-noise ratio,PSNR)[20]和结构相似性(structural similarity,SSIM)[21]指标进行全参考评估,这两个指标反映了待评价图像与参考图像的接近程度,其中PSNR值越高代表图像内容越接近,SSIM值越高代表结构和纹理越相似。对于无参考测试数据集中的图像,本文使用了无参考评价指标UCIQE(undewater color image quality evaluation)[22],UIQM(underwater image quality measure)[23]和NIQE(natural image quality evaluator)[24]。UCIQE利用色度、饱和度和对比度的线性组合进行定量评估,分别量化色偏、低清晰度和低对比度。UIQM是水下图像色度度量、水下图像清晰度度量和水下图像对比度度量的线性组合。NIQE利用在自然图像中观察到的信息对图像质量进行评估。其中,UIQM和UCIQE值越高则图像质量越好,NIQE值越小则图像越自然。
3.3.1 消融实验
为了验证本文模型的GFMT模块,MSFFT模块和LossLAB损失项3个组件对于增强效果的影响,本文在Test-1数据集上进行了消融实验。对比的模型包括:不含3个组件的基准模型(benchmark model,BL),仅包含GFMT模块的模型(BL+GFMT),仅包含MSFFT模块的模型(BL+MSFFT),仅包含LossLAB损失项的模型(BL+LossLAB)以及完整模型(TGAN)。除对比项外,其余各方面均保持一致。不同模型在测试集Test-1上的定性对比如图 6所示。
观察图 6可知,BL+GFMT增强结果比BL具有更少的噪声和伪影,这得益于GFMT模块能够关注水下图像衰减更严重的空间区域,但水下图像的颜色偏差问题仍然存在;由于MSFFT模块能够将不同尺度的特征融合之后进行增强,BL+MSFFT的增强结果有效提高了水下图像的对比度和饱和度,但是图像的亮度方面表现不佳;BL+LossLAB的增强结果整体颜色更接近参考图像。虽然BL+GFMT和BL+MSFFT的增强结果分布均匀,但整体颜色不够准确,完整模型的增强结果具有最好的视觉质量。由此可知,所研究的3个组件在增强过程中都有其特定的功能性,它们的集成可以提高网络的整体性能。
同时,为客观评价各组件的功能性,对Test-1数据集进行定量分析,得到的结果如表 1。完整模型在Test-1数据集上取得了最好的定量性能,增强后的图像最接近参考图像,这证明了结合GFMT模块,MSFFT模块和LossLAB损失项3个组件对于增强效果的有效性。
表 1 在测试集Test-1上的消融实验结果Table 1. Experimental results of ablation study on Test-1Models PSNR SSIM BL 19.2556 0.7014 BL+GFMT 21.6849 0.7635 BL+MSFFT 22.3719 0.7813 BL+LossLAB 21.4161 0.7281 TGAN 24.0546 0.8257 3.3.2 对比实验
为了进一步评估本文算法对水下图像增强的有效性,分别在Test-1和Test-2数据集上将本文算法与现有的7个经典的水下图像增强方法进行定性和定量的对比分析,对比方法包括基于非物理模型的增强方法(CLAHE[5],RGHS[6])、基于物理模型的复原方法(UDCP[7],IBLA[8])和基于数据驱动的增强方法(UWCNN[9],FUnIE-GAN[10],DGD-cGAN[11])。
不同方法在测试集Test-1上的定性对比结果如图 7所示,基于非物理模型的CLAHE方法增强过的图像会出现曝光现象,与参考图像在颜色和细节上存在一定差距。RGHS方法处理深绿色图像时效果较差。基于物理模型的UDCP方法会加重图像的色偏现象,尤其是绿色和红色偏差。IBLA方法能解决一定程度上的色偏问题,但整体增强效果欠佳。基于数据驱动的UWCNN方法处理后的图像呈现出黄色颜色偏差,且亮度偏暗。FUnIE-GAN方法对深绿色图像增强效果较差,且图像的细节方面还有提升空间。DGD-cGAN方法增强后的图像亮度会得到一定提升,但绿色偏差问题依然存在。相比之下,本文所提算法在颜色校正、提升亮度、增强对比度和饱和度等方面均展示出极具竞争力的性能,并且有效地增强了图像细节,在部分图片上取得了比参考图像更好的视觉效果。
图 7 不同方法在测试集Test-1上的定性对比(a)水下图像;(b)CLAHE;(c)RGHS;(d)UDCP;(e)IBLA;(f)UWCNN;(g)FUnIE-GAN;(h)DGD-cGAN;(i)本文方法;(j)参考图像Figure 7. Qualitative comparison of different methods on Test-1. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method; (j)Reference images为客观验证本文算法的性能,采用PSNR和SSIM两种参考图像质量评价指标,将本文算法与上述其他方法做定量对比分析。两种指标的均值如表 2所示。由表 2可知,本文算法在PSNR和SSIM评价指标上的平均值为24.0546和0.8257,均优于其他对比方法,分别比第二名提升了5.8%和1.8%,这证明了GFMT和MSFFT模块可以在捕捉全局特征的同时,有效加强对衰减严重的颜色通道和空间区域的关注,从而使本文算法在图像细节增强、校正色偏、提高对比度和提升亮度方面都有表现出很好的效果。
表 2 不同方法在测试集Test-1上的定量对比Table 2. Quantitative comparison of different methods on Test-1Methods PSNR SSIM CLAHE 18.4342 0.7653 RGHS 18.2053 0.7672 UDCP 14.0555 0.5650 IBLA 19.9222 0.7487 UWCNN 18.1209 0.7420 FUnIE-GAN 22.7413 0.8112 DGD-cGAN 17.3954 0.6955 TGAN 24.0546 0.8257 为了更加全面和准确地评估本文算法的性能,在无参考测试集Test-2上,同样将本文算法与上述其他方法进行定性和定量对比分析。定性对比分析结果如图 8。观察图 8可以发现,CLAHE方法不能完全消除色偏问题。RGHS方法虽提升了一定亮度,但在颜色校正方面效果不佳。基于物理模型的UDCP和IBLA方法复原后的图像加重了色偏且亮度过低。UWCNN方法增强后的图像颜色偏黄,且亮度偏低。FUnIE-GAN方法处理后的图像偏暗,细节纹理不够突出。DGD-cGAN方法处理后的图像整体颜色偏绿,增强效果较差。与上述方法相比,本文算法在对比度和清晰度提升,细节增强以及校正颜色偏差等方面展示出最令人满意的效果,增强后的图像纹理更加突出且视觉感受更好。
为客观地评价各方法在无参考测试集Test-2上的性能,本文选取3个非参考图像质量评价指标UCIQE、UIQM和NIQE对增强结果进行定量对比分析。表 3展示了不同方法在测试集Test-2上的评价指标平均得分。从表 3中可以看出,本文方法在UCIQE和UIQM评价指标上取得了最优的结果,NIQE评价指标仅大于IBLA方法,这进一步说明了本文方法在图像细节增强、自然表现和视觉感知提升等方面的表现更为突出。
表 3 不同方法在测试集Test-2的定量对比Table 3. Quantitative comparison of different methods on Test-2Methods UCIQE UIQM NIQE CLAHE 0.4516 3.1570 6.5814 RGHS 0.4673 2.4674 6.4705 UDCP 0.4216 2.0992 5.7852 IBLA 0.4731 2.3331 5.7619 UWCNN 0.3508 3.0378 6.7935 FUnIE-GAN 0.4314 3.0997 6.2796 DGD-cGAN 0.3689 3.1810 7.2689 TGAN 0.4846 3.2963 5.7743 4. 结论
水下图像增强是完成各种水下作业的重要支撑技术。针对水下图像存在的对比度低、清晰度差和色彩失真等退化问题,本文提出了一种基于Transformer和生成对抗网络的水下图像增强算法(TGAN)。生成网络中集成的Transformer模块可以解决现有方法中没有考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题,其中GFMT模块能够准确获取水下图像的全局特征,加强网络对图像衰减较为严重区域的关注,从而使算法增强后的图像细节更加清晰。MSFFT模块可以捕获多尺度特征,聚焦退化严重的颜色通道,实现色彩均匀的水下图像增强。此外,结合RGB和LAB颜色空间特征设计的多项损失函数提高了输出图像的亮度和对比度。实验表明,本文算法在评价指标PSNR、SSIM、UCIQE和UIQM上均取得了最优结果,在水下图像增强方面能够有效地校正色偏,均匀地提高清晰度,同时提升图像的整体视觉感知效果。但基于Transformer网络的训练通常需要较大的数据集,未来的工作将尝试对模型进行改进,以提升在小数据集上模型的训练效果。
-
表 1 主观评价尺度评分
Table 1 Subjective evaluation scale score table
Score Quality scale Obstruction scale 5 very nice Lossless image quality 4 nice The image quality is damaged, but it does not hinder viewing 3 normal Clearly see that the image quality is damaged 2 poor Obstruction to viewing 1 very poor Serious impact on viewing 表 2 五分制评价结果
Table 2 Five point evaluation results
First set of image scores Second set of image scores Third set of image scores Professional person 1 4 5 4 Professional person 2 5 5 4 Professional person 3 4 4 4 Nonprofessional person 1 5 5 5 Nonprofessional person 2 5 5 4 Average score 4.6 4.8 4.2 表 3 客观评价指标
Table 3 Objective evaluation results
Image Algorithm STD MI AG EN QAB/F SSIM Group 1 MGFF 48.5438 2.5642 10.7398 7.3355 0.5691 0.5038 MSD 48.3475 2.5589 11.2680 7.2762 0.5925 0.4877 MTD 43.3842 3.0839 9.8755 6.9701 0.5456 0.4722 VIP 44.8607 0.5109 10.4776 7.2307 0.5665 0.6142 FCMA 43.9961 3.1582 10.5662 7.3527 0.6230 0.4964 Proposed 45.0086 3.1720 10.7624 7.3768 0.5978 0.5090 Group 2 MGFF 36.6809 1.7426 4.9351 6.8599 0.4702 0.5268 MSD 52.3717 2.5234 4.7900 7.0811 0.4706 0.4854 MTD 52.1024 3.0416 4.3414 6.8654 0.4563 0.4920 VIP 52.8195 0.3818 4.3009 6.9521 0.5332 0.7334 FCMA 60.5238 3.1647 4.6397 7.3857 0.4877 0.4375 Proposed 60.1718 3.2102 4.6594 7.4388 0.4564 0.4693 Group 3 MGFF 40.0211 1.5924 6.7958 7.2387 0.4799 0.5095 MSD 49.7948 2.3439 6.8837 7.2386 0.5371 0.4871 MTD 60.7380 4.4287 6.3965 7.1101 0.5810 0.4641 VIP 56.0103 0.6042 5.6657 6.7389 0.5663 0.6618 FCMA 57.0775 2.3680 6.1483 7.2681 0.4667 0.4515 Proposed 57.4021 3.0526 6.6048 7.2777 0.5556 0.4753 -
[1] LI Shutao, KANG Xudong, FANG Leyuan, et al. Pixel-level image fusion: a survey of the state of the art[J]. Information Fusion, 2017, 33(1): 100-112
[2] 蔡李美, 李新福, 田学东. 基于分层图像融合的虚拟视点绘制算法[J]. 计算机工程, 2021, 47(4): 204-210. DOI: 10.19678/j.issn.1000-3428.0058057. CAI L M, LI X F, TIAN X D. Virtual viewpoint rendering algorithm based on hierarchical image fusio [J]. Computer Engineering, 2021, 47(4): 204-210. DOI: 10.19678/j.issn.1000-3428.0058057
[3] 冯鑫, 张建华, 胡开群, 等. 基于变分多尺度的红外与可见光图像融合[J]. 电子学报, 2018, 46(3): 680-687. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201803025.htm FENG X, ZHANG J H, HU K Q, et al. The infrared and visible image fusion method based on variational multiscale[J]. Acta Electronica Sinica, 2018, 46(3): 680-687. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201803025.htm
[4] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164. DOI: 10.1016/j.inffus.2014.09.004
[5] 李威, 李忠民. NSST域红外和可见光图像感知融合[J]. 激光与光电子学进展, 2021, 58(20): 202-210. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202120021.htm LI W, LI Z M. NSST-Based perception fusion method for infrared and visible images[J]. Laser & Optoelectronics Progress, 2021, 58(20): 202-210. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202120021.htm
[6] ZHAO W D, LU H C. Medical image fusion and denoising with altering sequential filter and adaptive fractional order total variation[J]. IEEE Transactions on Instrumentation and Measurement, 2017, 66(9) : 2283-2294 DOI: 10.1109/TIM.2017.2700198
[7] 任亚飞, 张娟梅. 基于NSST多尺度熵的红外与可见光图像融合[J]. 兵器装备工程学报, 2022, 43(7): 278-285. https://www.cnki.com.cn/Article/CJFDTOTAL-CUXI202207042.htm REN Y F, ZHANG J M. Infrared and visible image fusion based on NSST multi-scale entropy[J]. Journal of Ordnance Equipment Engineering, 2022, 43(7): 278-285. https://www.cnki.com.cn/Article/CJFDTOTAL-CUXI202207042.htm
[8] ZHOU Z Q, WANG B, LI S, et al. Perceptual fusion of infrared and visible images through a hybrid multiscale decomposition with Gaussian and bilateral filters[J]. Information Fusion, 2016, 30(30): 15-26.
[9] 李文, 叶坤涛, 舒蕾蕾, 等. 基于高斯模糊逻辑和ADCSCM的红外与可见光图像融合算法[J]. 红外技术, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c LI W, YE K T, SHU L L, et al. Infrared and visible image fusion algorithm based on gaussian fuzzy logic and adaptive dual-channel spiking cortical model[J]. Infrared Technology, 2022, 44(7): 693-701. http://hwjs.nvir.cn/article/id/227ae3cd-57b4-4ec7-a248-bdc1de60993c
[10] 张莲, 杨森淋, 禹红良, 等. 改进非局部核模糊C-均值聚类的红外图像分割[J]. 重庆理工大学学报: 自然科学, 2020, 34(11): 130-137. https://www.cnki.com.cn/Article/CJFDTOTAL-CGGL202011018.htm ZHANG L, YANG S L, YU H L, et al. Improved infrared image segmentation based on nonlocal nuclear fuzzy C-means clustering[J]. Journal of Chongqing University of Technology: Natural Science, 2020, 34(11): 130-137. https://www.cnki.com.cn/Article/CJFDTOTAL-CGGL202011018.htm
[11] 赵程, 黄永东. 基于滚动导向滤波和混合多尺度分解的红外与可见光图像融合方法[J]. 激光与光电子学进展, 2019, 56(14): 106-120. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201914013.htm ZHAO C, HUANG Y D. Infrared and visible image fusion via rolling guidance filtering and hybrid multi-sacle decomposition[J]. Laser & Optoelectronics Progress, 2019, 56(14): 106-120. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201914013.htm
[12] 李旭超, 刘海宽, 王飞, 等. 图像分割中的模糊聚类方法[J]. 中国图象图形学报, 2012, 17(4): 447-458. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201204004.htm LI X C, LIU H K, WANG F, et al. The survey of fuzzy clustering method for image segmentation[J]. Journal of Image and Graphics, 2012, 17(4): 447-458. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201204004.htm
[13] 谢伟, 周玉钦, 游敏. 融合梯度信息的改进引导滤波[J]. 中国图象图形学报, 2016, 21(9): 1119-1126. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201609001.htm XIE W, ZHOU Y, YOU M. Improved guided image filtering integrated with gradient information[J]. Journal of Image and Graphics, 2016, 21(9): 1119-1126. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201609001.htm
[14] 江泽涛, 吴辉, 周哓玲. 基于改进引导滤波和双通道脉冲发放皮层模型的红外与可见光图像融合算法[J]. 光学学报, 2018, 38(2): 0210002. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB201802015.htm JIANG Z T, WU H, ZHOU X L. Infrared and visible image fusion algorithm based on improved guided filtering and dual-channel spiking cortical model[J]. Acta Optica Sinica, 2018, 38(2): 0210002. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB201802015.htm
[15] HUANG W, JING Z L. Evaluation of focus measures in multi-foucus image fusion[J]. Pattern Recognition Letters, 2007, 28(4): 493-500
[16] Bavirisetti D P, XIAO G, ZHAO J, et al. Multi-scale guided image and video fusion: a fast and efficient approach[J]. Circuits Syst Signal Process, 2019, 38: 5576–5605.
[17] ZHOU Z Q, WANG B, LI S, et al. Perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with Gaussian and bilateral filters[J]. Information Fusion, 2016, 30: 16-25.
[18] CHEN J, LI X J, LUO L B, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]. Information Sciences, 2020, 508: 64-78.
[19] ZHANG Y, ZHANG L J, BAI X Z, et al. Infrared and visual image fusion through infrared feature extraction and visual information preservation[J]. Infrared Physics and Technology, 2017, 83: 227-237.
[20] 巩稼民, 刘爱萍, 张晨, 等. 基于FCM与ADSCM的红外与可见光图像融合[J]. 激光与光电子学进展, 2020, 57(20): 222-230. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202020025.htm GONG J M, LIU A P, ZHANG C, et al. Infrared and visible light image fusion based on FCM and ADSCM[J]. Laser & Optoelectronics Progress, 2020, 57(20): 222-230. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202020025.htm