Infrared and Visible Image Fusion Based on Saliency Detection and Latent Low-Rank Representation
-
摘要: 针对红外与可见光图像融合过程中细节信息的缺失、融合结果对比度较低等问题,提出一种基于显著性检测与多层潜在低秩表示的红外与可见光图像融合方法。首先,使用基于显著性检测的方法对红外与可见光图像进行预融合;然后,使用多层潜在低秩表示方法依次将红外图像、可见光图像和预融合图像分解为低秩层和细节层;其中细节层采用结构相似性和L2范数相结合的方法进行融合,低秩层使用基于能量属性的方法进行融合;最后,将低秩层和细节层的融合结果重构便得到最终的融合图像。文中将该方法与11种具有代表性的图像融合方法进行了评估比较,通过对比多组融合图像的主客观评价,其结果表明,相较于对比方法,本方法能够保留红外与可见光图像融合过程中源图像的有效细节,且融合结果具有较高的对比度,更符合人们的视觉理解。Abstract: To address the problems of missing detail and low contrast in the fusion of infrared and visible images, this study proposes a fusion method based on saliency detection and latent low-rank representation. First, a pre-fusion image is obtained by saliency detection for the infrared and visible images. Then, the infrared, visible, and pre-fused images are decomposed into low-rank and detail layers by the multilevel latent low-rank representation method. The detail layer is fused by combining the hyperspherical L2 norm and structural similarities, while the low-rank layer is fused using an approach based on the energy property. The final fused image is obtained by adding the fusion results of the low-rank and detail layers. The proposed method is compared with 11 representative image fusion methods by conducting subjective and objective evaluations of multiple groups of fused images. The results show that the image fusion method enhances the effective detail information and improves the image contrast, yielding a fusion result that is more in line with people's visual understanding.
-
Keywords:
- image fusion /
- saliency detection /
- latent low-rank representation /
- infrared image /
- visible image
-
0. 引言
红外成像技术是根据辐射原理成像而得到红外图像,图像的亮度表征物体表面的温度。由于具有隐蔽性好、全天候、适应雨雾等特殊气象条件等优良特性,因此得到了广泛应用[1-4]。然而受制于红外图像的成像机理、成像系统特性的影响,红外图像通常具有信噪比低、分辨率低和边缘模糊的特点,图像中往往缺少细节,这限制了红外图像的进一步应用。因此,如何提高图像分辨率并增强红外图像中的细节,成为了重要需求。
超分辨率(super resolution, SR)算法[5]是指从同一场景的一个或多个低分辨率观测结果中恢复高分辨率图像的任务。根据输入的低分辨率图像(low resolution,LR)的数量,可以将超分辨率算法(super resolution, SR)分为单图像超分辨率(single-image-super-resolution, SISR)和多图像超分辨率(multiple-image-super-resolution, MISR)。与MISR相比,SISR因其高效而广受欢迎。由于具有高感知质量的HR(high resolution, HR)图像具有更多有价值的细节,因此它被广泛用于许多领域,例如医学成像,卫星成像和安全成像[6-8]。典型的SISR框架中,LR图像建模如下:
$$ I_{\mathrm{LR}}=\boldsymbol{D}_k \boldsymbol{M}_k I_{\mathrm{HR}}+n $$ (1) 式中:IHR是对应的是模型输入的原始场景高分辨率图像;Mk表示运动位移矩阵;Dk为降采样矩阵;n表示噪声向量。图像的超分辨率重建就是根据图像的退化模型进行的逆过程。通常低分辨图像可以被认为是降质模型的输出;在超分辨率算法中,研究者们试图从ILR中恢复出高分辨图像ISR尽可能地接近原始的退化前的高分辨图像IHR,过程如公式表示为:
$$ I_\text{SR}=F(I_\text{LR}, θ) $$ (2) 式中:F代表超分辨率重建模型;θ是模型中的参数。但该等式并不是唯一的,因为高分辨图像的退化可能同时受到多个退化因素的影响,图像超分辨率重构过程中也无法确定退化因素的种类,因此该公式的解不是唯一的,即在图像超分辨率重建过程中一个低分辨的输出可能获取多个高分辨的输入。因而超分辨率重构问题也被看作是一个病态问题。
传统SISR的算法主要分为3类:基于插值的超分辨率方法、基于重构的超分辨率方法和基于学习的超分辨率方法。基于插值的超分辨率方法原理简单,其重构效果不是很好,在超分辨率领域应用有限。基于重构的超分辨率方法是从输入图像中提取所有有用信息,整个超分辨率过程等于信息提取和信息融合过程,以输入图像先验知识和全局重构限制作为正则项,构建代价函数求解逆运算,此方法能保持清晰的图像边缘,但不能有效恢复纹理细节信息。基于学习的超分辨率技术是借助机器学习知识,以大量的训练图像学习先验模型,用学习过程中获得的知识对低分辨率图像中丢失的高频细节信息进行预测和补充,它能生成丰富的高频细节部分和纹理信息,但难以控制伪像失真。
随着深度学习的发展,基于深度学习[8]的SISR算法显示出优于其他基于学习的方法的性能。SRCNN[9]是第一种使用深度学习方法的超分辨率算法,该方法表现出远超传统方法的学习能力,但该算法是先将图像进行上采样而后再利用卷积层进行学习,因而其结果中可能会出现将噪声和有价值信号同时放大的情况,影响重构结果的信噪比。VDSR(very deep super resolution)[10]是SISR算法中第一种深层网络,该网络由20层VGG组成,通过学习插值结果和高分图像之间的残差,以代替原来的直接映射。SRGAN(semi-supervised learning with generative adversarial networks)[11]将GAN网络应用超分辨网络,构建一个具有感知损失的更深层网络的生成对抗网络以构造逼真的超分图像。
EDSR(enhanced deep residual networks)[12]在ResNet[13]基础上设计了一种新的模块,扩大模型的尺寸来提升结果质量。ESPCN(efficient sub-pixel convolutional neural network)[14]使用亚像素上采样的方法对图像进行快速的超分辨率重建,仅在最后阶段将低分辨率图像放大为高分辨率图像,是一种高效、快速的像素重排列的超分辨率算法。
上述方法对SISR表现出良好的效果,但应用于红外图像时仍需改进:
一方面,卷积层提取特征时会很好地保留低频信息,高频信息会作为冗余信息舍弃,进而在重构图像中造成细节缺失,由于红外图像中信息量少相比可见光图像影响更大;另一方面,大多数的SISR中的网络模块对其他层的特征利用较少,无法避免卷积层在使用过程中的信息损失。
根据以上分析,本文针对红外图像特点提出深度残差神经网络的超分辨率重构算法,结合密集网络、残差结构以及亚像素上采样等结构优点,得到高质量红外重构图像,为后续的语义分割、目标识别等创造条件。
1. 基于深度残差神经网络的超分辨率重构算法
基于深度学习的超分辨率模型专注于研究低分辨率图像与原始高分辨率图像之间的差异,虽然网络模型之间差异巨大,但本质上是一些模块的组合,比如模型框架、上采样方法等。因此,我们可以根据特定用途将这些模块集成起来构造出一个超分辨率模型。本文设计的深度卷积残差网络结构由残差单元构成深度残差强化模块,上采样部分我们使用亚像素上采样层。
1.1 深度残差强化模块
红外图像信息量少,分辨率低,网络需要学习到足够的图像中的信息才能保证重构图像质量。即使是网络中少量信息损失都可能会影响最终的重构图像质量。对于超分辨率算法来说,网络深度增加意味着网络会损失更多的高频细节,在重构图像中图像细节会有相应的损失。在语义分割、目标识别等高级图像任务中,ResNet被用来解决卷积神经网络深度加深时会产生梯度爆炸的现象,但由于图像超分辨率任务是图像到图像的映射任务,仅需研究输入图像与目标图像高度相关仅学习它们之间的差异即可,一些模块在超分辨率任务中并不是必要的,因而不能直接套用到超分辨这种低级视觉问题上。比如BN层主要应用于输入图像的数据分布和输出数据的分布不一致的情况。对于超分辨率任务来说,输入和输出的数据分布非常接近。因此一些研究保留了ResNet的跳线结构并去掉了BN层,有效地降低了网络的计算量。如图 1所示,EDSR提出的这个残差块(residual block)没有应用池化层和批量归一化(batch normalization,BN)层,去掉后的网络就可以堆叠更多的网络层或者使每层提取更多的特征,从而得到更好的性能表现。由于大多数的残差区域接近零,模型的复杂性和学习难度大大降低。而跳线连接方式的保留本身就可以减轻由于网络深度不断增加而导致的降级问题,减少训练难度并提高学习能力。
针对红外图像中信息量少的特点,我们改变原有ResNet中的激活函数。ReLU(可以按公式(3)计算)保留了阶跃函数的生物启发(即只有当输入超过阈值时神经元才会被激活),允许基于梯度的学习(尽管在x=0时,导数未定义)。因为函数及其导数都不包含复杂的数学运算,所以此函数计算过程非常快。但是当输入小于零或梯度为零时,其权重无法更新,此时ReLU的学习速度会变慢,甚至可能使神经元直接失效。Leaky ReLU函数(Leaky Rectified Linear Unit,LeakyReLU)(可按公式(4)计算)是经典ReLU激活函数的变体。其中a需人工设置,一般为0.01或0.001数量级的较小正数。当输入为负时,这个函数的输出仍然有一个小的斜率。当导数非零时,可以减少沉默神经元的出现,允许基于梯度的学习(虽然会很慢),从而解决ReLU函数进入负区间后神经元不学习的问题。与ReLU相比,LeakyReLU具有更大的激活范围。
$$ \text{ReLU} x=\max (0, x)=\left\{\begin{array}{l} x, \text { if } x \geq 0 \\ 0, \text { if } x<0 \end{array}\right. $$ (3) $$ \text{LeakyReLU}(x)=\max (0, x)=\left\{\begin{array}{ll} a x, & \text { if } x \geq 0 \\ 0 & \text { if } x<0 \end{array}\right. $$ (4) 1.2 亚像素上采样层
红外探测器相比可见光探测器像元数量少,获取的红外图像的分辨率低,为便于显示多采用插值法以提高图像分辨率。一般插值法是通过目标函数在若干点的函数值或者导数值附近构造一个与目标函数相近似的低次插值多项式。该方法增加了图像的美观性,但在某种程度上丧失了部分数据的真实性,没有考虑到原有像素间的分布特点,仅能针对局部小区域进行运算并且运算量巨大,在某种程度上丧失了部分数据的真实性,因而在重构图像中可能会出现纹理条纹或者局部模糊甚至对求梯度优化有害。
亚像素上采样层又称像素混合层(pixel-shuffle layer)不同于基于插值的上采样方法,该层的插值函数隐含在前一个卷积层中,可以自动学习。在本文中,亚像素层可以表示为:
$$ I_\text{SR}=PS(W_\text{L}*f^{L-1}(I_\text{LR})+b_\text{L}) $$ (5) 其中PS代表亚像素上采样运算,WL代表卷积操作。
$$\text{PS}(T)_{x, y, c}=T_{[x /s], [y /s], C \cdot s \cdot {\rm{mod}} (y, s)+C \cdot {\rm{mod}}(x, s)+c}$$ (6) 式中:mod()表示在最后一层的前一层进行的卷积操作;s是比例因子。
亚像素上采样层是一个端到端的上采样层,执行上采样通过卷积产生多个通道然后重塑它们。在这一层中,假设输入尺寸为h×w×c,则输出尺寸为h×w×s2。之后,进行变形操作以产生大小sh×sw×c输出。这里的卷积操作是在低分辨率图像,因而亚像素上采样的效率将高于双三次上采样和反卷积。使用这种端到端的上采样方式得到的子像素层提供更多的上下文信息以帮助生成更多现实的细节。然而,因为构造亚像素点时利用的信息来源于同一卷积层,其感受野的大小是相同的,实现了相互独立的块状区域预测。但由于构造过程缺少全局信息,独立预测块状区域中的相邻像素可能会导致输出不平滑。
1.3 深度密集残差结构的设计
在超分辨率重构过程中的信息损失可以分为两部分:一部分源于卷积层在进行卷积操作时造成的中心区域外的信息损失;另一部分是在超分辨率重构过程中,高频信息被作为冗余信息舍弃。在前文设计的深度残差模块可避免卷积层使用过程中的信息损失,可通过堆叠该模块增加网络深度。但是,模块仅能利用这个模块内部信息,其他模块的信息无法充分利用。并且结构中缺少对于低分辨率图像中信息的利用。
在本文中,我们构建了深度密集残差结构。结构中包含6个改进的残差块,每个残差块用以提取局部特征。为了充分利用每个模块提取的信息,每个残差块的输出可以递进地传递到下一个残差块的各层并与那一层的特征进行融合,从而保证特征信息连续传递。这种局部特征融合策略通过自适应地保存信息来提取局部密集特征,在实现密集网络的同时用于解决梯度消失问题,有效地保证了网络对于红外图像的学习能力。
在提取多层局部密集特征后,我们进一步进行全局特征融合以传输全局上下文特征,作为对重建图像的指导。通过连接输入和输出图像将全局特征传输到亚像素上采样层(即pixel-shuffle layer),实现对于全局残差特征的利用。如图 2所示,亚像素上采样层可以直接访问原始的低分辨率输入,避免由于卷积层大量使用造成的局部上下文信息缺失引起的重建错误。局部特征融合和全局特征融合也可以起到减少高频信息损失的作用。
在网络中,我们选用L2 loss(即最小化误差)作为网络的损失函数。该函数是真实值和预测值之间所有平方差的总和,公式如(7)所示:
$$ \text{Loss}(x, y)=\frac{1}{n} \sum\limits_{i=1}^{n}\left(y_{\text {tros }}-y_{\text {probiciona }}\right)^{2} $$ (7) 式中:ytrue代表真实值;ypredicted代表预测值。
2. 实验结果与分析
2.1 实验设置
实验中我们使用中国科技大学提出的地/空背景下红外图像弱小飞机目标检测跟踪数据集[15]。红外数据集中每个红外数据段的原始数据为视频格式,为了后续数据加工的方便,在数据预处理阶段将每个数据段的视频格式数据转换为8 bit位深的Windows位图格式的多文件的图像序列。图像分辨率为10~100 m。
测试集中我们使用了中波红外热像仪提取的图像,该热像仪能见度为8 km,视场角为17°×13°,图像原始分辨率为768×564。
我们使用来自NVIDIA 1080Ti GPU的随机样本训练所有网络,为了优化,我们使用b=0.9、且学习率为10−4的ADAM。由于GPU内存限制,我们调整了数据集中图像的大小,我们将图像裁剪为512×512像素,这可以保证网络有足够的数据,防止模型过拟合,提高其鲁棒性。测试图像尺寸为256×256像素。为客观公平进行比较,所有基于深度学习模型的超分辨率算法都采用相同的训练集进行训练。
为了模拟低分辨率图像,我们首先按比例因子图像进行下采样,将对应的图像大小改为原来的1/比例因子,作为超分辨率网络的输入。我们设置的比例因子为2、3和4。实验中使用PSNR和SSIM作为客观评价标准。
PSNR的定义可以表示为:
$$ \mathrm{MSE}=\frac{1}{H \times W} \sum\limits_{i=1}^{H} \sum\limits_{j=1}^{W}(X(i, j)-Y(i, j))^{2} $$ (8) $$ \text { PSNR }=10 \times \lg \left(\frac{\left(2^{n}-1\right)^{2}}{M S E}\right) $$ (9) 式中:n是每个像素的位数;X是原始图像;Y是超分辨图像。H和W是图像的宽度和高度。
SSIM值的公式为:
$$ \text{SSIM}(x, y)=\frac{\left(2 \mu_{x} \mu_{y}+c_{1}\right)\left(2 \sigma_{x y}+c_{2}\right)}{\left(\mu_{x}^{2}+\mu_{y}^{2}+c_{1}\right)\left(\sigma_{x}^{2}+\sigma_{y}^{2}+c_{2}\right)} $$ (10) 式中:μx是图像x的平均值;μy是图像y的平均值;σx2是x的方差;σy2是y的方差;σxy是x和y的协方差。c1=(k1L)2和c2=(k2L)2是维持稳定的函数;L是像素值动态范围,k1=0.01,k2=0.03。
2.2 实验结果对比
在对比实验中,采用了3种经典的基于深度学习的超分辨率算法与本文算法进行定性定量比较:EDSR(enhanced deep-networks for super-resolution),超分卷积神经网络(super-resolution convolutional neural network, SRCNN),ESPCN(efficient sub-pixel convolutional neural network)。本文同时选择了常用的双线性插值法(Bicubic)作为实验结果中主观评价的结果之一。为客观公平进行比较,所有基于深度学习模型的超分辨率算法都采用相同的训练集进行训练。
对比的实验结果分别列在表 1~2以及图 3~4中。从表 1和表 2的结果来看,本文设计的超分辨率方法在所有尺度因子下均获得较高的PSNR与SSIM。实验结果表明,本文提出的方法在PSNR和SSIM等客观评价指标上优于其他算法。相比于其他几种算法,本文设计的深度残差神经网络的重构红外图像效果明显优于其他几种算法,图像更加自然,与原图像相比改善了部分区域的纹理细节,实现了高质量的红外图像重构。
表 1 使用4种方法对红外图像的PSNR与SSIM评价结果1Table 1. PSNR evaluation results of infrared images using four methodsScale factor SRCNN EDSR ESPCN Proposed in this paper PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM 2 21.11 0.75 22.51 0.79 23.52 0.76 25.46 0.80 3 21.55 0.79 23.08 0.81 25.21 0.83 26.31 0.84 4 22.85 0.80 23.31 0.867 24.58 0.84 26.85 0.84 表 2 使用4种方法对红外图像的PSNR与SSIM评价结果2Table 2. PSNR evaluation results of infrared images using four methodsScale factor SRCNN EDSR ESPCN Proposed in this paper PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM 2 22.35 0.81 24.35 0.83 25.11 0.84 27.65 0.85 3 25.31 0.841 27.35 0.85 28.37 0.88 28.42 0.88 4 26.31 0.852 27.45 0.87 28.52 0.89 29.41 0.90 从表 1和表 2可以看出,本文算法的SSIM值与ESPCN的SSIM值非常接近,PSNR值提升相对较多。这表明本文设计的算法在增加网络深度的同时并没有造成超分辨率重构结果质量的降低。与EDSR算法的对比表明,本文提出的算法在SSIM和PSNR值上有所提高,这表明本文设计的密集网络结构中关于局部特征融合和全局特征融合的设计可以有效地改善重构图像质量。
在图 3和图 4中可以看出,所有算法的重建质量相比双线性插值有一定的提升,对于具有明显边界的区域够得到清晰的纹理。所有算法的重建质量相比双线性插值有一定的提升,对于具有明显边界的区域能够得到清晰的纹理。
在图 3中,图 3(b)为双线性上采样方法,重建图像中部分匀质区域过于平滑,缺少细节真实感。图 3(c)是SRCNN的结果,由于网络只有3层,学习能力有限,图像中出现大量虚假纹理信息,在均匀区域容易出现伪影;图 3(d)是EDSR的结果,该网络堆叠更多的残差模块以提高网络学习能力,因此重构结果明显优于SRCNN,但是网络缺少对于其他层信息的利用,图像中出现大量纹理条纹;图 3(e)中的ESPCN算法采用了亚像素上采样层,其效果与EDSR近似,但相比EDSR层数较少,图像中的景物轮廓不够清晰,白点的无人机轮廓也并不清晰;图 3(f)是本文设计的方法,图像细节明显,尤其是林地、草地等具有不规则形状的区域重建效果较好。图 4中可以看出,本文提出的网络对复杂的杂乱纹理的重建效果较好,尤其是草地上的杂乱区域的重构图像比较清晰,细节丰富。
得益于深度残差模块的使用以及亚像素上采样模块的引入,本文所提出的模型可以获得更加理想的高分辨图像,解决了不规则纹理的模糊问题。尤其是通过采用密集特征连接结构,该网络可以有效地加深网络结构,提高网络的学习能力。这表明我们提出的方法在提取信息和高频信息保留方面效果较好。
3. 结论
针对红外图像特点,本文提出了一种基于深度残差神经网络的超分辨率重构算法。该模型利用改进的残差模块有效地增加了网络深度,提高了网络的学习能力,通过使用密集特征连接提高了网络对高频信息的利用,并有效地增加了对于网络结构中不同层的信息利用。仿真实验结果表明本文模型能够生成具有丰富细节并且目标轮廓边界清晰的图像,有效地补充了原图中的细节。总体来看,本文中设计的算法在保持较高精度的同时,还可以很好地处理目标的尺度变化和目标周围的环境,说明算法中加入的密集网络结构、深度残差强化模块等发挥了良好的作用。
-
表 1 数据集‘Camp’的融合结果客观评价指标
Table 1 Objective evaluation indicators of fusion results on dataset 'Camp'
Methods AG CE EI EN MI QCV SD SF SSIM VIF Time/s CBF 4.862 0.464 51.008 6.548 1.062 510.614 27.418 11.644 1.260 0.284 7.716 CNN 4.569 0.239 47.485 7.102 1.394 349.232 37.269 11.506 1.414 0.469 23.71 GFCE 6.747 1.569 70.022 7.202 1.295 603.566 38.121 15.649 1.123 0.510 0.386 GFF 4.045 0.478 42.519 6.524 1.163 444.798 27.393 10.554 1.433 0.272 0.086 HMSD_GF 5.204 0.379 53.686 6.936 1.356 416.013 36.358 13.164 1.412 0.540 0.363 IVFusion 8.720 0.859 91.261 7.355 0.948 796.213 42.972 20.731 1.054 1.030 14.22 LP 5.371 0.294 56.580 7.289 1.167 601.295 45.316 12.937 1.389 0.703 0.339 MDLatLRR 8.398 0.250 88.341 7.192 1.094 653.114 42.825 20.818 1.252 1.161 52.55 NSST_PCNN 4.135 0.601 43.284 6.649 1.189 295.207 29.113 10.722 1.471 0.408 62.50 TIF 4.394 0.672 46.186 6.639 1.307 323.957 29.249 11.043 1.513 0.557 0.025 WLS 4.628 0.543 47.058 6.603 1.091 400.285 28.251 11.782 1.461 0.452 0.572 Proposed 9.549 0.372 100.363 7.489 1.143 183.030 54.758 22.880 1.019 0.977 12.42 表 2 数据集‘Kaptein’的融合结果客观评价指标
Table 2 Objective evaluation indicators of fusion results on dataset 'Kaptein '
Methods AG CE EI EN MI QCV SD SF SSIM VIF Time/s CBF 5.599 1.672 58.013 6.878 1.295 319.046 36.413 13.255 1.079 0.327 16.24 CNN 4.493 1.073 45.282 7.312 1.710 145.364 57.149 11.534 1.365 0.533 55.98 GFCE 8.015 1.734 76.406 7.584 1.418 553.108 54.349 19.889 0.888 0.559 2.327 GFF 4.133 1.103 41.579 7.129 3.341 374.493 52.447 10.947 1.353 0.381 0.523 HMSD_GF 5.147 1.250 51.318 7.253 1.619 129.287 53.568 13.133 1.359 0.602 0.916 IVFusion 8.774 0.843 87.343 7.258 0.744 243.631 43.409 22.083 1.004 0.894 70.26 LP 5.113 1.012 51.605 7.369 1.663 504.230 58.894 12.689 1.309 0.697 0.533 MDLatLRR 8.798 1.145 89.001 7.196 0.885 353.961 50.387 22.812 1.064 0.839 145.5 NSST_PCNN 4.256 2.007 42.916 6.739 1.427 124.723 43.423 11.163 1.403 0.452 124.1 TIF 4.218 1.964 43.059 6.613 1.058 152.787 33.914 10.801 1.392 0.489 0.044 WLS 4.728 1.865 46.134 6.743 1.398 157.646 42.077 12.158 1.395 0.469 3.834 Proposed 9.630 1.186 95.924 7.171 1.169 528.788 70.799 25.193 0.927 0.913 63.67 表 3 数据集‘Marne’的融合结果客观评价指标对比
Table 3 Objective evaluation indicators of fusion results on dataset 'Marne'
Methods AG CE EI EN MI QCV SD SF SSIM VIF Time/s CBF 5.510 1.172 57.215 6.957 0.741 859.46 31.876 12.906 0.918 0.210 16.31 CNN 3.013 0.640 29.321 7.411 1.362 1066.3 45.254 7.576 1.357 0.606 53.88 GFCE 5.366 1.011 47.239 7.444 0.939 1296.6 42.973 14.087 1.062 0.659 2.414 GFF 2.513 0.582 22.849 7.113 3.002 443.47 40.391 7.010 1.362 0.119 0.570 HMSD_GF 3.429 0.712 33.045 7.450 1.687 1372.6 45.971 8.704 1.345 1.065 2.442 IVFusion 6.547 0.639 59.878 7.782 1.547 1707.7 59.069 16.922 0.985 1.144 39.02 LP 3.346 0.404 32.674 7.368 1.519 405.41 45.814 8.056 1.244 0.519 0.485 MDLatLRR 5.746 0.725 56.777 7.254 0.857 899.58 38.720 14.517 1.146 0.962 149.2 NSST_PCNN 2.936 0.799 28.508 7.230 1.673 808.54 38.255 7.431 1.394 0.567 126.4 TIF 2.684 1.162 27.618 6.839 1.004 1293.7 28.530 6.678 1.381 0.475 0.036 WLS 3.861 0.750 36.552 7.182 1.271 882.73 39.416 10.166 1.339 0.691 3.642 Proposed 7.360 0.590 65.360 7.805 1.437 459.2 65.821 20.057 0.898 0.702 42.86 表 4 数据集‘Airplane in Trees’的融合结果客观评价指标对比
Table 4 Objective evaluation indicators of fusion results on dataset 'Airplane in Trees'
Methods AG CE EI EN MI QCV SD SF SSIM VIF Time/s CBF 3.934 1.298 42.149 6.522 1.367 1431.60 40.857 9.671 1.362 0.332 13.62 CNN 2.484 1.443 26.972 6.654 2.391 181.686 59.796 6.373 1.654 0.546 40.85 GFCE 5.283 1.094 57.008 7.387 1.893 302.870 61.272 11.670 1.187 1.142 1.601 GFF 2.431 1.502 26.516 6.494 2.257 964.541 50.078 6.179 1.652 0.429 0.402 HMSD_GF 2.732 1.137 29.404 6.661 2.076 198.739 59.171 7.196 1.652 0.587 1.669 IVFusion 5.419 1.733 58.824 7.115 0.824 739.613 35.871 12.672 1.246 1.304 36.75 LP 2.799 1.255 30.534 6.987 1.689 381.239 62.178 6.667 1.626 0.776 0.176 MDLatLRR 4.843 1.032 52.793 7.129 1.233 402.472 45.285 12.417 1.401 1.047 173.6 NSST_PCNN 2.379 1.224 25.960 6.683 1.934 189.736 48.505 6.016 1.676 0.451 150.2 TIF 2.379 1.430 25.784 6.505 1.442 366.907 34.257 6.189 1.670 0.462 0.048 WLS 2.404 1.221 25.689 6.611 1.885 224.499 46.689 5.920 1.687 0.489 2.484 Proposed 5.897 2.373 64.020 7.162 1.501 260.734 81.195 15.109 1.039 1.453 32.75 -
[1] MA J, TANG L, XU M, et al. STD FusionNet: An infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13.
[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: A survey[J]. Information Fusion, 2019, 45: 153-178. DOI: 10.1016/j.inffus.2018.02.004
[3] YAN H, ZHANG J X, ZHANG X. Injected infrared and visible image fusion via l1 decomposition model and guided filtering[J]. IEEE Transactions on Computational Imaging, 2022, 8: 162-173. DOI: 10.1109/TCI.2022.3151472
[4] 唐霖峰, 张浩, 徐涵, 等. 基于深度学习的图像融合方法综述[J]. 中国图象图形学报, 2023, 28(1): 3-36. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202301002.htm TANG L F, ZHANG H, XU H, et al. Deep learning-based image fusion: a survey[J]. Journal of Image and Graphics, 2023, 28(1): 3-36. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202301002.htm
[5] ZHANG X. Deep learning-based multi-focus image fusion: A survey and a comparative study[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(9): 4819-4838.
[6] REN L, PAN Z, CAO J, et al. Infrared and visible image fusion based on weighted variance guided filter and image contrast enhancement[J]. Infrared Physics & Technology, 2021, 114: 103662.
[7] LI G, LIN Y, QU X. An infrared and visible image fusion method based on multi-scale transformation and norm optimization[J]. Information Fusion, 2021, 71: 109-129. DOI: 10.1016/j.inffus.2021.02.008
[8] TAN X, GUO L. Visible and infrared image fusion based on visual saliency detection[C]//2020 19th International Symposium on Distributed Computing and Applications for Business Engineering and Science (DCABES). IEEE, 2020: 134-137.
[9] Bavirisetti D P, Dhuli R. Two-scale image fusion of visible and infrared images using Sali ency detection[J]. Infrared Physics & Technology, 2016, 76: 52-64.
[10] 霍星, 邹韵, 陈影, 等. 双尺度分解和显著性分析相结合的红外与可见光图像融合[J]. 中国图象图形学报, 2021, 26(12): 2813-2825. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202112005.htm HUO X, ZOU Y, CHEN Y, et al. Dual-scale decomposition and saliency analysis based infrared and visible image fusion[J]. Journal of Image and Graphics, 2021, 26(12): 2813-2825 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202112005.htm
[11] LIU G, YAN S. Latent low-rank representation for subspace segmentation and feature extraction[C]//2011 International Conference on Computer Vision. IEEE, 2011: 1615-1622.
[12] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576 SUN B, ZHUGE W W, GAO Y X, et al. Infrared and visible image fusion based on latent low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576
[13] LI H, WU X J, Kittler J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746.
[14] TAN W, Tiwari P, Pandey H M, et al. Multimodal medical image fusion algorithm in the era of big data[J/OL]. Neural Computing and Applications, 2020, https://doi.org/10.1007/s00521-020-05173-2.
[15] WANG Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600–612.
[16] 张蕾, 金龙旭, 韩双丽, 等. 采用非采样Contourlet变换与区域分类的红外和可见光图像融合[J]. 光学精密工程, 2015, 23(3): 810-818. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJM201503027.htm Zhang L, Jing L X, Han S L, et al. Fusion of infrared and visual images based on non-sampled Contourlet transform and region classification[J]. Optics and Precision Engineering, 2015, 23(3): 810-818. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJM201503027.htm
[17] Alexander Toet. TNO Image Fusion Dataset[EB/OL]. 2014. https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029.
[18] Shreyamsha Kumar B K. Image fusion based on pixel significance using cross bilateral filter[J]. Signal, Image and Video Processing, 2015, 9(5): 1193-1204.
[19] LIU Y, CHEN X, CHENG J, et al. Infrared and visible image fusion with convolutional neural networks[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 16(3): 1850018.
[20] ZHOU Z, DONG M, XIE X, et al. Fusion of infrared and visible images for night-vision context enhancement[J]. Applied Optics, 2016, 55(23): 6480-6490.
[21] LI S, KANG X, HU J. Image fusion with guided filtering[J]. IEEE Transactions on Image Processing, 2013, 22(7): 2864-2875.
[22] Burt P J, Adelson E H. The laplacian pyramid as a compact image code[J]. IEEE Transactions on Communications, 1983, 31(4): 532-540.
[23] MA J, ZHOU Z, WANG B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.
[24] ZHANG X, YE P, XIAO G. VIFB: A visible and infrared image fusion benchmark[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 104-105.
-
期刊类型引用(1)
1. 郭亮. 基于CGAN的近红外关联成像高分辨率重构. 智能计算机与应用. 2024(05): 144-149 . 百度学术
其他类型引用(9)