Infrared Image Deblurring Based on Dense Residual Generation Adversarial Network
-
摘要:
红外图像拍摄过程中,由于摄像设备抖动或目标快速移动会导致图像出现运动模糊,极大影响了有效信息的提取和识别。针对上述问题,本文在DeblurGAN基础上提出一种基于密集残差生成对抗网络的红外图像去模糊方法。该方法首先采用多尺度卷积核,提取红外图像不同尺度和层次的特征。其次,采用密集残差块(residual-in-residual dense block, RRDB)代替原生成网络中的残差单元,改善恢复红外图像的细节信息。通过本课题组自制的红外图像数据集进行实验,结果表明所提出的方法与DeblurGAN相比PSNR提高3.60 dB,SSIM提高0.09,主观视觉去模糊效果较好,恢复后的红外图像边缘轮廓清晰且细节信息明显。
Abstract:During infrared (IR) image capture, the shaking of camera equipment or rapid movement of the target causes motion blur in the image, significantly affecting the extraction and recognition of effective information. To address these problems, this study proposes an infrared image deblurring method based on a dense residual generation adversarial network (DeblurGAN). First, multiscale convolution kernels are employed to extract features at different scales and levels from infrared images. Second, a residual-in-residual dense block (RRDB) is used, instead of the residual unit in the original generation network, to improve the detail of the recovered IR images. Experiments were conducted on the infrared image dataset collected by our group, and the results show that compared to DeblurGAN, the proposed method improves PSNR by 3.60 dB and SSIM by 0.09. The subjective deblurring effect is better, and the recovered infrared images have clear edge contours and detail information.
-
0. 引言
视觉传感器通过捕捉环境中的光信号来获取具有丰富视觉信息的图像,但不同类型的传感器在感知能力上存在差异,其中红外传感器通过捕捉物体的热辐射,提供了对于热量分布和热效应的非接触式检测和分析手段。可见光传感器具有反映场景细节和纹理信息的优势,但容易受到极端环境影响。因此融合技术成为必要选择,它可以结合二者的互补性优势,从而得到一幅目标明亮、背景丰富的融合图像。目前红外与可见光融合技术在电力巡检、医学与军事等多个领域具有广泛的应用前景[1]。
传统的图像融合算法发展成熟,基于多尺度变换的图像融合方法主要包括拉普拉斯金字塔变换(Laplacian Pyramid,LP)、小波变换(Wavelet Transform,WT)、多尺度几何分解3种方法。金字塔变换中的冗余和无方向性分解可能会导致对图像的描述不准确,而WT可以很好地解决该问题并具有多方向性,因此受到了广泛关注和研究。例如,Kumar等人[2](2013)提出了基于离散余弦谐波小波变换(Disrcret Cosine Harmonic Wavelet Transform, DCHWT)的方法,该方法虽然可以增强稀疏性表达,但采样过程中的数据冗余会导致融合图像信息丢失、轮廓模糊等问题。之后,Kumar等人[3](2015)提出交叉双边滤波器(Cross Bilateral Filter,CBF),其在量化评价指标方面得到了较好的表现,但在融合图像中会出现伪影及细节信息丢失问题,而且计算时间相对较长。Li等人[4](2016)通过多个低层特征来设计活动度量提出了一种有效的图像融合方案,融合结果的成像质量和客观评价效果显著。因此,不能仅仅依赖于单一特征,而需要设计更全面的特征提取与细节描述的方法,更完整地描述图像属性。
深度学习具有很强的特征提取和数据表示能力,在图像融合领域得到了飞速发展。其方法大致分为3类:卷积神经网络方法、生成对抗网络方法以及自编码解码网络方法。基于CNN的端到端图像融合框架因其网络容量有限和训练优化的限制可能导致图像重建中的失真和细节损失,影响融合结果的质量和清晰度。Ma等人[5](2017)提出了基于生成对抗网络的FusionGAN,该网络虽然设计了内容损失和对抗损失来约束网络,但难以平衡不同特征的贡献。基于自编码器(Auto Encoder,AE)[6]的图像融合算法可在大型数据集上进行预训练,从而获得良好的特征提取能力,因此其在图像融合领域得到广泛研究。Li等人[7](2018)将密集块(Dense block)[8]融入编码器,提出了一种新的融合框架DenseFuse,该方法通过手工设计融合策略,且其只关注单一尺度的特征融合,因此融合图像在细节信息与整体结构方面的表现不佳。Li等人[9](2019)提出了一种基于残差架构的残差融合网络(An end-to-end residual fusion network for infrared and visible images,RNF_Nest),该网络在自编码器中引入多尺度结构进行特征提取。融合图像在可见光细节信息上获得较好的表现,但红外图像的信息丢失,难以突出红外显著目标。Vibashan V. S.等人[10](2021)提出了一种基于Transformer的图像融合方法(Image Fusion Transformer,IFT),其融合图像保留了丰富的细节信息,但是难以突出红外显著目标,人眼视觉感知效果不足。
因此,本文提出了一种新的图像融合模型。首先,构建了一个多尺度编解码网络,编码器采用多次下采样,实现图像多尺度的特征提取。解码器通过多尺度密集网络连接,对融合特征进行最大程度的重建,防止细节信息丢失。其次,通过引入多头注意力与密集卷积块,设计了一个有效的双分支融合策略,对局部细节信息以及全局依赖进行特征加强。最后,通过实验表明,本文方法比其他有代表性的对比方法在视觉效果与量化评价指标上均有所提高。
1. 本文算法
本文将红外与可见光图像作为源图像分别输入到双编码结构中,从源图像中提取多尺度的深度特征。融合层采用了基于Transformer的多头转置注意力与残差密集块相结合的双分支结构,将每个尺度上提取到的多模态浅层与深层特征进行融合。最后使用基于巢式连接[11]的解码网络对融合特征进行更全面的学习,解码得到具有突出红外目标和丰富细节信息的融合图像。
1.1 多尺度特征融合框架
图像融合方法中通常直接使用训练好的VGG(Visual Geometry Group)或ResNet等深度卷积网络进行特征提取[12]。这些网络使用多层卷积提取出高级语义特征。但仅使用最后一层的深度特征进行图像融合可能会导致信息丢失,图像融合效果不佳。因此,本文基于特征金字塔结构和巢式连接,构建的多尺度特征融合结构框图如图 1所示,该结构主要包括编码网络、融合层和解码网络3个部分。
首先,将红外与可见光源图像输入到编码网络中,其中1×1卷积实现特征维度的转换,每个编码卷积模块(Encoding Convlusion Block,ECB)使用一个3×3与1×1的卷积进行特征提取,并使用最大池化的方式对源图像进行3次下采样,逐步缩小图像分辨率的同时扩充通道数,从而提取多尺度的深度特征。随后,将提取到的多个尺度的红外与可见光特征图输入双分支融合层,得到增强后的多尺度特征融合图。最后,利用解码网络将不同尺度的融合特征图进行相应倍数的上采样,然后与相同尺度的融合特征图进行连接,使用可促进多层次特征交互和信息流动的巢式连接网络来重建红外图像热辐射目标和可见光图像细节纹理。图 1中Conv1表示1×1卷积,ECB1~ECB4表示4个使用最大池化的下采样层组成的编码网络,TFS(Transformer Fusion Layers)代表本文提出的双分支融合策略,DCB31~DCB11表示由上采样层组成的解码网络。其中编码网络和解码网络的设置如表 1所示。其中Ch_i与Ch_o分别代表输入输出通道数。
表 1 编码网络(E)和解码网络(D)的设置Table 1. Settings of encoding network (E) and decoding network (D)E Layer Size Stride Ch_i Ch_o ECB1 - - 16 64 ECB2 - - 64 112 ECB3 - - 112 160 ECB4 - - 160 208 D DCB31 - - 368 160 DCB22 - - 384 112 DCB21 - - 272 112 DCB13 - - 304 64 DCB12 - - 240 64 DCB11 - - 176 64 ECB Conv 3 1 Nin 16 Conv 1 1 16 Nout DCB Conv 3 1 Nin 16 Conv 1 1 16 Nout 1.2 局部-全局双分支融合策略
传统的融合网络难以在关注局部特征的同时平衡全局建模的重要性。因此,本文提出了一种基于Transformer的多头转置注意力结合密集卷积块的双分支特征融合层。融合层的结构框图如图 2所示,其中“c”表示拼接,“+”表示元素相加。首先,将编码后的红外与可见光特征图分别输入到融合层中,其中全局分支提出了高效的视觉Transformer对长距离依赖关系进行建模,以学习全局语境特征。局部分支提出了残差密集块来捕获空间信息,加强局部特征的学习。通过双分支策略的特征学习之后将不同模态的特征图进行拼接,并使用卷积与激活函数进一步加工和提取拼接后的特征,增强特征表达能力。最后,将增强后的特征进行相加,得到包含增强的局部和全局上下文信息的融合特征图。这种融合方式不仅可以提高融合结果的一致性、语义理解能力,也能够适应不同图像的特征分布差异,提升图像融合的质量和视觉效果。
1.2.1 长距离依赖捕获
基于Zamir等人[13](2021)提出的多头转置注意(multi-dconv head transposed attention, MDTA)模块。设计了一个高效的多头自注意力机制(Efficient Multi-Head Self-Attention,EMSA),其网络结构如图 3所示。与传统Transformer中的多头自注意力模块相比,EMSA使用了深度卷积压缩内存,且该模块在通道维度上进行操作,因此可以显著减小计算量。其具体过程如图 3所示,其中R表示reshape,T表示转置,“+”“×”分别表示元素相加与相乘。首先,将输入的Token尺寸为X∈RC×H×W的特征图通过深度卷积和层归一化的预处理,为多头注意力提供更丰富的输入特征和更稳定的训练环境。其次,通过线性变换得到query(Q)、key(K)和value(V),并使用reshape操作后得到K、Q、V∈RM×C×HW,其中M表示注意力头个数,本文中4个不同尺度的EMSA中自注意头个数依次设置为1,2,4,8。之后,通过将矩阵K转置后与矩阵Q进行矩阵相乘,可以生成一个维度为RC×C的转置特征图A。最后,将A经过softmax激活函数后与V相乘,通过reshape和线性层后与原始输入特征图X进行残差连接,得到EMSA的输出X′。
采用1×1卷积替代Transformer块中的全连接层可以有效防止空间结构被破坏,且减少计算量的同时可以保持较好的性能。因此,本文基于该思想采用了一种高效通道注意力(Efficient Channel Attention,ECA)[14]模块,如图 4所示。该模块结合EMSA组成视觉Transformer。EMSA模块提供了全局的上下文信息,使得模型能够更好地理解特征中的依赖关系。而ECA模块通过自适应地调整特征通道之间的关系,帮助模型更好地理解特征之间的重要性和相互作用。在本文方法中,ECA模块直接在平均池化之后使用1×1卷积层取代了传统的全连接层,这样可以避免维度的缩减,并通过一维卷积来实现跨通道间的信息交互。卷积核的大小可以通过一个函数自适应地调整,这种方式只需要很少的参数就能有效地捕捉跨通道的交互关系。且该方法可进一步强化由EMSA获得的全局特征。
1.2.2 局部细节纹理保留
针对现有融合方法容易出现细节丢失等问题,本文基于DenseNet[8]密集卷积块设计的残差密集块(RDB)如图 2所示。RDB模块中的Dense block结构如图 5所示。首先,密集卷积块内的卷积层可以直接访问前面所有层的输出,这种密集连接的方式可以促进信息在网络中的流动,有助于信息的传递和重用,提高模型的表示能力;其次,为充分提取源图像细节信息,通过引入残差学习提高特征学习能力;最后,密集连接块之后使用两个1×1的卷积实现渐进式的通道缩减,可以减少信息损失和特征混淆的风险。
根据图 5中Dense block的结构可知第q层输出为:Xq=Fq(cat(X0, X1, X2, …, Xq-1)),其中,Fq使用了一个3×3卷积、LeakRelu激活函数与Batch Norm实现非线性变换。cat(X0, X1, X2, …, Xq-1)表示将之前所有层的输出特征图进行拼接。
1.3 损失函数
本文采用了3种损失函数来训练特征融合网络,分别为特征相似性损失函数Lfeat、最大梯度损失函数Lgrad以及结构相似度损失函数Lssim。总损失函数Lloss表达为:
$$ L_{\text {loss }}=L_{\text {feat }}+\lambda_1 L_{\text {grad }}+\lambda_2 L_{\mathrm{ssim}} $$ (1) 式中:λ1,λ2为超参数,用来控制损失之间的比例大小。
Lssim计算融合图像和源图像之间的结构相似性,其表达式为:
$$ L_{\mathrm{ssim}}=\left(1-f_{\mathrm{ssim}}\left(I_{\mathrm{if}}, I_{\mathrm{iv}}\right)\right)+\left(1-f_{\mathrm{ssim}}\left(I_{\mathrm{if}}, I_{\mathrm{ir}}\right)\right) $$ (2) 式中:Iif为融合图像;Iir为红外图像;Iiv为可见光图像。
Lfeat通过限制融合后的深度特征以保留显著结构,其表达式为:
$$ L_{\text {feat }}=\sum\limits_{m=1}^M \omega_1(m)\left\|\varPhi_{\mathrm{f}}^m-\left(\omega_{\mathrm{vi}} \varPhi_{\mathrm{vi}}^m+\omega_{\mathrm{ir}} \varPhi_{\mathrm{ir}}^m\right)\right\|_{\mathrm{F}}^2 $$ (3) 式中:Φfm表示融合特征图;Φirm,Φvim分别表示红外与可见光的特征图。M为多尺度深度特征的个数。
Lgrad函数可以计算重建图像和输入图像之间的梯度损失,其表达式为:
$$ L_{\text {grad }}=\frac{1}{H W}\left\|\left|\nabla I_{\mathrm{f}}\right|-\max \left(\left|\nabla I_{\mathrm{ir}}\right|, \left|\nabla I_{\text {vi }}\right|\right)\right\|_1 $$ (4) 式中:∇代表Sobel边缘算子。
2. 实验与分析
2.1 实验设置
本算法硬件平台为CPU(Intel Xeon E5-2620)和GPU(NVIDIA TITAN XP*2 12G),操作系统为Ubuntu18.04,使用Pytorch1.12.0框架构建模型,CUDA版本为11.3,所有实验均在相同实验环境中进行训练、验证和测试。使用Microsoft COCO[15]数据集作为训练集用于训练编解码网络,从中选择80000张图片用于训练,输入图像尺寸为256×256。针对融合网络,选择了KAIST dataset[16]数据集中的20000对图像进行训练,初始学习率为1×10-4,batch_size=4,epoch=2。
为测试所提方法的融合效果,本文选择TNO[17]数据集中的40对图像和M3FD[18]公开数据集中的20对图像进行融合实验,并使用M3FD[18]数据集的融合结果图进行目标检测任务来进一步验证本文所提融合方法的有效性。本文选择了多种有代表性的融合方法进行对比,这些方法分别是CBF[3]、DCHWT[2]、Densefuse[7]、RFN-Nest[8]、IFT[10]、FusionGAN[3]和U2fusion[19]。7种对比方法都是公开可用的,训练的数据集与本文方法相同,分别从视觉效果、量化对比、检测效果以及消融实验等4个方面对融合结果进行分析。
2.2 评价指标
熵(EN)用于衡量融合图像包含的信息量。EN越大,表明融合图像所包含的信息量越多。其定义为:
$$ {\text{EN}} = - \sum\limits_{L = 0}^{L - 1} {{p_l}{{\log }_2}{p_l}} $$ (5) 式中:L表示图像的灰度级数;pl表示融合图像中相应灰度的归一化直方图。
标准差(SD)反映融合图像的单个像素值与平均值的差异性。SD越高代表融合结果具有更好的对比度。其定义为:
$$ \mathrm{SD}=\sqrt{\sum\limits_{i=1}^H \sum\limits_{j=1}^W(F(i, j)-\mu)^2} $$ (6) 式中:F(i, j)表示融合图像F在(i, j)处的像素值;μ表示融合图像的均值。
互信息(MI)用于度量两幅图像之间的相似程度。当融合图像保留了更多源图像的信息量时,互信息值越大。其定义为:
$$ \begin{aligned} & \mathrm{MI}= 0.5 \times\left(\sum\limits_{i, f} p_{\mathrm{I}, \mathrm{F}}(i, f) \log \frac{p_{\mathrm{I}, \mathrm{F}}(i, f)}{p_{\mathrm{I}}(i) p_{\mathrm{F}}(f)}+\right. \\ &\left.\sum\limits_{v, f} p_{\mathrm{V}, \mathrm{F}}(v, f) \log \frac{p_{\mathrm{V}, \mathrm{F}}(v, f)}{p_{\mathrm{V}}(v) p_{\mathrm{F}}(f)}\right) \end{aligned} $$ (7) 式中:pV(v), pI(i)和pF(f)分别代表可见光图像、红外图像和融合图像的边缘直方图;pI, F(i, f)和pV, F(v, f)分别表示红外图像、可见光图像与融合图像的联合直方图。
差异相关性总和(sum of correlation differences, SCD)通过计算源图像及其对融合图像的影响来表征图像质量。SCD越高,意味着融合图像包含源图像中的信息越丰富。其定义为:
$$ D_1=F-S_1, D_2=F-S_2 $$ (8) $$ \mathrm{SCD}=r\left(D_1, S_1\right)+r\left(D_2, S_2\right) $$ (9) 式中:D1、D2分别表示融合图像F与输入源图像S1、S2的差分图像。r(·)函数计算S1和D1、S2和D2之间的相关性,其表达式为:
$$ r({D_K}, {S_K}) = \frac{{\sum\limits_i {\sum\limits_j {({D_K}(i, j) - {{\overline D }_K})({S_K}(i, j) - {{\overline S }_K})} } }}{{\sqrt {(\sum\limits_i {\sum\limits_j {{{({D_K}(i, j) - {{\overline D }_K})}^2}} )(\sum\limits_i {\sum\limits_j {{{({S_K}(i, j) - {{\overline S }_K})}^2}} )} } } }} $$ (10) 式中:$ K = 1, 2 $,DK与SK表示DK与SK像素值的平均值。
多尺度结构相似性度量(multi-scale structural similarity index measure, MS-SSIM)能更好地与人眼视觉系统的视觉感知相一致,并且在一定的尺度下,评价效果优于SSIM。其定义为:
$$ \begin{gathered} {\text{MS-SSIM}}(x, f) = {[{l_M}(x, f)]^{{\alpha _{M'}}}} \times \hfill \\ \quad \prod\limits_{j = 1}^{M'} {{{[{c_j}(x, f)]}^{{\beta _j}}} \times {{\left[ {{s_j}(x, f)} \right]}^{{\gamma _j}}}} \hfill \\ \end{gathered} $$ (11) 式中:lM(x, f)表示在第M′个尺度上的亮度相似度,cj(x, f)和sj(x, f)分别表示在第j个尺度上的对比度和结构相似度。α、β、γ用于平衡上述3个分量的参数。设置$ {\alpha _{M'}} = {\beta _j} = {\gamma _j} $,$\sum\limits_{j=1}^{M^{\prime}} \gamma_j=1$。
VIF(Visual Information Fidelity)是一种用于评估融合图像信息保真度的指标。它通过对融合图像和源图像进行分块,并比较图像块之间的视觉信息,来衡量融合图像的整体质量。VIF值越大,表示融合图像与原始图像之间的信息保持得越好。
2.3 视觉效果
对比实验结果如图 6所示,其中前4列来自TNO数据集,后4列来自M3FD数据集。(a)、(b)为用于测试的红外与可见光图像对。首先,本文方法成功地展现红外显著信息与可见光纹理信息之间的互补效果。如第1、4列的图像中,本文方法能够清晰地显示可见光图像中的建筑物与灌木丛等物体的细节信息,同时有效融合了红外热辐射目标。而对比方法中的一些方法如FusionGAN,虽然能有效突出红外目标,但背景模糊,整体表现更偏向于红外源图像。CBF算法的融合效果不佳,存在大量噪声与伪影。DCHWT和DenseFuse、RFN_Nest等算法同样存在轮廓模糊,细节不清晰等问题。此外,第2、3列的融合图像结果显示,本文方法在保持整体对比度方面也具有一定优势。对比方法如DensFuse、RFN_Nest、U2Fusion、IFT等算法融合结果对比度低,人眼视觉难以锁定目标。而本文方法不仅能够突出红外显著目标,实现保留图像的整体对比度的同时能够更好地保留细节信息。同理,由后4列融合图像中的人物和车辆等目标可以发现,本文方法在M3FD数据集上同样可以有效实现红外显著信息的表达。如图中红外目标突出且轮廓清晰。同时,从融合结果中的建筑物、树叶和车辆等的融合效果可以证明本文方法在保留细节纹理方面同样具有优势。
综上所述,根据图 6中在TNO数据集和M3FD数据集上的视觉结果分析,可以得出结论:本文方法的融合图像在视觉效果上与对比算法相比表现最佳,能够有效地实现红外显著目标与可见光细节纹理上的互补融合,有助于人眼视觉感知与在高级视觉任务上的表现,且该算法避免了融合图像中红外目标不显著、边缘和背景模糊等缺陷。
2.4 量化对比
在TNO与M3FD数据集中的2组图像上的指标对比结果如图 7和图 8所示。表 2列出了这两组图像在6个评价指标上的均值,其中average代表所有方法的指标平均值。对于TNO数据集,本文方法在EN、SD、MI、SCD和VIF指标上取得了最优结果。通过分析各个指标可以得出以下结论:首先,本文获得最佳的EN、MI和SCD值表明融合图像能够很好地保留红外图像和可见光图像中的信息,这也是本文引入多尺度特征融合和视觉Transformer的意义所在。此外,本文方法在SD、VIF指标上也获得最高值,表明融合图像有较高的对比度与视觉保真度。MS_SSIM考虑了不同尺度下的结构信息,分析表 2可得,RFN_Nest、IFT以及本文算法都获得了不错的效果,表明了基于多尺度的编解码网络对于图像中的细节和纹理具有更好的感知能力。对于M3FD数据集,本文方法在MI、SCD、VIF、MS_SSIM等指标上仍然取得了最佳结果。EN相较于average提高了0.243,SD相较于average提高了4.765。总体量化评价结果与在TNO数据集上的表现大致相同,本文方法在6个量化指标上均大于所有方法的指标平均值。综上,根据表 2中的量化比较可以进一步说明,本文方法在TNO与M3FD公开数据集上的实验评估中取得了具有竞争性的效果,这充分证明了本文方法的有效性。
表 2 不同融合方法在TNO与M3FD数据集上各指标均值Table 2. Mean values of indicators on TNO and M3FD datasets with different fusion methodsDataset Methods EN SD MI SCD MS-SSIM VIF TNO CBF 6.890 34.010 2.115 1.326 0.665 0.285 DCHWT 6.626 29.402 1.993 1.542 0.759 0.369 FusionGAN 6.548 30.699 2.593 1.382 0.755 0.425 DenseFuse 6.347 24.707 2.423 1.595 0.918 0.529 U2Fusion 6.511 31.186 2.411 1.654 0.923 0.490 RFN_Nest 6.997 37.42 2.484 1.799 0.967 0.555 IFT 6.981 36.301 2.357 1.745 0.962 0.566 Ours 7.015 38.559 2.683 1.805 0.957 0.614 Average 6.739 32.785 2.382 1.606 0.863 0.479 M3FD CBF 6.920 33.339 2.427 1.217 0.566 0.583 DCHWT 6.668 27.781 2.003 1.493 0.699 0.621 FusionGAN 6.551 29.344 2.909 1.307 0.668 0.406 DenseFuse 6.307 23.722 2.969 1.582 0.975 0.587 U2Fusion 6.496 26.606 2.834 1.643 0.989 0.562 RFN_Nest 6.795 32.995 2.919 1.799 0.993 0.581 IFT 6.950 36.943 2.677 1.776 0.866 0.413 Ours 6.947 35.550 3.181 1.829 1.020 0.665 Average 6.704 30.785 2.739 1.565 0.847 0.552 2.5 检测效果
为进一步验证本文融合方法的有效性,选择YOLO-v7[20]检测算法对上述基于深度学习算法的融合图像进行目标检测。实验采用M3FD[18]公开数据集进行训练与检测,其图像分辨率为1024×768。选择420对红外与可见光图像融合图像进行目标检测,使用平均精准率(Average Precision,AP)、平均精度均值mAP(mean Average Precision)作为检测结果的评价指标。其中AP度量是由精准率与召回率(Precision -Recall,P-R)刻画曲线的面积,用于衡量目标检测任务中模型的精确度和召回率之间的平衡。mAP是多个类别的AP的平均值。本文选择了一张有代表性的检测效果图进行展示,从图 9可知,在本文融合图像上可准确地识别出在雨雾等恶劣环境下行人、车辆,以及路灯等目标物体。不同方法的AP和mAP结果如表 3所示。结果显示,融合图像相比红外与可见光图像在提高目标检测性能方面具有潜在的优势。相比5种经典融合算法,本文融合图像在目标检测任务上获得了最高的mAP,与对比算法中检测任务上效果最好的DenseFuse相比提高了0.56。综上,本文所提图像融合方法在目标检测任务上取得了更好的效果,表明本文方法可实现有效的图像融合。
表 3 融合效果目标检测实验结果评价Table 3. Evaluation of experimental results of fusion effect target detectionModels AP mAP Bus People Car Truck Motorcycle Lamp Visible 0.839 0.639 0.877 0.794 0517 0.681 72.45% Infrared 0.826 0.763 0.835 0.740 0.452 0.351 66.17% DenseFuse 0.827 0.776 0.898 0.830 0.636 0.569 75.62% FusionGan 0.831 0.687 0.883 0.763 0.550 0.425 69.02% RFN_Nest 0.834 0.683 0.895 0.814 0.592 0.650 74.50% IFT 0.844 0.765 0.891 0.824 0.589 0.580 74.94% U2Fusion 0.836 0.754 0.900 0.818 0.612 0.587 75.16% Ours 0.837 0.739 0.889 0.831 0.665 0.607 76.18% 2.6 消融实验
为验证本文所提模块的有效性,对局部信息保留分支的密集卷积块模块与捕获长距离依赖分支的视觉Transformer模块进行消融实验,结果如表 4所示,表中无视觉Transformer表示去除长距离依赖捕获分支的融合策略,无RDB表示去除局部细节分支的融合策略。消融实验结果表明,本文提出的双分支融合策略可达到最佳效果,除去任何一个分支量化指标都会降低,从而进一步证实了本文所提出的融合策略的有效性。
表 4 消融实验结果评价Table 4. Evaluation of ablation experiment resultsDataset Methods EN SD MI SCD MS_SSIM VIF TNO Exclude Transformer 6.948 38.159 2.675 1.787 0.948 0.606 Exclude RDB 6.941 38.036 2.705 1.780 0.944 0.608 Ours 7.015 38.559 2.683 1.805 0.957 0.614 M3FD Exclude Transformer 6.745 33.325 3.108 1.783 1.007 0.643 Exclude RDB 6.74 33.365 3.16 1.774 1.005 0.635 Ours 6.947 35.550 3.181 1.829 1.020 0.665 3. 结语
针对单一的融合策略难以平衡局部细节与整体结构等问题,本文提出一种基于多尺度特征与多头转置注意力模型相结合的红外与可见光图像融合方法。一方面,该方法采用了多尺度编解码网络,用来提取多尺度特征并重建具有丰富信息的融合图像。另一方面,为捕获全局信息设计了视觉Transformer模块,用于获取长距离依赖关系,并结合残差密集块得到更加全面的融合特征。选择了7种经典的融合算法在公开TNO和M3FD数据集上进行图像融合与融合图像目标检测的对比实验。结果显示,生成的融合图像可突出红外显著目标的同时保留可见光纹理信息,并在6个量化指标上均取得了较好的效果。此外,本文方法的融合图像在目标检测任务上的mAP相比对比算法中效果最好的DenseFuse提高了0.56。综上,本文方法可有效地融合红外与可见光图像。
-
表 1 消融实验客观评价结果
Table 1 Objective evaluation of the results of ablation experiments
Methods PSNR/dB SSIM DeblurGAN(RB) 28.23 0.77 DeblurGAN+MSCM 28.41 0.79 RRDB 29.11 0.81 Ours 31.83 0.86 表 2 不同方法的客观评价结果
Table 2 Objective evaluation results of different methodologies
Methods PSNR/dB SSIM Wiener 24.35 0.62 LR 24.51 0.68 DeblurGAN 28.23 0.77 DeblurGAN-v2 29.61 0.80 SRN-DeblurNet 30.10 0.82 Ours 31.83 0.86 -
[1] 吴雪垠, 吴瑾, 张鹤. 逆滤波法在图像复原中的应用[J]. 信息技术, 2011, 35(10): 183-185. https://www.cnki.com.cn/Article/CJFDTOTAL-HDZJ201110052.htm WU X, WU J, ZHANG H. Research on image restoration techniques based on inverse filtering algorithm[J]. Information Technology, 2011, 35(10): 183-185. https://www.cnki.com.cn/Article/CJFDTOTAL-HDZJ201110052.htm
[2] Gonzalez R C, Woods R E. Digital image processing[J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1980, 28(4): 484-486. DOI: 10.1109/TASSP.1980.1163437
[3] Richardson W H. Bayesian-based iterative method of image restoration[J]. Opt. Soc. Am. , 1972, 62(1): 55-59 DOI: 10.1364/JOSA.62.000055
[4] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems, 2014: 2672-2680.
[5] SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 769-777.
[6] Kupyn O, Martyniuk T, WU J, et al. Deblurgan-v2: Deblurring (orders-of-magnitude) faster and better[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 8878-8887.
[7] 陈乔松, 隋晓旭, 官旸珺, 等. 基于多尺度残差生成对抗网络的单图像盲去运动模糊方法[J]. 计算机应用研究, 2021, 38(3): 919-922. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202103054.htm CHEN Q S, SUI X X, GUAN Y J, et al. Method of single image blind deblurring based on multi scale residual generative adversarial networks [J]. Application Research of Computers, 2021, 38(3): 919-922. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202103054.htm
[8] 孙晶晶, 张艳艳, 高超, 等. 基于DeblurGAN的运动模糊图像盲复原算法研究[J]. 电子测量技术, 2022, 45(22): 112-119. https://www.cnki.com.cn/Article/CJFDTOTAL-DZCL202222018.htm SUN J J, ZHANG Y Y, GAO C, et al. Research on blind recovery algorithm for motion blurred images based on DeblurGAN[J]. Electronic Measurement Technology, 2022, 45(22): 112-119. https://www.cnki.com.cn/Article/CJFDTOTAL-DZCL202222018.htm
[9] 缪弘, 张文强. 基于深度卷积神经网络的视觉SLAM去模糊系统[J]. 中兴通讯技术, 2018, 24(5): 62-66. https://www.cnki.com.cn/Article/CJFDTOTAL-ZXTX201805015.htm MIAO H, ZHANG W Q. Deep convolutional neural network for visual SLAM deblurring[J]. ZTE Technology Journal, 2018, 24(5): 62-66. https://www.cnki.com.cn/Article/CJFDTOTAL-ZXTX201805015.htm
[10] 汪海敏. 基于卷积神经网络的图像超分辨率重建[D]. 成都: 电子科技大学, 2019. WANG M M. Image super-resolution reconstruction based on convolutional neural network[D]. Chengdu: University of Electronic Science and Technology, 2019.
[11] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 5769-5779.
[12] DENG J, DONG W, Socher R, et al. Imagenet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: 248-255.
[13] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014.
[14] 侯坤. 基于深度学习的图像去模糊方法研究与应用[D]. 南京: 南京信息工程大学, 2022. HOU K. Research and Application of Image Deblurring Method Based on Deep Learning[D]. Nanjing: Nanjing University of Information Engineering, 2022.
[15] 黄梦涛, 高娜, 刘宝. 基于双判别器加权生成对抗网络的图像去模糊方法[J]. 红外技术, 2022, 44(1): 41-46. http://hwjs.nvir.cn/cn/article/id/2b3573a7-0ce1-4b4e-b07a-1f946e1c30d6 HUANG M T, GAO N, LIU B. Image deblurring method based on a dual-discriminator weighted generative adversarial network[J]. Infrared Technology, 2022, 44(1): 41-46. http://hwjs.nvir.cn/cn/article/id/2b3573a7-0ce1-4b4e-b07a-1f946e1c30d6
[16] 汪陈跃, 雷旭峰, 李泽民, 等. 空间变化离焦模糊红外图像快速复原算法[J]. 红外技术, 2021, 43(4): 378-384. http://hwjs.nvir.cn/cn/article/id/6ec351a1-38e8-450f-a409-5f75e4c0b601 WANG C Y, LEI X F, LI Z M, et al. Fast restoration algorithm for space-variant defocus blurred infrared images[J]. Infrared Technology, 2021, 43(4): 378-384. http://hwjs.nvir.cn/cn/article/id/6ec351a1-38e8-450f-a409-5f75e4c0b601
[17] 陈彦林, 王志社, 邵文禹, 等. 红外与可见光图像多尺度Transformer融合方法[J]. 红外技术, 2023, 45(3): 266-275. http://hwjs.nvir.cn/cn/article/id/8d183327-f396-4c96-b8c4-24ab8acb6a44 CHEN Y L, WANG Z S, SHAO W Y, et al. Multi-scale transformer fusion method for infrared and visible images[J]. Infrared Technology, 2023, 45(3): 266-275. http://hwjs.nvir.cn/cn/article/id/8d183327-f396-4c96-b8c4-24ab8acb6a44
[18] 曹宇彤, 宦克为, 薛超, 等. 基于卷积神经网络结合NSCT的红外与可见光图像融合[J]. 红外技术, 2023, 45(4): 378-385. http://hwjs.nvir.cn/cn/article/id/8dcdf3fd-9d63-4900-a2e6-8f851c64f950 CAO Y T, HUAN K W, XUAN C, et al. Infrared and visible image fusion based on CNN with NSCT[J]. Infrared Technology, 2023, 45(4): 378-385. http://hwjs.nvir.cn/cn/article/id/8dcdf3fd-9d63-4900-a2e6-8f851c64f950
[19] 陈文艺, 杨承勋, 杨辉. 引导滤波和对数变换算法融合的多尺度Retinex红外图像增强[J]. 红外技术, 2022, 44(4): 397-403. http://hwjs.nvir.cn/cn/article/id/f1fcd3be-4a81-4b25-ad02-5f8c035f0be2 CHEN W Y, YANG C X, YANG H. Multiscale Retinex infrared image enhancement based on the fusion of guided filtering and Logarithmic transformation algorithm[J]. Infrared Technology, 2022, 44(4): 397-403. http://hwjs.nvir.cn/cn/article/id/f1fcd3be-4a81-4b25-ad02-5f8c035f0be2
[20] 吉训生, 滕彬. 基于生成对抗网络的行人异常行为图像去模糊算法研究[J]. 光电工程, 2021, 48(6): 32-42. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202106004.htm JI X S, TENG B. Deblurring algorithm based on pedestrian abnormal behavior generation countermeasure network[J]. Opto-Electronic Engineering, 2021, 48(6): 32-42. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202106004.htm