DSEL-CNN:结合注意力机制与均衡损失的图像融合算法

赵雅婷, 韩龙, 何辉煌, 陈楚

赵雅婷, 韩龙, 何辉煌, 陈楚. DSEL-CNN:结合注意力机制与均衡损失的图像融合算法[J]. 红外技术, 2025, 47(3): 358-366.
引用本文: 赵雅婷, 韩龙, 何辉煌, 陈楚. DSEL-CNN:结合注意力机制与均衡损失的图像融合算法[J]. 红外技术, 2025, 47(3): 358-366.
ZHAO Yating, HAN Long, HE Huihuang, CHEN Chu. DSEL-CNN: Image Fusion Algorithm Combining Attention Mechanism and Balanced Loss[J]. Infrared Technology , 2025, 47(3): 358-366.
Citation: ZHAO Yating, HAN Long, HE Huihuang, CHEN Chu. DSEL-CNN: Image Fusion Algorithm Combining Attention Mechanism and Balanced Loss[J]. Infrared Technology , 2025, 47(3): 358-366.

DSEL-CNN:结合注意力机制与均衡损失的图像融合算法

基金项目: 

黑龙江省重点研发计划项目 GA23A910

黑龙江省自然科学基金项目 LH2021F051

黑龙江科技大学大学生创新创业训练计划项目 YJS2021051

详细信息
    作者简介:

    赵雅婷(1999-),硕士研究生,研究方向为计算机视觉应用、图像处理。E-mail: zyating0612@163.com

    通讯作者:

    韩龙(1978-),博士,副教授,研究方向为红外图像处理,电力设备故障诊断。E-mail: yazhoulong@163.com

  • 中图分类号: TP391

DSEL-CNN: Image Fusion Algorithm Combining Attention Mechanism and Balanced Loss

  • 摘要:

    在红外与可见光图像融合时,融合后图像常出现显著目标不突出、可见光信息表达不充分的问题,且在亮度不均衡条件下,易出现边缘模糊和局部信息不均衡。因此,提出了结合注意力机制与均衡损失的图像融合算法(Depthwise Separable, Squeeze-and-Excitation, and Equilibrium Loss-based Convolutional Neural Network, DSEL-CNN)。首先,使用深度可分离卷积提取图像特征;其次,在融合策略中使用Squeeze-and-Excitation注意力机制来提高有效信息的权重;最后,利用均衡组合损失函数计算融合后图像损失,进行图像信息均衡。与FusionGAN、DenseFuse和其它4种融合算法在TNO和MSRS公开数据集中进行主客观对比实验,其中互信息值、视觉信息保真度、边缘信息保留指标较其它6种算法分别最高提高了1.033、0.083、0.069,实验结果表明所提算法与6种常用融合算法相比,在融合图像视觉感观、信息含量、边缘和纹理保留方面均有提升。

    Abstract:

    In infrared and visible image fusion, fused images often suffer from insufficient prominence of significant targets, inadequate expression of visible light information, edge blurring, and local information imbalance under uneven lighting conditions. To address these issues, an image fusion algorithm that combines attention mechanisms and equilibrium loss, termed the depthwise separable, squeeze-and-excitation, and equilibrium loss-based convolutional neural network (DSEL-CNN), is proposed. First, a depth-wise separable convolution is used to extract the image features. Subsequently, a fusion strategy is used to apply the squeeze-and-excitation attention mechanism to enhance the weight of effective information. Finally, an equilibrium composite loss function is utilized to calculate the loss of the fused image to ensure balanced information. A comparison of the fusion generative adversarial network (FusionGAN), DenseFuse, and four other fusion algorithms on the TNO and multi-spectral road scenarios (MSRS) public datasets showed that the proposed method achieved the highest improvements in mutual information (MI), visual information fidelity (VIF), and edge retention index (Qabf) by 1.033, 0.083, and 0.069, respectively. Experimental results demonstrate that the proposed algorithm outperforms six commonly used fusion methods in terms of visual perception, information content, and edge and texture preservation in fused images.

  • 随着成像技术在图像处理领域的不断发展,图像在不同设备之间的传输与再现成为必然。为了实现图像在不同设备之间的高保真再现,大量的色域映射算法被提出[1-5]。一般说来,理想的色域映射算法转换后的色域映射图像(Gamut-Mapped Images,GMIs)保持较高的对比度、色彩、亮度和结构。为了设计鲁棒的色域映射算法,需要一个通用的色域映射图像质量评价模型对GMIs进行实时的质量评价。然而,经典的主观图像质量评价方法由于耗时、成本高等因素存在诸多局限性。

    客观的图像质量评价(Image Quality Assessment,IQA)方法根据对参考图像的需求情况可分为全参考质量评价(Full Reference IQA,FR-IQA)、半参考质量评价(Reduced Reference IQA,RR-IQA)和无参考质量评价(No Reference IQA,NR-IQA)三类[6-10]。在客观IQA方法中,NR-IQA方法因其在没有参考图像的情况下的适用性而受到关注与重点研究,NR-IQA方法也称为盲质量评价(Blind IQA,BIQA)方法。在NR-IQA方法中广泛使用的原理是自然场景统计(Natural Scene Statistics,NSS),其假设高质量的图像在视觉上是自然的,其像素信息具有一定的统计规律,而引入的失真往往会破坏自然,统计规律会被改变或者破坏;因此可以对图像的系数信息进行统计建模[8]。例如:盲/无参考图像空间质量评估(Blind/Referenceless Image Spatial QUality Evaluator,BRISQUE)[11]算法通过拟合多个类高斯分布提取亮度特征;基于导数统计的质量评估(Derivative Statistics-based Quality Evaluator,DESIQUE)[12]算法通过对图像亮度的导数和Gabor滤波器系数进行高斯统计建模。

    在GMIs中,色域映射引起的失真主要包括结构退化、对比度失真和色调漂移,这与一般IQA研究探索的合成失真不同。因此,传统的IQA方法不适用于评价GMIs的视觉质量[13]。如图 1所示,图 1(a)是一张原始高清图像,对图 1(a)采用三类色域映射算法进行转换,生成3张质量不同的GMIs,即图 1(b)~(d)。图中MOS(Mean Opinion Score)指代图像的主观质量评分,其评分逐渐降低;但是采用传统图像质量评价方法结构相似性质量模型(Structural Similarity Quality Model,SSIM)[14]得到的客观图像质量评分并不是逐渐降低的。因此,传统的图像质量评价方法并不能准确预测色域映射图像质量。为此,本文结合色域映射图像的失真特性提出了基于双阶颜色信息的色域映射图像无参考质量评价算法。该算法将分别从零阶颜色信息与一阶颜色信息中提取图像的细节纹理信息与粗糙轮廓信息。

    图  1  原始高清图像和3张由不同色域映射算法生成的GMIs
    Figure  1.  The original image and three GMIs generated by different gamut mapping algorithms

    相较于传统图像质量评价方法,针对GMIs的IQA方法相对较少。Cai等人[15]提出通过局部与全局统计分析的GMIs盲质量评价(Blind quality assessment of GMIs via Local and Global Statistical analysis,BLGS)算法。该算法中图像首先被转换成LAB2000HL色彩空间,接着提取局部NSS特征用于描述结构和颜色失真,其次提取全局NSS特征用于描述全局自然度失真。文献[13]于2020年提出了基于NSS模型的GMIs无参考图像质量评价(NR quality evaluation for GMIs based on NSS,GMNSS)方法。该方法对颜色三属性(即亮度、彩度、色调)进行NSS,其中亮度频域的NSS特征用来表示图像的结构失真和对比度失真,彩度和色调的空间域NSS特征用来表示颜色失真。Yu等人[16]提出基于颜色与结构失真的GMIs无参考质量评价算法(NR quality evaluation algorithm for GMIs based on Color and Structural Distortions,GMCSD),该算法提取色调异常率描述图像的色调漂移、相对熵衡量对比度失真、NSS特征描述结构失真。以上算法在预测GMIs质量方面做出突出贡献,但其预测结果的精确度还有提升的空间。

    将颜色信息与灰度信息分开考虑是以往方法的惯用思维,从灰度域提取描述图像结构失真的特征,在颜色分量上考虑颜色失真的描述。但是图像的灰度值是由R、G、B三个颜色分量根据公式(1)计算而得,公式(1)如下[17]

    $$ F_{\mathrm{gr}}=0.2989 F_{\mathrm{r}}+0.5870 F_{\mathrm{g}}+0.1140 F_{\mathrm{b}} $$ (1)

    式中:Fgr为图像的灰度系数;FrFgFb分别为图像在RGB颜色空间中的R、G、B三维颜色系数。由此可知,图像的灰度系数是由图像R、G、B三维颜色系数决定的。所以可以假设R、G、B颜色信息的结合不仅能描述图像颜色失真也能描述图像灰度结构失真。

    同时,无论是饱和度还是色调均是基于R、G、B值的线性运算而得的零阶颜色信息,很少有方法考虑到R、G、B值的空间导数信息即一阶颜色信息[18]

    文献[18]中根据图像颜色的一阶导数信息提出了两个颜色分量(即一阶颜色信息):opponent angle(OA)和spherical angle(SA),其定义为公式(2)和公式(3):

    $$ \mathrm{OA}=\tan ^{-1}\left(\mathrm{opp}_{1, x} / \mathrm{opp}_{2, x}\right) $$ (2)
    $$ \mathrm{SA}=\tan ^{-1}\left(\operatorname{sph}_{1, x} / \mathrm{sph}_{2, x}\right) $$ (3)

    式中:OA和SA是角度值,其取值范围为0~360°(或者0~2π)。opp1, x,opp2, x,sph1, x和sph2, x分别是颜色空间导数信息。详细情况请参考文献[18]。

    图 2显示了原始高清图像和GMI在零阶和一阶的颜色分量对比图。图中(a)是原始无失真图像,(g)是有失真的GMI,(b)和(c)分别为原始图像的OA和SA信息分量图,(h)和(i)分别为GMI的OA和SA信息分量图,(d)~(f)分别是原始图像的R、G、B颜色分量图,(j)~(l)分别是GMI的R、G、B颜色分量图。零阶颜色信息即R、G、B颜色分量图中可以清晰显示图像的细节信息,而一阶颜色信息即OA和SA分量图中能够抓取图像一些粗糙的轮廓信息,两方面信息可以作为互补。

    图  2  原始高清图像和色域映射图像在零阶和一阶的颜色分量图。(a) 原始图像;(b)-(f)分别为(a)的OA、SA、R、G、B分量图;(g) 色域映射图像;(h)-(l)分别为(g)的OA、SA、R、G、B分量图
    Figure  2.  Zero-order and first-order color component of original image and GMI. (a) is the original image; (b)-(f) are OA、SA、R、G、B component of (a) respectively; (g) is the GMI; (h)-(l) are OA、SA、R、G、B component of (g) respectively

    结合R、G、B颜色信息不仅能表征图像颜色失真也能表征图像灰度结构失真的设想与颜色的空间导数信息,本文提出了基于双阶颜色信息的GMIs无参考质量评价方法。在R、G、B三个分量上提取零阶颜色信息表征图像的细节信息的损失,在R、G、B的空间导数信息中提取一阶颜色信息表征图像的轮廓信息的变化,算法框架如图 3所示。该算法中打破以往IQA研究中颜色失真与灰度结构失真分开考虑的惯例,从R、G、B三个颜色分量中提取既能描述颜色失真也能描述灰度失真的特征,同时将颜色的一阶导数信息用于图像质量评价中提取描述图像轮廓信息损失的特征作为补充特征增强算法性能。

    图  3  双阶颜色信息质量评价算法框架
    Figure  3.  Flowchart of the double-order color information quality evaluation

    在本文算法中,计算R、G、B三个零阶颜色分量的二维熵和颜色矩信息以进行图像细节信息损失的测量,其次在OA和SA两个一阶颜色分量上提取二维熵和奇异值以进行图像一阶颜色能量损失的测量,以此作为对零阶颜色信息的补充。同时图像颜色信息的损失导致图像颜色偏离、对比度失真等,使得图像看起来十分不自然,存在自然度失真,因此对双阶颜色信息进行NSS提取特征来量化图像的自然度失真。

    一阶颜色信息作为零阶颜色信息的补充,是R、G、B颜色信息的空间导数,提供图像场景的稳健的像素级描述,其受场景偶然因素(例如,视觉几何和照明变化)的影响较小,因此一阶颜色分量(OA和SA)能够提供更稳定的颜色信息。对比图 2(b)(c)图 2(h)(i)可以发现,色域映射过程会造成一阶颜色分量的结构退化。而结构退化主要表现为结构上的信息量和能量的变化。本文中将采用一阶颜色分量的二维熵来测量信息量的变化,使用奇异值来量化结构能量的丢失,采用自然场景统计的方式来量化自然度失真。

    与广泛使用的香农熵相比[19-20],二维熵包含像素与相邻像素之间的邻域信息,构成一个新的特征二元组,不仅可以衡量信息量,还可以反映像素值的分布特征[21-23]。尺寸为m×n的图像的二维熵FE的定义请见公式(4)~(5):

    $$ {P_{i, j}} = \frac{{L\left( {i, j} \right)}}{{m \times n}} $$ (4)
    $$ {F_{\text{E}}} = - \sum\limits_{i = 0}^{360} {{P_{i, j}}\log {P_{i, j}}} $$ (5)

    式中:L(i, j)为特征二元组(i, j)出现的频数;i为像素值;j为该像素邻域内的像素均值;由于一阶颜色分量均为角度值,所以其取值范围为0~360°。

    为了计算结构能量,在一阶颜色分量图上计算奇异值[23]。分量图I首先被分为b×b的图像块。对于一个图像块Bz可以被表示为:

    $$ \boldsymbol{B}_Z=\boldsymbol{U}_Z \boldsymbol{S}_Z \boldsymbol{V}_Z^{\mathrm{T}} \quad Z=1, 2, \cdots, R $$ (6)

    式中:R为一个分量图中总的图像块数;UZVZ均为b×b的方阵,满足UZTUZEVZTVZE,上标T代表矩阵转置,E表示单位矩阵;SZ为对角矩阵,见公式(7):

    $$ {\boldsymbol{S}_Z} = \left[ {\begin{array}{*{20}{l}} {{\xi _1}}&0& \cdots &0&0 \\ 0&{{\xi _2}}& \cdots &0&0 \\ 0&0& \ddots &0&0 \\ 0&0& \cdots &{{\xi _{b - 1}}}&0 \\ 0&0& \cdots &0&{{\xi _b}} \end{array}} \right] $$ (7)

    SZ对角线上的值即为图像块BZ的奇异值,图像块BZ的平均奇异值为YZYZ的定义如公式(8):

    $$ {Y_Z} = \frac{{{\xi _1} + {\xi _2} + \cdots + {\xi _b}}}{b} $$ (8)

    为了减少图像内容对结构能量的影响,采用图像块局部方差对YZ进行归一化,归一化的定义如公式(9):

    $$ {Y'_Z} = \frac{{{Y_Z}}}{{\sigma _Z^2}} $$ (9)

    式中:σZ2为图像块BZ的像素方差。计算所有图像块的归一化奇异值的平均值Qsuv作为衡量一阶颜色分量能量损失的特征。Qsuv的定义如公式(10):

    $$ {Q_{{\text{suv}}}} = \frac{{\sum\limits_{Z = 1}^R {{{Y'}_Z}} }}{R} $$ (10)

    图像颜色导数信息是传达局部图像结构(例如,边缘,纹理)的关键信息,并且与人类视觉系统的中心环绕机制具有对应关系。之前的研究表明,基于图像空间导数的一阶颜色信息可以建立自然场景统计模型[18]。值得注意的是,一阶颜色分量OA和SA提取的局部结构信息与基于亮度提取的局部结构信息不同。例如,由均值减损对比归一化(mean subtracted contrast normalized, MSCN)系数[11]捕获的图像边界信息包含由场景偶然因素造成的边界(例如,由物体相对于光源的形状或位置引起的边缘)和物体实际边界(例如,两个物体之间的边缘或物体与背景之间的过渡),而一阶颜色分量OA和SA更强调后者即物体的实际边界[18]。因此本文计算一阶颜色分量OA和SA的水平与垂直两个方向的空间相邻系数的差值系数,以此来消除像素的空间依赖性。相邻差值系数计算如公式(11)~(13):

    $$ H_l(i, j)=\psi[I(i, j+1), I(i, j)] $$ (11)
    $$ V_I(i, j)=\psi[I(i+1, j), I(i, j)] $$ (12)
    $$ \psi \left( {{\theta _1}, {\theta _2}} \right) = \left\{ {\begin{array}{*{20}{l}} {{\theta _1} - {\theta _2}, \quad - {\text{π }} \leqslant {\theta _1} - {\theta _2} \leqslant {\text{π }}} \\ {{\theta _1} - {\theta _2} + 2{\text{π , }}\quad - 2{\text{π }} \leqslant {\theta _1} - {\theta _2} < - {\text{π }}} \\ {{\theta _1} - {\theta _2} - 2{\text{π , }}\quad {\text{π }} < {\theta _1} - {\theta _2} \leqslant 2{\text{π }}} \end{array}} \right. $$ (13)

    式中:(i, j)为像素坐标,公式(11)是垂直方向的相邻差值系数计算,公式(12)是水平方向的相邻差值系数计算。因为OA和SA分量是可循环的角度值,取值范围为[0, 2π),因此需要注意两个角度值的实际差距应该是在[-π, π]之间,而并非数学意义上的[0, 2π)。对一阶颜色分量的相邻像素差值系数进行统计分析,图 4绘制了图 1中4幅图像的OA与SA分量的相邻差值系数的统计分布图以及标准的高斯分布和柯西分布,从图中可以看出柯西分布存在重尾的情况,系数分布得更加分散,而高斯分布的系数更多地集中在均值附近。高清图像的一阶颜色分量相邻差值系数更符合柯西分布。因此,可以使用柯西分布对一阶颜色分量的相邻差值系数进行统计建模。柯西分布的密度函数见公式(14):

    $$ \varUpsilon \left( {h;\varepsilon , \rho } \right) = \frac{1}{{2{\text{π }}}}\frac{{1 - {\rho ^2}}}{{1 + {\rho ^2} - 2\rho \cos \left( {x - \varepsilon } \right)}}, \quad - {\text{π }} \leqslant x < {\text{π }} $$ (14)
    图  4  图 1中4幅图像一阶颜色分量的相邻差值经验分布图系数分布
    Figure  4.  Empirical distribution of adjacent difference of first-order color components of the four images in Figure 1

    式中:h为函数变量;ε为位置参数;ρ为尺度参数,参数(ε, ρ)可以作为评价颜色信息的有效质量感知特征。同时由图 4可知每个差值系数分布的峰值呈现很大的区别,因此峰值也可以作为质量感知特征。

    由于人类视觉系统的多层次特性,对图像进行下采样之后再次提取一阶颜色分量的自然场景统计特征。

    综上所述,分别在一阶颜色分量OA与SA中提取了两类特征T1T2T1为量化一阶颜色分量全局结构能量损失的二维熵与奇异值;T2为表征一阶颜色分量自然度失真的NSS特征。

    分析色域映射算法的映射原理,其不同色域之间的颜色坐标转换主要采用两种方式:其一,通过对色域空间的整体压缩来实现大色域到小色域的转换;其二,通过对大色域空间多余部分的整体切除来实现与小色域空间的坐标对齐。第一种方法因为对整体色域空间的压缩导致整体颜色信息的偏移从而造成全局失真,第二种方法因为对大色域的部分切除导致颜色像素信息的部分缺失造成部分结构失真。观察图 2可知无论是全局的信息损失还是局部结构失真在R、G、B三个零阶颜色分量上均有体现。正如图 2中黄色矩形框所示,色域映射图像中存在局部结构失真,而这类失真在3个颜色分量中均有体现;同时,色域映射图像整体对比度的变化也在3个颜色分量中有所反映。因此,在零阶颜色信息中利用R、G、B三个颜色分量的全局二维熵与颜色矩特征来衡量色域映射图像全局信息的丢失;其次将原本在灰度域上进行的MSCN系数[11]的NSS推广到R、G、B三个颜色分量上,从而提取能够衡量色域映射图像局部结构失真的质量感知特征。

    全局信息的丢失主要是色域压缩导致的像素偏移,衡量整体像素改变的最好方法是图像像素信息的统计值和二维熵。因此,此处采用颜色分量的二维熵和由统计而得四阶颜色矩来描述全局失真。

    一阶颜色矩是颜色分量系数的均值,二阶颜色矩是颜色分量系数的统计方差,三阶颜色矩是颜色分量系数统计分布的偏度,四阶颜色矩为颜色分量系数统计分布的峰度。关于矩对于图像质量评价的具体影响参考文献[24]。

    过去的质量评价算法基本都是从图像的灰度域提取图像的一维熵和矩特征;但本文算法从R、G、B三个颜色分量中提取图像二维熵和四阶颜色矩,既考虑了灰度信息的丢失也包含了颜色信息的变化。二维熵的计算公式如2.1.1小节的式(4)和式(5)。

    对于一幅M×N的图像f,其单通道的像素均值fm,标准差fst,偏斜度fsk和峰值fk的计算公式如下:

    $$ {f_{\text{m}}} = \frac{1}{{MN}}\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {f\left( {x, y} \right)} } $$ (15)
    $$ {f_{{\text{st}}}} = {\left[ {\frac{1}{{MN}}\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {{{\left[ {f\left( {x, y} \right) - {f_{\text{m}}}} \right]}^2}} } } \right]^{1/2}} $$ (16)
    $$ {f_{{\text{sk}}}} = \frac{{MN}}{{\left( {MN - 1} \right)\left( {MN - 2} \right)}} \times {\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {\left[ {\frac{{f\left( {x, y} \right) - {f_{\text{m}}}}}{{{f_{{\text{st}}}}}}} \right]} } ^3} $$ (17)
    $$ \begin{array}{l} {f_{\text{k}}} = \frac{{MN \times \left( {MN + 1} \right)}}{{\left( {MN - 1} \right)\left( {MN - 2} \right)\left( {MN - 3} \right)}} \times \hfill \\ \quad \;\;{\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {\left[ {\frac{{f\left( {x, y} \right) - {f_{\text{m}}}}}{{{f_{{\text{st}}}}}}} \right]} } ^4} - \frac{{3{{\left( {MN - 1} \right)}^2}}}{{\left( {MN - 2} \right)\left( {MN - 3} \right)}} \hfill \\ \end{array} $$ (18)

    式中:(x, y)为图像像素坐标;f(x, y)是坐标为(x, y)的像素值。零阶颜色分量的二维熵和颜色矩是本文算法的第三类特征T3,分别在R、G、B三个颜色分量上提取第三类特征。

    对图像的MSCN系数进行统计建模已经广泛应用于图像质量评价的无参考方法中来描述局部结构失真[11],大多数方法中皆是仅对灰度值的MSCN系数进行统计建模。由于灰度值是由R、G、B值线性计算而来的数学原理,此处将基于灰度值的MSCN系数统计建模推广到图像的R、G、B三个颜色分量上。经分析可知图像灰度值的MSCN系数的统计规律仍然适用于R、G、B三个颜色分量的MSCN系数的统计模型,此处以R分量为例。图 5呈现了图 1(a)~(d)的R颜色分量的MSCN系数统计分布图。图中清晰地呈现:图 1(a)的R分量的MSCN系数统计基本服从高斯分布,图 1(b)~(d)的图像质量逐渐降低,其MSCN系数的统计分布则偏离得越来越严重。因此,采用广义高斯分布(Generalized Gaussian Distribution, GGD)拟合图像3个颜色分量的MSCN系数从而提取质量感知特征。GGD的概率密度函数定义如公式(19):

    $$ g\left( {h;\alpha , \beta } \right) = \frac{\alpha }{{2\beta \varGamma \left( {1/\alpha } \right)}}\exp \left[ { - {{\left( {\frac{{\left| x \right|}}{\beta }} \right)}^\alpha }} \right] $$ (19)
    图  5  图 1中4张图的MSCN系数统计
    Figure  5.  Statistical chart of MSCN coefficients for 4 images in Fig. 1

    式中:Γ(·)是gamma函数:

    $$ \varGamma \left( h \right) = \int_0^\infty {{t^{h - 1}}{{\text{e}}^{ - t}}{\text{d}}t, } \quad h > 0 $$ (20)

    式中:参数α代表分布的形状;β代表系数分布的方差。αβ可以作为衡量图像局部失真的质量特征。

    同时,在颜色分量上相邻MSCN系数的乘积也可用于测量感知质量,特别是沿着水平和垂直方向。高清图像颜色分量的相邻MSCN乘积系数也可使用非对称广义高斯分布(Asymmetric Generalized Gaussian Distribution, AGGD)拟合。AGGD的概率密度函数如下:

    $$ {g_\alpha }\left( {h;\gamma , {\delta _l}, {\delta _r}} \right) = \left\{ {\begin{array}{*{20}{c}} {\frac{\gamma }{{\left( {{\delta _l} + {\delta _r}} \right)\varGamma \left( {\frac{1}{\gamma }} \right)}}\exp \left[ { - {{\left( {\frac{{ - h}}{{{\delta _l}}}} \right)}^2}} \right], \quad x < 0} \\ {\frac{\gamma }{{\left( {{\delta _l} + {\delta _r}} \right)\varGamma \left( {\frac{1}{\gamma }} \right)}}\exp \left[ { - {{\left( {\frac{h}{{{\delta _\gamma }}}} \right)}^2}} \right], \quad x \geqslant 0} \end{array}} \right. $$ (21)

    式中:$ \eta = \left( {{\delta _r} + {\delta _l}} \right)\frac{{\varGamma \left( {\frac{2}{\gamma }} \right)}}{{\varGamma \left( {\frac{1}{\gamma }} \right)}} $,γ是形状参数;δrδl是尺度参数;η是AGGD的均值。(η, γ, δr, δl)四个参数可作为质量感知特征。

    对图像进行下采样之后再次提取零阶颜色分量的自然场景统计特征以满足人类视觉系统的多层次特征,这是本文的第四类特征,用T4表示。

    为了将上述质量感知特征映射成一个整体分数来预测色域映射图像的质量,使用后向传播神经网络(Back Propagation Neural Network, BPNN)[25-26]来训练质量预测模型。BPNN是一个基础的神经网络,包含输入层、隐含层、输出层三层结构。输入层接收数据,输出层输出数据,前一层神经元连接到下一层神经元,收集上一层神经元传递来的信息,经过“激活”把值传递给下一层。在实际应用中,给定一张GMI,训练后的回归模型可以用来预测GMI的质量分数。

    本文算法在零阶颜色分量和一阶颜色分量中提取4类用于评价图像质量的感知特征,为验证这些特征对GMIs质量预测的有效性,将在Basic Study(BS),Image Gamut(IG),Local Contrast(LC)[27]三个GMIs数据库上进行对比实验。其中BS数据库的数据量最大,由97张高清无失真图像和1067张不同色域映射算法生成的GMIs组成,IG数据库和LC数据库分别由65、72幅原始图像和520、576幅GMIs图像组成。

    本节采用Pearson相关系数(Pearson linear Correlation Coefficient,PLCC)、Spearman相关系数(Spearman Rank Correlation Coefficient,SRCC)、Kendall相关系数(Kendall Rank Correlation Coefficient,KRCC)三个性能指标衡量算法性能。PLCC反映了主观评分与客观质量评分之间的线性相关性;SRCC和KRCC测量估计单调性。3个评价指标的取值区间均为[-1, 1],其值越大,代表图像质量评价算法的预测性能越好。3个指标的相关定义请参考文献[28]。

    由于所提出的算法模型需要一个训练过程来调整模型参数,因此将每个数据库随机分为不重叠的两部分进行模型训练和质量预测1000次,一部分为训练集(占数据库80%的图像),剩余图像作为测试集。最后测试的结果取1000次实验中的中位数。

    为了验证本文算法对GMIs质量的预测性能的优越性,进行对比实验:将本文算法对GMIs质量的预测性能与一些先进的NR-IQA方法的预测性能进行对比,其中包括:BRISQUE[11],DESIQUE[12],基于自由能熵的无参考方法(NR Free Energy-based Robust Metric, NFERM)[29],基于LCH颜色空间的NSS色域映射图像无参考质量评价(NR quality index for GMIs based on LCH color space NSS, GMLCH)[28],基于双阶结构退化和非局部统计的多重失真图像的盲质量评价方法(blind quality index for multiply distorted images using Bi-Order Structure degradation and nonlocal Statistics, BOSS)[21],基于色调映射图像的梯度和色度统计的盲视觉质量评价(blind visual quality evaluation method for tone-mapped images by using gradient and chromatic statistics, VQGC)[30],BLGS[13],基于不变性描述符的算法(Invariance DEscriptor-based Algorithm, IDEAL)[18],GMNSS[15]和GMCSD [16]。其中,IDEAL、GMLCH、BLGS、GMNSS、GMCSD和VQGC六种算法在提取质量感知特征时考虑了颜色信息,而其余算法均是从灰度域提取特征没有考虑颜色失真。最终实验结果如表 1所示,表 1中呈现了以上所有算法以及本文算法对3个数据库图像的质量预测性能,其中3个指标中最优值通过加粗显示,次优值通过斜体标注。本文算法在表 1中用Proposed表示。

    表  1  三个数据库中算法性能比较
    Table  1.  Comparative evaluation on the three gamut mapping databases
    Method BS database IG database LC database
    PLCC SRCC KRCC PLCC SRCC KRCC PLCC SRCC KRCC
    BRISQUE 0.7633 0.5678 0.4126 0.5153 0.4654 0.3345 0.5026 0.5274 0.3802
    DESIQUE 0.8213 0.5941 0.4354 0.5987 0.5666 0.4211 0.5692 0.5973 0.4429
    NFERM 0.7441 0.5566 0.4072 0.4399 0.4510 0.2968 0.4934 0.4985 0.3617
    IDEAL 0.7859 0.6652 0.4994 0.6195 0.6139 0.4550 0.5780 0.5989 0.4417
    GMNSS 0.8170 0.6774 0.5100 0.7369 0.7086 0.5526 0.6256 0.6154 0.4630
    GMCSD 0.8374 0.7028 0.5402 0.7508 0.7273 0.5633 0.6778 0.6848 0.5152
    BLGS 0.7865 0.7275 0.5116 0.7464 0.7165 0.5147 0.7573 0.7074 0.5033
    GMLCH 0.8385 0.7069 0.5337 0.6302 0.6039 0.4523 0.6565 0.6498 0.4876
    BOSS 0.4830 0.4826 0.3531 0.4573 0.4318 0.3167 0.7035 0.6021 0.4490
    VQGC 0.8315 0.7016 0.5334 0.5732 0.5442 0.4057 0.6298 0.6332 0.4675
    Proposed 0.8816 0.7394 0.5735 0.7944 0.7586 0.5929 0.7252 0.7360 0.5655
    下载: 导出CSV 
    | 显示表格

    表 1中的数据观察可知:除了LC数据库中的PLCC值以外,本文算法的所有性能指标取值均是最高的,这说明本文算法无论在预测单调性还是预测准确性方面均是最优的。同时从表中数据可知在提取特征时考虑了颜色信息的算法的预测性能普遍比没有考虑颜色信息的算法的预测性能好。这说明GMIs质量评价中颜色信息是必不可少的。

    过去的大多数算法皆是从零阶颜色信息中提取质量感知特征,本文不仅考虑了零阶颜色信息还考虑了一阶颜色信息。为了验证一阶颜色信息对于色域映射图像质量预测的必要性进行了以下实验:单独将零阶颜色特征与一阶颜色特征分别进行模型训练和质量预测,并对比预测结果。实验结果如图 6所示,此处采用PLCC作为性能评价指标。

    图  6  两阶颜色信息对算法性能的贡献
    Figure  6.  Contribution of two-order color information to algorithm performance

    图 6中“first-order”和“zeroth-order”分别表示仅采用一阶颜色特征和零阶颜色特征进行模型训练得到的预测性能,“Proposed”表示本文算法的预测性能。从图中可以观察到:虽然单独的一阶颜色特征对图像的预测性能十分有限,但是结合零阶颜色特征却能达到最佳的预测效果。这证明一阶颜色特征在色域映射图像质量预测中是必要且有效的。

    本文算法分别在一阶颜色分量和零阶颜色分量上提取了NSS统计特征和非NSS统计特征。为了验证两类特征的必要性,进行了消融实验:单独将两类特征进行模型训练和质量预测并对比实验结果。实验结果如表 2所示。

    表  2  NSS特征与非NSS统计特征的性能对比
    Table  2.  Performance comparison of NSS features with NON-NSS statistical features
    BS IG LC
    PLCC SRCC KRCC PCC SRCC KRCC PCC SRCC KRCC
    NSS 0.8098 0.6799 0.5171 0.5891 0.5721 0.4175 0.6550 0.6634 0.4928
    NO NSS 0.7038 0.4725 0.3394 0.5645 0.5241 0.3912 0.4713 0.3620 0.2677
    Proposed 0.8816 0.7394 0.5735 0.7944 0.7586 0.5929 0.7252 0.7360 0.5655
    下载: 导出CSV 
    | 显示表格

    表 2中“NSS”代表在一阶与零阶颜色分量上提取的自然场景统计特征,“NON-NSS”代表在一阶和零阶颜色分量上提取的非自然场景统计特征,“Proposed”表示本文算法。从表 2可知NSS特征与非NSS场景统计特征在本文算法中皆是必须的,只有两类特征结合才能达到最佳的预测效果。

    在本文算法的零阶颜色信息中提出使用R、G、B三个颜色分量既能表示图像的颜色失真也能表现图像的灰度失真的设想。为了验证该设想,我们进行了以下实验:在R与G分量上提取T3T4组成特征向量,在R与B分量上提取T3T4组成特征向量,在B与G分量上提取T3T4组成特征向量,在R、G、B三个分量上提取T3T4组成特征向量(即零阶颜色特征);将这4种情况下的特征向量分别进行模型训练与质量预测,预测性能对比如图 7所示。此处采用PLCC作为性能评价指标。

    图  7  R、G、B三个零阶颜色分量的性能贡献
    Figure  7.  Performance contribution of R, G and B zero-order color components

    图 7中可以清晰地获知在零阶颜色信息中的3个颜色分量上,任意取两个颜色分量皆没有3个颜色分量提取的特征预测性能高。每个颜色分量上提取的两类特征皆是必不可少的,只有3个颜色分量的结合才能达到最佳的预测性能。同时还单独在图像的灰度域提取了T3T4两类特征,并进行模型训练与质量预测。从实验结果可知,单独在灰度域提取特征进行训练得到的模型的预测性能是最低的,这说明色域映射图像中的颜色失真十分严重。而3个颜色分量的结合能够达到最佳的预测性能,这证明了R、G、B三个颜色分量的结合不仅能够表达图像的灰度失真,也能表达图像的颜色失真设想的合理性与有效性。

    在本文中,提出了一个基于双阶颜色表示的色域映射图像无参考质量评价方法。在该方法中不仅使用R、G、B三个颜色分量来表征结构失真和颜色失真,还在颜色空间导数即一阶颜色分量中提取相关的质量感知特征来补充表征颜色信息的损失。因为一阶颜色分量OA与SA是角度值,由于角度值具有循环特性,因此在计算其相邻像素差值时采用了其周期性的特质。最后通过大量实验证明本文算法在预测色域映射图像质量的优越性,以及一阶颜色分量的必要性。

  • 图  1   本文算法融合网络结构示意图

    Figure  1.   The algorithm fusion network structure diagram in this paper

    图  2   深度可分离卷积

    Figure  2.   Depth-separable convolution

    图  3   Squeeze-and-Excitation模块示意图

    Figure  3.   Schematic diagram of the Squeeze-and-Excitation module

    图  4   不同融合算法结果对比(从左到右依次为TNO数据集T1、T2、T3; MSRS数据集M1、M2、M3)

    Figure  4.   Comparison of results of different fusion algorithms (from left to right, TNO datasets T1, T2, T3; MSRS datasets M1, M2, M3)

    图  5   TNO数据集场景下消融实验

    Figure  5.   Ablation experiment in TNO dataset scenario

    图  6   MSRS数据集场景下消融实验

    Figure  6.   Ablation experiment in MSRS dataset scenario

    表  1   不同融合算法在TNO、MSRS数据集上的客观评价指标

    Table  1   Objective evaluation metrics of different fusion algorithms on TNO, MSRS datasets

    TNO MSRS
    EN AG SF MI VIF Qabf Time/s EN AG SF MI VIF Qabf Time/s
    FusionGAN 6.622 1.813 5.742 1.122 0.921 0.625 2.323 5.498 1.465 4.358 1.540 0.746 0.722 2.861
    DDcGAN 6.859 2.487 7.021 1.516 0.928 0.490 5.174 5.361 1.947 3.577 1.671 0.771 0.763 5.694
    DenseFuse 6.959 2.216 7.066 1.648 0.847 0.604 1.368 5.405 1.317 3.608 1.623 0.769 0.766 1.238
    IFCNN 7.032 2.064 7.163 1.115 0.921 0.408 1.643 5.357 1.412 4.152 1.824 0.791 0.733 1.753
    PIAFusion 6.683 1.785 5.942 1.291 0.919 0.638 1.927 5.801 1.694 4.632 1.572 0.755 0.742 1.978
    MFEIF 7.011 2.572 6.493 1.273 0.926 0.564 2.151 5.415 1.923 3.676 1.581 0.777 0.754 2.132
    NSST 6.228 1.932 6.314 1.336 0.883 0.417 - 5.324 1.659 3.526 1.628 0.756 0.692 -
    Ours 7.269 3.118 7.326 1.344 0.930 0.636 1.071 5.889 2.013 5.597 2.573 0.827 0.791 1.126
    下载: 导出CSV

    表  2   不同模块在TNO、MSRS数据集上的客观评价指标

    Table  2   Objective evaluation metrics of different modules on TNO, MSRS datasets

    Method TNO MSRS
    EN AG SF MI VIF Qabf EN AG SF MI VIF Qabf
    NSE 6.679 0.0385 8.905 0.913 0.608 0.591 5.855 0.0128 3.955 1.454 0.793 0.754
    NLI 6.701 0.0326 10.327 0.938 0.617 0.473 5.785 0.0140 3.955 1.469 0.761 0.728
    NLM 6.457 0.0288 9.487 0.816 0.612 0.436 5.303 0.0276 6.281 1.275 0.736 0.672
    SE+LI+LM 6.712 0.0391 10.352 0.956 0.622 0.572 5.879 0.0228 6.328 1.482 0.831 0.933
    下载: 导出CSV
  • [1] 张健, 黄安穴. 基于改进LatLRR算法的红外与可见光图像融合研究[J]. 红外技术, 2024, 46(6): 672-680. http://hwjs.nvir.cn/article/id/7363bd38-a7f7-4e58-af46-b1038bb9cc30

    ZHANG Jian, HUANG Anxue. Infrared and visible image fusion based on improved LatLRR algorithm[J]. Infrared Technology, 2024, 46(6): 672-680. http://hwjs.nvir.cn/article/id/7363bd38-a7f7-4e58-af46-b1038bb9cc30

    [2] 刘爽利, 黄雪莉, 刘磊, 等. 光电载荷下的红外和可见光图像融合综述[J]. 计算机工程与应用, 2024, 60(1): 28-39.

    LIU Shuangli, HUANG Xueli, LIU Lei, et al. Infrared and visible image fusion under photoelectric loads[J]. Computer Engineering and Applications, 2024, 60(1): 28-39.

    [3] 刘刚, 肖刚. 基于双路级联对抗机制的红外与可见光图像融合方法[J]. 光子学报, 2021, 50(9): 321-331.

    LIU Gang, XIAO Gang. Infrared and visible image fusion method based on dual-path cascade adversarial mechanism[J]. Acta Photonica Sinica, 2021, 50(9): 321-331.

    [4] 沈英, 黄春红, 黄峰, 等. 红外与可见光图像融合技术的研究进展[J]. 红外与激光工程, 2021, 50(9): 20200467.

    SHEN Ying, HUANG Chunhong, HUANG Feng, et al. Research progress of infrared and visible image fusion technology[J]. Infrared and Laser Engineering, 2021, 50(9): 20200467.

    [5] 叶坤涛, 李文, 舒蕾蕾, 等. 结合改进显著性检测与NSST的红外与可见光图像融合方法[J]. 红外技术, 2021, 43(12): 1212-1221. http://hwjs.nvir.cn/article/id/bfd9f932-e0bd-4669-b698-b02d42e31805

    YE Kuntao, LI Wen, SHU Leilei, et al. Infrared and visible image fusion method based on improved saliency detection and non-subsampled shearlet transform[J]. Infrared Technology, 2021, 43(12): 1212-1221. http://hwjs.nvir.cn/article/id/bfd9f932-e0bd-4669-b698-b02d42e31805

    [6] 杨帆, 王志社, 孙婧, 等. 红外与可见光图像交互自注意力融合方法[J]. 光子学报, 2024, 53(6): 0610003.

    YANG Fan, WANG Zhishe, SUN Jing, et al. Infrared and visible image fusion method via interactive self-attention[J]. Acta Photonica Sinica, 2024, 53(6): 0610003.

    [7] 王天元, 罗晓清, 张战成. 自注意力引导的红外与可见光图像融合算法[J]. 红外技术, 2023, 45(2): 171-177. http://hwjs.nvir.cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe

    WANG Tianyuan, LUO Xiaoqing, ZHANG Zhancheng. Infrared and visible image fusion based on self-attention learning[J]. Infrared Technology, 2023, 45(2): 171-177. http://hwjs.nvir.cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe

    [8] 闵莉, 曹思健, 赵怀慈, 等. 改进生成对抗网络实现红外与可见光图像融合[J]. 红外与激光工程, 2022, 51(4): 20210291.

    MIN Li, CAO Sijian, ZHAO Huaici, et al. Infrared and visible image fusion using improved generative adversarial networks[J]. Infrared and Laser Engineering, 2022, 51(4): 20210291.

    [9]

    MA J, YU W, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004

    [10]

    SHEN J, CHEN Y, LIU Y, et al. ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection[J]. Pattern Recognition, 2024, 145: 109913. DOI: 10.1016/j.patcog.2023.109913

    [11]

    MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995. DOI: 10.1109/TIP.2020.2977573

    [12]

    ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011

    [13]

    JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.

    [14]

    Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.

    [15]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

    [16]

    Toet A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249-251. DOI: 10.1016/j.dib.2017.09.038

    [17]

    MA J, TANG L, FAN F, et al. SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(7): 1200-1217. DOI: 10.1109/JAS.2022.105686

    [18]

    LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.

    [19]

    TANG L, YUAN J, ZHANG H, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.

    [20]

    LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-581.

图(6)  /  表(2)
计量
  • 文章访问数:  16
  • HTML全文浏览量:  3
  • PDF下载量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-07-24
  • 修回日期:  2024-09-17
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回