Infrared Ship Detection Based on Multi-scale Semantic Network
-
摘要: 为了增强舰船检测的抗干扰性能,本文提出了一种有效且稳定的单阶段舰船检测网络,该网络主要由3个模块组成:特征优化模块,特征金字塔融合模块和上下文增强模块,其中特征优化模块是提取多尺度上下文信息,并进一步细化和增强顶层特征输入特性,增强弱小目标检测性能;特征金字塔融合模块能够生成表征能力更强的语义信息;上下文增强模块则是整合局部和全局特征增强网络特征表达能力,以降低复杂背景对检测性影响,平衡前景和背景的不均衡差异,消除鱼鳞波的影响。为了验证本文所提方法的有效性和鲁棒性,本文对自建的舰船数据集进行了定性定量验证。实验结果表明,相比现有最新基准对比模型,本文所提网络在自建数据集上均达到了最优性能,在不增加复杂度的情况下极大提升了检测精度。Abstract: To enhance the anti-jamming performance of ship detection, an effective and stable single-stage ship detection network is proposed in this study. The network is composed of three modules: feature optimization, feature pyramid fusion, and context enhancement modules. The feature optimization module extracts multi-scale context information and further refines the high-level feature input characteristics, to enhance the performance of dim–small object detection. The feature pyramid fusion module can generate semantic information with stronger representation ability. The context enhancement module integrates local and global features to enhance the network feature expression ability, reduce the impact of a complex background on detectability, adjust the imbalance between the foreground and background, and eliminate the impact of scale-wave. To verify the effectiveness and robustness of the proposed method, qualitative and quantitative verifications are performed on a self-built dataset. Experimental results show that the proposed network achieves optimal performance compared with the latest benchmark comparison model and considerably improves the detection accuracy without increasing complexity.
-
Keywords:
- object detection /
- infrared ship /
- single-stage network /
- pyramid pooling /
- context enhancement
-
0. 引言
随着成像技术在图像处理领域的不断发展,图像在不同设备之间的传输与再现成为必然。为了实现图像在不同设备之间的高保真再现,大量的色域映射算法被提出[1-5]。一般说来,理想的色域映射算法转换后的色域映射图像(Gamut-Mapped Images,GMIs)保持较高的对比度、色彩、亮度和结构。为了设计鲁棒的色域映射算法,需要一个通用的色域映射图像质量评价模型对GMIs进行实时的质量评价。然而,经典的主观图像质量评价方法由于耗时、成本高等因素存在诸多局限性。
客观的图像质量评价(Image Quality Assessment,IQA)方法根据对参考图像的需求情况可分为全参考质量评价(Full Reference IQA,FR-IQA)、半参考质量评价(Reduced Reference IQA,RR-IQA)和无参考质量评价(No Reference IQA,NR-IQA)三类[6-10]。在客观IQA方法中,NR-IQA方法因其在没有参考图像的情况下的适用性而受到关注与重点研究,NR-IQA方法也称为盲质量评价(Blind IQA,BIQA)方法。在NR-IQA方法中广泛使用的原理是自然场景统计(Natural Scene Statistics,NSS),其假设高质量的图像在视觉上是自然的,其像素信息具有一定的统计规律,而引入的失真往往会破坏自然,统计规律会被改变或者破坏;因此可以对图像的系数信息进行统计建模[8]。例如:盲/无参考图像空间质量评估(Blind/Referenceless Image Spatial QUality Evaluator,BRISQUE)[11]算法通过拟合多个类高斯分布提取亮度特征;基于导数统计的质量评估(Derivative Statistics-based Quality Evaluator,DESIQUE)[12]算法通过对图像亮度的导数和Gabor滤波器系数进行高斯统计建模。
在GMIs中,色域映射引起的失真主要包括结构退化、对比度失真和色调漂移,这与一般IQA研究探索的合成失真不同。因此,传统的IQA方法不适用于评价GMIs的视觉质量[13]。如图 1所示,图 1(a)是一张原始高清图像,对图 1(a)采用三类色域映射算法进行转换,生成3张质量不同的GMIs,即图 1(b)~(d)。图中MOS(Mean Opinion Score)指代图像的主观质量评分,其评分逐渐降低;但是采用传统图像质量评价方法结构相似性质量模型(Structural Similarity Quality Model,SSIM)[14]得到的客观图像质量评分并不是逐渐降低的。因此,传统的图像质量评价方法并不能准确预测色域映射图像质量。为此,本文结合色域映射图像的失真特性提出了基于双阶颜色信息的色域映射图像无参考质量评价算法。该算法将分别从零阶颜色信息与一阶颜色信息中提取图像的细节纹理信息与粗糙轮廓信息。
1. 色域映射图像质量评价研究现状与分析
相较于传统图像质量评价方法,针对GMIs的IQA方法相对较少。Cai等人[15]提出通过局部与全局统计分析的GMIs盲质量评价(Blind quality assessment of GMIs via Local and Global Statistical analysis,BLGS)算法。该算法中图像首先被转换成LAB2000HL色彩空间,接着提取局部NSS特征用于描述结构和颜色失真,其次提取全局NSS特征用于描述全局自然度失真。文献[13]于2020年提出了基于NSS模型的GMIs无参考图像质量评价(NR quality evaluation for GMIs based on NSS,GMNSS)方法。该方法对颜色三属性(即亮度、彩度、色调)进行NSS,其中亮度频域的NSS特征用来表示图像的结构失真和对比度失真,彩度和色调的空间域NSS特征用来表示颜色失真。Yu等人[16]提出基于颜色与结构失真的GMIs无参考质量评价算法(NR quality evaluation algorithm for GMIs based on Color and Structural Distortions,GMCSD),该算法提取色调异常率描述图像的色调漂移、相对熵衡量对比度失真、NSS特征描述结构失真。以上算法在预测GMIs质量方面做出突出贡献,但其预测结果的精确度还有提升的空间。
将颜色信息与灰度信息分开考虑是以往方法的惯用思维,从灰度域提取描述图像结构失真的特征,在颜色分量上考虑颜色失真的描述。但是图像的灰度值是由R、G、B三个颜色分量根据公式(1)计算而得,公式(1)如下[17]:
$$ F_{\mathrm{gr}}=0.2989 F_{\mathrm{r}}+0.5870 F_{\mathrm{g}}+0.1140 F_{\mathrm{b}} $$ (1) 式中:Fgr为图像的灰度系数;Fr、Fg、Fb分别为图像在RGB颜色空间中的R、G、B三维颜色系数。由此可知,图像的灰度系数是由图像R、G、B三维颜色系数决定的。所以可以假设R、G、B颜色信息的结合不仅能描述图像颜色失真也能描述图像灰度结构失真。
同时,无论是饱和度还是色调均是基于R、G、B值的线性运算而得的零阶颜色信息,很少有方法考虑到R、G、B值的空间导数信息即一阶颜色信息[18]。
文献[18]中根据图像颜色的一阶导数信息提出了两个颜色分量(即一阶颜色信息):opponent angle(OA)和spherical angle(SA),其定义为公式(2)和公式(3):
$$ \mathrm{OA}=\tan ^{-1}\left(\mathrm{opp}_{1, x} / \mathrm{opp}_{2, x}\right) $$ (2) $$ \mathrm{SA}=\tan ^{-1}\left(\operatorname{sph}_{1, x} / \mathrm{sph}_{2, x}\right) $$ (3) 式中:OA和SA是角度值,其取值范围为0~360°(或者0~2π)。opp1, x,opp2, x,sph1, x和sph2, x分别是颜色空间导数信息。详细情况请参考文献[18]。
图 2显示了原始高清图像和GMI在零阶和一阶的颜色分量对比图。图中(a)是原始无失真图像,(g)是有失真的GMI,(b)和(c)分别为原始图像的OA和SA信息分量图,(h)和(i)分别为GMI的OA和SA信息分量图,(d)~(f)分别是原始图像的R、G、B颜色分量图,(j)~(l)分别是GMI的R、G、B颜色分量图。零阶颜色信息即R、G、B颜色分量图中可以清晰显示图像的细节信息,而一阶颜色信息即OA和SA分量图中能够抓取图像一些粗糙的轮廓信息,两方面信息可以作为互补。
图 2 原始高清图像和色域映射图像在零阶和一阶的颜色分量图。(a) 原始图像;(b)-(f)分别为(a)的OA、SA、R、G、B分量图;(g) 色域映射图像;(h)-(l)分别为(g)的OA、SA、R、G、B分量图Figure 2. Zero-order and first-order color component of original image and GMI. (a) is the original image; (b)-(f) are OA、SA、R、G、B component of (a) respectively; (g) is the GMI; (h)-(l) are OA、SA、R、G、B component of (g) respectively结合R、G、B颜色信息不仅能表征图像颜色失真也能表征图像灰度结构失真的设想与颜色的空间导数信息,本文提出了基于双阶颜色信息的GMIs无参考质量评价方法。在R、G、B三个分量上提取零阶颜色信息表征图像的细节信息的损失,在R、G、B的空间导数信息中提取一阶颜色信息表征图像的轮廓信息的变化,算法框架如图 3所示。该算法中打破以往IQA研究中颜色失真与灰度结构失真分开考虑的惯例,从R、G、B三个颜色分量中提取既能描述颜色失真也能描述灰度失真的特征,同时将颜色的一阶导数信息用于图像质量评价中提取描述图像轮廓信息损失的特征作为补充特征增强算法性能。
2. 双阶颜色信息质量评价算法实现
在本文算法中,计算R、G、B三个零阶颜色分量的二维熵和颜色矩信息以进行图像细节信息损失的测量,其次在OA和SA两个一阶颜色分量上提取二维熵和奇异值以进行图像一阶颜色能量损失的测量,以此作为对零阶颜色信息的补充。同时图像颜色信息的损失导致图像颜色偏离、对比度失真等,使得图像看起来十分不自然,存在自然度失真,因此对双阶颜色信息进行NSS提取特征来量化图像的自然度失真。
2.1 一阶颜色信息特征提取
一阶颜色信息作为零阶颜色信息的补充,是R、G、B颜色信息的空间导数,提供图像场景的稳健的像素级描述,其受场景偶然因素(例如,视觉几何和照明变化)的影响较小,因此一阶颜色分量(OA和SA)能够提供更稳定的颜色信息。对比图 2(b)、(c)和图 2(h)、(i)可以发现,色域映射过程会造成一阶颜色分量的结构退化。而结构退化主要表现为结构上的信息量和能量的变化。本文中将采用一阶颜色分量的二维熵来测量信息量的变化,使用奇异值来量化结构能量的丢失,采用自然场景统计的方式来量化自然度失真。
2.1.1 一阶颜色分量全局结构量化
与广泛使用的香农熵相比[19-20],二维熵包含像素与相邻像素之间的邻域信息,构成一个新的特征二元组,不仅可以衡量信息量,还可以反映像素值的分布特征[21-23]。尺寸为m×n的图像的二维熵FE的定义请见公式(4)~(5):
$$ {P_{i, j}} = \frac{{L\left( {i, j} \right)}}{{m \times n}} $$ (4) $$ {F_{\text{E}}} = - \sum\limits_{i = 0}^{360} {{P_{i, j}}\log {P_{i, j}}} $$ (5) 式中:L(i, j)为特征二元组(i, j)出现的频数;i为像素值;j为该像素邻域内的像素均值;由于一阶颜色分量均为角度值,所以其取值范围为0~360°。
为了计算结构能量,在一阶颜色分量图上计算奇异值[23]。分量图I首先被分为b×b的图像块。对于一个图像块Bz可以被表示为:
$$ \boldsymbol{B}_Z=\boldsymbol{U}_Z \boldsymbol{S}_Z \boldsymbol{V}_Z^{\mathrm{T}} \quad Z=1, 2, \cdots, R $$ (6) 式中:R为一个分量图中总的图像块数;UZ和VZ均为b×b的方阵,满足UZTUZ=E,VZTVZ=E,上标T代表矩阵转置,E表示单位矩阵;SZ为对角矩阵,见公式(7):
$$ {\boldsymbol{S}_Z} = \left[ {\begin{array}{*{20}{l}} {{\xi _1}}&0& \cdots &0&0 \\ 0&{{\xi _2}}& \cdots &0&0 \\ 0&0& \ddots &0&0 \\ 0&0& \cdots &{{\xi _{b - 1}}}&0 \\ 0&0& \cdots &0&{{\xi _b}} \end{array}} \right] $$ (7) SZ对角线上的值即为图像块BZ的奇异值,图像块BZ的平均奇异值为YZ,YZ的定义如公式(8):
$$ {Y_Z} = \frac{{{\xi _1} + {\xi _2} + \cdots + {\xi _b}}}{b} $$ (8) 为了减少图像内容对结构能量的影响,采用图像块局部方差对YZ进行归一化,归一化的定义如公式(9):
$$ {Y'_Z} = \frac{{{Y_Z}}}{{\sigma _Z^2}} $$ (9) 式中:σZ2为图像块BZ的像素方差。计算所有图像块的归一化奇异值的平均值Qsuv作为衡量一阶颜色分量能量损失的特征。Qsuv的定义如公式(10):
$$ {Q_{{\text{suv}}}} = \frac{{\sum\limits_{Z = 1}^R {{{Y'}_Z}} }}{R} $$ (10) 2.1.2 一阶颜色分量自然场景统计
图像颜色导数信息是传达局部图像结构(例如,边缘,纹理)的关键信息,并且与人类视觉系统的中心环绕机制具有对应关系。之前的研究表明,基于图像空间导数的一阶颜色信息可以建立自然场景统计模型[18]。值得注意的是,一阶颜色分量OA和SA提取的局部结构信息与基于亮度提取的局部结构信息不同。例如,由均值减损对比归一化(mean subtracted contrast normalized, MSCN)系数[11]捕获的图像边界信息包含由场景偶然因素造成的边界(例如,由物体相对于光源的形状或位置引起的边缘)和物体实际边界(例如,两个物体之间的边缘或物体与背景之间的过渡),而一阶颜色分量OA和SA更强调后者即物体的实际边界[18]。因此本文计算一阶颜色分量OA和SA的水平与垂直两个方向的空间相邻系数的差值系数,以此来消除像素的空间依赖性。相邻差值系数计算如公式(11)~(13):
$$ H_l(i, j)=\psi[I(i, j+1), I(i, j)] $$ (11) $$ V_I(i, j)=\psi[I(i+1, j), I(i, j)] $$ (12) $$ \psi \left( {{\theta _1}, {\theta _2}} \right) = \left\{ {\begin{array}{*{20}{l}} {{\theta _1} - {\theta _2}, \quad - {\text{π }} \leqslant {\theta _1} - {\theta _2} \leqslant {\text{π }}} \\ {{\theta _1} - {\theta _2} + 2{\text{π , }}\quad - 2{\text{π }} \leqslant {\theta _1} - {\theta _2} < - {\text{π }}} \\ {{\theta _1} - {\theta _2} - 2{\text{π , }}\quad {\text{π }} < {\theta _1} - {\theta _2} \leqslant 2{\text{π }}} \end{array}} \right. $$ (13) 式中:(i, j)为像素坐标,公式(11)是垂直方向的相邻差值系数计算,公式(12)是水平方向的相邻差值系数计算。因为OA和SA分量是可循环的角度值,取值范围为[0, 2π),因此需要注意两个角度值的实际差距应该是在[-π, π]之间,而并非数学意义上的[0, 2π)。对一阶颜色分量的相邻像素差值系数进行统计分析,图 4绘制了图 1中4幅图像的OA与SA分量的相邻差值系数的统计分布图以及标准的高斯分布和柯西分布,从图中可以看出柯西分布存在重尾的情况,系数分布得更加分散,而高斯分布的系数更多地集中在均值附近。高清图像的一阶颜色分量相邻差值系数更符合柯西分布。因此,可以使用柯西分布对一阶颜色分量的相邻差值系数进行统计建模。柯西分布的密度函数见公式(14):
$$ \varUpsilon \left( {h;\varepsilon , \rho } \right) = \frac{1}{{2{\text{π }}}}\frac{{1 - {\rho ^2}}}{{1 + {\rho ^2} - 2\rho \cos \left( {x - \varepsilon } \right)}}, \quad - {\text{π }} \leqslant x < {\text{π }} $$ (14) 式中:h为函数变量;ε为位置参数;ρ为尺度参数,参数(ε, ρ)可以作为评价颜色信息的有效质量感知特征。同时由图 4可知每个差值系数分布的峰值呈现很大的区别,因此峰值也可以作为质量感知特征。
由于人类视觉系统的多层次特性,对图像进行下采样之后再次提取一阶颜色分量的自然场景统计特征。
综上所述,分别在一阶颜色分量OA与SA中提取了两类特征T1和T2:T1为量化一阶颜色分量全局结构能量损失的二维熵与奇异值;T2为表征一阶颜色分量自然度失真的NSS特征。
2.2 零阶颜色信息特征提取
分析色域映射算法的映射原理,其不同色域之间的颜色坐标转换主要采用两种方式:其一,通过对色域空间的整体压缩来实现大色域到小色域的转换;其二,通过对大色域空间多余部分的整体切除来实现与小色域空间的坐标对齐。第一种方法因为对整体色域空间的压缩导致整体颜色信息的偏移从而造成全局失真,第二种方法因为对大色域的部分切除导致颜色像素信息的部分缺失造成部分结构失真。观察图 2可知无论是全局的信息损失还是局部结构失真在R、G、B三个零阶颜色分量上均有体现。正如图 2中黄色矩形框所示,色域映射图像中存在局部结构失真,而这类失真在3个颜色分量中均有体现;同时,色域映射图像整体对比度的变化也在3个颜色分量中有所反映。因此,在零阶颜色信息中利用R、G、B三个颜色分量的全局二维熵与颜色矩特征来衡量色域映射图像全局信息的丢失;其次将原本在灰度域上进行的MSCN系数[11]的NSS推广到R、G、B三个颜色分量上,从而提取能够衡量色域映射图像局部结构失真的质量感知特征。
2.2.1 零阶颜色分量全局信息量化
全局信息的丢失主要是色域压缩导致的像素偏移,衡量整体像素改变的最好方法是图像像素信息的统计值和二维熵。因此,此处采用颜色分量的二维熵和由统计而得四阶颜色矩来描述全局失真。
一阶颜色矩是颜色分量系数的均值,二阶颜色矩是颜色分量系数的统计方差,三阶颜色矩是颜色分量系数统计分布的偏度,四阶颜色矩为颜色分量系数统计分布的峰度。关于矩对于图像质量评价的具体影响参考文献[24]。
过去的质量评价算法基本都是从图像的灰度域提取图像的一维熵和矩特征;但本文算法从R、G、B三个颜色分量中提取图像二维熵和四阶颜色矩,既考虑了灰度信息的丢失也包含了颜色信息的变化。二维熵的计算公式如2.1.1小节的式(4)和式(5)。
对于一幅M×N的图像f,其单通道的像素均值fm,标准差fst,偏斜度fsk和峰值fk的计算公式如下:
$$ {f_{\text{m}}} = \frac{1}{{MN}}\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {f\left( {x, y} \right)} } $$ (15) $$ {f_{{\text{st}}}} = {\left[ {\frac{1}{{MN}}\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {{{\left[ {f\left( {x, y} \right) - {f_{\text{m}}}} \right]}^2}} } } \right]^{1/2}} $$ (16) $$ {f_{{\text{sk}}}} = \frac{{MN}}{{\left( {MN - 1} \right)\left( {MN - 2} \right)}} \times {\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {\left[ {\frac{{f\left( {x, y} \right) - {f_{\text{m}}}}}{{{f_{{\text{st}}}}}}} \right]} } ^3} $$ (17) $$ \begin{array}{l} {f_{\text{k}}} = \frac{{MN \times \left( {MN + 1} \right)}}{{\left( {MN - 1} \right)\left( {MN - 2} \right)\left( {MN - 3} \right)}} \times \hfill \\ \quad \;\;{\sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{N - 1} {\left[ {\frac{{f\left( {x, y} \right) - {f_{\text{m}}}}}{{{f_{{\text{st}}}}}}} \right]} } ^4} - \frac{{3{{\left( {MN - 1} \right)}^2}}}{{\left( {MN - 2} \right)\left( {MN - 3} \right)}} \hfill \\ \end{array} $$ (18) 式中:(x, y)为图像像素坐标;f(x, y)是坐标为(x, y)的像素值。零阶颜色分量的二维熵和颜色矩是本文算法的第三类特征T3,分别在R、G、B三个颜色分量上提取第三类特征。
2.2.2 零阶颜色分量自然场景统计
对图像的MSCN系数进行统计建模已经广泛应用于图像质量评价的无参考方法中来描述局部结构失真[11],大多数方法中皆是仅对灰度值的MSCN系数进行统计建模。由于灰度值是由R、G、B值线性计算而来的数学原理,此处将基于灰度值的MSCN系数统计建模推广到图像的R、G、B三个颜色分量上。经分析可知图像灰度值的MSCN系数的统计规律仍然适用于R、G、B三个颜色分量的MSCN系数的统计模型,此处以R分量为例。图 5呈现了图 1(a)~(d)的R颜色分量的MSCN系数统计分布图。图中清晰地呈现:图 1(a)的R分量的MSCN系数统计基本服从高斯分布,图 1(b)~(d)的图像质量逐渐降低,其MSCN系数的统计分布则偏离得越来越严重。因此,采用广义高斯分布(Generalized Gaussian Distribution, GGD)拟合图像3个颜色分量的MSCN系数从而提取质量感知特征。GGD的概率密度函数定义如公式(19):
$$ g\left( {h;\alpha , \beta } \right) = \frac{\alpha }{{2\beta \varGamma \left( {1/\alpha } \right)}}\exp \left[ { - {{\left( {\frac{{\left| x \right|}}{\beta }} \right)}^\alpha }} \right] $$ (19) 式中:Γ(·)是gamma函数:
$$ \varGamma \left( h \right) = \int_0^\infty {{t^{h - 1}}{{\text{e}}^{ - t}}{\text{d}}t, } \quad h > 0 $$ (20) 式中:参数α代表分布的形状;β代表系数分布的方差。α和β可以作为衡量图像局部失真的质量特征。
同时,在颜色分量上相邻MSCN系数的乘积也可用于测量感知质量,特别是沿着水平和垂直方向。高清图像颜色分量的相邻MSCN乘积系数也可使用非对称广义高斯分布(Asymmetric Generalized Gaussian Distribution, AGGD)拟合。AGGD的概率密度函数如下:
$$ {g_\alpha }\left( {h;\gamma , {\delta _l}, {\delta _r}} \right) = \left\{ {\begin{array}{*{20}{c}} {\frac{\gamma }{{\left( {{\delta _l} + {\delta _r}} \right)\varGamma \left( {\frac{1}{\gamma }} \right)}}\exp \left[ { - {{\left( {\frac{{ - h}}{{{\delta _l}}}} \right)}^2}} \right], \quad x < 0} \\ {\frac{\gamma }{{\left( {{\delta _l} + {\delta _r}} \right)\varGamma \left( {\frac{1}{\gamma }} \right)}}\exp \left[ { - {{\left( {\frac{h}{{{\delta _\gamma }}}} \right)}^2}} \right], \quad x \geqslant 0} \end{array}} \right. $$ (21) 式中:$ \eta = \left( {{\delta _r} + {\delta _l}} \right)\frac{{\varGamma \left( {\frac{2}{\gamma }} \right)}}{{\varGamma \left( {\frac{1}{\gamma }} \right)}} $,γ是形状参数;δr和δl是尺度参数;η是AGGD的均值。(η, γ, δr, δl)四个参数可作为质量感知特征。
对图像进行下采样之后再次提取零阶颜色分量的自然场景统计特征以满足人类视觉系统的多层次特征,这是本文的第四类特征,用T4表示。
2.3 模型训练
为了将上述质量感知特征映射成一个整体分数来预测色域映射图像的质量,使用后向传播神经网络(Back Propagation Neural Network, BPNN)[25-26]来训练质量预测模型。BPNN是一个基础的神经网络,包含输入层、隐含层、输出层三层结构。输入层接收数据,输出层输出数据,前一层神经元连接到下一层神经元,收集上一层神经元传递来的信息,经过“激活”把值传递给下一层。在实际应用中,给定一张GMI,训练后的回归模型可以用来预测GMI的质量分数。
3. 实验结果与分析
3.1 实验设置
本文算法在零阶颜色分量和一阶颜色分量中提取4类用于评价图像质量的感知特征,为验证这些特征对GMIs质量预测的有效性,将在Basic Study(BS),Image Gamut(IG),Local Contrast(LC)[27]三个GMIs数据库上进行对比实验。其中BS数据库的数据量最大,由97张高清无失真图像和1067张不同色域映射算法生成的GMIs组成,IG数据库和LC数据库分别由65、72幅原始图像和520、576幅GMIs图像组成。
本节采用Pearson相关系数(Pearson linear Correlation Coefficient,PLCC)、Spearman相关系数(Spearman Rank Correlation Coefficient,SRCC)、Kendall相关系数(Kendall Rank Correlation Coefficient,KRCC)三个性能指标衡量算法性能。PLCC反映了主观评分与客观质量评分之间的线性相关性;SRCC和KRCC测量估计单调性。3个评价指标的取值区间均为[-1, 1],其值越大,代表图像质量评价算法的预测性能越好。3个指标的相关定义请参考文献[28]。
由于所提出的算法模型需要一个训练过程来调整模型参数,因此将每个数据库随机分为不重叠的两部分进行模型训练和质量预测1000次,一部分为训练集(占数据库80%的图像),剩余图像作为测试集。最后测试的结果取1000次实验中的中位数。
3.2 算法性能比较
为了验证本文算法对GMIs质量的预测性能的优越性,进行对比实验:将本文算法对GMIs质量的预测性能与一些先进的NR-IQA方法的预测性能进行对比,其中包括:BRISQUE[11],DESIQUE[12],基于自由能熵的无参考方法(NR Free Energy-based Robust Metric, NFERM)[29],基于LCH颜色空间的NSS色域映射图像无参考质量评价(NR quality index for GMIs based on LCH color space NSS, GMLCH)[28],基于双阶结构退化和非局部统计的多重失真图像的盲质量评价方法(blind quality index for multiply distorted images using Bi-Order Structure degradation and nonlocal Statistics, BOSS)[21],基于色调映射图像的梯度和色度统计的盲视觉质量评价(blind visual quality evaluation method for tone-mapped images by using gradient and chromatic statistics, VQGC)[30],BLGS[13],基于不变性描述符的算法(Invariance DEscriptor-based Algorithm, IDEAL)[18],GMNSS[15]和GMCSD [16]。其中,IDEAL、GMLCH、BLGS、GMNSS、GMCSD和VQGC六种算法在提取质量感知特征时考虑了颜色信息,而其余算法均是从灰度域提取特征没有考虑颜色失真。最终实验结果如表 1所示,表 1中呈现了以上所有算法以及本文算法对3个数据库图像的质量预测性能,其中3个指标中最优值通过加粗显示,次优值通过斜体标注。本文算法在表 1中用Proposed表示。
表 1 三个数据库中算法性能比较Table 1. Comparative evaluation on the three gamut mapping databasesMethod BS database IG database LC database PLCC SRCC KRCC PLCC SRCC KRCC PLCC SRCC KRCC BRISQUE 0.7633 0.5678 0.4126 0.5153 0.4654 0.3345 0.5026 0.5274 0.3802 DESIQUE 0.8213 0.5941 0.4354 0.5987 0.5666 0.4211 0.5692 0.5973 0.4429 NFERM 0.7441 0.5566 0.4072 0.4399 0.4510 0.2968 0.4934 0.4985 0.3617 IDEAL 0.7859 0.6652 0.4994 0.6195 0.6139 0.4550 0.5780 0.5989 0.4417 GMNSS 0.8170 0.6774 0.5100 0.7369 0.7086 0.5526 0.6256 0.6154 0.4630 GMCSD 0.8374 0.7028 0.5402 0.7508 0.7273 0.5633 0.6778 0.6848 0.5152 BLGS 0.7865 0.7275 0.5116 0.7464 0.7165 0.5147 0.7573 0.7074 0.5033 GMLCH 0.8385 0.7069 0.5337 0.6302 0.6039 0.4523 0.6565 0.6498 0.4876 BOSS 0.4830 0.4826 0.3531 0.4573 0.4318 0.3167 0.7035 0.6021 0.4490 VQGC 0.8315 0.7016 0.5334 0.5732 0.5442 0.4057 0.6298 0.6332 0.4675 Proposed 0.8816 0.7394 0.5735 0.7944 0.7586 0.5929 0.7252 0.7360 0.5655 对表 1中的数据观察可知:除了LC数据库中的PLCC值以外,本文算法的所有性能指标取值均是最高的,这说明本文算法无论在预测单调性还是预测准确性方面均是最优的。同时从表中数据可知在提取特征时考虑了颜色信息的算法的预测性能普遍比没有考虑颜色信息的算法的预测性能好。这说明GMIs质量评价中颜色信息是必不可少的。
3.3 一阶颜色信息对算法性能的影响
过去的大多数算法皆是从零阶颜色信息中提取质量感知特征,本文不仅考虑了零阶颜色信息还考虑了一阶颜色信息。为了验证一阶颜色信息对于色域映射图像质量预测的必要性进行了以下实验:单独将零阶颜色特征与一阶颜色特征分别进行模型训练和质量预测,并对比预测结果。实验结果如图 6所示,此处采用PLCC作为性能评价指标。
图 6中“first-order”和“zeroth-order”分别表示仅采用一阶颜色特征和零阶颜色特征进行模型训练得到的预测性能,“Proposed”表示本文算法的预测性能。从图中可以观察到:虽然单独的一阶颜色特征对图像的预测性能十分有限,但是结合零阶颜色特征却能达到最佳的预测效果。这证明一阶颜色特征在色域映射图像质量预测中是必要且有效的。
3.4 消融实验
本文算法分别在一阶颜色分量和零阶颜色分量上提取了NSS统计特征和非NSS统计特征。为了验证两类特征的必要性,进行了消融实验:单独将两类特征进行模型训练和质量预测并对比实验结果。实验结果如表 2所示。
表 2 NSS特征与非NSS统计特征的性能对比Table 2. Performance comparison of NSS features with NON-NSS statistical featuresBS IG LC PLCC SRCC KRCC PCC SRCC KRCC PCC SRCC KRCC NSS 0.8098 0.6799 0.5171 0.5891 0.5721 0.4175 0.6550 0.6634 0.4928 NO NSS 0.7038 0.4725 0.3394 0.5645 0.5241 0.3912 0.4713 0.3620 0.2677 Proposed 0.8816 0.7394 0.5735 0.7944 0.7586 0.5929 0.7252 0.7360 0.5655 表 2中“NSS”代表在一阶与零阶颜色分量上提取的自然场景统计特征,“NON-NSS”代表在一阶和零阶颜色分量上提取的非自然场景统计特征,“Proposed”表示本文算法。从表 2可知NSS特征与非NSS场景统计特征在本文算法中皆是必须的,只有两类特征结合才能达到最佳的预测效果。
3.5 颜色信息必要性验证
在本文算法的零阶颜色信息中提出使用R、G、B三个颜色分量既能表示图像的颜色失真也能表现图像的灰度失真的设想。为了验证该设想,我们进行了以下实验:在R与G分量上提取T3与T4组成特征向量,在R与B分量上提取T3与T4组成特征向量,在B与G分量上提取T3与T4组成特征向量,在R、G、B三个分量上提取T3与T4组成特征向量(即零阶颜色特征);将这4种情况下的特征向量分别进行模型训练与质量预测,预测性能对比如图 7所示。此处采用PLCC作为性能评价指标。
从图 7中可以清晰地获知在零阶颜色信息中的3个颜色分量上,任意取两个颜色分量皆没有3个颜色分量提取的特征预测性能高。每个颜色分量上提取的两类特征皆是必不可少的,只有3个颜色分量的结合才能达到最佳的预测性能。同时还单独在图像的灰度域提取了T3与T4两类特征,并进行模型训练与质量预测。从实验结果可知,单独在灰度域提取特征进行训练得到的模型的预测性能是最低的,这说明色域映射图像中的颜色失真十分严重。而3个颜色分量的结合能够达到最佳的预测性能,这证明了R、G、B三个颜色分量的结合不仅能够表达图像的灰度失真,也能表达图像的颜色失真设想的合理性与有效性。
4. 结语
在本文中,提出了一个基于双阶颜色表示的色域映射图像无参考质量评价方法。在该方法中不仅使用R、G、B三个颜色分量来表征结构失真和颜色失真,还在颜色空间导数即一阶颜色分量中提取相关的质量感知特征来补充表征颜色信息的损失。因为一阶颜色分量OA与SA是角度值,由于角度值具有循环特性,因此在计算其相邻像素差值时采用了其周期性的特质。最后通过大量实验证明本文算法在预测色域映射图像质量的优越性,以及一阶颜色分量的必要性。
-
表 1 不同模块的消融结果
Table 1 Ablation results of different modules
MCI SI Fusion P mAP R F1 71.1 76.3 82.7 86.5 √ 74.5 76.9 83.2 86.6 √ √ 78.2 78.2 83.5 87.2 √ √ √ 80.5 79.2 85.0 88.8 表 2 自建数据集上的检测结果对比
Table 2 Comparison of results on non-public data sets
Models P mAP R F1 YOLOv3 75.5 74.2 81.3 83.9 RetinaNet 77.3 80.6 78.9 77.4 RefineNet 78.4 83.1 79.3 81.1 CenterNet 77.1 78.6 84.5 88.7 FCOS 78.7 85.1 76.6 86.5 Ours 80.5 79.2 85.0 88.8 表 3 不同数据子集上的检测结果对比
Table 3 Comparison results for different sub-set
Models SOS CBC Others P mAP R F1 P mAP R F1 P mAP R F1 YOLOv3 67.3 67.4 70.6 68.9 72.1 80.6 83.0 88.3 76.4 85.1 81.5 76.0 RetinaNet 66.6 70.3 72.5 69.4 75.4 81.1 83.1 83.3 78.5 84.5 85.8 76.6 RefineNet 64.8 78.8 78.3 70.9 73.7 82.3 85.0 89.1 77.2 89.6 86.4 75.7 CenterNet 67.8 74.6 79.6 73.2 73.6 77.1 81.9 93.0 79.3 78.9 80.1 85.5 FCOS 64.8 80.8 78.3 70.9 72.5 76.3 82.4 86.2 78.7 77.7 78.5 85.9 Ours 68.0 83.3 83.6 74.9 73.9 85.2 84.9 90.1 83.5 85.4 87.6 86.0 -
[1] 邢莎, 吉林, 雍杨, 等. 复杂场景下的自动红外舰船目标检测[J]. 红外技术, 2014, 36(4): 320-325. http://hwjs.nvir.cn/article/id/hwjs201404013 XING Sha, JI Lin, YONG Yang, et al. Automatic infrared warship target detection under complicated background[J]. Infrared Technology, 2014, 36(4): 320-325. http://hwjs.nvir.cn/article/id/hwjs201404013
[2] 赵文涛, 曹昕鸷, 田志勇. 基于自适应阈值区域生长的红外舰船目标分割方法[J]. 红外技术, 2018, 40(2): 158-163. http://hwjs.nvir.cn/article/id/hwjs201802010 ZHAO Wentao, CAO Xinzhi, TIAN Zhiyong. An infrared ship target segmentation method based on adaptive threshold region growth[J]. Infrared Technology, 2018, 40(2): 158-163. http://hwjs.nvir.cn/article/id/hwjs201802010
[3] 丁荣莉, 韩传钊, 谢宝蓉, 等. 红外遥感图像舰船目标检测[J]. 红外技术, 2019, 41(2): 127-133. http://hwjs.nvir.cn/article/id/hwjs201902004 DING Rongli, HAN Chuanzhao, XIE Baorong, et al. Ship target detection in infrared remote-sensing image[J]. Infrared Technology, 2019, 41(2): 127-133. http://hwjs.nvir.cn/article/id/hwjs201902004
[4] Kumar D, ZHANG X. Ship detection based on faster R-CNN in SAR imagery by anchor box optimization[C]//2019 International Conference on Control, Automation and Information Sciences (ICCAIS), 2019: 309-313.
[5] Redmon J, Farhadi A. YOLOv3: an incremental improvement[J]. arXiv: 1804.02767, 2018.
[6] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
[7] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//International Conference on Computer Vision, 2017: 2999-3007.
[8] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]// European Conference on Computer Vision, 2018: 765-781.
[9] DUAN K, BAI S, XIE L, et al. CenterNet: keypoint triplets for object detection[J/OL]. arXiv: 1904.08189, 2019.
[10] TAN M, PANG R, LE Q V, et al. EfficientDet: scalable and efficient object detection[J/OL]. arXiv: 1911.09070, 2019.
[11] 杨涛, 戴军, 吴钟建, 等. 基于深度学习的红外舰船目标识别[J]. 红外技术, 2020, 42(5): 426-433. http://hwjs.nvir.cn/article/id/hwjs202005003 YANG Tao, DAI Jun, WU Zhongjian, et al. Target recognition of infrared ship based on deep learning[J]. Infrared Technology, 2020, 42(5): 426-433. http://hwjs.nvir.cn/article/id/hwjs202005003
[12] 黄洁, 姜志国, 张浩鹏, 等. 基于卷积神经网络的遥感图像舰船目标检测[J]. 北京航空航天大学学报, 2017(9): 132-139. https://www.cnki.com.cn/Article/CJFDTOTAL-BJHK201709016.htm HUANG Jie, JIANG Zhiguo, ZHANG Haopeng, et al. Ship target detection in remote sensing image based on convolutional neural network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017(9): 132-139. https://www.cnki.com.cn/Article/CJFDTOTAL-BJHK201709016.htm
[13] 顾佼佼, 李炳臻, 刘克, 等. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9 GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship target detection algorithm based on improved faster R-CNN[J]. Infrared Technology, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9
[14] GUO Haoyuan, YANG Xi, WANG Nannan, et al. A CenterNet++ model for ship detection in SAR images[J]. Pattern Recognition, 2021, 112(88): 25-34.
[15] FAN S, ZHU F, CHEN S, et al. FII-CenterNet: an anchor-free detector with foreground attention for traffic object detection[J]. IEEE Transactions on Vehicular Technology, 2021, 120(99): 1-14.
[16] Barrios J M, Bustos B. Competitive content-based video copy detection using global descriptors[J]. Multimedia Tools and Applications, 2013, 62(1): 75-110.
[17] ZHANG Xiang, YANG Wei, TANG Xiaolin, et al. A fast learning method for accurate and robust lane detection using two-stage feature extraction with YOLOv3[J]. Sensors, 2018, 18(12): 4308-4315.
[18] LIN G, Milan A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1289-1301.
[19] TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2020: 1099e3233.
[20] LIU Z, ZHANG X, JIANG T, et al. Infrared salient object detection based on global guided lightweight non-local deep features[J]. Infrared Physics & Technology, 2021, 12(3): 2309-2315.