一种多分辨率特征提取红外图像语义分割算法

徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏

徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏. 一种多分辨率特征提取红外图像语义分割算法[J]. 红外技术, 2024, 46(5): 556-564.
引用本文: 徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏. 一种多分辨率特征提取红外图像语义分割算法[J]. 红外技术, 2024, 46(5): 556-564.
XU Huilin, ZHAO Xin, YU Bo, WEI Xiaoya, HU Peng. Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images[J]. Infrared Technology , 2024, 46(5): 556-564.
Citation: XU Huilin, ZHAO Xin, YU Bo, WEI Xiaoya, HU Peng. Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images[J]. Infrared Technology , 2024, 46(5): 556-564.

一种多分辨率特征提取红外图像语义分割算法

基金项目: 

安徽省教育厅重点项目 KJ2020A0289

淮南市科技计划项目 2020186

安徽省教育厅重点项目 2022AH050801

安徽理工大学青年教师科学研究基金 13200390

详细信息
    作者简介:

    徐慧琳(1999-),女,安徽安庆人,硕士研究生,研究方向:目标分割、目标检测。E-mail: 2021201730@aust.edu.cn

    通讯作者:

    赵鑫(1991-),男,山西运城人,讲师,博士,研究方向:机器视觉。E-mail: zhaoxin@aust.edu.cn

  • 中图分类号: TP391.41

Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images

  • 摘要:

    针对现有图像语义分割算法在对低分辨率红外图像进行分割时存在准确率不高的问题,提出了一种多分辨率特征提取算法。该算法以DeepLabv3+为基准网络,添加了一组对偶分辨率模块,该模块包含低分辨率分支和高分辨率分支,以进一步聚合红外图像特征。低分辨率分支采用GPU友好的注意力模块捕获高层全局上下文信息,同时引入一个多轴门控感知机模块并行提取红外图像局部信息和全局信息;高分辨率分支采用跨分辨率注意力模块将低分辨率分支上学习到的全局特征传播扩散到高分辨率分支上以获取更强的语义信息。实验结果表明,该算法在数据集DNDS和MSRS上的分割精度优于现有语义分割算法,证明了提出算法的有效性。

    Abstract:

    A multi-resolution feature extraction convolution neural network is proposed for the problem of inaccurate edge segmentation when existing image semantic segmentation algorithms process low-resolution infrared images. DeepLabv3+ is used as the baseline network and adds a multi-resolution block, which contains both high and low resolution branches, to further aggregate the features in infrared images. In the low-resolution branch, a GPU friendly attention module is used to capture high-level global context information, and a multi-axis-gated multilayer perceptron module is added in this branch to extract the local and global information of infrared images in parallel. In the high resolution branch, the cross-attention module is used to propagate the global features learned on the low resolution branch to the high resolution branch, hence the high resolution branch can obtain stronger semantic information. The experimental results indicate that the segmentation accuracy of the algorithm on the dataset DNDS is better than that of the existing semantic segmentation algorithm, demonstrating the superiority of the proposed method.

  • 因为水体和漂浮粒子对光线的吸收和散射,水下成像往往产生严重的色彩偏移和较低的对比度,严重影响了水下探测、水下导航和海洋开发等应用,因此,水下图像增强非常重要。水下图像增强的主要任务是实现颜色补偿、提升图像的对比度和去模糊[1]。水下图像增强方法主要分为两种:基于水下成像物理模型的图像复原方法与调整图像的像素值来优化颜色和对比度的图像增强方法[2]。鉴于暗通道先验或最大强度先验的成像模型对水下图像的场景深度估计不够准确,Peng等[3]提出基于图像模糊度和光吸收的场景深度估计方法,结合成像模型对水下图像进行恢复,但是其成像模型的泛化能力有限,对部分蓝色调或绿色调较强的水下图像的恢复效果较差。Wang等[4]提出基于自适应衰减曲线先验的水下图像恢复方法,这种先验依赖于像素值的统计分布,假设清晰图像的所有像素可以划分为不同的聚类,每个聚类中的像素被水体衰减后,以幂函数的形式分布在一条曲线上。Peng等[5]利用基于深度的颜色变化估计环境光,通过场景环境光差异对场景传输进行估计,以实现颜色补偿,同时结合自适应的颜色校正恢复图像的对比度,但是难以有效去除多样化的水下场景图像的颜色失真。Lin等[6]将水下图像分解为结构层和纹理层,用红蓝暗通道先验对结构层进行恢复,用细节提升算法对纹理层进行锐化。水下图像的复原方法存在的问题为:水下图像成像模型和先验知识的可靠性难以保证,基于物理模型的水下图像复原方法在复原不同环境、不同色调和不同目标的水下图像时存在明显的局限性。

    Chiang等[7]采用波长补偿技术实现水下图像的颜色校正,通过去雾实现对比度的提升。黄冬梅等[8]充分利用颜色模型和水下图像的特征,在不同颜色模型下对各图像分量分别进行自适应的直方图拉伸。其基于自适应区间的直方图拉伸能在提升图像对比度的同时,校正图像的颜色偏差。Zhang等[9]基于Retinex理论框架,根据每个通道的特征,在CIELAB颜色空间中对图像的3个通道组合使用双边滤波和三边滤波,以改善水下图像的视觉效果。但是其缺乏有针对性的颜色校正,增强图像偏蓝、绿色调。史金余等[10]用白平衡算法对图像进行颜色校正,用对比度受限的自适应直方图均衡化和Gamma校正分别增强图像的低频和高频部分,但是其根据经验定义Gamma公式以及Gamma指数,缺乏鲁棒性。Ulutas等[11]用对比度限制的自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)对水下图像进行对比度提升和颜色校正,但是基于CLAHE的颜色校正脱离水下图像的颜色特征,校正后的颜色效果与自然颜色还是有一定的差距。

    近年来,深度学习大大提升了计算机视觉的性能,包括水下图像增强。Guo等[12]提出一种多尺度密集生成对抗性网络以增强水下图像,在生成器中用残差多尺度密集块渲染图像细节,以提升图像的增强效果。Li等[13]提出一种用于增强真实水下图像的融合对抗性网络,其中的多项对抗损失不仅可以引入多图像特征,还可以平衡多项损失函数的作用。但是,由于训练数据不足和网络模型的任务特性,基于深度学习的水下图像增强方法难以有效应对多样化的水下图像,其泛化能力有限[14]

    现有的水下图像增强方法存在缺乏鲁棒性、颜色校正不准确、对比度不高和泛化能力差等缺陷。因此,为了进一步改善水下图像的颜色以及提升其对比度和清晰度,提出了改进直方图匹配和自适应均衡的水下图像增强方法。以最大像素均值的通道图像的直方图为基准,对各通道图像分别进行直方图匹配。该方法能鲁棒地实现水下图像的颜色校正,能适用于各种不同的水下图像,具有较好的泛化能力。另外,充分利用HSI颜色空间中颜色分量与明度分量的独立性,用自适应的局部直方图均衡化对明度分量进行处理,进一步提升水下图像的对比度和清晰度。用主、客观的实验结果证明了提出方法相对于部分现有方法的有效性和优越性。

    由于水体以及水体中的漂浮粒子等对光线的吸收和散射,在一定程度上削弱到达传感器的光线强度。其中波长较长的红光衰减较为明显,绿光和蓝光次之,因此水下成像往往呈现绿、蓝色调。而根据对大量的亮度适宜、对比度和清晰度较高的空气成像的实验和观察,得出以下结论:

    1)红、绿和蓝三通道图像的直方图分布大体上是一致的,之间的差别非常小。

    2)通道图像的直方图充分利用整个灰度级动态空间,体现出较高的图像对比度和清晰度。

    3)通道图像的直方图的均值一般处于灰度级水平轴的中间或中间稍微偏右,体现在适宜的图像亮度。

    一张亮度适宜、对比度和清晰度较高的空气成像与其通道图像的直方图如图 1(a)所示,其严格遵守了以上3个结论。

    图  1  空气成像与水下成像的直方图分布
    Figure  1.  Histogram distribution of air imaging and underwater imaging

    图 1(b)所示,水下成像时,红色通道图像衰减最大,其信号强度较小,对应的直方图分布偏向灰度值较小的灰度级范围。而绿色和蓝色通道图像也有衰减,但是相对较小,在一定程度上能保持正常的图像信号强度,其对应的直方图能大致地分布于大部分的灰度级范围,所以绿色和蓝色通道图像的效果相对较好。因此,可以将绿色或蓝色通道图像的直方图作为基准,对其它两个通道图像进行直方图校正。一般地,像素均值较大的通道图像,其信号强度也较大,采用信号强度较大的通道图像作参照,对其它两个通道图像进行直方图校正,能更有效地恢复图像的信号强度,从而更有效地改善图像的亮度、对比度和清晰度。

    根据以上分析,为了实现三通道图像的直方图大致一致,且保证图像信号有足够的强度,本文提出了基于最大通道均值的直方图匹配,以校正图像的颜色偏差,同时在一定程度上提升图像的亮度和对比度。均值最大的通道图像,水体对其造成的衰减和散射最少,图像信号的强度最大,能近似表示其它两个通道图像在没有衰减和散射情况下的信号分布和信号强度。

    令水下图像fL灰度级,具体方法如下:

    1)选择像素均值最大的通道图像的直方图作为目标直方图:

    $$ {h_{\text{T}}} = \mathop {\arg \max }\limits_{({h_{\text{R}}},{h_{\text{G}}},{h_{\text{B}}})} \{ {\text{mean}}({f_{\text{R}}}),{\text{mean}}({f_{\text{G}}}),{\text{mean}}({f_{\text{B}}})\} $$ (1)

    式中:fRfGfB分别为红色、绿色和蓝色通道图像;hRhGhB分别为对应的直方图。

    2)将直方图hk (k∈{RGBT})归一化,其中运算|E|为统计集合E的元素数:

    $$ {h_{k\_{\text{nor}}}} = \frac{{{h_k}}}{{|{f_k}|}},\;(k \in \{ R,G,B,T\} ) $$ (2)

    3)对各通道图像进行直方图均衡化,得到灰度级x的均衡化映射函数Sk(x):

    $$ {S_k}(x) = (L - 1)\sum\limits_{i = 0}^x {{h_{k\_{\text{nor}}}}(i),\;(x = 0,1, \cdots ,L - 1)} $$ (3)

    4)将均值最大的通道图像的均衡映射函数ST存储在一个表中,对于每一个值Sk(x)(k∈{R, G, B}, x=0, 1, …, L-1),在ST中查找与Sk(x)最接近的ST(y),并存储映射:

    $$ {y_k}(x) = \mathop {\arg \min }\limits_t \{ |{S_k}(x) - {S_{\text{T}}}(t)|\} ,\;(t = 0,1, \cdots ,L - 1) $$ (4)

    5)根据映射yk(x),分别将通道图像fkk∈{R, G, B})中的像素xx=0, 1, …, L-1)映射为yk(x),得到直方图匹配后的图像:

    $$ f_{k}(f_{k}==x)=y_{k}(x) $$ (5)

    式中:==表示比较运算。

    假设图像的灰度级为L=8,基于最大通道均值的直方图匹配的效果如图 2所示。经过直方图匹配之后的图像,其直方图的分布和像素强度的特征与目标直方图较为接近。

    图  2  直方图匹配的效果
    Figure  2.  Effect of histogram matching

    经过最大通道均值的直方图匹配的水下图像,其颜色得到了校正,亮度和对比度也得到了一定程度的改善,但是因为水体本身和水中悬浮的颗粒对光线的吸收和散射,红、绿、蓝色光均有一定程度的衰减,其中红色光衰减较大,会造成图像的雾霾效果,图像的清晰度较低,如图 3(b)所示。

    图  3  直方图匹配和局部直方图均衡化的效果
    Figure  3.  Effect of histogram matching and local histogram equalization

    直方图均衡可以提升图像的对比度,但是直方图均衡是全局性的,像素被基于整张图像的灰度分布的变换函数修改,于是部分局部像素的影响在全局的变换计算中被忽略了,并且会产生局部的欠增强和过增强。另外,直方图均衡会忽略最小的灰度级0,均衡后的图像没有真正的黑色像素,部分像素只是近似为黑色。

    RGB颜色模型为混合颜色模型,如果继续对通道图像进行处理,势必会破坏图像的颜色。而HSI颜色模型为独立模型,将图像分为色调H、饱和度S和明度I三种基本特征量,其中色调H决定图像的颜色,饱和度S决定图像的颜色深浅和鲜艳程度,而明度分量I决定图像的亮度和对比度,3个特征量相互独立,可对各自进行处理而互不干扰。图像从RGB颜色空间转换到HSI颜色空间的定义为[15]

    $$ H = \left\{ \begin{gathered} \theta ,\;\;\;\;\;\;\;\;\;\;\;B \leqslant G \hfill \\ 360^\circ - \theta ,\;\;\;\;B > G \hfill \\ \end{gathered} \right. $$ (6)

    式中:$ \theta = \arccos \frac{{(R - G) + (R - B)}}{{2\sqrt {{{(R - G)}^2} + (R - B)(G - B)} }} $

    $$ S = 1 - \frac{3}{{R + G{\text{ + }}B}}\min (R,G,B) $$ (7)
    $$ I = \frac{1}{3}(R + G{\text{ + }}B) $$ (8)

    为了在保持图像的颜色信息的同时,去除图像的雾霾效果、提升图像的对比度和清晰度,借鉴直方图均衡和充分利用HSI颜色模型的特征量的独立性,提出了自适应的局部直方图均衡化方法。先将经颜色校正的水下图像f转换到HSI颜色空间,在保持其色调分量H和饱和度分量S不变的同时,对明度分量I进行自适应的局部直方图均衡化处理。

    I(p)为图像I中像素p的灰度,Np(r)为以像素p为中心的大小为r×r的矩形邻域,自适应的局部直方图均衡化的具体步骤如下。

    1)根据式(6)~(8),将图像f转换到HSI空间,得到色调分量H、饱和度分量S和明度分量I

    2)明度分量I中的每个像素p,分别进行以下局部直方图均衡处理。

    3)统计图像区域Np(r)的局部直方图hp,并进行归一化:

    $$ {h_{p\_{\text{nor}}}} = \frac{{{h_p}}}{{|{N_p}(r)|}} $$ (9)

    4)对图像区域Np(r)进行直方图均衡化,得到灰度级x的均衡化映射函数Sp(x):

    $$ {S_p}(x) = (L - 1)\sum\limits_{i = 0}^x {{h_{p\_{\text{nor}}}}(i),\;(x = 0,1, \cdots ,L - 1)} $$ (10)

    5)根据映射Sp(x),将中心像素p的灰度映射为:

    $$ I(p) = \left\{ \begin{array}{l} 0,\;\;\;\;\;\;\;\;\;\;\;\;I(p) = {\text{find}}({h_{p\_{\text{nor}}}},1) \hfill \\ {S_p}(I(p)),\;{\text{others}} \hfill \\ \end{array} \right. $$ (11)

    式中:find(X, 1)表示查找序列X中第一个非0元素的索引,式(11)特别地将最小的灰度值映射为灰度0,保证均衡化后的灰度跨越整个灰度空间[0, L-1]。

    6)将色调分量H、饱和度分量S和局部均衡处理后的明度分量I转换到RGB颜色空间,得到增强的水下图像。

    自适应的局部直方图均衡化方法根据图像每个像素p的邻域中的灰度分布分别设计变换函数,仅对当前像素p进行灰度映射,避免了全局直方图均衡化的欠增强和过增强效果,同时克服了其忽略最小灰度值0的缺陷,均衡后的图像的灰度级跨越更宽的灰度级范围,最终的结果是增强了对比度和清晰度,去除了水下图像的雾霾效果。

    图 3(c)所示,经最大通道均值的直方图匹配处理后的图像,颜色得到了校正,亮度和对比度也得到了一定程度的改善,但是有雾霾效果,图像的清晰度不高。再进一步经自适应的局部直方图均衡化增强后的图像,消除了雾霾效果,清晰度较高。

    在硬件为Intel i5-12400F CPU和8 GB RAM、系统为Win10,Matlab 2021a的台式计算机上,根据图像的视觉感知、信息熵、平均梯度、水下图像质量指标[16]和结构相似性指数,将本文方法与最新的文献[6]、[10]、[11]和[13]中提出的方法进行实验比较和分析,验证本文方法的有效性和实用性。所用的水下图像选自UIEB数据集[17]

    从增强图像的视觉效果上,可以综合地感知图像的色彩自然度、亮度、对比度和清晰度,类似于UIQM,但视觉感知从主观角度评价,UIQM从客观的角度评价。各算法对部分水下图像的增强效果如图 4所示,其中第一列为7张原水下图像,第二、三、四、五和六列分别为文献[6]、[10]、[11]、[13]方法和本文方法的增强效果图。

    图  4  水下图像增强的视觉效果
    Figure  4.  Visual effect of enhanced underwater images

    文献[6]方法的增强效果相对较好,增强图像的色彩较自然、对比度和清晰度较高,但是图像的亮度整体偏暗,部分微小的细节信息未能充分显示。文献[10]方法的增强效果相对较差,虽然在一定程度上对图像的颜色进行了校正,但是颜色的纯度低、色调偏灰色,缺乏层次感;另外,图像的雾霾效果依然明显,其对比度和清晰度偏低,特别是对场景四、六和七,其雾霾效果尤为明显。文献[11]方法的增强效果处于中等水平,增强图像的对比度和清晰度较高,但是部分区域产生了过增强,特别是场景一和场景二的前景部分、场景五和场景六的背景部分,过增强效果较为明显;另外,颜色补偿后产生了过饱和,色彩过鲜艳,部分图像区域的颜色偏离了场景和实物原本的颜色。文献[13]方法的增强效果处于中等水平,其明显的缺陷是增强图像的亮度偏暗,其中场景一的颜色欠饱和效果较为明显。

    相对地,本文方法有效地校正了水下图像的颜色,与场景、实物和人物原本的颜色基本上一致,饱和度适中,色彩较自然;基本上去除了雾霾效果,图像的对比度和清晰度较高,原本因为雾霾效果而被隐藏的部分细节得以正常显示。只是对场景二背景中的水泡会产生一些放大噪声的效果,这是由自适应的局部直方图均衡化处理所致。局部直方图均衡化能够提升图像的局部对比度,因为场景二含有大量的小水泡,提升小水泡的清晰度的同时,会附带有部分噪声。与增强效果相对较好的文献[6]方法相比,两者相差不大,都能有效地校正了颜色,但是在亮度的适宜度和细节信息的清晰度上,本文方法稍微优于文献[6]方法。

    信息熵表示图像的有效信息量和细节信息的丰富程度;其值越大,图像的有效信息越多,纹理结构和细节信息越丰富。各方法对图 4所示的水下图像进行增强后,对应的信息熵如图 5所示。一般地,因为色偏以及雾霾效果,水下图像的有效信息量较低,经各方法的色彩校正和对比度提升后,信息含量均有不同程度的提升。文献[10]方法的信息熵较低,特别地,其对场景二增强后的信息熵比原水下图像还低。文献[11]方法因为产生过增强以及颜色过饱和,部分图像信息被破坏,其对应的信息熵相对偏低。文献[13]方法因为亮度偏暗影响了图像信息的显示,其信息熵处于中等水平。文献[6]方法的信息熵相对较高,而本文方法的信息熵高于其它方法。

    图  5  水下图像增强的信息熵
    Figure  5.  Information entropy of enhanced underwater images

    平均梯度表示图像的局部灰度差,反映图像的对比度和清晰度,其值越大,图像的对比度越高,纹理结构和细节信息越清晰。但是放大噪声和过增强也会增大图像的平均梯度,需结合图像的视觉效果进行比较。各方法对图 4所示的水下图像进行增强后,对应的平均梯度如图 6所示。文献[10]方法因为色彩偏灰色,对比度偏低,其平均梯度较低。文献[13]方法因为亮度偏暗,对比度受到影响,其对应的平均梯度处于中等水平。文献[6]方法的平均梯度较高,而文献[11]方法和本文方法的平均梯度最高,明显高于其它方法,两者差别不大。但是结合图 4可知,文献[11]方法产生了明显的过增强,过增强会拉大像素之间的差距,导致其平均梯度较高。

    图  6  水下图像增强的平均梯度
    Figure  6.  Average gradient of enhanced underwater images

    UIQM是专门度量水下图像质量的指标,UIQM将色彩指标、清晰度指标和对比度指标进行线性加权组合,能较准确地评价水下图像的质量;UIQM值越大,水下图像的整体质量越好。各方法对图 4所示的水下图像进行增强后,对应的UIQM如图 7所示。文献[10]方法的UIQM值较低,对水下图像的整体增强性能不理想。文献[6]、[11]和[13]方法的UIQM值之间相差不大,但是总体上以文献[6]方法最高、文献[11]和[13]方法次之。相对地,本文方法的UIQM值高于其它方法,整体的增强效果更优。

    图  7  水下图像增强的UIQM
    Figure  7.  UIQM of enhanced underwater images

    SSIM是有参度量指标,度量增强图像与参考图像在纹理结构上的相似性,值越大,两图像越相似。对于图 4中的水下图像,其中场景二、三、四和五有参考图像,各方法对应的SSIM值如表 1所示。其中,文献[10]方法的SSIM值较小,这是由图像较暗的亮度所致。文献[13]方法的SSIM值相对偏低,很明显,其亮度和对比度不高。文献[11]方法的SSIM值处于中等,虽然其图像的清晰度较高,但是产生了部分过增强和颜色过鲜艳,破坏了部分图像信息。文献[6]方法的SSIM值相对较高。本文方法高于所有方法,其对图像的纹理结构和细节信息恢复得较好。

    表  1  水下图像增强的SSIM
    Table  1.  SSIM of enhanced underwater images  %
    Scene Original Ref.[6] Ref.[10] Ref.[11] Ref.[13] Proposed
    Two 75.4 94.8 82.9 87.3 84.7 95.2
    Three 66.1 87.5 78.3 85.9 84.5 89.3
    Four 72.2 95.2 86.3 87.4 88.4 98.6
    Five 76.6 87.7 85.4 82.9 86.9 89.4
    下载: 导出CSV 
    | 显示表格

    文献[17]除了构建一个数据集UIEB之外,还根据构建的数据集提出了一种基于卷积神经网络的水下图像增强模型Water-Net,作为水下图像增强的基准方法。将本文方法与Water-Net应用于部分水下图像,得到的效果如图 8所示,其中Water-Net的结果图像采自于原文数据。图 8的第一行为原水下图像,第二行和第三行分别为本文方法和Water-Net的增强图像。通过仔细的对比,两种方法的增强效果相差不大,各有特色。总体上,本文方法的增强图像对比度和清晰度稍高,但是色彩偏鲜艳,而Water-Net的增强图像的色彩较真实自然,但是对比度和清晰度相对偏低。

    图  8  本文方法与基准方法Water-Net的增强效果比较
    Figure  8.  Comparison of enhancement effects between the proposed method and the benchmark method Water-Net

    根据以上对主观的视觉感知和客观的信息熵、平均梯度、UIQM和SSIM的比较分析可知,本文方法能更有效地对水下图像进行颜色校正,恢复颜色的自然度,且在避免欠增强和过增强的同时,更好地提升图像的对比度和清晰度,图像的纹理结构和细节信息更丰富。

    为了有效地改善水下图像的颜色和进一步提升图像的对比度和清晰度,提出了改进直方图匹配和自适应直方图均衡的水下图像增强方法。以像素均值最大的通道图像的直方图作为基准,对通道图像分别进行直方图匹配;在HSI颜色空间中对明度分量I进行自适应的局部直方图均衡化。主、客观的实验数据和比较分析证明了本文方法相对于部分现有方法的有效性和优越性,本文方法具有更好的水下图像增强性能。将本文方法作进一步的改进,用于红外图像增强和图像超分辨率重建,是课题组下一步的研究工作。

  • 图  1   DeepLabv3+网络结构

    Figure  1.   DeepLabv3+ network structure

    图  2   ASPP模块网络结构

    Figure  2.   ASPP network structure

    图  3   MRFE-CNN网络结构

    Figure  3.   MRFE-CNN network structure

    图  4   MRBlock结构

    Figure  4.   MRBlock structure

    图  5   多头注意力模块Multi-head EA(a)和GFA(b)

    Figure  5.   Multi-head EA (a) and GFA (b)

    图  6   MAGBlock结构

    Figure  6.   MAGBlock structure

    图  7   DNDS数据集部分图片展示。(a)为红外图像,(b)为真实语义标签

    Figure  7.   Some pictures of the DNDS. (a) infrared image, (b) real semantic label

    图  8   DNDS数据集各类标签数量

    Figure  8.   The number of labels in the DNDS

    图  9   训练指标比较。(a)LOSS变化曲线图,(b)MIOU变化曲线图

    Figure  9.   Comparison of training indicators. (a) LOSS curves graph, (b) MIOU curves graph

    图  10   测试集结果比较。(a)原图;(b)DeepLabv3+;(c)MRFE-CNN;(d)真实标签

    Figure  10.   Comparison of results. (a) Original image, (b) DeepLabv3+, (c) MRFE-CNN, (d) Real label

    图  11   训练指标比较。(a)LOSS变化曲线图,(b)MIOU变化曲线图

    Figure  11.   Comparison of training indicators. (a) LOSS curves graph, (b) MIOU curves graph

    图  12   测试集结果比较。(a)原图;(b)DeepLabv3+;(c)MRFE-CNN;(d)真实标签

    Figure  12.   Comparison of results. (a) Original image, (b) DeepLabv3+, (c) MRFE-CNN, (d) Real label

    表  1   实验硬件配置

    Table  1   Experimental hardware configuration

    CPU GPU Memory System
    2.60GHz Intel Xeon Platinum 8350C CPU NVIDIA RTX 3090 24GB Linux
    下载: 导出CSV

    表  2   MRBlock模块消融实验

    Table  2   Ablation experiment of MRBlock

    Models Residual Block Basic Block MAGBlock ASPP Input_feature MPA% MIOU%
    Model_1 - - - x_l 90.8 81.07
    Model_2 - - x_l+x_h 91.13 81.7
    Model_3 *1 - x_l+x_h 91.91 82.6
    Model_4 *2 - x_l+x_h 92.36 83.43
    Model_6 *2 x_l+x_h 92.72 84.1
    Model_7 *2 x_l 92.31 82.1
    Model_8 *2 x_h 91.1 83.7
    下载: 导出CSV

    表  3   流行算法性能比较

    Table  3   Performance comparison of popular algorithms

    Methods MPA% MIOU%
    FCN-8s 8.16 5.74
    FCN-16s 63.32 48.3
    FCN-32s 58.37 42.32
    U-Net 78.12 72.35
    DUC 78.35 69.61
    DeepLabv3+ 90.4 82.3
    MRFE-CNN 92.72(+2.32) 84.1(+1.8)
    下载: 导出CSV

    表  4   公共数据集MSRS性能比较

    Table  4   Performance comparison of MSRS

    Methods MPA% MIOU%
    DeepLabv3+ 68.43 56.37
    MRFE-CNN 71.82(+3.39) 58.14(+1.77)
    下载: 导出CSV
  • [1] 刘致驿, 孙韶媛, 任正云, 等. 基于改进DeepLabv3+的无人车夜间红外图像语义分割[J]. 应用光学, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm

    LIU Zhiyi, SUN Shaoyuan, REN Zhengyun, et al. Semantic segmentation of nocturnal infrared images of unmanned vehicles based on improved DeepLabv3+[J]. Journal of Applied Optics, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm

    [2] 夏威. 基于卷积神经网络的热红外图像语义分割研究[D]. 合肥: 安徽大学, 2020.

    XIA Wei. Thermal Image Semantic Segmentation Based on Convolutional Neural Networks[D]. Hefei: Anhui University, 2020.

    [3] 景庄伟, 管海燕, 彭代峰, 等. 基于深度神经网络的图像语义分割研究综述[J]. 计算机工程, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm

    JING Zhuangwei, GUAN Haiyan, PENG Daifeng, et al. Survey of research in image semantic segmentation based on deep neural network[J] Computer Engineering, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm

    [4]

    ZHAO L, WANG M, YUE Y. Sem-aug: improving camera-lidar feature fusion with semantic augmentation for 3d vehicle detection[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 9358-9365. DOI: 10.1109/LRA.2022.3191208

    [5]

    WANG J, LIU L, LU M, et al. The estimation of broiler respiration rate based on the semantic segmentation and video amplification[J]. Frontiers in Physics, 2022, 10: 1-13.

    [6]

    XUE Z, MAO W, ZHENG L. Learning to simulate complex scenes for street scene segmentation[J]. IEEE Transactions on Multimedia, 2021, 24: 1253-1265.

    [7]

    WANG Y, TIAN S, YU L, et al. FSOU-Net: Feature supplement and optimization U-Net for 2D medical image segmentation[J]. Technology and Health Care, 2023, 31(1): 181-195. DOI: 10.3233/THC-220174

    [8] 郭尹. 基于深度学习的电力设备热红外图像语义分割方法研究[D]. 合肥: 安徽大学, 2022.

    GUO Yin. Research on Electrical Thermal Image Semantic Segmentation Method Based on Deep Learning[D]. Hefei: Anhui University, 2022.

    [9]

    LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.

    [10]

    Adrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI: 10.1109/TPAMI.2016.2644615

    [11]

    OLAF R, PHILIPP F, THOMAS B. U-Net: Convolutional networks for biomedical image segmentation[J]. CoRR, 2015, abs/1505.04597.

    [12]

    ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017: 2881-2890.

    [13]

    LIN G, MILAN A, SHEN C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1925-1934.

    [14]

    CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFS[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.

    [15]

    CHEN L C, ZHU Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 801-818.

    [16]

    Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.

    [17] 练琤, 张宝辉, 江云峰, 等. 基于语义分割的红外图像增强方法[J]. 红外技术, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML

    LIAN Zheng, ZHANG Baohui, JIANG Yunfeng, et al. An infrared image enhancement method based on semantic segmentation[J]. Infrared Technology, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML

    [18]

    WANG J, GOU C, WU Q, et al. RTFormer: efficient design for real-time semantic segmentation with transformer[J]. arXiv e-prints, 2022: arXiv: 2210.07124.

    [19]

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. arXiv, 2017. DOI: 10.48550/arXiv.1706.03762.

    [20]

    TU Z, TALEBI H, ZHANG H, et al. Maxim: Multi-axis MLP for image processing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5769-5780.

    [21]

    JADON S. A survey of loss functions for semantic segmentation[C]//IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). IEEE, 2020: 1-7.

    [22]

    Sandler M, Howard A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

    [23] 于营, 王春平, 付强, 等. 语义分割评价指标和评价方法综述[J]. 计算机工程与应用, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm

    YU Ying, WANG Chunping, FU Qiang, et al. Survey of evaluation metrics and methods for semantic segmentation[J]. Journal of Computer Engineering & Applications, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm

    [24]

    WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 1451-1460.

  • 期刊类型引用(3)

    1. 张旭辉,解彦彬,杨文娟,张超,万继成,董征,王彦群,蒋杰,李龙. 煤矿井下采掘工作场景非均质图像去雾与增强技术. 煤田地质与勘探. 2025(01): 245-256 . 百度学术
    2. 张福林,何云,彭望,曹胜中,刘卫国,孙鹏. 基于改进直方图和模糊估计的多层次水下图像增强方法. 无线电工程. 2025(03): 540-547 . 百度学术
    3. 梁秀满,赵佳阳,于海峰. 基于YOLOv8的轻量化水下目标检测算法. 红外技术. 2024(09): 1015-1024 . 本站查看

    其他类型引用(0)

图(12)  /  表(4)
计量
  • 文章访问数:  66
  • HTML全文浏览量:  21
  • PDF下载量:  41
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-08-10
  • 修回日期:  2023-09-21
  • 网络出版日期:  2024-05-23
  • 刊出日期:  2024-05-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日