Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images
-
摘要:
针对现有图像语义分割算法在对低分辨率红外图像进行分割时存在准确率不高的问题,提出了一种多分辨率特征提取算法。该算法以DeepLabv3+为基准网络,添加了一组对偶分辨率模块,该模块包含低分辨率分支和高分辨率分支,以进一步聚合红外图像特征。低分辨率分支采用GPU友好的注意力模块捕获高层全局上下文信息,同时引入一个多轴门控感知机模块并行提取红外图像局部信息和全局信息;高分辨率分支采用跨分辨率注意力模块将低分辨率分支上学习到的全局特征传播扩散到高分辨率分支上以获取更强的语义信息。实验结果表明,该算法在数据集DNDS和MSRS上的分割精度优于现有语义分割算法,证明了提出算法的有效性。
-
关键词:
- 对偶分辨率模块 /
- 语义分割 /
- DeepLabv3+ /
- 红外图像 /
- 注意力模块
Abstract:A multi-resolution feature extraction convolution neural network is proposed for the problem of inaccurate edge segmentation when existing image semantic segmentation algorithms process low-resolution infrared images. DeepLabv3+ is used as the baseline network and adds a multi-resolution block, which contains both high and low resolution branches, to further aggregate the features in infrared images. In the low-resolution branch, a GPU friendly attention module is used to capture high-level global context information, and a multi-axis-gated multilayer perceptron module is added in this branch to extract the local and global information of infrared images in parallel. In the high resolution branch, the cross-attention module is used to propagate the global features learned on the low resolution branch to the high resolution branch, hence the high resolution branch can obtain stronger semantic information. The experimental results indicate that the segmentation accuracy of the algorithm on the dataset DNDS is better than that of the existing semantic segmentation algorithm, demonstrating the superiority of the proposed method.
-
Keywords:
- multi resolution block /
- semantic segmentation /
- deepLabv3+ /
- infrared image /
- attention module
-
0. 引言
随着探测技术的不断发展,红外探测器在军民领域的应用越来越广泛,红外探测器的性能也在不断提高。此外,红外探测器正向更大面阵、更小像元、更高分辨率的方向发展。目前,为了表征探测器性能的好坏,常用MTF来衡量。在对探测器MTF测试时,要求标准成像镜头的传递函数高于探测器,因此红外高分辨率小像元探测器的MTF测试要求其标准成像镜头在无中心遮拦并且具有衍射极限的良好像质基础上,相对于传统的标准镜具有更大的相对孔径也就是更小的F数[1-2]。但是对于光学系统来说,F数越小,在光学设计的过程中也会更加困难。所以本文基于上述问题,开展波段处于1.1~2.5 μm,视场角为1.6°×2.4°并且F数接近1的红外光学系统设计。由于F数极小,在设计时需要的镜片数量也较多。为了使结构简单,并且具有相对较小的体积,本文选择使用离轴三反射式的光学结构。
目前国内对离轴三反光学系统的研究相对较晚,在2002年,刘琳、薛鸣球等人分析研究了一款10 m焦距、F数为10的三反射式结构的长焦距望远镜系统[3]。2006年,张亮、安源等人研究设计了一款3个反射面均是二次曲面、焦距为2000 mm、F数为9的离轴三反射镜系统[4]。2016年,孟庆宇、汪洪源等人设计了一款1200 mm焦距、F数12、30°×1°视场的可见光波段离轴三反成像系统,其主镜为高阶偶次非球面,次镜为球面,三镜为自由曲面[5]。通过上述几位学者对离轴反射系统的研究,发现了离轴三反射式光学系统具备同时校正球差、彗差与像散3种像差的能力,可以实现较高的光学性能。对比目前现有的具有小F数大视场的离轴三反光学系统,大多都采用了自由曲面,虽然自由曲面的设计自由度较高,但是考虑到自由曲面面型的复杂性以及加工的困难性,本文选择采用具有旋转对称性并且面型简单的偶次非球面来进行小F数红外光学系统的设计[6]。所以本文根据系统的指标要求,首先利用高斯公式以及三级像差理论自主计算得到同轴三反系统的初始结构,然后通过视场离轴和孔径离轴相结合的方式来避免中心遮拦这一问题,并且,该系统中的三面反射镜都采用了偶次非球面,使系统在后续优化的过程中,很好地校正了像差。最终设计出F数为1.3的小F数红外光学系统。此系统的研究可能对红外探测器后续的发展起到很大的作用。
1. 光学系统结构的选择
1.1 系统结构的选择
在进行光学设计时,一般常用折射式、折反式和反射式系统。折射式系统结构形式丰富,而且能够同时满足大视场大相对孔径的要求。折反式系统具有外形尺寸小、透射比高、光能损失少等优点。但最重要的是,在光学设计过程中,无论是折射式结构还是折反式结构都需要使用光学透射材料。由于本文是针对红外波段来进行光学系统的设计,所以还要选择特殊的红外材料。但是由于红外光学材料类别有限,这样就会为红外光学系统的设计带来一定的局限性[7-8]。
相比于折射式和折反式结构来说,反射式系统无色差,对波段也没有要求,反射式光学系统元件比较少,而且光路设计形式灵活,可以满足大口径、大视场、长焦距等多种要求。综上所述,本文选择采用全反射式结构。在采用该结构时,如果仅使用两镜系统,那么可优化的变量太少,在后续对像差的优化过程中增加了难度,然而由4个或多个反射镜组成的多反射镜系统结构复杂。所以三反系统更有利于该系统的设计[9]。
此外,反射系统可以分为两类,即同轴系统和离轴系统。相比于同轴系统,离轴式反射系统无中心遮拦,视场比较大。最终本论文选择采用离轴三反式结构来进行小F数红外光学系统的设计。
1.2 离轴三反式光学系统结构的确定
离轴三反系统可以分为两种形式,一种是两次成像的Rug型,另一种是一次成像的Cook型。这两种形式的结构如图 1所示。
图 1(a)为有中间像面的Rug型离轴三反系统,光阑位于主镜附近,有利于结构紧凑,可以在中间像面附近加消杂光光阑,能够有效抑制杂散光,适用于小视场大范围目标跟踪的光学系统。图 1(b)为无中间像面的Cook型离轴三反系统,光阑位于次镜附近,有较好的对称性,有利于实现大视场。适用于大视场目标捕获的扫描成像系统。基于该优点,所以本文选择Cook型结构来进行小F数红外光学系统的设计[10-11]。
1.3 系统设计指标
光学系统的设计指标如表 1所示。
表 1 光学系统设计参数Table 1. Parameters of optical systemParameters Value Focal length 60 mm F# 1.3 Field of view 1.6°×2.4° Wavelength 1.1-2.5 μm MTF(100lp/mm) > 0.6 1.4 初始结构计算方法
离轴三反系统是在同轴三反系统结构基础上进行偏心和倾斜得到的。图 2为同轴三反系统的结构图。因此要想得到离轴三反系统,必须先计算出同轴三反系统的结构参数。即三面反射镜的曲率半径,主次镜之间距离,次镜和三镜之间的距离,主镜、次镜、三镜的面型参数[12-15]。
同轴三反系统的轮廓主要由以下参数决定:
次镜对主镜的遮拦比:
$$ α_{1}=l_{2}/f′≈h_{2}/h_{1}$$ (1) 三镜对次镜的遮拦比:
$$ α_{2}=l_{3}/l_{2}′≈h_{3}/h_{2}$$ (2) 次镜的放大率:
$$ β_{1}=l_{2}′/l_{2}≈u_{2}/u_{2}′$$ (3) 三镜的放大率:
$$ β_{2}=l_{3}′/l_{3}≈u_{3}/u_{3}′$$ (4) 根据三级像差理论,经推导得到各参数之间的数学关系:
$$ R_1^{} = \frac{2}{{{\beta _1}{\beta _2}}}f' $$ (5) $$ R_2^{} = \frac{{2{\alpha _1}}}{{\beta {}_2(1 + {\beta _1})}}f' $$ (6) $$ R_3^{} = \frac{{2{\alpha _1}{\alpha _2}}}{{1 + {\beta _2}}}f' $$ (7) $$ d_1^{} = \frac{{1 - {\alpha _1}}}{{{\beta _1}{\beta _2}}}f' $$ (8) $$ d_2^{} = \frac{{{\alpha _1}(1 - {\alpha _2})}}{{{\beta _1}{\beta _2}}}f' $$ (9) 由于该设计采用Cook型离轴三反光学系统结构,所以我们只需给定系统中遮拦比和放大率中的任意三个变量,即可计算得到初始结构。由于本文想要采用图 1中一次成像系统的结构形式,那么一般可以给定α1在0.394左右,α2在1.17左右,所以本文令α1=0.394,α2=1.17,再根据平像场条件可得到β1=0.86,最后再基于以上公式(5)~(9)和三级像差理论,使得三级像差表达式各个像差等于零,就可以求解出系统的曲率半径、距离和三个反射镜的圆锥系数。表 2为最终求得的初始结构参数[16]。
表 2 初始结构参数Table 2. Initial structural parametersReflecting mirror Radius/mm Distance/mm Conic Primary mirror −178.890 −46 −1.465 Secondary mirror −49.969 46 1.137 Tertiary mirror −68.314 −50 0.163 2. 光学系统设计与优化
将上述光学设计指标和计算出的同轴三反光学系统的初始结构输入到光学设计软件中,得到最初的同轴三反结构。
2.1 系统优化设计
首先将同轴系统中的曲率半径、三镜之间的距离以及圆锥系数都设为变量,先对该同轴结构进行初步的优化,使其具有优良的成像质量。然后再分别设定主镜、次镜、三镜的偏心和倾斜使其离轴。在离轴的过程中,此系统没有单独使用视场离轴,而是采用孔径离轴与视场离轴相结合的方式。主要是因为系统F数很小,在优化时,发现系统很容易产生中心遮拦。而且该系统的三面反射镜为非球面,不像自由曲面自由度那么高,所以采用两者相结合的方式,相当于增加了可优化的变量,从而能够更好实现高像质和较小的体积。除此之外,系统在优化的过程中还是会产生中心遮拦以及系统的同轴化,所以特利用以下方法来控制镜面与可能被光线遮拦部分的最小距离[17]。图 3为无中心遮拦系统结构图,具体步骤如下:
1)首先提取点A、B、C的全局坐标YA、YB、YC;
2)根据A点和C点的全局坐标可以计算得到该条光线的斜率k;
3)再依据斜率k与A点坐标即可得到该条光线的截距b;
4)最后再计算出AB之间的距离Δ,合理限制Δ大小即可很好地避免系统产生中心遮拦。
综合上述优化思路,对其他会产生遮拦的部分采用同样的方法,不断地对系统进行优化。最后优化完成得到的离轴三反光学系统结构如图 4所示。相应的结构参数如表 3所示。
表 3 优化后的结构参数Radius/mm Distance/mm Conic Decenter Y/mm Tilt About X/(°) Primary mirror −881.861 −118.000 −3.179 −79.000 −1.500 Secondary mirror −153.457 58.000 9.968 20.000 15.000 Tertiary mirror −96.431 −47.631 −1.204 1.064 −0.565 其间,在优化的过程中,由于该设计的三反系统F数很小,在对像差校正的过程中增加了很大难度,所以将反射镜的高次非球面系数设置为变量,再次优化,从而能够使系统进一步提高像质。最终反射镜的高次非球面系数如表 4所示。
表 4 三面反射镜的高次非球面系数Table 4. High order aspherical coefficients of three mirrorsReflecting mirror Four order term Sixth order term Eighth order term Primary mirror −5.208×10-9 −3.523×10-14 1.430×10-17 Secondary mirror −3.883×10-8 1.024×10-11 2.642×10-15 Tertiary mirror −2.083×10-7 −1.128×10-11 −2.011×10-15 2.2 结果分析
图 5为此光学系统的点列图。从图中可以观察到均方根半径最大为1.674 μm,小于探测器的像元尺寸。系统的MTF曲线如图 6所示。从MTF曲线图可以看出,在空间截止频率100 lp/mm处,各个视场的MTF均大于0.6,满足系统设计要求。图 7为系统的场曲和畸变,通过该图能够看出,系统各视场畸变都小于2%,场曲控制为±10 μm之间,通过以上指标可以知道,该设计具有良好的成像质量。
3. 公差分析
当光学系统理论设计完成后,在使用前还要经过制造、装调等过程。在这些过程中可能会遇到各种因素的影响,所以还要对光学系统进行公差分析。由于离轴三反系统相较于同轴三反系统在装调时具有更大的难度,所以为了保证加工和装调的可行性,需制定合理的公差分配来确保光学系统既可以做到低成本又能达到所要求的光学性能。离轴三反系统的公差主要为加工公差和装调公差,加工公差是指曲率半径、厚度、圆锥系数在加工过程中可能出现的误差。装调公差主要是指光学元件或光学表面沿着X/Y/Z的倾斜公差和光学元件沿X/Y/Z轴的偏心公差[18-22]。本文选择使用蒙特卡洛分析方法来进行公差分析,以系统各视场截止频率处的MTF作为系统性能衡量标准,对于离轴三反光学系统的公差分配结果如表 5所示。
表 5 光学系统公差分配结果Table 5. Tolerance allocation results for optical systemsTolerance category Assembly tolerance Machining tolerance Various tolerance
sourcesDEC
X/mmDEC
Y/mmTILT
X/(°)TILT
Y/(°)ΔR/mm ΔD/mm Δ(−e2) Primary mirror ±0.065 ±0.065 ±0.018 ±0.027 ±0.2 ±0.2 ±1.000E-005 Secondary mirror ±0.016 ±0.016 ±0.018 ±0.018 ±0.2 ±0.04 ±1.000E-005 Tertiary mirror ±0.025 ±0.025 ±0.012 ±0.012 ±0.01 ±0.1 ±1.000E-005 表 6为按照以上公差分配进行的200次蒙特卡洛分析结果,表明在上述公差范围内,系统MTF曲线在100 lp/mm处具有90%的概率大于0.4,并且MTF由于工艺因素的影响总下降量不大于0.2,满足成像要求。
表 6 蒙特卡洛分析结果Table 6. Monte Carlo analysis resultsCumulative probability MTF value(100 lp/mm) 90% 0.42674321 80% 0.45558468 50% 0.51148248 20% 0.55397772 10% 0.56854015 4. 结论
本文根据红外探测器对高分辨率和小像元探测的需求,提出了一种小F数离轴三反光学系统。通过利用三级像差理论计算得到同轴三反的初始结构,并且为了避免中心遮拦、提高成像质量,采取视场离轴和
孔径离轴相结合的方式。而且该系统的三面反射镜都采用了偶次非球面,能够很好地校正离轴像差。最终设计得到具有结构简单,并且体积相对较小的小F数红外光学系统。根据空间截止频率处的MTF值以及点列图可知,该系统成像质量满足要求。与现有的离轴三反系统相比,此系统具有较小的F数和良好的像质,对该类红外光学成像系统的研究和发展有着重要的意义。
-
表 1 实验硬件配置
Table 1 Experimental hardware configuration
CPU GPU Memory System 2.60GHz Intel Xeon Platinum 8350C CPU NVIDIA RTX 3090 24GB Linux 表 2 MRBlock模块消融实验
Table 2 Ablation experiment of MRBlock
Models Residual Block Basic Block MAGBlock ASPP Input_feature MPA% MIOU% Model_1 √ - - - x_l 90.8 81.07 Model_2 √ √ - - x_l+x_h 91.13 81.7 Model_3 √ √ *1 - x_l+x_h 91.91 82.6 Model_4 √ √ *2 - x_l+x_h 92.36 83.43 Model_6 √ √ *2 √ x_l+x_h 92.72 84.1 Model_7 √ √ *2 √ x_l 92.31 82.1 Model_8 √ √ *2 √ x_h 91.1 83.7 表 3 流行算法性能比较
Table 3 Performance comparison of popular algorithms
Methods MPA% MIOU% FCN-8s 8.16 5.74 FCN-16s 63.32 48.3 FCN-32s 58.37 42.32 U-Net 78.12 72.35 DUC 78.35 69.61 DeepLabv3+ 90.4 82.3 MRFE-CNN 92.72(+2.32) 84.1(+1.8) 表 4 公共数据集MSRS性能比较
Table 4 Performance comparison of MSRS
Methods MPA% MIOU% DeepLabv3+ 68.43 56.37 MRFE-CNN 71.82(+3.39) 58.14(+1.77) -
[1] 刘致驿, 孙韶媛, 任正云, 等. 基于改进DeepLabv3+的无人车夜间红外图像语义分割[J]. 应用光学, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm LIU Zhiyi, SUN Shaoyuan, REN Zhengyun, et al. Semantic segmentation of nocturnal infrared images of unmanned vehicles based on improved DeepLabv3+[J]. Journal of Applied Optics, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm
[2] 夏威. 基于卷积神经网络的热红外图像语义分割研究[D]. 合肥: 安徽大学, 2020. XIA Wei. Thermal Image Semantic Segmentation Based on Convolutional Neural Networks[D]. Hefei: Anhui University, 2020.
[3] 景庄伟, 管海燕, 彭代峰, 等. 基于深度神经网络的图像语义分割研究综述[J]. 计算机工程, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm JING Zhuangwei, GUAN Haiyan, PENG Daifeng, et al. Survey of research in image semantic segmentation based on deep neural network[J] Computer Engineering, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm
[4] ZHAO L, WANG M, YUE Y. Sem-aug: improving camera-lidar feature fusion with semantic augmentation for 3d vehicle detection[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 9358-9365. DOI: 10.1109/LRA.2022.3191208
[5] WANG J, LIU L, LU M, et al. The estimation of broiler respiration rate based on the semantic segmentation and video amplification[J]. Frontiers in Physics, 2022, 10: 1-13.
[6] XUE Z, MAO W, ZHENG L. Learning to simulate complex scenes for street scene segmentation[J]. IEEE Transactions on Multimedia, 2021, 24: 1253-1265.
[7] WANG Y, TIAN S, YU L, et al. FSOU-Net: Feature supplement and optimization U-Net for 2D medical image segmentation[J]. Technology and Health Care, 2023, 31(1): 181-195. DOI: 10.3233/THC-220174
[8] 郭尹. 基于深度学习的电力设备热红外图像语义分割方法研究[D]. 合肥: 安徽大学, 2022. GUO Yin. Research on Electrical Thermal Image Semantic Segmentation Method Based on Deep Learning[D]. Hefei: Anhui University, 2022.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.
[10] Adrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI: 10.1109/TPAMI.2016.2644615
[11] OLAF R, PHILIPP F, THOMAS B. U-Net: Convolutional networks for biomedical image segmentation[J]. CoRR, 2015, abs/1505.04597.
[12] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017: 2881-2890.
[13] LIN G, MILAN A, SHEN C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1925-1934.
[14] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFS[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[15] CHEN L C, ZHU Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 801-818.
[16] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.
[17] 练琤, 张宝辉, 江云峰, 等. 基于语义分割的红外图像增强方法[J]. 红外技术, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML LIAN Zheng, ZHANG Baohui, JIANG Yunfeng, et al. An infrared image enhancement method based on semantic segmentation[J]. Infrared Technology, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML
[18] WANG J, GOU C, WU Q, et al. RTFormer: efficient design for real-time semantic segmentation with transformer[J]. arXiv e-prints, 2022: arXiv: 2210.07124.
[19] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. arXiv, 2017. DOI: 10.48550/arXiv.1706.03762.
[20] TU Z, TALEBI H, ZHANG H, et al. Maxim: Multi-axis MLP for image processing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5769-5780.
[21] JADON S. A survey of loss functions for semantic segmentation[C]//IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). IEEE, 2020: 1-7.
[22] Sandler M, Howard A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[23] 于营, 王春平, 付强, 等. 语义分割评价指标和评价方法综述[J]. 计算机工程与应用, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm YU Ying, WANG Chunping, FU Qiang, et al. Survey of evaluation metrics and methods for semantic segmentation[J]. Journal of Computer Engineering & Applications, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm
[24] WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 1451-1460.
-
期刊类型引用(1)
1. 褚萌. 累计降水量质控方法设计及应用. 中国新技术新产品. 2024(17): 136-138+142 . 百度学术
其他类型引用(0)