A Lightweight Infrared Target Detection Algorithm for Multi-scale Targets
-
摘要: 针对现有基于深度学习的红外目标检测算法参数量大、复杂度较高、对多尺度目标检测性能较差等问题,提出了一种针对多尺度目标的轻量级红外目标检测算法。算法以YOLOv3为基础,采用MobileNet V2轻量级骨干网络、设计改进的简化空间金字塔结构(simSPP)、Anchor Free机制、解耦头和简化正负样本分配策略(SimOTA)分别对Backbone、Neck和Head进行优化,最终得到模型大小为6.25 M,浮点运算量2.14 GFLOPs的LMD-YOLOv3轻量级检测算法。在构建的MTS-UAV数据集上mAP达到90.5%,在RTX2080Ti显卡上FPS达到99,与YOLOv3相比mAP提升了2.60%,模型大小为YOLOv3的1/10。Abstract: To solve the problems of large parameters, high complexity, and poor detection performance of multiscale targets in the existing infrared target detection algorithms based on deep learning, a lightweight infrared target detection algorithm for multiscale targets is proposed. Based on YOLOv3, the algorithm uses the MobileNet V2 backbone network, simplified spatial pyramid structure (simSPP), anchor-free mechanism, decoupling head, and simplified positive and negative sample allocation strategies (SimOTA) to optimize the backbone, neck, and head, respectively. Finally, LMD-YOLOv3 with the model size of 6.25 M and floating-point computation of 2.14 GFLOPs was obtained. Based on the MTS-UAV data set, the mAP reached 90.5%, and on the RTX2080Ti dataset, the FPS reached 99. Compared with YOLOv3, mAP increased by 11.7%, and the model size was only 1/10 of YOLOv3.
-
Keywords:
- object detection /
- multi-scale /
- lightweight algorithm
-
0. 引言
为解决红外成像系统存在的非均匀性问题,研究者们已经提出了很多的非均匀性校正方法,例如两点校正[1]、基于神经网络的方法和基于时域滤波的方法等[2-3]。然而其中绝大多数方法在设计时并未考虑积分时间这一因素,这些方法通常只适用于积分时间固定的应用。针对红外大动态范围成像[4]等任务对改变积分时间的需要,一些可变积分时间的非均匀性校正方法被提出。这类算法主要可分为两种:一种通过建立精确的含积分时间等变量的红外成像物理模型并求解模型参数实现[5-7],比如Chen等人[5]建立了含有入射照度、积分时间、探测器暗电流和偏置电压等变量的响应模型,提出了可变积分时间的二维定标非均匀性校正方法。另一种则不需要建立精确的解析模型,而是利用机器视觉中的辐射校准方法来实现,例如Ochs等人[8]提出了基于像素级辐射自校准的非均匀性校正方法,首先通过辐射自校准来估计场景的辐射通量图,再对辐射通量图进行非均匀性校正。
本文在Ochs等人提出的校正方法的基础上,对该方法中的两个关键的步骤进行了改进,主要体现在使用多组不同积分时间的黑体图像序列进行辐射自校准以获得更准确的辐射响应方程,以及利用进行辐射自校准过程所使用的多组图像序列来计算非均匀性校正参数。
1. 响应模型
对于典型红外成像系统,来自场景的红外辐射被光学系统汇聚在红外焦平面阵列上,经过有效的积分(曝光),焦平面的像元中红外光子经由光电转换及一系列电信号处理后被转化为相应的灰度值[9]。假设这些过程均为线性变换,且不考虑暗电流和噪声等影响时,则对于红外成像系统中的像元p,输出的灰度值Yp与到达成像系统的红外光的辐射通量Fp和积分时间tint的关系可以表示为:
$$ Y_{p}=a_{p} F_{p} t_{\mathrm{int}}+b_{p} $$ (1) 式中:ap为光学系统、光电转换和电信号处理等引起的增益;bp为电信号处理带来的偏移。
如公式(1)所示,成像系统输出的灰度值与积分时间的关系通常被认为是线性的,因此能够以较方便的方法估计出场景的辐射通量,通过对辐射通量进行非均匀性校正处理来降低积分时间变化带来的影响。这也是绝大多数积分时间可变的非均匀性校正方法[5-8]实现的基础。虽然实际上在红外探测器的整个动态范围内,探测器输出信号与积分时间是非线性的,如图 1所示。但是在探测器的某段动态范围内,输出信号与积分时间之间具有很高的线性度。对于本文所使用的红外中波碲镉汞探测器,在其15%~85%的动态范围内,大多数像素关于积分时间的响应非线性度[10]小于0.2%,可认为在此范围内该探测器为线性响应。
2. 基于像素级辐射自校准的校正方法
辐射自校准是一种估计场景辐射能量Q与场景图像(归一化)灰度Y之间映射关系Q=f(Y)的方法,它假设可以通过N阶多项式建立的响应方程f来描述这种关系[11]。Ochs等人针对红外成像系统的非均匀性的特点,提出了一种基于像素级辐射自校准的非均匀性校正方法(以下简称Ochs方法)。该方法为探测器的每一个像元建立这种映射关系,考虑到辐射能量与辐射通量的关系Q=F·t,像素p的响应方程fp可以表示为:
$${f_p}\left( {{Y_p}} \right) = {F_p} \cdot t = \sum\limits_{n = 0}^N {{a_{p,n}}Y_p^n} $$ (2) 通常红外成像系统使用固定的F数,对某一固定温度的面源黑体采集J种不同积分时间的图像序列,可以得到不同图像所对应的辐射能量与积分时间比值R之间的关系:
$${R_{j,j + 1}} = \frac{{{F_{p,j}}{t_j}}}{{{F_{p,j + i}}{t_{j + i}}}}$$ (3) 式中:j和j+i是图像序列的编号,将公式(2)代入,得到:
$${R_{j,j + i}} = \frac{{\sum\limits_{n = 0}^N {{a_n}Y_{p,j}^n} }}{{\sum\limits_{n = 0}^N {{a_n}Y_{p,j + 1}^n} }}$$ (4) 根据公式(4),可以得到像元p的误差方程,如公式(5)。结合约束fp(1)=1,通过最小化εp可以计算出响应方程fp的N+1个多项式系数ap, n。
$${\varepsilon _p} = {\sum\limits_{j = 1}^{J - 1} {\sum\limits_{i = 1}^{J - j} {\left[ {\sum\limits_{n = 0}^N {{a_{p,n}}Y_{p,j}^n} - {R_{j,j + 1}}\sum\limits_{n = 0}^N {{a_{p,n}}Y_{p,j + }^n} } \right]} } ^2}$$ (5) 在获得每个像素的响应方程后,可以估计出场景的辐射能量图,除以积分时间便能够得到场景辐射通量图的估计。由于光学系统的影响[8],以及辐射自校准方法计算出响应方程所固有的不确定性[11],还需要对获得的辐射通量图进行校正。对辐射通量图中像素p的校正使用公式(6)所示的线性校正模型完成,并使用两点校正方法计算出校正参数gp和op,式中Fp*是校正后的辐射通量。
$$ F_p^* = {g_p} \cdot {F_p} + {o_p} $$ (6) 3. 本文方法
3.1 像素级辐射自校准方法
上文介绍的Ochs方法,采集固定在某一温度点的面源黑体的图像序列来计算出响应方程的多项式系数。然而经过实验发现Ochs方法中使用不同温度的黑体的图像序列计算出的响应方程和对应的误差ε有所差异,而差异大小与黑体温度之间并未呈现出明显的关联。例如黑体温度分为15℃、35℃和55℃时,Ochs方法计算出的2阶响应方程的平均误差$\bar \varepsilon $分别为4.57×10-5、3.74×10-5和3.93×10-5。
为了能够获得更准确且更稳定的结果,本文提出利用多个温度点的黑体图像序列来求解每个像素的响应方程的多项式系数。该方法对K种温度的面源黑体分别采集Jk种积分时间的图像(k=1, …, K),在误差方程(5)的基础之上,可以得到新的误差方程:
$${\varepsilon _p} = \sum\limits_{k = 1}^K {\sum\limits_{j = 1}^{{J_k} - 1} {\sum\limits_{i = 1}^{{J_k} - j} {{{\left[ {\sum\limits_{n = 0}^N {{a_{p,n}}Y_{p,k,j}^n} - {R_{k,j,j + i}}\sum\limits_{n = 0}^N {{a_{p,n}}Y_{p,k,j + i}^n} } \right]}^2}} } } $$ (7) 结合约束fp(1)=1,令误差方程最小化可求出响应方程的系数ap, n。需要注意的是,选取黑体的温度点时,其范围最好能够覆盖实际观测场景的温度范围。
对于本文的方法,当采用黑体的温度点的数量K分别为2个、4个和9个时,得到的2阶响应方程通过公式(5)计算出的平均误差$\bar \varepsilon $分别为3.61×10-5、3.53×10-5和3.52×10-5,不难看出通过这种方法获得的结果相对更稳定。
3.2 校正参数计算方法
通过每个像素的响应方程估计出场景的辐射通量图后,还需要利用公式(6)进行非均匀性校正来得到校正图像。计算校正参数gp和op最常见的方法是两点校正,即使用两幅不同温度的面源黑体的图像来计算[1]。为了能够充分利用辐射自校准过程中所用到的不同温度黑体的图像序列,而不是仅使用其中的两幅图像,本文通过公式(8)求解校正参数,即最小化所有图像中像素p的校正后的辐射通量Fl, p*与其期望数值${\bar F_l}$的相对偏差的平方和。公式(8)中,L是用于计算校正参数的黑体图像的总数量;${\bar F_l}$为图像校正后的期望值,通常希望经过非均匀性校正后的黑体图像的所有像素具有相同的输出,且校正前后图像的空域均值保持不变,因此这里${\bar F_l}$为辐射通量图像Fl的均值。
校正参数的期望值${\hat g_p}$和${\hat o_p}$可以通过最小二乘法等优化算法计算得到。当输入图像只有两幅时,该方法得到的结果与两点校正方法的一样。
$$({\hat g_p},{\hat o_p}) = \mathop {\arg \min }\limits_{({g_p},{o_p})} \frac{1}{2}\sum\limits_{l = 1}^L {{{\left( {\frac{{F_{l,p}^* - {{\bar F}_l}}}{{{{\bar F}_l}}}} \right)}^2}} $$ (8) 3.3 处理流程
本文提出的方法的处理流程如下:
1)分别对K种温度面源黑体采集Jk种积分时间的图像,得到序列{Yk, j}并做归一化处理;
2)使用{Yk, j}和积分时间{tk, j}利用公式(7)计算出每个像元的响应方程fp;
3)使用响应方程计算{Yk, j}对应的辐射通量图序列{Fk, j},并通过公式(8)获得校正参数{gp, op};
4)对于待校正图像,先计算出待校正的辐射通量图,再使用公式(6)得到校正后的辐射通量图;
5)若仅需输出图像,将校正后的辐射通量图乘以积分时间得到校正的图像。
4. 实验结果与分析
4.1 实验设置及评价方式
实验采集图像使用640×512中波红外碲镉汞焦平面阵列探测器组件和焦距30 mm的F/4镜头,探测器工作在ITR模式,采样ADC精度为14bit;高精度面源黑体使用HGH公司的DCN1000 N4,靶面尺寸为100 mm×100 mm。采集黑体图像时,调整镜头与黑体靶面间的距离确保靶面能够覆盖镜头视场。
实验中以5℃为步长,分别采集15℃~100℃共18个温度点的黑体的图像。在确定至少能够覆盖探测器15%~85%的动态范围时任意挑选积分时间,每个温度点下分别采集8~15种积分时间的图像各1张,一共产生198张黑体图像。
本文中,针对面源黑体的图像使用的偏移不均匀性NU[9, 12]进行评价,针对实际场景的图像使用粗糙度ρ[13]进行评价。
另外,实验采集到的图像均会预先进行无效像元替换处理,所展示的红外图像均经过了非线性的自动增强处理。
4.2 实验结果与分析
实验分别使用两点校正方法、Ochs方法和本文提出的方法处理图像数据。光子型红外探测器的响应线性度较好,2阶多项式模型足以拟合探测器的非线性性,因此Ochs方法和本文方法均使用2阶多项式模型建立响应方程。这3种方法中,两点校正使用积分时间为3 ms的20℃和75℃的图像计算校正参数;Ochs方法使用35℃的图像序列计算响应方程,使用20℃和90℃的图像来获取校正参数;本文方法使用15℃、30℃、50℃和90℃的图像数据计算响应方程和校正参数。
这3种方法对198张黑体图像进行非均匀性校正处理后,校正后图像的偏移不均匀性NU的统计数据如表 1所示。表 1中可以看出,本文方法校正后的黑体图像的偏移不均匀性NU的均值,比未校正降低了98.3%,比两点校正降低了93.5%,比Ochs方法降低了24.1%,校正后图像NU的中值、最小值和最大值也均低于其他两种方法。
表 1 3种方法处理前后的黑体图像的NU的统计数据Table 1. NU statistics of the black body image before and after process of the three methodsMethod Mean NU Median NU Min NU Max NU Un-corrected 6.041% 6.489% 3.025% 8.583% Two-point 1.562% 1.081% 0.088% 6.024% Ochs 0.133% 0.128% 0.073% 0.281% Proposed 0.101% 0.098% 0.050% 0.205% 另外,实验还使用该热像仪对一场景采集了4 ms、9 ms和12 ms三种积分时间的图像,两点校正、Ochs方法和本文方法校正后的图像如图 2所示。图 2中可以看出两点校正后的图像中存在亮点和暗点,且图像的积分时间偏离标定使用的积分时间(3ms)越多时亮点和暗点的数量越多;另外图像的四周还存在过补偿的情况,导致图像四周偏亮、中心偏暗,背景因对比度不足也难以辨别。相对于两点校正,Ochs方法和本文方法校正后的图像的效果均有较明显的提升,图像中均没有明显的固定图案噪声,比如暗角、四周过补偿、竖条纹、亮点和暗点等,图像经过增强后的对比度也更高。
为了能够更客观地评价3种方法的校正效果,分别计算了9幅图像(增强之前)的粗糙度ρ,如表 2所示。3种方法中,本文方法校正后图像的粗糙度数值也最小。
表 2 三种方法处理前后的场景图像的粗糙度ρTable 2. Roughness ρ of the scene images before and after theprocess of the three methodIntegration Time/ms Un-corrected Two-point Ochs Proposed 4 0.11816 0.01032 0.00924 0.00904 9 0.07297 0.00998 0.00900 0.00890 12 0.06285 0.00989 0.00888 0.00876 5. 总结
本文提出了一种基于像素级辐射自校准的红外图像非均匀性校正改进方法。该方法通过对估计出的场景的辐射通量图进行校正,实现了可变积分时间的非均匀性校正。该方法在辐射自校准的基础上,利用多个温度点下采集的面源黑体的不同积分时间的图像,获得了更准确且更稳定的像素级响应方程的估计,可以得到更准确的场景辐射通量的估计。该方法还将非均匀性校正参数的求解转化为了线性最小二乘问题,从而能够充分利用采集到的多温度点、多积分时间的图像,实现更好的非均匀性校正效果。实验表明,本文方法能够将线性响应范围内的任意积分时间下的红外图像的非均匀性降低至较低的水平。
-
表 1 SimSPP模块在YOLOv3算法上实验结果对比
Table 1 Comparison of experimental results of SimSPP module on YOLOv3 algorithm
Model Recall mAP FPS FLOPs Params YOLOV3 90.70% 87.90% 74 12.41G 61.52M YOLOV3+
SPP90.90% 88.60% 71 12.57G 64.15M YOLOV3+
SPPA90.20% 88.00% 73 12.51G 63.10M YOLOV3+
SPPB90.60% 88.50% 72 12.51G 63.10M YOLOV3+
SPPC90.90% 88.30% 72 12.51G 63.10M 表 2 SimSPP模块在YOLOX-s算法上实验结果对比
Table 2 Comparison of experimental results of SimSPP module on YOLOX-s algorithm
YOLOX-S YOLOX-SA YOLOX-SB YOLOX-SC mAP 80.90% 80.70% 80.90% 80.60% FPS 84 90 91 91 表 3 LMD-YOLOv3消融实验结果对比
Table 3 LMD-YOLOv3 comparison of ablation experiment results
Recall mAP FPS FLOPs Params Experiment 1 90.70% 87.90% 74 12.41G 61.52M Experiment 2 90.60% 88.50% 72 12.51G 63.10M Experiment 3 91.20% 90.40% 74 11.19G 46.20M Experiment 4 91.20% 90.50% 99 2.14G 6.25M 表 4 横向实验结果对比
Table 4 Comparison of horizontal experimental results
Recall/% mAP/% FPS FLOPs/G Params/M YOLOv3 90.70 87.90 74 12.41 61.52 YOLOv4 85.57 86.99 70 11.30 63.9 YOLOX-s 88.20 80.90 84 2.13 8.94 Faster-RCNN 81.60 81.30 49 26.24 41.12 LMD-YOLOv3 (Ours) 91.20 90.50 99 2.14 6.25 -
[1] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[2] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in neural Information Processing Systems, 2015, 28: 91-99.
[4] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European conference on computer vision., 2016: 21-37.
[5] Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL]. arXiv preprint arXiv, 2020, https://arxiv.org/abs/2004.10934
[6] WANG C Y, Yeh I H, LIAO H Y M. You Only Learn One Representation: Unified Network for Multiple Tasks[J/OL]. arXiv pre-print arXiv, 2021, https://arxiv.org/abs/2105.04206.
[7] GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J/OL]. arXiv preprint arXiv, 2021, https://arxiv.org/abs/2107.08430.
[8] LIU M, DU H, ZHAO Y, et al. Image small target detection based on deep learning with SNR controlled sample generation[M]//Current Trends in Computer Science and Mechanical Automation, 2018: 211-220.
[9] LIN Liangkui, WANG Shaoyou, TANG Zhongxing. Using deep learning to detect small targets in infrared oversampling images[J]. Journal of Systems Engineering and Electronics, 2018, 29(5): 947-952. DOI: 10.21629/JSEE.2018.05.07
[10] ZHAO D, ZHOU H, RANG S, et al. An adaptation of CNN for small target detection in the infrared[C]//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium, 2018: 669-672.
[11] 谢江荣. 基于深度学习的空中红外目标检测关键技术研究[D]. 上海: 中国科学院大学(中国科学院上海技术物理研究所), 2019. XIE Jiangrong. Research on Key Technologies of Air Infrared Target Detection Based on Deep Learning[D] Shanghai: University of Chinese Academy of Sciences (Shanghai Institute of Technical Physics, Chinese Academy of Sciences), 2019.
[12] FAN M, TIAN S, LIU K, et al. Infrared small target detection based on region proposal and CNN classifier[J]. Signal, Image and Video Processing, 2021, 15: 1927-1936. DOI: 10.1007/s11760-021-01936-z
[13] 张凯, 刘昊, 杨曦, 等. 基于关键点检测网络的空中红外目标要害部位识别算法[J]. 西北工业大学学报, 2020, 38(6): 1154-1162. DOI: 10.3969/j.issn.1000-2758.2020.06.003 ZHANG K, LIU H, YANG X, et al. Key position recognition algorithm of aerial infrared target based on key point detection net-work [J]. Journal of Northwest University of Technology, 2020, 38(6): 1154-1162 DOI: 10.3969/j.issn.1000-2758.2020.06.003
[14] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv, 2018, https://arxiv.org/abs/1804.02767.
[15] Howard A, Zhmoginov A, CHEN L C, et al. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation[J/OL]. Computer Science, 2018, https://arxiv.org/abs/1801.04381v2.
[16] Howard A G, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J/OL]. arXiv preprint arXiv, 2017, https://arxiv.org/abs/1704.04861.
[17] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916. DOI: 10.1109/TPAMI.2015.2389824
-
期刊类型引用(2)
1. 陆玉. 基于大数据分析的红外图像非均匀性自动化校对. 佳木斯大学学报(自然科学版). 2025(01): 39-42 . 百度学术
2. 陈栋,孟奇,连细南. 高速飞行条件下红外探测关键技术研究. 舰船电子工程. 2022(10): 194-198 . 百度学术
其他类型引用(6)