Infrared Ship Detection Based on Multi-scale Semantic Network
-
摘要: 为了增强舰船检测的抗干扰性能,本文提出了一种有效且稳定的单阶段舰船检测网络,该网络主要由3个模块组成:特征优化模块,特征金字塔融合模块和上下文增强模块,其中特征优化模块是提取多尺度上下文信息,并进一步细化和增强顶层特征输入特性,增强弱小目标检测性能;特征金字塔融合模块能够生成表征能力更强的语义信息;上下文增强模块则是整合局部和全局特征增强网络特征表达能力,以降低复杂背景对检测性影响,平衡前景和背景的不均衡差异,消除鱼鳞波的影响。为了验证本文所提方法的有效性和鲁棒性,本文对自建的舰船数据集进行了定性定量验证。实验结果表明,相比现有最新基准对比模型,本文所提网络在自建数据集上均达到了最优性能,在不增加复杂度的情况下极大提升了检测精度。Abstract: To enhance the anti-jamming performance of ship detection, an effective and stable single-stage ship detection network is proposed in this study. The network is composed of three modules: feature optimization, feature pyramid fusion, and context enhancement modules. The feature optimization module extracts multi-scale context information and further refines the high-level feature input characteristics, to enhance the performance of dim–small object detection. The feature pyramid fusion module can generate semantic information with stronger representation ability. The context enhancement module integrates local and global features to enhance the network feature expression ability, reduce the impact of a complex background on detectability, adjust the imbalance between the foreground and background, and eliminate the impact of scale-wave. To verify the effectiveness and robustness of the proposed method, qualitative and quantitative verifications are performed on a self-built dataset. Experimental results show that the proposed network achieves optimal performance compared with the latest benchmark comparison model and considerably improves the detection accuracy without increasing complexity.
-
Keywords:
- object detection /
- infrared ship /
- single-stage network /
- pyramid pooling /
- context enhancement
-
0. 引言
红外热成像技术因不受昼夜影响、识别性高等优点已被广泛应用于安防监控、智能家居、异常监测等领域[1]。越来越多的系统基于过热目标与异常侵入目标的检测从而实现异常检测与报警的功能,达到预防灾难、规避风险的目的[2-3]。
根据不同的分类方式,热红外异常目标检测可得到不同的分类效果,其中最常见的一种分类方式是根据检测与跟踪的先后顺序进行划分,可分为先检测后跟踪DBT(Detect Before Track)和先跟踪后检测TBD(Track Before Detect)两大类[4-5]。常见的DBT算法包括背景减除法、帧间差分法、光流法、小波变换、形态学滤波、基于神经网络和遗传算法等方法[6-8]。TBD方法主要用于弱小目标检测[9],然而其需要基于多帧图像对潜在目标进行跟踪,算法复杂,实时性无法达到要求。因此,在实时性要求高的系统中最常用的方法为背景减除法与帧间差分法[10]。背景减除法常利用多帧数据构造背景模型,利用当前帧与背景帧的差值图像进行判决处理,确定是否存在目标。帧间差分法原理与背景减除法类似,该方法利用当前帧的前一帧作为背景,克服了背景变化的局限性,但该方法对静止目标检测时会造成空洞等现象。基于单高斯模型的检测算法利用高斯函数建立背景模型,既能自适应的更新背景模型,也能克服帧差法的局限性,使检测效果更好[11-12]。以上方法在进行判决时,阈值通常根据均值与方差或以往经验确定,因此阈值的不确定性会使检测性能受到影响。
本文在单高斯模型基础上,提出一种改进的检测算法。该算法通过单高斯模型初始化背景,再通过奈曼-皮尔逊准则确定初始最佳判决阈值,使判决出错的概率达到最小,从而使检测性能达到最优。最后通过德国HEIMANN公司型号为HTPA80x64dR1L5.0/1.0的热电堆阵列传感器获取数据,从而对本文算法进行性能验证。
1. 算法描述
1.1 单高斯模型
单高斯模型是一种在运动目标检测过程中提取背景和前景的方法[13-14]。单高斯背景模型认为,对于背景图像,各个像素的灰度值分布满足高斯分布,在这一先验知识的基础上,即每个像素点服从正态分布,如下公式:
$$P({x_{ij}}) = \frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}\sigma _{ij}^2} }}\exp ( - \frac{{{{({x_{ij}} - {\mu _{ij}})}^2}}}{{2\sigma _{ij}^2}})$$ (1) 式中:xij表示坐标为(i, j)的像素点的灰度值;μij表示该像素灰度值的均值;σij2表示该像素灰度值的方差;P(xij)表示像素(i, j)灰度值的概率分布。
基于单高斯建模的异常目标检测主要有3个步骤:背景建模、目标检测和模型更新[12]。
背景建模最常见的方法就是利用前N帧的均值和方差作为单高斯模型的参数,每个像素点的参数均不一样。建立好高斯模型后,设定一个概率阈值,将待检测的图像的灰度值代入到对应像素的高斯模型,若概率值大于设定阈值,将其判定为前景像素点,反之即为背景像素点,其中设定的概率阈值一般根据经验获得。随着时间的推移,背景可能会发生一些变化,因此需要自适应更新背景。背景更新的原则为:若像素点为前景像素点,则背景保持不变,若该像素为背景时,则按以下公式进行更新:
$$\mu _{ij}^{n + 1} = (1 - \alpha )\mu _{ij}^n + \alpha x_{ij}^{n + 1}$$ (2) $${(\sigma _{ij}^{n + 1})^2} = (1 - \alpha ){(\sigma _{ij}^n)^2} + \alpha {(\mu _{ij}^{n + 1} - x_{ij}^{n + 1})^2}$$ (3) 式中:μijn+1和(σijn+1)2表示更新后的均值和方差;α表示背景更新参数,取值为0~1之间,当α取值越大,则表示背景变化速度越快,该值也是一个经验值。
在检测判决的时候,概率阈值的选取往往通过经验值获得[15],若选择阈值偏大,则很容易将异常像素点判决为正常,导致漏警率增加。若选择阈值偏小,则容易将正常像素点判决为异常像素点,导致虚警率增加。这两种错误判决概率都会影响系统的性能。
1.2 假设检验理论
在异常检测时,各个像素点只有两种可能状态,一种是前景,一种是背景,该问题即为二元信号检测问题[16-17]。假设正常状态为H0,则异常状态为H1,输出信号经概率转移机构以一定的概率映射到观测空间R中,观测空间R又可划分为两个判决区域R0和R1。在检测判决时,正常状态下的像素点可被系统判决为正常和异常两种状态,因此,对像素点正常和异常的判决结果共有4种可能性,表 1即为二元信号检测判决结果:
表 1 二元信号检测判决结果Table 1. Judgment results of binary signal detectionJudgment Assumption H0 H1 H0 (H0/H0) (H0/H1) H1 (H1/H0) (H1/H1) 表中展示了4种可能判决结果,(Hi/Hj)表示将结果Hj判决为Hi,其中i, j∈[0, 1]。每个判决结果对应相应的判决概率,其中P(Hi/Hj)表示假设Hj为真时,判决假设Hi成立的概率。其中观测值(x/Hj)落在区域Ri时,Hi假设成立,概率表示如下:
$$P({H_i}/{H_j}) = \int\limits_{{R_i}} {P(x/{H_j})} {\rm{d}}x\;\;\;\;\;\;i,j \in [0,1]$$ (4) 在以上4种判决结果中,只有两种是正确的判决概率,另外两种是错误判决概率。其中P(H1/H0)表示将正常的观测值判决为异常,此概率为虚警率,P(H0/H1)表示将异常的观测值判决为正常,此概率为漏警率。
假设H0与H1均服从高斯分布,x为判决门限。图 1为检测判决结果示意图。
图中左边的曲线为H0的分布,从图中可以看出,若判决门限增大,虚警率会降低,但漏警率会增加,虚警率与漏警率无法同时达到最小。因此,如何确定最佳门限使错误概率达到最小,正确概率达到最大是一个研究难点。
1.3 奈曼-皮尔逊准则
为了提高系统检测性能,使漏警率与虚警率达到最小。本文在单高斯模型的基础上,利用奈曼-皮尔逊准则确定检测判决初始阈值。该准则在P(H1/H0)=α的约束条件下,使正确判决概率P(H1/H1)最大,即等价于使漏警率P(H0/H1)最小。利用拉格朗日乘子μ(μ≥0)构建目标函数:
$$ \mathit{J} = \mathit{P}({\mathit{H}_0}/{\mathit{H}_1}) + \mathit{\mu }[\mathit{P}({\mathit{H}_1}/{\mathit{H}_0}) - \mathit{\alpha }] $$ (5) 在P(H1/H0)=α的约束条件下,使错误判决概率P(H0/H1)最小,即求目标函数J的最小值,将公式(5)转化为积分运算得:
$$J = \int\limits_{{R_0}} {P(x/{H_1})} {\rm{d}}x{\rm{ + }}\mu [\int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x - \alpha ]$$ (6) 将:
$$\int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x = 1 - \int\limits_{{R_0}} {P(x/{H_0})} {\rm{d}}x$$ (7) 代入公式(6)可得:
$$ J=\mu (1-\alpha )+{\displaystyle \underset{{R}_{0}}{\int }[P(x/{H}_{1})-\mu P(x/{H}_{0})}]{\rm{d}}x$$ (8) 要使J达到最小,被积函数应该取负值。此时可得到判决表达式如下:
$$\frac{{P(x/{H_1})}}{{P(x/{H_0})}}\mathop \gtrless \limits_{{H_0}}^{{H_1}} \mu $$ (9) 式中,判决门限μ可由约束条件得到:
$$P({H_1}/{H_0}) = \int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x = \int_\mu ^{ + \infty } {P(x/{H_0})} {\rm{d}}x = \alpha $$ (10) 该准则通过理论推导确定最佳阈值,很好地解决了依靠经验获取阈值的问题,提高了系统的可移植性与适用性,使正确判决概率P(H1/H1)在虚警率一定的情况下达到最大。
2. 实验与性能分析
本研究采用德国HEIMANN型号为HTPA 80x64dR1L5.0/1.0的热电堆阵列传感器,它是一款64行80列的红外阵列传感器,该传感器的输出经过双线性插值后为目标温度值(℃)。实验时首先需要获取静止场景下的多帧数据,利用公式(1),选择100帧数据获取各个像素点的均值和方差,构建高斯背景模型;然后选择不同的阈值进行判决,验证不同阈值对检测性能的影响;最后通过判决后的二值图像直观地观察检测效果,并通过计算漏警率、虚警率与准确率来客观地评价算法性能。
2.1 二值图像
本文通过模拟视频监控的场景,将传感器置于墙壁上,用传感器获得多组监测数据,再用不同的阈值对其进行判决处理。首先选择常见的判决阈值均值与方差和、均值与两倍方差和进行判决处理,然后在虚警率为0.01的约束下,根据本文算法获得判决阈值,再进行判决,比较判决结果。图 2中(a)和(e)分别为两组数据的原始灰度图像,其他则为二值图像。
从图 2中可以看出,本文所用传感器噪声较大,系统很容易将背景点误判为前景点。(b)、(e)、(f)、(g)中众多背景像素均被判为前景像素,检测效果略差。而本文所选阈值大大降低了这种错误概率,虽然仍存在部分背景点被误判为前景点,但这种错误概率明显降低,从二值图像中能较好地发现目标。
2.2 检测性能
为了进一步客观地描述检测性能,本文先获取图像中前景所占像素个数P与背景像素的个数N。经过判决后,将前景判决为前景的像素个数记为TP,将前景判断为背景的像素个数记为FN,将背景判决为背景的个数记为TN,将背景判断为前景的像素个数记为FP。因此可以通过准确率、漏警概率与虚警概率客观的评判检测性能。
其中准确率表示判决正确的比例,可用A表示,定义如下:
$$A = \frac{{{T_P} + {T_N}}}{{P + N}}$$ (11) 漏警概率表示将前景像素点判决错误的概率,可用MA表示,定义如下:
$${M_A} = \frac{{{F_N}}}{{{T_P} + {F_N}}}$$ (12) 虚警概率表示将背景像素点判决错误的概率,可用FA表示,定义如下:
$${F_A} = \frac{{{F_P}}}{{{T_P} + {F_P}}}$$ (13) 选择图 2中的第一个场景为例,通过分析原始数据的多帧数据均值可得到场景中背景像素点有5025个,前景像素点有95个。利用不同的阈值进行判决并分析检测结果,为了避免结果的随机性,此次实验选择100检测结果的均值作为最终检测结果。表 2为不同阈值的检测判决结果。
表 2 不同阈值的检测判决结果Table 2. Detection and judgment results of different thresholdsThreshold TP TN FP FN A MA FA Threshold1 93 3259 1766 2 0.6547 0.0211 0.9499 Threshold2 88 4511 514 7 0.8982 0.0737 0.8538 Threshold3 75 4959 80 20 0.9805 0.2105 0.5161 表中阈值1表示均值与方差和,阈值2表示均值与两倍方差和,与二值图像的判决阈值一致,由单高斯模型所得,阈值3表示根据奈曼-皮尔逊准则获得的阈值。从表中可以看出,根据阈值3判决后的二值图像,FP从1766降低为80,准确率也从0.6547提升到0.9805,虽然MA增大了一点点,但FA显著降低了,即错误概率整体下降了。因此,在这3个阈值中,阈值3的判决效果最好,即通过本文算法确定的阈值能提高检测概率,使错误判决概率达到最小。
3. 结论
本文在基于单高斯模型的异常目标检测算法的基础上,提出了一种基于奈曼-皮尔逊准则的最佳阈值选取算法。本文首先通过实验对背景进行高斯建模,再利用该准则求出最佳判决阈值,最后通过对比不同的阈值判决结果,根据主观和客观评价得出本文算法所确定的阈值能较好地区分前景与背景的结论。该算法为阈值选取奠定了理论基础,得到的二值图像也利于红外图像的识别与跟踪,为后续的应用做出了贡献。虽然本文所用传感器在实际应用中噪声太大,导致判决错误的概率大大增加,但在本文阈值的判决下,系统仍能够清晰地区分前景和背景。
-
表 1 不同模块的消融结果
Table 1 Ablation results of different modules
MCI SI Fusion P mAP R F1 71.1 76.3 82.7 86.5 √ 74.5 76.9 83.2 86.6 √ √ 78.2 78.2 83.5 87.2 √ √ √ 80.5 79.2 85.0 88.8 表 2 自建数据集上的检测结果对比
Table 2 Comparison of results on non-public data sets
Models P mAP R F1 YOLOv3 75.5 74.2 81.3 83.9 RetinaNet 77.3 80.6 78.9 77.4 RefineNet 78.4 83.1 79.3 81.1 CenterNet 77.1 78.6 84.5 88.7 FCOS 78.7 85.1 76.6 86.5 Ours 80.5 79.2 85.0 88.8 表 3 不同数据子集上的检测结果对比
Table 3 Comparison results for different sub-set
Models SOS CBC Others P mAP R F1 P mAP R F1 P mAP R F1 YOLOv3 67.3 67.4 70.6 68.9 72.1 80.6 83.0 88.3 76.4 85.1 81.5 76.0 RetinaNet 66.6 70.3 72.5 69.4 75.4 81.1 83.1 83.3 78.5 84.5 85.8 76.6 RefineNet 64.8 78.8 78.3 70.9 73.7 82.3 85.0 89.1 77.2 89.6 86.4 75.7 CenterNet 67.8 74.6 79.6 73.2 73.6 77.1 81.9 93.0 79.3 78.9 80.1 85.5 FCOS 64.8 80.8 78.3 70.9 72.5 76.3 82.4 86.2 78.7 77.7 78.5 85.9 Ours 68.0 83.3 83.6 74.9 73.9 85.2 84.9 90.1 83.5 85.4 87.6 86.0 -
[1] 邢莎, 吉林, 雍杨, 等. 复杂场景下的自动红外舰船目标检测[J]. 红外技术, 2014, 36(4): 320-325. http://hwjs.nvir.cn/article/id/hwjs201404013 XING Sha, JI Lin, YONG Yang, et al. Automatic infrared warship target detection under complicated background[J]. Infrared Technology, 2014, 36(4): 320-325. http://hwjs.nvir.cn/article/id/hwjs201404013
[2] 赵文涛, 曹昕鸷, 田志勇. 基于自适应阈值区域生长的红外舰船目标分割方法[J]. 红外技术, 2018, 40(2): 158-163. http://hwjs.nvir.cn/article/id/hwjs201802010 ZHAO Wentao, CAO Xinzhi, TIAN Zhiyong. An infrared ship target segmentation method based on adaptive threshold region growth[J]. Infrared Technology, 2018, 40(2): 158-163. http://hwjs.nvir.cn/article/id/hwjs201802010
[3] 丁荣莉, 韩传钊, 谢宝蓉, 等. 红外遥感图像舰船目标检测[J]. 红外技术, 2019, 41(2): 127-133. http://hwjs.nvir.cn/article/id/hwjs201902004 DING Rongli, HAN Chuanzhao, XIE Baorong, et al. Ship target detection in infrared remote-sensing image[J]. Infrared Technology, 2019, 41(2): 127-133. http://hwjs.nvir.cn/article/id/hwjs201902004
[4] Kumar D, ZHANG X. Ship detection based on faster R-CNN in SAR imagery by anchor box optimization[C]//2019 International Conference on Control, Automation and Information Sciences (ICCAIS), 2019: 309-313.
[5] Redmon J, Farhadi A. YOLOv3: an incremental improvement[J]. arXiv: 1804.02767, 2018.
[6] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
[7] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//International Conference on Computer Vision, 2017: 2999-3007.
[8] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]// European Conference on Computer Vision, 2018: 765-781.
[9] DUAN K, BAI S, XIE L, et al. CenterNet: keypoint triplets for object detection[J/OL]. arXiv: 1904.08189, 2019.
[10] TAN M, PANG R, LE Q V, et al. EfficientDet: scalable and efficient object detection[J/OL]. arXiv: 1911.09070, 2019.
[11] 杨涛, 戴军, 吴钟建, 等. 基于深度学习的红外舰船目标识别[J]. 红外技术, 2020, 42(5): 426-433. http://hwjs.nvir.cn/article/id/hwjs202005003 YANG Tao, DAI Jun, WU Zhongjian, et al. Target recognition of infrared ship based on deep learning[J]. Infrared Technology, 2020, 42(5): 426-433. http://hwjs.nvir.cn/article/id/hwjs202005003
[12] 黄洁, 姜志国, 张浩鹏, 等. 基于卷积神经网络的遥感图像舰船目标检测[J]. 北京航空航天大学学报, 2017(9): 132-139. https://www.cnki.com.cn/Article/CJFDTOTAL-BJHK201709016.htm HUANG Jie, JIANG Zhiguo, ZHANG Haopeng, et al. Ship target detection in remote sensing image based on convolutional neural network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017(9): 132-139. https://www.cnki.com.cn/Article/CJFDTOTAL-BJHK201709016.htm
[13] 顾佼佼, 李炳臻, 刘克, 等. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9 GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship target detection algorithm based on improved faster R-CNN[J]. Infrared Technology, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9
[14] GUO Haoyuan, YANG Xi, WANG Nannan, et al. A CenterNet++ model for ship detection in SAR images[J]. Pattern Recognition, 2021, 112(88): 25-34.
[15] FAN S, ZHU F, CHEN S, et al. FII-CenterNet: an anchor-free detector with foreground attention for traffic object detection[J]. IEEE Transactions on Vehicular Technology, 2021, 120(99): 1-14.
[16] Barrios J M, Bustos B. Competitive content-based video copy detection using global descriptors[J]. Multimedia Tools and Applications, 2013, 62(1): 75-110.
[17] ZHANG Xiang, YANG Wei, TANG Xiaolin, et al. A fast learning method for accurate and robust lane detection using two-stage feature extraction with YOLOv3[J]. Sensors, 2018, 18(12): 4308-4315.
[18] LIN G, Milan A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1289-1301.
[19] TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2020: 1099e3233.
[20] LIU Z, ZHANG X, JIANG T, et al. Infrared salient object detection based on global guided lightweight non-local deep features[J]. Infrared Physics & Technology, 2021, 12(3): 2309-2315.
-
期刊类型引用(3)
1. 冯杰,冯扬,刘翔,邓陈进,喻忠军. 远距离监视激光雷达动目标快速检测. 红外与激光工程. 2023(04): 300-308 . 百度学术
2. 刘电,张秀杰. 基于级联模型的高速公路抛洒物检测算法. 数字技术与应用. 2023(12): 70-72 . 百度学术
3. 曾宏志,史洪松. 面向光通信网络系统的异常入侵在线检测研究. 激光杂志. 2022(12): 139-143 . 百度学术
其他类型引用(4)