基于改进Faster R-CNN的红外舰船目标检测算法

顾佼佼, 李炳臻, 刘克, 姜文志

顾佼佼, 李炳臻, 刘克, 姜文志. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178.
引用本文: 顾佼佼, 李炳臻, 刘克, 姜文志. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178.
GU Jiaojiao, LI Bingzhen, LIU Ke, JIANG Wenzhi. Infrared Ship Target Detection Algorithm Based on Improved Faster R-CNN[J]. Infrared Technology , 2021, 43(2): 170-178.
Citation: GU Jiaojiao, LI Bingzhen, LIU Ke, JIANG Wenzhi. Infrared Ship Target Detection Algorithm Based on Improved Faster R-CNN[J]. Infrared Technology , 2021, 43(2): 170-178.

基于改进Faster R-CNN的红外舰船目标检测算法

详细信息
    作者简介:

    顾佼佼(1984-),男,博士,讲师,主要研究方向:人工智能深度学习技术

    通讯作者:

    李炳臻(1996-),男,硕士,主要研究方向:深度学习技术。E-mail:libingzhen123456@163.com

  • 中图分类号: TP399

Infrared Ship Target Detection Algorithm Based on Improved Faster R-CNN

  • 摘要: 针对Faster R-CNN算法中对于红外舰船目标特征提取不充分、容易出现重复检测的问题,提出了一种基于改进Faster R-CNN的红外舰船目标检测算法。首先通过在主干网络VGG-16中依次引出三段卷积后的3个特征图,将其进行特征拼接形成多尺度特征图,得到具有更丰富语义信息的特征向量;其次基于数据集进行Anchor的改进,重新设置Anchor boxes的个数与尺寸;最后优化改进后Faster R-CNN的损失函数,提高检测算法的整体性能。通过对测试数据集进行分析实验,结果表明改进后的检测算法平均精确度达到83.98%,较之于原Faster R-CNN,精确度提升了3.95%。
    Abstract: To solve the problem of insufficient feature extraction and repeated detection of infrared ship targets by the Faster R-CNN algorithm, a ship target detection algorithm based on an improved Faster R-CNN is proposed. First, three feature graphs are drawn from the backbone network, VGG-16, after a three-segment convolution, and the features are spliced to form a multi-scale feature graph to obtain a feature vector with richer semantic information; second, the Anchor is improved based on the dataset, and the number and size of the Anchor boxes are reset; finally, the loss function of the improved Faster R-CNN is optimized to improve the feature extraction ability of the target. An analysis of the experimental results on the test dataset demonstrates that the average accuracy of the improved detection algorithm was 83.98%, which is 3.95% higher than that of the original Faster RCNN.
  • 大视场多目标监视是目前红外搜索跟踪领域研究的热点,该领域正朝着高分辨率、超大视场成像的方向发展[1-3]。对应大视场下多目标的监视与跟踪任务,视场的增大,红外图像的背景成分变得极其复杂,又加上来自地面建筑物、地杂波等的干扰,极其容易在图像区域产生伪目标,造成红外全景搜索跟踪系统的虚警[4-7]。在实施全景搜索跟踪的任务过程中,视场中难免出现虚假运动目标,其中既有静止物体,也可能包含运动方向与真实目标不一致的物体。如果不能对以上虚假目标及时进行识别并剔除,将会严重影响后续搜索跟踪任务的执行。

    针对红外搜索跟踪容易遇到的上述问题,王卫华[8]等人提出了一种基于兴趣区(region of interest)提取的目标实时监测算法,根据目标运动特性与灰度特性快速提取目标可能存在的兴趣区,再针对兴趣区内的局部目标图像切片,进一步剔除虚假目标干扰;陈炳文[9]提出一种基于时空融合与粒子滤波的弱目标检测算法,首先利用像素点的帧间和邻域相关性,采用短程非参数核建模算法检测候选目标,接着使用粒子滤波跟踪候选目标,以剔除虚假目标得到真实航迹;王雪梅[10]等提出了基于背景检测的单帧检测弱小目标改进算法,结合多方向多极梯度算法,对背景预测初步检测出来的可能目标点进一步检测,从而排除虚假目标;罗举平[11]等针对红外目标检测任务,提出了变门限检测与跟踪的方法,减少了虚假量测的数量。张艳艳[12]等引入Lucas-Kanade(LK)光流法,对光流结果进行最大类间方差分割,视光流不连续区域为真实运动目标;西北工业大学[13]利用Lucas-Kanade光流法对连续帧红外图像检测疑似运动区域,再通过SVD(singular value decomposition)分解与目标背景重构检测弱小目标;Lei Wang[14]等利用先验概率降低视频中目标检测的误报率;Recchia Giuseppe[15]等将Lucas-Kanade光流法应用于无人机光电视避系统,有效降低了误警率与虚警率。然而上述方法并不专门针对全景图像,因此对于全景图像中同一运动目标帧间距离过大造成的影响,这些方法并不能有效解决。类似方法甚至会错把真实运动目标当作虚假目标加以剔除,因而并不适用于降低红外搜跟系统的虚警率。本文针对以上问题提出了一种基于Lucas-Kanade光流特征的红外全景系统虚假目标甄别与剔除的方法。

    选取前后相邻两帧红外全景图像IJ,为图像IJ分别建立金字塔表达${\{ {I^L}\} _{L = 0,...{L_m}}}$和${\{ {J^L}\} _{L = 0,...{L_m}}}$,这里Lm通常取为3,也就是金字塔层数一般为4。把原始图像作为第0层,通过高斯滤波并令宽高缩小2L倍的图像作为第L层,多层图像组合类似金字塔,如图 1所示。

    图  1  图像金字塔的建立
    Figure  1.  Image pyramid construction

    由于红外全景搜索跟踪系统的任务在于利用360°全景影像实现对周围环境态势感知的能力,因此往往将目标定为包括人、车辆、舰船以及飞机等相比环境温度较高的物体。在实际图像中该类目标一般呈现较高的灰度值,因此本文利用二值化将图像中的高亮目标都事先提取出来,在这些高亮目标区域中随机选择若干像素记为该目标对应的像素点u,接下来利用LK光流法思想依次从最高层开始计算目标像素点u对应的LK光流dL,并取LK光流dL对应层光流初始值gL的和为下一层光流的初始值,直至迭代到原始图像层(第0层),最终获取目标像素点u在原始图像层的光流值按照如下步骤计算图像光流d,接着利用光流d的模值与角度为主要特征,使用聚类算法将真实运动目标和虚假运动目标区分开来。首先计算前后帧图像间的光流:

    初始化最高层光流的初始值${g^{{L_m}}} = {\left[ {0\;\;0} \right]^{\text{T}}}$,令LLm,每迭代一次,L减1,直到L=0:

    由于图像金字塔建立过程中,图像的长宽依次缩小一倍,因此针对第L层图像,计算图像IL中像素点u对应的位置:$u{\text{ = [}}u_x^L\;\;u_y^L{\text{] = }}u{\text{/}}{{\text{2}}^L}$;

    计算图像ILx方向的梯度:

    $$ I_x^L(x,y) = \frac{{{I^L}(x + 1,y) - {I^L}(x - 1,y)}}{2} $$ (1)

    计算图像ILy方向的梯度:

    $$ I_y^L(x,y) = \frac{{{I^L}(x,y + 1) - {I^L}(x,y - 1)}}{2} $$ (2)

    计算空间矩阵:

    $$ \boldsymbol{G} = \sum\limits_{x = u_x^L - {w_x}}^{x = u_x^L + {w_x}} {\sum\limits_{y = u_y^L - {w_y}}^{y = u_y^L + {w_y}} {\left[ {\begin{array}{*{20}{c}} {I_x^{\text{L}}I_x^{\text{L}}}&{I_x^LI_y^L} \\ {I_x^LI_y^L}&{I_y^LI_y^L} \end{array}} \right]} } $$ (3)

    式中:wxwy表示u处具有相同光流邻域的大小。

    初始化迭代LK光流初始值d0=[0 0]T

    k=1,每迭代一次k加1,直到匹配差异向量$ \left| {{\eta ^k}} \right| $小于1:

    定义此时(x, y)处前后两帧图像的差异δI(x, y),则有:

    $$ \delta {I^k}(x,y) = {I^L}(x,y) - {J^L}(x + g_x^L + d_x^{k - 1},y + g_y^L + d_y^{k - 1}) $$ (4)

    计算图像差异:

    $$ {b_k} = \sum\limits_{x = u_x^L - {w_x}}^{x = u_x^L + {w_x}} {\sum\limits_{y = u_y^L - {w_y}}^{y = u_y^L + {w_y}} {\left[ {\begin{array}{*{20}{c}} {\delta {I^k}(x,y){I_x}(x,y)} \\ {\delta {I^k}(x,y){I_y}(x,y)} \end{array}} \right]} } $$ (5)

    计算匹配差异向量:

    $$ η^{k}=\boldsymbol{ G}^{−1}b_{k} $$ (6)

    计算光流:

    为下一次迭代提供初始值dkdk−1+ηk

    结束k上的迭代,得到第L层图像上的光流优化值dLdk

    为第L-1层图像提供光流初始值gL−1=2(gL+dL);

    结束L上的迭代,最终计算得到光流dg0+d0

    得到图像J中对应点坐标vu+d

    上述步骤求得前帧图像I中目标区域像素点u在前后两帧图像对应的光流d,以及该像素点在后帧图像J中的位置v。其中光流d为一个二维向量,该向量标识图像平面内由位置u指向位置v的运动位移。而同一个运动目标其运动位移应该是一致的,这就给区分真实运动目标和虚假运动目标带来了先决条件。针对图像I中经过二值化后获得的目标区域,每个区域选择m个像素点(u1, u2, …, um),本方案根据图像视场范围以及处理器运算能力综合考量选择m=5。对于每一个像素点ui,按照第2章所述方法得到对应的光流d(ui),然后利用算术平均值来求取对应目标区域Φ的光流dΦ

    $$ {d_\varPhi } = \frac{{\sum\limits_{i = 1}^m {d({u_i}} )}}{m} $$ (7)

    对于地面建筑或者地杂波等产生的虚假目标,由于全景成像系统镜头本身的运动,造成其通过上述计算也会产生光流值,但该光流值并不能反映像素点的实际运动。虚假目标光流值与真实目标光流值会有显著不同,这主要表现在光流向量的方向和大小两个方面。

    1)虚假目标由于本身静止或运动范围很小,在叠加了红外摄像机自身旋转运动后,其光流方向会有高度趋同性,而真实运动目标的光流方向应与其实际位移方向一致,从而造成虚假目标与运动目标在运动方向上的显著区别;

    2)虚假目标因为本身基本处于静止状态,表征运动位移的光流仅反映红外摄像机自身的运动,实际观察光流值大小应不大于10个像素,这也是区别于实际运动物体的显著特征。

    设$\overrightarrow d = (x,y)$,令$\left| d \right| = \sqrt {{x^2} + {y^2}} $表示光流向量的大小,令θ表示光流向量的方向,其中:

    $$ \theta = \left\{ \begin{array}{l} \arccos \frac{x}{{\sqrt {{x^2} + {y^2}} }},y \geqslant 0 \hfill \\ 2{\text{π }} - \arccos \frac{x}{{\sqrt {{x^2} + {y^2}} }},y < 0 \hfill \\ \end{array} \right. $$ (8)

    创建向量$\vec L = (\left| d \right|,\theta )$用于重新表达光流,目的在于后续根据光流区分真实运动目标与静止虚假目标。根据前述第3章中的分析,虚假静止目标的表征向量$\vec L$会具有很小的$\left| d \right|$值,且θ值会比较接近,将其标注到二维直角坐标系中虚假静止目标的向量L坐标会高度集中,而真实运动目标则会大范围随机分布,如图 2所示。

    图  2  光流向量2D分布
    Figure  2.  Optical-flow vector 2-D lay out

    最后利用聚类算法将得到的目标光流进行分类,由图 2可以发现真实运动目标与虚假运动目标的光流分布区域有较大区别,为了把二者快速区分开来,首先在离θ轴较近的光流表征向量$\vec L$中随机选择一个作为第一个初始聚类中心,然后选择距离该中心最远的一个光流表征向量$\vec L$作为第二个初始聚类中心,通过计算各光流表征向量$\vec L$与初始化聚类中心的距离,将这些光流表征向量$\vec L$重新划归至距离最近的类别,并以新类别中各光流表征向量$\vec L$的均值作为新的聚类中心,持续迭代直至光流表征向量的分配聚类情况没有更新,以实现最终把真实运动目标(类别1)与虚假静止目标(类别2)分开的目的。

    为验证本文的虚警率降低方法是否具有普遍性,项目组利用研发成功的红外全景成像设备采集不同环境下(室内、室外)的中波红外全景图像,在Windows操作系统下使用Visual C++开发环境将本文算法实现,将不同场景下前后两帧全景图作为输入,以验证算法有效性。

    观察图 3图 4可以发现,无论室外还是室内环境,复杂背景下总会引入干扰,同时搜索跟踪系统自身旋转导致其中的高亮物体都会得到表征运动的光值,因此很多由于干扰产生的伪目标极易被搜索跟踪系统误判为真实运动目标。引入本文算法后,系统对输入的前后两帧全景图像计算LK光流,随后将重点区域光流进行包括大小与方向的比对,按照聚类思想将其实施二分类,重复迭代直至真实运动物体被区分出来。根据图 3图 4中处理后图像可以发现,红外全景图像中的真实运动物体均以实线框标记出来,而由于干扰造成的虚假运动目标被虚线框标记出来,由此可见本文算法较好地将红外搜索跟踪系统所获全景场景中的虚假运动目标加以抑制,从而有效降低了该类系统的虚警率。

    图  3  虚假运动目标剔除效果(室内)
    Figure  3.  False motion target elimination(indoor)
    图  4  虚假运动目标剔除效果(室外)
    Figure  4.  False motion target elimination result (outdoor)

    红外全景监控设备是未来红外热像系统化发展的主要趋势,而大视场的引入必然加大后续图像处理设备的工作量,对于嵌入式图像处理系统由于本身运算能力有限,因此在预处理阶段自动排除虚假目标以减轻后续处理运算的压力就显得尤为必要。本文所述方法通过对实际采集的红外全景序列图像加以分析,很好地剔除了造成干扰的虚假运动目标,实验结果也验证了该方法的有效性。未来将把该方法向以GPU/FPGA+DSP为主处理器的嵌入式平台移植,同时针对特征提取阶段做更为深入的研究融入更多特征以提升虚假目标检测效果,为红外搜索跟踪系统等产品提供有效的技术支持。

  • 图  1   Faster R-CNN网络结构图

    Figure  1.   Faster R-CNN network structure diagram

    图  2   VGG-16网络参数列表图

    Figure  2.   VGG-16 network parameter list diagram

    图  3   RPN网络结构示意图

    Figure  3.   Schematic diagram of RPN network structure

    图  4   Anchor示意图

    Figure  4.   Anchor schematic diagram

    图  5   Bounding box regression示例说明

    Figure  5.   Bounding box regression example description

    图  6   不同层级卷积后特征图对比

    Figure  6.   Comparison of characteristic graphs after convolution at different levels

    图  7   改进后网络结构图

    Figure  7.   Improved network structure diagram

    图  8   特征拼接后特征图

    Figure  8.   Feature map after feature stitching

    图  9   改进后的Anchor示意图

    Figure  9.   Improved Anchor schematic diagram

    图  10   数据增强示例图

    Figure  10.   Sample diagram of data enhancement

    图  11   改进的Faster R-CNN损失函数曲线

    Figure  11.   Improved Faster R-CNN loss function curve

    图  12   红外舰船图像检测结果

    Figure  12.   Detection result of infrared ship image

    图  13   改进前后Faster R-CNN在红外舰船测试集上的R-P曲线

    Figure  13.   R-P curves of Faster R-CNN on infrared ship test set before and after improvement

    图  14   Faster R-CNN改进前后红外目标检测效果对比

    Figure  14.   Comparison of infrared target detection effect before Faster R-CNN improvement

    表  1   分类结果判别表

    Table  1   Classification result discriminant table

    Real situation Discriminant result
    Positive example Counter example
    Positive example TP(True positive example) FN(False Counter example)
    Counter example FP(False positive example) TN(True Counter example)
    下载: 导出CSV

    表  2   改进前后算法性能对比

    Table  2   Comparison of algorithm performance before and after improvement

    Model name AP/% mAP/% Time/s
    Faster R-CNN 80.03 80.03 0.3128
    Improved Faster R-CNN 83.98 83.98 0.3384
    下载: 导出CSV
  • [1] 施泽浩, 赵启军. 基于全卷积网络的目标检测算法[J]. 计算机技术与发展, 2018(5): 55-58. DOI: 10.3969/j.issn.1673-629X.2018.05.013

    SHI Zehao, ZHAO Qijun. Target detection algorithm based on full convolution network[J]. Computer Technology and Development, 2018(5): 55-58. DOI: 10.3969/j.issn.1673-629X.2018.05.013

    [2]

    Uijlings J R R, Sande K E A V D, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI: 10.1007/s11263-013-0620-5

    [3]

    Girshick R. Fast R-CNN[C]//Proceedings of ICCV, 2015, 2015: 1440-1448.

    [4]

    Kaiming H, Georgia G, Piotr D, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 18(11): 1-1.

    [5]

    Ren S, He K, Girshick R, et al. Faster r-cnn: towards real-time object detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

    [6]

    Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of CVPR, 2015: 779-788.

    [7]

    Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017, 12(7): 6517-6525.

    [8]

    LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer Vision-ECCV 2016, Cham: Springer, 2016, 9905: 21-37.

    [9]

    FU C Y, LIU W, Ranga A, et al. DSSD: deconvolutional single shot detector[C]//2017 IEEE International Conference on Computer Vision, 2017: 2999-3007.

    [10]

    Redmon J, Farhadi A. YOLO v3: An incremental improvement [C]//IEEE Conference on Computer Vision and Pattern Recognition, 2018, 24(9): 2458-2476.

    [11] 李慕锴, 张涛, 崔文楠. 基于YOLOv3的红外行人小目标检测技术研究[J]. 红外技术, 2020, 42(2): 176-181. http://hwjs.nvir.cn/article/id/hwjs202002012

    LI Muyi, ZHANG Tao, CUI Wennan. Research on infrared pedestrian small target detection technology based on YOLO v3[J]. Infrared Technology, 2020, 42(2): 176-181. http://hwjs.nvir.cn/article/id/hwjs202002012

    [12] 崔少华, 李素文, 黄金乐, 等. 改进的CNN用于单帧红外图像行人检测的方法[J]. 红外技术, 2020, 42(3): 238-244. http://hwjs.nvir.cn/article/id/hwjs202003006

    CUI Shaohua, LI Suwen, HUANG Jinle, et al. Improved CNN square method for human detection of single-frame infrared image[J]. Infrared Technology, 2020, 42(3): 238-244. http://hwjs.nvir.cn/article/id/hwjs202003006

    [13] 向涛. 一种基于显著区域提取的红外图像舰船目标检测方法[J]. 电讯技术, 2020, 60(7): 50-56.

    XIANG Tao. A ship target detection method based on salient region extraction in infrared image[J]. Telecommunication Technology, 2020, 60(7): 50-56.

    [14] 邢莎, 吉林, 雍杨, 等. 基于梯度统计特性的自动红外舰船目标检测[J]. 数字技术与应用, 2013(10): 66-68, 70. https://www.cnki.com.cn/Article/CJFDTOTAL-SZJT201310047.htm

    XING Sha, JI Lin, YONG Yang, et al. Automatic infrared ship target detection based on gradient statistics[J]. Digital Technology and Applications, 2013(10): 66-68, 70. https://www.cnki.com.cn/Article/CJFDTOTAL-SZJT201310047.htm

    [15] 宫剑, 吕俊伟, 刘亮, 等. 红外偏振图像的舰船目标检测[J]. 光谱学与光谱分析, 2020, 40(2): 586-594. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN202002052.htm

    GONG Jian, LV Junwei, LIU Liang, et al. Ship target detection based on infrared polarization image[J]. Spectroscopy and Spectral Analysis, 2020, 40(2): 586-594. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN202002052.htm

    [16] 吴天舒, 张志佳, 刘云鹏. 基于改进SSD的轻量化小目标检测算法[J]. 红外与激光工程, 2018(7): 37-43. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201807007.htm

    WU Tianshu, ZHANG Zhijia, LIU Yunpeng. Lightweight small beacon detection algorithm based on improved SSD[J]. Infrared and Laser Engineering, 2018(7): 37-43. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201807007.htm

    [17]

    WANG Zijie J, Robert Turko, Omar Shaikh, et al. CNN explainer: learning convolutional neural networks with interactive visualization[J]. Journal of Sensors, 2019(6): 1-13. http://ieeexplore.ieee.org/document/8941872/

    [18]

    Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]// Proceedings of the European Conference on Computer Vision, Berlin, Heidelberg: Springer, 2014, 8689: 818-833.

  • 期刊类型引用(1)

    1. 花文波,赵城慷,高大友,花文涛. 一种温度补偿调焦红外系统丢包检测方法. 红外技术. 2024(09): 1081-1086 . 本站查看

    其他类型引用(0)

图(14)  /  表(2)
计量
  • 文章访问数:  728
  • HTML全文浏览量:  266
  • PDF下载量:  150
  • 被引次数: 1
出版历程
  • 收稿日期:  2020-06-10
  • 修回日期:  2020-07-05
  • 刊出日期:  2021-02-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日