ReNet:基于无锚框的地面旋转目标检测方法

徐叶斌, 王云鹏, 刘少龙, 刘力, 李瑞

徐叶斌, 王云鹏, 刘少龙, 刘力, 李瑞. ReNet:基于无锚框的地面旋转目标检测方法[J]. 红外技术, 2025, 47(2): 211-216.
引用本文: 徐叶斌, 王云鹏, 刘少龙, 刘力, 李瑞. ReNet:基于无锚框的地面旋转目标检测方法[J]. 红外技术, 2025, 47(2): 211-216.
XU Yebin, WANG Yunpeng, LIU Shaolong, LIU Li, LI Rui. ReNet: Ground Rotating Target Detection Method Based on Anchor-Free Frame[J]. Infrared Technology , 2025, 47(2): 211-216.
Citation: XU Yebin, WANG Yunpeng, LIU Shaolong, LIU Li, LI Rui. ReNet: Ground Rotating Target Detection Method Based on Anchor-Free Frame[J]. Infrared Technology , 2025, 47(2): 211-216.

ReNet:基于无锚框的地面旋转目标检测方法

基金项目: 

航空科学基金 2022Z071031001

详细信息
    作者简介:

    徐叶斌(1997-),男,陕西商洛人,硕士,工程师,主要研究方向为航电系统与设备,E-mail: yebinxu@126.com

    通讯作者:

    王云鹏(1994-),男,陕西西安人,硕士,工程师,主要研究方向为航电系统与设备,E-mail: wangyp673@avic.com

  • 中图分类号: TP371

ReNet: Ground Rotating Target Detection Method Based on Anchor-Free Frame

  • 摘要:

    地面红外目标检测是高空侦察、智能感知和对地打击等领域的重要研究内容,针对所获取的地面红外目标常以不规则角度的形式出现,导致检测准确率低,容易发生误检、漏检等问题。以Anchor-Free目标检测模型为基础,构建了基于空洞卷积为特征提取方式的主干网络,增强了模型对地面旋转目标的感知范围与特征提取能力;在基于空洞卷积进行特征提取后,通过External attention(EA注意力机制)增加对所提取特征注意维度的关注,实现了对目标更高分辨率特征的提取,最终提出了基于无锚框(Anchor-Free)的地面旋转目标检测方法。构建的地面旋转目标检测模型在HIT-UAV数据集上达到了90.6%的检测精度,优化了基于Anchor-Free的目标检测模型针对地面旋转目标的检测性能。

    Abstract:

    Ground infrared target detection is crucial in the fields of high-altitude reconnaissance, intelligent perception, and ground strike, where the acquired ground infrared targets often appear in the form of irregular angles, resulting in low detection accuracy, ease of misdetection, and other problems. Therefore, this paper proposes an anchor-free-based ground rotating target detection method. Based on the anchor-free target detection model, a backbone network based on atrous convolution is constructed, which enhances the perception range and feature extraction ability of the model for ground rotating targets. After feature extraction based on void convolution, the attention dimension of the extracted feature is increased through external attention, and the extraction of higher-resolution features of the target is realized. The ground rotating target detection model achieved 90.6% detection accuracy on the HIT-UAV dataset, which optimized the detection performance of the anchor-free target detection model for ground rotating targets.

  • 目标检测是计算机视觉领域中一项极具挑战性且热门的工作,深度学习和人工智能的出现,为目标检测提供了更加强大的计算和更加丰富研究方法。当前,基于深度学习的目标检测算法主要还是基于锚框训练为主,主流的目标检测算法有:Faster R-CNN[1]、YOLO[2]、Mask R-CNN[3]、RetinaNet[4]等。

    虽然基于锚框的目标检测模型在红外目标检测领域取得了较好的检测性能,在伪装防护[5]、目标检测[6]以及高光谱图像分类[7]等领域取得了广泛应用。但是仍存在一些不足,如[1-4]的检测模型严重依赖于边界框的大小、尺寸比例及数量。因此,基于锚框的检测模型在训练中往往需要精心调整锚框的超参数从而获得较好的检测性能。同时,在高空视角下地面目标以任意角度的形式呈现,与常规目标相比成旋转的方式出现在图像中。此外,在检测中,仍使用常规矩形框表征被检测图像的大小和位置,不能很好地拟合物体,增加了目标检测的难度,导致误检和漏检等问题。为此,CornerNet[8]提出了一种无锚框的目标检测模型。它通过检测一个边界框的对角,以分组的形式生成最终的检测框,实现对目标的感知。但是基于一对关键点进行检测,无法感知整个目标。Unitbox[9]则基于DenseBox的密集预测原理进行目标检测,由于难以处理重叠的边界框和低召回率的问题,该检测器被认为只适用于检测特定形状的物体。

    FCOS[10]则借鉴了实例分割[11-12]的思想,通过判断像素点是否在标注框中,从而判定该点所属类别。FCOS的工作原理为:在主干网络提取得到多尺度特征图的基础上,继续进行两次下采样,对特征图进行更高维的特征提取。同时,通过目标中心点和边界框的距离回归,抑制低质量预测边界框,实现了保证模型精度的同时,减少了与锚框相关的计算,将有限的计算资源聚焦到目标特征提取上。

    随着目标检测在各领域研究的不断深入,研究方向从寻找到目标转变为在图像中寻找到目标的精确位置,因此针对多角度目标的检测成为了一项重要任务。吴洛冰[13]等人通过多尺度空洞卷积扩展模型的感受野等方法,提出了基于多尺度特征提取进行遥感旋转目标检测。张聪[14]等通过使用通道与空间注意力模块、制定双向融合等策略进行了遥感图像下的旋转目标检测。孙先涛[15]等通过Faster-RCNN进行了可见光领域中的旋转目标的检测,并结合机械臂实现了工具的抓取位姿估计。在针对地面红外目标检测的研究中,发现基于空中获取的红外图像,因红外相机及其搭载平台在空中运动及滞留方式等原因,获得图像中的目标通常以随机的角度呈现,影响了地面红外目标检测的精度和准确率。

    为了解决在地面红外旋转目标的检测过程中关于锚框计算开销大、旋转目标检测效果差的问题,本文构建了基于空洞卷积为特征提取方式的主干网络,提升模型对地面旋转目标的感知范围与特征提取能力;同时,通过EA注意力机制对基于空洞卷积进行提取后的特征增加维度的关注,从而更好利用被提取特征的高维信息,实现了对目标更高维度信息的关注。最终构建了基于无锚框的地面旋转目标检测模型(ReNet,ground rotating target detection method based on anchor-free frame),并通过与其他模型的对比实验,对构建的ReNet目标检测模型进行了验证与分析。

    FCOS目标检测模型具有主干网络、特征融合网络和目标检测3部分组成。为了得到更加精细的特征信息,FCOS选择在以特征融合层的P5尺度特征为基础,再进行两次下采样,进而得到P6、P7两个尺度的特征,增加了尺度的多样性。在目标检测网络中,为了使回归更加精准,增加了一个与分类分支并行的中心度检测分支,在不增加计算量的前提下提升模型的检测精度。其次,FCOS直接将输入图像中的像素点位置作为训练样本。即就是将一个像素点的位置(x, y)看成是一个样本,如果这个点落入了标注框之中,则将这个标注框的类别标签赋予这个点。若这个点在标注框之外,则为背景,那么将其类别标签视为0。除了用于分类的标签外,还设置了一个四维的向量T=(l, t, r, b)作为该位置的回归目标。这里ltrb分别是中心点距边界框四边的位置。如果一个点落入了多个标注框中,则选择最小的框作为回归目标。

    在进行检测的过程中,首先计算ltrb所属的特征水平,再计算每个目标中心点距离回归框的远近,若一个目标满足max(l, t, r, b)>mi,或者max(l, t, r, b)<mi-1,那么其他特征尺度上将不再进行这个目标的边界框的回归。这里mi代表需要回归的最大特征尺度。如果这个位置既落在一个较大特征尺度,也落在另一个较小的特征尺度上,则按照较小的特征区域进行边界框回归。

    此外,在进行训练时,FCOS将焦点损失函数用于目标的分类,将CIOU损失函数用于边界框的回归,从而进行模型梯度的回传和参数更新。总的损失函数定义方式为:

    $$ \begin{aligned} L\left(\left\{p_{x, y}\right\}, \left\{t_{x, y}\right\}\right)= & \frac{1}{N_{\text {pos }}} \sum\limits_{x, y} L_{\mathrm{cls}}\left(p_{x, y}, c_{x, y}^*\right) \\ & +\frac{1}{N_{\text {pos }}} \sum\limits_{x, y} \eta_{\left\{c_{x, y}^*>0\right\}} L_{\mathrm{reg}}\left(t_{x, y}, t_{x, y}^*\right) \end{aligned} $$ (1)

    式中:Lcls是焦点损失函数;Lreg是CIOU损失函数;Npos是正样本的数量;$ {\eta _{\{ c_{x, y}^* > 0\} }} $是具有指示功能的函数,当ci*>0时,其值为1,否则值为0。

    FCOS目标检测模型通过像素级的精确检测确定目标位置,但其主干网络是以固定尺寸的矩形卷积核对图像进行遍历完成特征的提取,再使用步长变换实现图像分辨率的变化。在特征提取的过程中,模型以固定尺度的感受域提取目标相关特征,影响了模型的泛化能力。同时,高维的卷积层在进行特征提取时,需要在不同的位置对应不同的尺寸,以便得到具有精细定位的感知信息。

    为了优化这一问题,将卷积核进行特定比率的扩张,使固定的矩形卷积出现一定的空洞率,形成空洞卷积[16]。再以具有空洞率的卷积核对目标特征进行提取,实现了在减少特征重复提取的同时扩大感受域的目的,提升了主干网络的特征提取能力。图 1是空洞卷积的特征提取过程。

    图  1  基于空洞卷积的特征提取
    Figure  1.  Feature extraction based on atrous convolution

    基于Anchor-Free的检测模型在对目标进行特征提取时,因没有锚框的辅助,会受到图像背景与目标相似信息的干扰。为了改善检测模型的抗干扰性能,在模型的检测端添加注意力机制成为了主要研究方向。压缩和激励注意力机制(squeeze-and-excitation attention module,SE)[17],主要在通道维度上实现对目标的注意力聚焦,已经得到了较多的应用[18-19],但SE注意力机制缺少对空间信息的关注。自注意力机制(self-attention module,SA注意力机制)则是通过计算同一个样本所位置间的相关性,来捕获特征间的相关性。但是神经网络中的目标信息是以三维张量的形式进行流动的,这种注意力的关注方式对于基于锚框的视觉任务是有较好效果的,但容易忽略样本间的潜在联系。针对基于图像分割的无锚框目标检测来说,更需要关注分布在不同样本中的同类物体间相似的表征。

    为了优化基于无锚框目标检测模型对特征的关注能力,充分利用特征的维度信息,本文通过external attention(EA)注意力机制[20]对主干网络提取的特征进行了多尺度的聚焦,从而避免仅从通道聚焦,对目标特征关注不够的现象。EA注意力机制定义方式为:

    $$ \boldsymbol{A}=(\alpha)_{i, j}=\operatorname{Norm}\left(\boldsymbol{F} \boldsymbol{M}^{\mathrm{T}}\right) $$ (2)

    式(2)中:F是输入特征,形式为FN×dM是一个可以共享的矩阵,形式为MS×d,其中S的值是可以设定的,通过设定S的值可以增强EA注意力机制的灵活性,M通过随机初始化进行定义,在训练的过程之中通过前向传播迭代更新,与SA注意力机制相比,EA注意力机制使用一个外部矩阵M来建模第i个像素和第j行之间的相似性,且因M的共享特性,它是可学习、大小可变的,并随着训练的进行增加不同样本间的联系,优化了SA较多关注自身特征的不足。图 2是EA注意力机制的特征关注过程。

    图  2  EA注意力机制
    Figure  2.  External attention mechanism

    通过空洞卷积和EA注意力机制改进后的ReNet目标检测模型如图 4所示。在改进后的目标检测模型中,使用空洞卷积更新主干网络中的常规卷积,对输入的图片进行下采样和特征提取操作,实现降低特征图大小、提取不同层次特征的目的。在特征融合网络输出后的Head层结合EA注意力机制对提取的特征进行聚焦与关注,最后将经过注意力聚焦的特征信息作为预测网络的输入,完成对目标的检测。图 3是ReNet目标检测模型架构。

    图  3  ReNet目标检测模型
    Figure  3.  ReNet target detection model

    无人机高海拔红外热成像目标检测数据集(HIT-UAV: A high-altitude infrared thermal dataset for Unmanned Aerial Vehicle-based object detection,HIT-UAV)[21]是一个基于无人机(UAV)采集的高空红外热数据集。该数据集包含2898幅红外热图像,这些图像是从无人飞行器在学校、停车场、道路和操场等各种场景中拍摄的数百个视频,共43470个帧中提取的。HIT-UAV数据集是首个公开可用的基于无人机的高空人员和车辆红外热成像数据集,本文使用HIT-UAV数据集对各目标检测模型进行训练和测试,并进行对比实验和消融实验。为了能够评价本文所设计模型的性能,本文从模型权重(model weights)、每秒检测帧数(frames per second, FPS)和平均精度均值(mean average precision, mAP)等指标出发,对提出的ReNet和几种主流目标检测模型进行了对比实验。

    基于HIT-UAV数据集对ReNet模型进行训练时,权重衰减系数设置为0.0001,动量系数设置为0.9,初始学习率为0.01,并在第10000次迭代和第16000次迭代处,分别缩小10倍,Batch size设为48,共迭代18000次完成对模型的训练。实验平台使用系统为Centos7.0,CPU为Inter Xeon Scalable Platinum8222CL @3.50 GHz,GPU为三块专业高性能计算显卡Quadro GV100(32 GB)。在pytorch1.7.1框架下,采用CUDA11.0和cudnn 8.0.4.30进行加速训练。

    表 1是基于HIT-UAV数据集的不同目标检测算法实验结果,可以看出ReNet目标检测模型针对红外目标检测的mAP达到了90.6%,比基于锚框的目标检测算法YOLOv5-L高出13.8%,比基于关键点的目标检测模型CenterNet[22]高出16.7%,比FCOS高出5.4%,在检测精度方面达到了比较优异的效果。同时检测速度达到37 FPS,能够满足实时检测的需求。上述对比实验证明改进后的ReNet针对地面红外目标具有较好的检测效果。

    表  1  基于HIT-UAV数据集的不同目标检测方法实验结果
    Table  1.  Experimental results of different target detection methods based on the HIT-UAV dataset
    Model Model weights/MB FPS/(frame·s−1) mAP@0.5/(%)
    YOLO v5-L 121.8 47 76.8
    CenterNet[22] 129.1 42 73.9
    FCOS 244.7 43 85.2
    ReNet 246.3 37 90.6
    下载: 导出CSV 
    | 显示表格

    为了更好地了解ReNet模型中各个改进模块对检测效果的影响,本节将研究各个模块对模型的具体贡献。表 2是基于HIT-UAV数据集以FCOS为基准模型逐步增加EA注意力机制、空洞卷积进行的消融实验。

    表  2  基于HIT-UAV数据集的消融实验
    Table  2.  Ablation experiment based on HIT-UAV dataset
    FCOS External attention Atrous convolution mAP@0.5/%
    85.2
    86.9
    87.4
    90.6
    下载: 导出CSV 
    | 显示表格

    表 2可以看到,结合EA注意力机制的基准模型mAP值比FCOS提升了1.7%;结合空洞卷积后,通过增大模型的感受野,mAP值较FCOS提升了2.2%。表明EA注意力机制和空洞卷积均有利于目标检测模型的性能提升。最后构造的ReNet目标检测模型mAP值达90.6%,比基准模型FCOS高出5.4%,表明注意力机制和网络结构的共同优化可以有效提升目标检测模型的检测精度。

    图 4是ReNet和FCOS基于HIT-UAV测试集对目标检测的测试结果。在第1行图像中存在多目标的检测结果对比中,改进前任意角度的地面车辆目标仅检测出来一个目标,而ReNet能够检测到全部目标,同时,其检测框能够与目标贴合,实现精确定位。对于第2行检测结果对比中,对背景干扰较严重场景下的目标进行检测时,ReNet依旧表现出了较好的检测效果,但基准模型则出现了漏检的情况。通过检测结果的对比表明,改进后的ReNet目标检测模型能够有效提升红外目标的检测精度、提升目标检测模型的性能。

    图  4  HIT-UAV测试集上对目标的检测结果对比
    Figure  4.  Comparison of target detection results on the HIT-UAV test dataset

    本文提出了一种用于地面旋转目标的检测模型ReNet,在HIT-UAV数据集上与其他目标检测模型进行了对比试验,mAP达到了90.6%,相比于YOLOv5-L、CenterNet和FCOS分别提高了13.8%、16.7%和5.4%,并满足实时检测的需求。通过对比实验和消融实验表明ReNet目标检测模型在具有较高实时检测精度的同时对地面旋转目标实现了较好的检测性能,对地面背景的红外目标进行智能感知、侦察打击等研究具有借鉴意义。

  • 图  1   基于空洞卷积的特征提取

    Figure  1.   Feature extraction based on atrous convolution

    图  2   EA注意力机制

    Figure  2.   External attention mechanism

    图  3   ReNet目标检测模型

    Figure  3.   ReNet target detection model

    图  4   HIT-UAV测试集上对目标的检测结果对比

    Figure  4.   Comparison of target detection results on the HIT-UAV test dataset

    表  1   基于HIT-UAV数据集的不同目标检测方法实验结果

    Table  1   Experimental results of different target detection methods based on the HIT-UAV dataset

    Model Model weights/MB FPS/(frame·s−1) mAP@0.5/(%)
    YOLO v5-L 121.8 47 76.8
    CenterNet[22] 129.1 42 73.9
    FCOS 244.7 43 85.2
    ReNet 246.3 37 90.6
    下载: 导出CSV

    表  2   基于HIT-UAV数据集的消融实验

    Table  2   Ablation experiment based on HIT-UAV dataset

    FCOS External attention Atrous convolution mAP@0.5/%
    85.2
    86.9
    87.4
    90.6
    下载: 导出CSV
  • [1]

    REN S, HE K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, 2015: 91-99.

    [2]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

    [3]

    HE K, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

    [4]

    LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.

    [5] 赵晓枫, 吴飞, 徐叶斌, 等. 基于改进梯度相似度的红外隐身伪装评价方法[J]. 电光与控制, 2022, 29(2): 7-11.

    ZHAO Xiaofeng, WU Fei, XU Yebin, et al. Infrared stealth camouflage evaluation method based on improved gradient similarity[J]. Electronics Optics & Control, 2022, 29(2): 7-11.

    [6] 赵晓枫, 徐叶斌, 吴飞, 等. 基于并行注意力机制的地面红外目标检测方法(特邀)[J]. 红外与激光工程, 2022, 51(4): 100-107.

    ZHAO Xiaofeng, XU Yebin, WU Fei, et al. Ground infrared target detection method based on a parallel attention mechanism[J]. Infrared and Laser Engineering: 2022, 51(4): 100-107.

    [7] 赵晓枫, 牛家辉, 刘春桐, 等. 基于三维注意力与混合卷积的高光谱图像分类[J]. 系统工程与电子技术, 2023, 45(9): 2673-2680.

    ZHAO Xiaofeng, NIU Jiahui, LIU Chuntong, et al. Hyperspectral image classification based on hybrid convolution with three-dimensional attention mechanism[J]. System Engineering and Electronics, 2023, 45(9): 2673-2680.

    [8]

    Law H, DENG J. Cornernet: Detecting objects as paired keypoints[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 734-750.

    [9]

    YU J, JIANG Y, WANGZ, et al. Unitbox: An advanced object detection network[C]//Proceedings of the 24th ACM International Conference on Multimedia, 2016: 516-520.

    [10]

    TIAN Z, SHEN C, CHEN H, et al. Fcos: fully convolutional one-stage object detection[C]// Proceedings of the IEEE international Conference on Computer Vision, 2019: 9627-9636.

    [11]

    YU C, WANG J, PENG C, et al. Bisenet: Bilateral segmentation network for real-time semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 325-341.

    [12]

    YU C, WANG J, PENG C, et al. Learning a discriminative feature network for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 1857-1866.

    [13] 吴洛冰, 谷玉海, 吴文昊, 等. 基于多尺度特征提取的遥感旋转目标检测[J]. 激光与光电子学进展, 2023, 60(12): 453-461.

    WU L B, GU Y H, WU W H, et al. Remote sensing rotating object detection based on multi-scale feature extraction[J]. Laser & Optoelectronics Progress, 2023, 60(12): 453-461.

    [14] 张聪. 基于卷积神经网络的旋转目标检测方法研究[D]. 成都: 电子科技大学, 2023.

    ZHANG C. Research on Rotated Object Detection Method Based on Convolutional Neural Network[D]. Chengdu: University of Electronic Science and Technology Of China, 2023.

    [15] 孙先涛, 闻勇, 陈文杰, 等. 基于语义分割与旋转目标检测的机器人抓取位姿估计[J/OL]. 控制与决策, 2024, 39(9): DOI: 10.13195/j.kzyjc.2023.0804.

    SUN X T, WEN Y, CHEN W J, et al. Robot grasping pose estimation based on semantic segmentation and rotating target detection[J/OL]. Control and Decision, 2024, 39(9): DOI: 10.13195/j.kzyjc.2023.0804

    [16]

    CHEN L C, Papandreou G, Kokkinos I, et al. Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.

    [17]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141..

    [18] 刘俊明, 孟卫华. 融合全卷积神经网络和视觉显著性的红外小目标检测[J]. 光子学报, 2020, 49(7): 46-56.

    LIU Junming, MENG Weihua. Infrared small target detection based on fully convolutional neural network and visual saliency[J]. Acta Photonica Sinica, 2020, 49(7): 46-56.

    [19]

    DONG L, MA D, QIN G, et al. Infrared target detection in backlighting maritime environment based on visual attention model[J]. Infrared Physics & Technology, 2019, 99: 193-200.

    [20]

    SUO J, WANG T, ZHANG X, et al. HIT-UAV: a high-altitude infrared thermal dataset for unmanned aerial vehicle-based object detection[J/OL]. Sci Data 10, 2023, 227: https://doi.org/10.1038/s41597-023-02066-6.

    [21]

    GUO M H, LIU Z N, MU T J, et al. Beyond self-attention: external attention using two linear layers for visual tasks[J]. IEEE Trans. Pattern Anal Mach Intell., 2023, 45(5): 5436-5447.

    [22]

    DUAN K, BAI S, XIE L, et al. Centernet: keypoint triplets for object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2019: 6569-6578.

图(4)  /  表(2)
计量
  • 文章访问数:  28
  • HTML全文浏览量:  0
  • PDF下载量:  10
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-10-05
  • 修回日期:  2023-11-11
  • 刊出日期:  2025-02-19

目录

/

返回文章
返回