基于YOLOv5的倾斜视角下轻型红外小目标检测算法

张飞, 王剑, 张岳松

张飞, 王剑, 张岳松. 基于YOLOv5的倾斜视角下轻型红外小目标检测算法[J]. 红外技术, 2025, 47(2): 217-225.
引用本文: 张飞, 王剑, 张岳松. 基于YOLOv5的倾斜视角下轻型红外小目标检测算法[J]. 红外技术, 2025, 47(2): 217-225.
ZHANG Fei, WANG Jian, ZHANG Yuesong. Lightweight Infrared Small Target Detection Algorithm under Oblique View Based on YOLOv5[J]. Infrared Technology , 2025, 47(2): 217-225.
Citation: ZHANG Fei, WANG Jian, ZHANG Yuesong. Lightweight Infrared Small Target Detection Algorithm under Oblique View Based on YOLOv5[J]. Infrared Technology , 2025, 47(2): 217-225.

基于YOLOv5的倾斜视角下轻型红外小目标检测算法

基金项目: 

国防科技特区创新项目 2016300TS00600113

详细信息
    作者简介:

    张飞(1998-),男,云南昭通人,硕士研究生,研究方向:图像处理,目标检测。E-mail: 2645897161@qq.com

    通讯作者:

    王剑(1976-),男,云南昆明人,副教授,硕士生导师,研究方向:图像处理,自然语言处理。E-mail: 1528906057@qq.com

  • 中图分类号: TP391

Lightweight Infrared Small Target Detection Algorithm under Oblique View Based on YOLOv5

  • 摘要:

    针对倾斜视角下的红外行人小目标难以快速准确检测的问题,提出了一种红外行人小目标轻量化实时检测网络模型DRA-YOLO。首先,使用K-means++锚框聚类自适应不同大小尺度目标,从而加快网络收敛并提高检测精度。其次,融入不同注意力机制来重新设计特征提取网络,提高特征定位与计算效率,并搭配改进特征金字塔结构提取关键特征和提升模型稳定性。最后,颈部去掉下采样重新搭配SimAM形成新的特征融合结构,并重新设计检测头来适应本文数据集。对比实验显示,相对原始YOLOv5s模型,在自制和公共数据集上表现突出。mAP50达到94.5%,检测速度提高20.8%,模型大小压缩至10.1 MB,降低了30.3%,且GFLOPs下降了29.1%。这些改进实现了对目标的准确快速检测,有效地平衡了模型大小、检测精度和推理速度。

    Abstract:

    To address the challenge of fast and accurate detection of small infrared pedestrian targets at inclined viewing angles, a lightweight real-time detection network model for small infrared pedestrian targets (DRA-YOLO) was proposed. First, K-means++ anchor box clustering was utilized to adapt to targets of different size scales, thereby accelerating network convergence and improving detection accuracy. Second, different attention mechanisms were integrated into the redesigned feature extraction network to enhance feature location and computational efficiency. This was coupled with an improved feature pyramid structure to extract key features and enhance model stability. Finally, the neck was redesigned by eliminating down-sampling and reorganizing it with SimAM to form a new feature fusion structure. Moreover, the detection head was redesigned to suit the dataset used in this study. Comparative experiments showed that, relative to the original YOLOv5s model, the proposed method performed excellently on both self-made and public datasets. The mAP50 reached 94.5%, detection speed improved by 20.8%, model size was compressed to 10.1 MB (30.3% reduction), and GFLOPs decreased by 29.1%. These improvements facilitated the accurate and rapid detection of targets, effectively balancing model size, detection accuracy, and inference speed.

  • 随着科技进步和安防意识提高,无人机[1]人员搜寻、家用监控和工业摄像头等应用日益广泛。倾斜视角(摄像机或观察者与观察对象角度)介于俯视(90°)和平视(0°)之间,这导致了倾斜视角下行人小目标尺度的不均匀变化,从而增加了红外目标检测的难度。传统可见光摄像受天气、昼夜、电磁干扰等条件影响,成像范围有限,热成像技术具有显著优势。然而,具有大模型权重和高漏检率的检测模型可能会面临效率和效果的质疑。更进一步,当应用技术复杂的红外夜视设备[2]或低功耗设备时,这些模型可能会受到设备内存限制的挑战。

    随着卷积神经网络算法发展,目标检测精度和实时性得到提升,超过之前的传统目标检测算法[3]。深度学习领域主流检测算法包括两阶段算法(如R-CNN[4]、Fast-RCNN[5]、Faster-RCNN[6])和单阶段算法(如SSD[7]、YOLO系列[8-9])。两阶段算法先对图像分候选框再分类,精度高但实时性差;单阶段算法同时生成位置与类别信息,检测速度快,但精度相对较低。

    然而,单阶段算法YOLO系列因其在检测精度、速度和模型大小方面能做到很好的平衡,近年来多次与热成像技术相结合去解决红外成像的目标检测难题,如Sun[10]等提出的Ⅰ-YOLO进行道路红外目标检测,采用EfficientNet来取代传统结构并增强特征提取并引入了扩张残余降低红外图像的噪声,虽检测速度达标但该方法增加了网络模型的参数量。Song X.[11]等提出了融合多光谱特征的融合网络,充分融合了可见光和红外通道中提取的特征对行人进行检测,但其推理速度最高只有56帧/s,实时画面会存在延迟和卡顿问题。张印辉[12]等提出了一种融合行人目标精细尺度嵌入的多检测层、轻量化实时检测模型,但其应用场景和数据集仅针对车载设备和辅助驾驶领域,并未进行安防设备的摄像角度和实时性的检测。

    针对倾斜视角下红外行人小目标难以快速准确检测的问题,本文对YOLOv5网络模型进行了改进。首先,对主干网络引入注意力机制、更改C3模块和特征金字塔结构。其次,对颈部网络引入了注意力机制并替换了下采样操作。最后,对检测头进行了删减并对预测框尺寸进行了锚框聚类。经过这一系列的改进,将改进模型命名为DRA-YOLO。此模型不仅提高了对倾斜视角下红外行人小目标的检测速度和平均检测精度,且大大降低了网络的参数量,实现了倾斜视角下的红外行人小目标准确且快速地检测。

    为了在倾斜视角下的红外行人小目标检测中,实现精度、速度和模型大小的平衡,需寻找合适轻量级网络模型,关注模型大小,以协调检测精度和速度。YOLOv5凭借较快检测速度、高检测精度和小模型权重,在COCO 2017[13]数据集上表现出色,被广泛应用于目标检测任务。

    YOLOv5分为s、m、l和x四种网络结构。s是最小深度和宽度的网络,具有快速检测和小模型的特点,故本文采用YOLOv5s进行更改。YOLOv5s版本由1.0~7.0的每次迭代均有性能优化,本文选用YOLOv5s-6.2版本(以下简称YOLOv5),因为其综合性能更符合本研究的需求。

    YOLOv5的网络模型由5部分组成:输入端、骨干网络、颈部网络、预测头和输出端。输入端由数据预处理和数据增强组成,数据预处理将输入图像转换为模型所需格式,数据增强则扩充数据集,提高模型的鲁棒性。骨干网络主要提取输入图像的特征,由C3模块和SPPF模块组成。颈部网络对骨干网络提取的特征进行通道和空间信息融合,由特征金字塔网络FPN[14]和路径聚合网络PAN[15]组成。预测头生成预测框并进行分类和定位,包括3个不同尺度的特征层,每个特征层预测一定数量的边界框,边界框包含类别概率和位置信息。输出端对预测结果进行后处理,包括NMS(non-maximum suppression)和边界框解码,最终输出检测结果。NMS去除重复检测框,边界框解码将相对位置转换为绝对位置。图 1为YOLOv5网络模型结构图。

    图  1  YOLOv5s-6.2网络模型结构
    Figure  1.  Structure of the YOLOv5s-6.2 network model

    本文提出的DRA-YOLO模型的主要改进策略如下所述:

    YOLOv5的C3模块由3个卷积层和一个Bottleneck组成,主要负责特征提取与融合。然而,Bottleneck结构,如图 2所示,通过降维和再扩展的策略减少模型参数,但可能导致特征信息丢失,尤其在多尺度特征融合时无法充分表达所有层次的特征信息。同时,尽管参数减少,但扩展阶段仍需大量计算开销,影响模型推理速度。

    图  2  Bottleneck结构图(左)和DMP-C3结构图(右)
    Figure  2.  Structure of bottleneck (left) and DMP-C3 (right)

    针对以上C3存在的不足,本文提出了深度部分卷积模块DMP(deep partial convolution)。DMP利用了深度可分离卷积、部分卷积、MLP(multilayer perceptron)操作和正则化技术。鉴于仅仅降低模型参数量并不一定能提高运行速度,本文引入部分卷积结构[16]。该结构只在特征图的部分通道上执行卷积操作,而对其他通道保持不变。它通过降低内存访问次数和减少计算冗余,有效提升了模型的运行速度。在DMP模型中,首先通过判断输入和输出通道的匹配程度,确定是否需要进行残差连接或通道调整。然后,引入深度可分离卷积结构,通过深度卷积和逐点卷积实现空间混合,提升特征提取能力并减少模型复杂度。接着,采用部分卷积来仅处理卷积操作的一部分,对剩余部分保持不变,减少计算冗余、提高模型推理速度。在此基础上,通过MLP多层感知机进行特征转换,进一步提取和融合特征,以提升模型在红外场景下的检测性能。为了增强模型的泛化性能,本文在MLP之后引入了DropPath正则化,这种策略能有效防止过拟合。最后,采用残差连接并再次应用MLP,结合原始输入和调整后的输入,以保证模型的性能和精度。

    综合以上空间混合和特征转换两个组件并搭配正则化的随机丢弃特性,将这样组合而成的深度融合DMP模块用于替换原C3模块的Bottleneck结构,形成DMP-C3结构,该结构在保持特征提取能力的同时,降低计算复杂度并提高模型的推理速度。其中,图 2为DMP-C3结构图,图 3为部分卷积模块结构图,图 4为DMP模块结构图。

    图  3  部分卷积模块结构
    Figure  3.  Structure of partial convolution modules
    图  4  DMP模块结构
    Figure  4.  Structure of DMP module

    YOLOv5的颈部网络以PAN和FPN为基础,分别解决特征融合和不同尺度物体检测问题。PAN通过在多层特征间传递信息,实现高质量的特征表示。FPN,包含自底向上的特征图,并通过上、下采样实现特征融合。然而,颈部网络的下采样操作可导致红外图像的空间分辨率降低,从而损失细节和空间信息。此外,下采样可能使特征图的边界模糊,为模型区分相邻物体带来困难,从而降低其在倾斜视角下识别红外行人小目标的能力。因此,本文提出去除颈部网络的下采样操作,以保留特征图原始分辨率的空间信息并减少边界模糊,从而提升模型在倾斜视角下检测红外行人小目标的能力。

    注意力机制通过选择性关注信息中的关键部分,加权特征并提高局部信息提取,被广泛用于计算机视觉。它通过动态权重调整反映输入特征的重要性,可以分为通道、空间、混合和自注意力等类型。原始的C3模块,虽然采用了卷积和Bottleneck结构,有效地减少了模型的参数数量,但它们对于输入特征的处理是均匀的,没有对输入特征区分特征间的重要性,且本文在YOLOv5颈部网络中去掉了下采样操作,这可能导致特征融合效果变差,从而限制了模型在红外场景下的检测性能。

    为了提升倾斜视角下的红外行人小目标的检测性能,本文引入注意力机制,对主干网络中的特征提取层和颈部网络的特征融合层进行改进。鉴于特征提取的协调性和自适应学习的参数量变化,本文将CA(Coordinate Attention)注意力机制[17]嵌入到YOLOv5的C3模块中,并将颈部网络的下采样操作替换为无参注意力机制SimAM(similarity-based attention mechanism)[18]。下面为具体实现细节:

    为了解决C3模块对输入特征处理的均匀性,本文在其基础上融入了CA注意力机制,形成新的CA-C3模块。该模块通过自适应平均池化处理特征图的高度和宽度,并融合这两个方向的特征。然后通过卷积和激活函数计算得到注意力权重,再与原始特征图进行逐元素乘法操作,以优化模型对重要特征的关注。实验结果表明,CA-C3模块不仅提高了对小目标和复杂背景的识别精度,还强化了特征表达力,从而显著增强了YOLOv5在红外场景下对红外行人目标的定位和识别能力。然而,为了平衡实验效果和计算资源,本文在YOLOv5骨干网络中仅替换了第二个C3模块为CA-C3模块,这不仅强化了模型对重要特征的定位和选取,同时也保持了模型参数的平衡。

    由于YOLOv5颈部网络的下采样被去掉,导致特征融合效果降低,为了弥补这一损失,在本研究中,采用了SimAM无参注意力机制取代了YOLOv5颈部网络的下采样操作,带来了显著优势:SimAM通过特征图归一化,增强了对全局上下文信息的捕获能力,强化了重要特征的表达;与此同时,SimAM在保留特征图分辨率的同时,更好地保留了特征图的细节特征。作为无参注意力机制,SimAM在增强模型性能的同时,避免了额外计算负担的增加;最后,得益于SimAM对特征图中低分辨率细节特征的保留,模型对小目标和低对比度目标的检测性能得到了显著提升,表现为模型在复杂的红外背景中很好地保留了小目标的特性,同时也有效地降低了漏检的风险。

    图 5显示了两种注意力机制的方式,图 6展示了CA-C3模块的设计。

    图  5  CA注意力机制结构图(左)和SimAM注意力机制结构(右)
    Figure  5.  Structure of CA attention mechanism (left) and SimAM attention mechanism (right)
    图  6  CA-C3模块结构
    Figure  6.  Structure of CA-C3 module

    SPPF通过空间金字塔池化提取特征,优化目标的尺度和形状捕获。然而,因YOLOv5模型深度大和红外数据集噪声多,原SPPF在处理复杂任务时可能容易过拟合,影响泛化性能。此外,SPPF未充分考虑通道间对目标识别的重要性差异,这限制了红外行人目标的检测性能。

    针对这些问题,本文提出改进的ResAttSPPF模块。相较原SPPF,本文更改激活函数为ReLU,提高计算效率并优化训练初期稀疏激活性能;引入通道注意力机制,通过权重调整特征图,增强模型对重要特征的关注,提升性能;添加残差连接,确保信息流动,使模型在深度网络中更稳定有效地学习。这些策略既维持原模型优点,提升对红外场景重要特征关注度,也降低过拟合风险,增强模型鲁棒性。ResAttSPPF的模型结构见图 7

    图  7  ResAttSPPF模块结构
    Figure  7.  Structure of ResAttSPPF module

    预测框在目标检测领域非常关键,恰当选择可提升模型精度。YOLO系列模型用锚框,在YOLOv5中用K-Means算法生成。本文考虑红外图像中行人特征差异,采用改进的算法:K-means++生成适应红外行人数据集的锚框。

    K-means++首先提取训练集中真实框的宽高,随机选一个点作为初始聚类中心,计算其他点与聚类中心距离,选最近的一个聚类中心作为下一个。重复此过程直至选完所有聚类中心,按宽高排序,选最优聚类中心作为锚框尺寸。

    此算法避免聚类中心重叠,提高检测精度;降低初始点对聚类结果影响,增加准确性和稳定性;加快网络训练收敛速度。在YOLOv5中,通常迭代1000次,输出最终聚类中心。本文采用K-means++生成了6个适合红外小目标行人数据集的预测框,分别为(6, 15),(8, 17),(9, 21),(11, 27),(15, 21),(18, 32)。

    针对倾斜视角下的红外行人小目标检测,调整YOLO模型检测头策略。考虑到数据集主要包含航拍视角下的小目标和监控摄像头视角的中小型目标,像素值在10~100像素间,本文用两个检测头代替原有的6个。结合自适应聚类框设计和改进的空间金字塔池化层,6个预测框更好适应不同大小的目标。此改进减少模型参数,提高推理速度,优化实时检测性能。

    经过以上改进后的DRA-YOLO模型整体结构见图 8

    图  8  DRA-YOLO网络模型结构
    Figure  8.  Structure of DRA-YOLO network model

    实验环境:实验在统一平台下进行,平台配置为Ubuntu 20.04系统,配备12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50 GHz处理器,RTX 2080 Ti(11GB)显卡。使用Pytorch 2.0.0深度学习框架,Python 3.8.10编程语言,并使用CUDA 11.8进行GPU加速。

    评价指标:为公正评估YOLOv5基模型、改进模型与其他检测模型的性能,采用召回率R、准确率P、平均精度AP、平均精度均值mAP、每秒传输帧数FPS、浮点运算次数GFLOPs和模型大小MB作为评价指标。准确率如式(1),召回率如式(2)。

    $$ P = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} $$ (1)
    $$ R = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}} $$ (2)

    式中:TP为真正例;FP为假正例;FN为假反例。

    实验数据集:为了验证改进模型对倾斜视角下红外行人小目标的检测性能,同时采用自制数据集“INFRARED-PERSON”和公共数据集LLVIP[19]进行实验。自制数据集包含7459张高质量航拍视角红外行人图像,拍摄高度在50~90 m之间,覆盖了白天和夜晚等不同时间段。此外,公共数据集LLVIP是一个用于弱光视觉的可见光与红外配对行人数据集,包含26个不同场景下的16836对图像,主要由弱光环境下的红外图像组成。在本研究中,仅使用数据集中的红外行人图像部分。两个数据集的样本如图 9所示。

    图  9  INFRARED-PERSON数据集和LLVIP数据集中部分样例图片
    Figure  9.  Sample images from INFRARED-PERSON Dataset and LLVIP Dataset

    实验设置:本研究首先利用自制其次利用公共数据集,对比YOLOv5和DRA-YOLO模型的性能。自制数据集以8:2随机划分训练集和验证集,LLVIP数据集则采用原论文12025张训练集和3463张验证集。实验不采用预训练权重,训练轮数设定为120,批次大小为32,仅对改进模块进行参数调整。结果通过消融和对比实验进行深入分析。

    为了验证DRA-YOLO模型在特征提取、特征融合以及检测端的优化效果,本研究进行了详细的消融实验,对各模块的优化策略进行了实验。将提出的算法用于自制数据集进行训练和验证。表 1呈现了基于YOLOv5模型与各改进步骤后的实验结果对比。

    表  1  不同改进策略在数据集INFRARED-PERSON上的试验结果
    Table  1.  Experimental results of different improvement strategies on the INFRARED-PERSON dataset
    Model YOLOv5 1 2 3 4 5 6 DRA-YOLO
    Kmeans++
    Modify the down-sampling in the neck
    Two detection heads+SimAM.
    DMP-C3+CA-C3
    ResAttSPPF
    Precision/% 92.5 91.8 89.2 93.2 92.6 93 93.1 93.7
    Recall/% 87.5 88.3 83.1 89.4 90.3 89.7 89.8 89.6
    mAP50/% 92.5 92.7 88.1 93.7 94 94.3 94.1 94.5
    Model size/MB 14.5 14.5 9.4 9.8 11.7 11.7 10.1 10.1
    Speed/FPS 96 96 135 108 112 112 116 116
    GFLOPs/G 16.5 16.5 11.8 12.6 13.4 13.4 11.7 11.7
    下载: 导出CSV 
    | 显示表格

    根据表 1的消融实验数据,对于倾斜视角下的红外行人小目标的检测,改进1采用Kmeans++聚类算法选择适宜的锚框尺寸,使得mAP50实现0.2%的提高。然而,在改进2中,虽模型大小降至9.4 M且检测速度达135 FPS,检测精度却大幅下降。为弥补精度损失并保持模型大小稳定,改进3引入了SimAM注意力机制并移除一个目标检测头,实现了相对基本模型1.2%的精度提升,模型大小降至9.8 M。

    在后续优化中,本文采用ResAttSPPF替换原SPPF,保持模型大小和GFLOPs不变,实现了相对于改进3的mAP50提升0.3%。此外,改进5进一步提升mAP50至94.3%,再次验证了Kmeans++聚类选择预测框的有效性。改进6引入DMP-C3+CA-C3模块替换原C3模块,未增加模型大小,使得mAP50相较于改进5提升了0.2%。结合以上各项改进,得到了最终的DRA-YOLO模型,其准确率和mAP50分别达到93.7%和94.5%。

    总体来看,最终的DRA-YOLO模型相较于YOLOv5基本模型,mAP50上提高了2%,模型大小降低了4.4 M,检测速度从96 FPS提高到116 FPS,GFLOPs从16.5 G降低到11.7 G。这表明适当地改进策略可以在保持较小模型大小的前提下,显著提升目标检测性能和实时性,为实际的目标检测任务提供了一种高效且实用的解决方案。

    为显示DRA-YOLO模型对微小目标的检测效果,本文从INFRARED-PERSON数据集中选取2组具有代表性的红外图像进行检测,如图 10所示。图 10的(a1)和(a2)为同一红外行人图像,背景复杂,但DRA-YOLO模型能很好地检测到独立的小目标,而原YOLOv5基本模型在树林边缘的红外行人存在漏检。这主要得益于SimAM保留特征图分辨率机制,增强对低对比度目标的检测。

    图  10  改进前后检测效果对比
    Figure  10.  Comparison of detection results before and after improvement

    图 10的(b1)和(b2)是同一红外行人图像,可能因日照导致地面与人体温差小,背景区别度低。原YOLOv5基本模型将停靠的自行车误检为行人,但DRA-YOLO模型能对行人尺度特征进行细粒度区别。这归因于DMP模块的进一步特征提取和ResAttSPPF对不同通道目标识别重要性的不同处理,对输入特征进行多尺度操作,捕获丰富上下文信息,提高目标定位精度,从而减少误检。这两组图像的改进后结果验证了DRA-YOLO模型在处理微小目标检测任务时的出色性能。

    为了全面且合理评估本文所提出的倾斜视角下红外图像行人目标检测方法,所做的性能评估涵盖了轻量化检测模型YOLOv3-Tiny、YOLOv4-Tiny以及稳定检测网络YOLOv3、YOLOv4、YOLOv5s-Transformerd等多种检测模型。对比结果如表 2所示。

    表  2  不同算法在INFRARED-PERSON上的试验结果
    Table  2.  Experimental results of different algorithms on the INFRARED-PERSON dataset
    Network model mAP50/% Size/MB Speed/FPS
    YOLOv3 94.3 246.5 54
    YOLOv3-SPP 93.9 125.6 60
    YOLOv3-Tiny 85.9 17.4 114
    YOLOv4 93.8 256 56
    YOLOv4-Tiny 88.7 24.5 122
    YOLOv5-Transformer 89.3 14.5 104
    YOLOv5 92.5 14.5 96
    ShuffleNetv2-YOLOv5 89.0 8.1 91
    YOLOv8n 92.8 6.2 124
    DRA-YOLO 94.5 10.1 116
    下载: 导出CSV 
    | 显示表格

    表 2的数据显示,尽管YOLOv3、YOLOv4在检测精度上稍优于YOLOv5基本模型,但由于使用Darknet作为特征提取网络,其模型权重较大。具体来说,YOLOv3模型相比YOLOv5基本模型和DRA-YOLO模型大17倍和24倍,检测速度降至58FPS。YOLOv4模型同样大17倍和25倍,检测速度为62FPS。

    轻量级网络,如YOLOv3-Tiny、YOLOv4-Tiny在红外行人小目标检测率偏低,模型权重不低于DRA-YOLO模型。例如,YOLOv3-Tiny模型虽然仅17.4 M,但相较于最终改进模型还大7.3 M,平均精度仅85.9%。YOLOv4-Tiny模型精度上升2.8%,但仍低于改进模型,模型大小为24.5 M。

    尽管YOLOv5s-Transformer模型大小与YOLOv5基本模型相同,但其检测精度低于基本和改进模型。另外,将YOLOv5的骨干网络替换为轻量级的ShuffleNetv2后,模型大小降至8.1M,但由于其特性,导致精度和速度下降至89%和91FPS。

    最后,对比YOLOv8n算法模型,模型大小降至6.2 M,检测速度优于DRA-YOLO模型,但平均检测精度仅92.8%,漏检误检较高,不符合实时检测需求。相比之下,DRA-YOLO网络模型大小为10.1 M,平均检测精度达94.5%,速度达到116 FPS,性能优于其他检测算法,显示其在红外行人检测方面的优势。

    图 11展示了不同算法的平均精度检测图。显然,DRA-YOLO网络能更快达到收敛,在110轮后基本收敛,无过拟合,进一步证明改进模型的优越性。

    图  11  平均精度均值mAP50曲线
    Figure  11.  Mean average precision (mAP50) curves diagram

    为了验证DRA-YOLO模型在公共数据集上的性能,使用相同场景下的LLVIP数据集进行实验,实验结果如表 3所示。

    表  3  YOLOv5模型和DRA-YOLO模型在数据集LLVIP上的mAP50结果
    Table  3.  Presents the mAP50 results of YOLOv5 and DRA-YOLO models on the LLVIP dataset
    Network model mAP50/(%) Promote mAP
    YOLOv5 94.6 -
    DRA-YOLO 96.3 ↑1.7%
    下载: 导出CSV 
    | 显示表格

    实验结果表明,DRA-YOLO模型在LLVIP数据集上展示了出色的检测效能,其mAP50达到了96.3%,较文献中YOLOv5模型在同一数据集上提高了1.7个百分点。图 12显示了模型在该数据集上的部分检测成果。这些结果明显表明,该模型对密集和微小目标具有优秀的检测能力。此外,模型不仅在自制数据集上表现优异,而且在公共数据集上也有同样出色的表现,表现出良好的泛化性能。这一结果充分证明了DRA-YOLO模型对倾斜视角下的红外小目标具有极佳的检测效果。

    图  12  DRA-YOLO模型在数据集LLVIP上的检测结果
    Figure  12.  Detection results of DRA-YOLO model on LLVIP dataset

    本文针对倾斜视角下的红外行人小目标难以快速准确检测的问题,提出了一种红外行人小目标轻量化实时检测网络模型。通过对原YOLOv5网络模型的特征提取、特征融合以及预测层进行改进,搭配新的锚框聚类算法,进行创新设计预测框尺寸,最终的DRA-YOLO模型相较于YOLOv5基本模型,平均检测精度提升了2.0%,模型大小降低了4.4 M,检测速度从96 FPS提高到116 FPS,GFLOPs降低了4.8 G。解决了倾斜视角下的红外行人小目标误检率高、不能实现检测速度、模型大小和检测精度之间的平衡问题。在不同算法间的对比结果表明,本文所提出的网络模型在自制数据集和公共数据集上均表现良好,验证了本网络模型的泛化能力和鲁棒性。

  • 图  1   YOLOv5s-6.2网络模型结构

    Figure  1.   Structure of the YOLOv5s-6.2 network model

    图  2   Bottleneck结构图(左)和DMP-C3结构图(右)

    Figure  2.   Structure of bottleneck (left) and DMP-C3 (right)

    图  3   部分卷积模块结构

    Figure  3.   Structure of partial convolution modules

    图  4   DMP模块结构

    Figure  4.   Structure of DMP module

    图  5   CA注意力机制结构图(左)和SimAM注意力机制结构(右)

    Figure  5.   Structure of CA attention mechanism (left) and SimAM attention mechanism (right)

    图  6   CA-C3模块结构

    Figure  6.   Structure of CA-C3 module

    图  7   ResAttSPPF模块结构

    Figure  7.   Structure of ResAttSPPF module

    图  8   DRA-YOLO网络模型结构

    Figure  8.   Structure of DRA-YOLO network model

    图  9   INFRARED-PERSON数据集和LLVIP数据集中部分样例图片

    Figure  9.   Sample images from INFRARED-PERSON Dataset and LLVIP Dataset

    图  10   改进前后检测效果对比

    Figure  10.   Comparison of detection results before and after improvement

    图  11   平均精度均值mAP50曲线

    Figure  11.   Mean average precision (mAP50) curves diagram

    图  12   DRA-YOLO模型在数据集LLVIP上的检测结果

    Figure  12.   Detection results of DRA-YOLO model on LLVIP dataset

    表  1   不同改进策略在数据集INFRARED-PERSON上的试验结果

    Table  1   Experimental results of different improvement strategies on the INFRARED-PERSON dataset

    Model YOLOv5 1 2 3 4 5 6 DRA-YOLO
    Kmeans++
    Modify the down-sampling in the neck
    Two detection heads+SimAM.
    DMP-C3+CA-C3
    ResAttSPPF
    Precision/% 92.5 91.8 89.2 93.2 92.6 93 93.1 93.7
    Recall/% 87.5 88.3 83.1 89.4 90.3 89.7 89.8 89.6
    mAP50/% 92.5 92.7 88.1 93.7 94 94.3 94.1 94.5
    Model size/MB 14.5 14.5 9.4 9.8 11.7 11.7 10.1 10.1
    Speed/FPS 96 96 135 108 112 112 116 116
    GFLOPs/G 16.5 16.5 11.8 12.6 13.4 13.4 11.7 11.7
    下载: 导出CSV

    表  2   不同算法在INFRARED-PERSON上的试验结果

    Table  2   Experimental results of different algorithms on the INFRARED-PERSON dataset

    Network model mAP50/% Size/MB Speed/FPS
    YOLOv3 94.3 246.5 54
    YOLOv3-SPP 93.9 125.6 60
    YOLOv3-Tiny 85.9 17.4 114
    YOLOv4 93.8 256 56
    YOLOv4-Tiny 88.7 24.5 122
    YOLOv5-Transformer 89.3 14.5 104
    YOLOv5 92.5 14.5 96
    ShuffleNetv2-YOLOv5 89.0 8.1 91
    YOLOv8n 92.8 6.2 124
    DRA-YOLO 94.5 10.1 116
    下载: 导出CSV

    表  3   YOLOv5模型和DRA-YOLO模型在数据集LLVIP上的mAP50结果

    Table  3   Presents the mAP50 results of YOLOv5 and DRA-YOLO models on the LLVIP dataset

    Network model mAP50/(%) Promote mAP
    YOLOv5 94.6 -
    DRA-YOLO 96.3 ↑1.7%
    下载: 导出CSV
  • [1] 张伟, 庄幸涛, 王雪力, 等. DS-YOLO: 一种部署在无人机终端上的小目标实时检测算法[J]. 南京邮电大学学报(自然科学版), 2021, 41(1): 86-98.

    ZHANG Wei, ZHUANG Xingtao, WANG Xueli, et al. DS-YOLO: a real-time small object detection algorithm deployed on UAV terminals [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2021, 41(1): 86-98.

    [2] 彭嘉雄, 周文琳. 红外背景抑制与小目标分割检测[J]. 电子学报, 1999, 27(12): 47-51. DOI: 10.3321/j.issn:0372-2112.1999.12.013

    PENG Jiaxiong, ZHOU Wenlin. Infrared background suppression for segmenting and detecting small target[J]. Acta Electronica Sinica, 1999, 27(12): 47-51. DOI: 10.3321/j.issn:0372-2112.1999.12.013

    [3] 李刚, 邱尚斌, 林凌, 等. 基于背景差法和帧间差法的运动目标检测方法[J]. 仪器仪表学报, 2006, 27(8): 961-964.

    LI Gang, QIU Shangbin, LI Ling. New moving target detection method based on background differencing and coterminous frames differencing[J]. Chinese Journal of Scientific Instrument, 2006, 27(8): 961-964.

    [4]

    HE K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

    [5]

    Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

    [6]

    REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28(1): 91-99.

    [7]

    LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer VisionECCV 2016: 14th European Conference, Amsterdam, 2016: 21-37.

    [8]

    Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

    [9]

    Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.

    [10]

    SUN M, ZHANG H, HUANG Z, et al. Road infrared target detection with Ⅰ‐YOLO[J]. IET Image Processing, 2022, 16(1): 92-101. DOI: 10.1049/ipr2.12331

    [11]

    SONG X, GAO S, CHEN C. A multispectral feature fusion network for robust pedestrian detection[J]. Alexandria Engineering Journal, 2021, 60(1): 73-85. DOI: 10.1016/j.aej.2020.05.035

    [12] 张印辉, 张朋程, 何自芬, 等. 红外行人目标精细尺度嵌入轻量化实时检测[J]. 光子学报, 2022, 51(9): 266-276.

    ZHANG Yinhui, ZHANG Pengcheng, HE Zifen, et al. Lightweight real-time detection model of infrared pedestrian embedded in fine-scale[J]. Acta Photonica Sinica, 2022, 51(9): 266-276.

    [13]

    TAN S, YAN J, JIANG Z, et al. Approach for improving YOLOv5 network with application to remote sensing target detection[J]. Journal of Applied Remote Sensing, 2021, 15(3): 036512-036512.

    [14]

    Ghiasi G, LIN T Y, LE Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 7036-7045.

    [15]

    LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

    [16]

    CHEN J, KAO S, HE H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[J]. arXiv preprint arXiv: 2303.03667, 2023.

    [17]

    HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.

    [18]

    YANG L, ZHANG R Y, LI L, et al. Simam: a simple, parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2021: 11863-11874.

    [19]

    JIA X, ZHU C, LI M, et al. LLVIP: A visible-infrared paired dataset for low-light vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 3496-3504.

图(12)  /  表(3)
计量
  • 文章访问数:  49
  • HTML全文浏览量:  3
  • PDF下载量:  23
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-05-13
  • 修回日期:  2023-05-31
  • 刊出日期:  2025-02-19

目录

/

返回文章
返回