基于DCS-YOLOv8模型的红外图像目标检测方法

沈凌云, 郎百和, 宋正勋, 温智滔

沈凌云, 郎百和, 宋正勋, 温智滔. 基于DCS-YOLOv8模型的红外图像目标检测方法[J]. 红外技术, 2024, 46(5): 565-575.
引用本文: 沈凌云, 郎百和, 宋正勋, 温智滔. 基于DCS-YOLOv8模型的红外图像目标检测方法[J]. 红外技术, 2024, 46(5): 565-575.
SHEN Lingyun, LANG Baihe, SONG Zhengxun, WEN Zhitao. Infrared Image Object Detection Method Based on DCS-YOLOv8 Model[J]. Infrared Technology , 2024, 46(5): 565-575.
Citation: SHEN Lingyun, LANG Baihe, SONG Zhengxun, WEN Zhitao. Infrared Image Object Detection Method Based on DCS-YOLOv8 Model[J]. Infrared Technology , 2024, 46(5): 565-575.

基于DCS-YOLOv8模型的红外图像目标检测方法

基金项目: 

山西省引进人才科技创新启动基金 21010123

山西省高等院校大学生创新项目 S202314101195

吉林省科技发展计划基金项目 YDZJ202102CXJD007

详细信息
    作者简介:

    沈凌云(1979-),女,工学博士,副教授,主要从事机器视觉与智能信息处理方向研究。E-mail:shenshly@163.com

  • 中图分类号: TP391

Infrared Image Object Detection Method Based on DCS-YOLOv8 Model

  • 摘要:

    针对低信噪比与复杂任务场景下,YOLOv8模型对红外遮挡目标和弱小目标检测能力不足的问题,提出了改进的DCS-YOLOv8模型(DCN_C2f-CA-SIoU-YOLOv8)的目标检测方法。以YOLOv8框架为基础,主干网络构建了基于可变形卷积的轻量级DCN_C2f(Deformable Convolution Network)模块,自适应调整网络的视觉感受野,提高目标多尺度特征表示能力。特征融合网络引入基于坐标注意力机制CA(Coordinate Attention)的模块,通过捕捉多目标空间位置依赖关系,提高目标的定位准确性。改进基于SIoU(Scylla IoU)的位置回归损失函数,实现预测框与真实框之间的相对位移方向匹配,加快模型收敛速度并提升检测与定位精度。实验结果表明,相较于YOLOv8-n\s\m\l\x系列模型,DCS-YOLOv8在FLIR、OTCBVS与VEDAI测试集上平均精度均值mAP@0.5平均提高了6.8%、0.6%、4.0%,分别达到86.5%、99.0%与75.6%。同时,模型的推理速度满足红外目标检测任务的实时性要求。

    Abstract:

    In response to the challenges posed by low signal-to-noise ratios and complex task scenarios, an improved detection method called DCS-YOLOv8 (DCN_C2f-CA-SIoU-YOLOv8) is proposed to address the insufficient infrared occluded object detection and weak target detection capabilities of the YOLOv8 model. Building on the YOLOv8 framework, the backbone network incorporates a lightweight deformable convolution network (DCN_C2f) module based on deformable convolutions, which adaptively adjusts the network's visual receptive field to enhance the multi-scale feature representation of objects. The feature fusion network introduces the coordinate attention (CA) module based on coordinate attention mechanisms to capture spatial dependencies among multiple objects, thereby improving the object localization accuracy. Additionally, the position regression loss function is enhanced using Scylla IoU to ensure a relative displacement direction match between the predicted and ground truth boxes. This improvement accelerates the model convergence speed and enhances the detection and localization accuracy. The experimental results demonstrate that DCS-YOLOv8 achieves significant improvements in the average precision of the FLIR, OTCBVS, and VEDAI test sets compared to the YOLOv8-n\s\m\l\x series models. Specifically, the average mAP@0.5 values are enhanced by 6.8%, 0.6%, and 4.0% respectively, reaching 86.5%, 99.0%, and 75.6%. Furthermore, the model's inference speed satisfies the real-time requirements for infrared object detection tasks.

  • 非制冷探测器是一种工作在室温环境下,可将外界入射的红外热辐射信号转化为电信号的探测器件。随着大规模集成电路和微机电系统的快速发展,非制冷红外焦平面阵列技术日新月异,已广泛应用于军事和民用领域。其中氧化钒非制冷探测器是目前技术最成熟、市场占有率最高的主流非制冷探测器[1]。如今,氧化钒非制冷红外焦平面的像元尺寸已经进入亚波长尺寸,但像元尺寸的减小会导致探测器的吸收面积呈边长的二次方减小,而吸收率的快速降低严重制约了探测器的性能。故研究氧化钒非制冷探测器吸收对于提高探测器性能具有十分重要的意义。

    最早采用的提高红外吸收的方法是增加黑化层[2-3]。但其吸收率对高性能热探测器而言偏低。利用光在多层介质中的干涉效应,可以增强在某一波长或某一波段的吸收率。在此概念基础上,发展出了具有共振吸收结构的辐射吸收层[3-4],其能大大增强氧化钒非制冷探测器在特定波段的吸收效率。而后学者们又提出了许多表面吸收增强结构来提升氧化钒非制冷探测器的吸收率,如:表面纹理吸收结构[5-6]、金属陶瓷吸收结构[7]、光子晶体吸收结构[8]、光栅吸收增强结构[9-10]、超表面吸收增强结构[11-12]等。随着氧化钒非制冷探测器像元尺寸的减小,采用双层工艺成为了提高探测器吸收效率最为普遍的一种方法[13-16]

    本文将首先从从材料角度出发,对氧化钒非制冷探测器单层材料的吸收特性进行研究,分析目前较为常用的氧化钒非制冷探测器材料以及他们对探测器的吸收影响;接着从结构角度出发,对探测器的填充系数、反射层、谐振腔、表面吸收结构4个因素分别展开分析;最后拓展到双层结构,对双层氧化钒非制冷探测器的腔体高度、膜系厚度进行讨论。通过对上述研究的量化比较,结合目前工艺上的普遍方法和较为前沿的技术路线,给出提升氧化钒非制冷探测器吸收的系统方法。

    为了研究氧化钒非制冷探测器的吸收,我们首先需要对探测器各层材料进行一些基本的研究。

    目前普遍的氧化钒非制冷探测器材料膜系除电路部分外从下到上普遍包括反射层、金属钝化层、桥面支撑层、光敏层、光敏钝化层。

    在选材方面,Al在长波红外对电磁波具有较高的反射率,且成本较低,故是一种极佳的反射层材料;SiNx材料,在红外波段有较高的吸收率[17],同时还具有优良的热学、力学性质,这使得它既可以作为探测器金属和光敏材料的钝化层,又可以作为桥面支撑层;而光敏材料VOx具有较高的TCR值,普遍应用于非制冷探测器中;在设计氧化钒非制冷红外探测器时,通常还会用到SiO2,其不仅是一种优良的钝化材料,而且也在调节光谱、应力方面起着关键作用。

    当光线由空气入射到光学系统的光学零件表面时,一部分光被反射,一部分光被折射,而其余部分则被光学系统吸收,通常我们获取光学系统的反射率,透射率相对容易,故有下式求得其吸收率:

    $$ A(λ)=1-R(λ)-T(λ) $$

    式中:R(λ)、T(λ)、A(λ)分别表示光学系统的反射率、透射率、吸收率。

    薄膜体系的红外吸收率,通常采用光学导纳矩阵法[18-19]。考虑到器件的实际工作情况,可以做以下假设:①各层是各向同性的均匀薄膜,②输入光是横波(S波),③输入光垂直入射。根据薄膜光学理论,膜系中第j层膜的特征矩阵Mj为:

    $$ \boldsymbol{M}_j=\left[\begin{array}{cc} \cos \delta_j & \frac{\mathrm{i}}{\eta_j} \sin \delta_j \\ \mathrm{i} \eta_j \sin \delta_j & \cos \delta_j \end{array}\right]$$ (1)

    式中:i为虚部单位;ηjδjj=1, 2, 3)分别为各层膜的修正导纳和相位厚度:

    $$ \mathop \delta \nolimits_j = \frac{{2{\text{π }}}}{\lambda }\mathop N\nolimits_j \mathop d\nolimits_j \cos \mathop \theta \nolimits_j $$ (2)

    式中:Nj为各层膜的复折射率,Njnj-ikjnjkj都与波长λ有关,djθj分别为各层膜的厚度和折射角,对于S波且光垂直入射时,θj=0。

    整个膜系的特征矩阵M为:

    $$ \left[ {\begin{array}{*{20}{c}} \boldsymbol{B} \\ \boldsymbol{C} \end{array}} \right] = \prod\limits_{j = 1}^k {\left[ {\begin{array}{*{20}{c}} {\cos \mathop \delta \nolimits_j }&{\frac{i}{{\mathop \eta \nolimits_j }}\sin \mathop \delta \nolimits_j } \\ {i\mathop \eta \nolimits_j \sin \mathop \delta \nolimits_j }&{\cos \mathop \delta \nolimits_j } \end{array}} \right]} \left[ {\begin{array}{*{20}{c}} 1 \\ {\mathop \eta \nolimits_{k + 1} } \end{array}} \right] $$ (3)

    式中:ηj+1为出射介质的光学导纳。从上式可知,多层薄膜的组合导纳为YC/B,反射率R(λ)和透射率T(λ)分别为:

    $$ R\left( \lambda \right) = \left( {\frac{{\mathop \eta \nolimits_0 \boldsymbol{B} - \boldsymbol{C}}}{{\mathop \eta \nolimits_0 \boldsymbol{B} + \boldsymbol{C}}}} \right){\left( {\frac{{\mathop \eta \nolimits_0 \boldsymbol{B} - \boldsymbol{C}}}{{\mathop \eta \nolimits_0 \boldsymbol{B} + \boldsymbol{C}}}} \right)^ * } $$ (4)
    $$ T\left( \lambda \right) = \frac{{4\mathop \eta \nolimits_0 \mathop \eta \nolimits_{k + 1} }}{{\left( {\mathop \eta \nolimits_0 \boldsymbol{B} + \boldsymbol{C}} \right){{\left( {\mathop \eta \nolimits_0 \boldsymbol{B} + \boldsymbol{C}} \right)}^ * }}} $$ (5)

    从以上分析可知,影响光学薄膜吸收的主要因素有:折射率nj、消光系数kj、薄膜厚度dj、入射角度θj等,这里光学参数njkj由材料自身决定,本文通过椭偏移测量出上述材料的光学参数如图 1(a)所示。

    图  1  各材料光学参数及光学性质(图(b)、(c)中A、T、R分别表示吸收率(Absorptivity)、透射率(Transmissivity)、反射率(Reflectivity),图(c)与图(b)共用一个图例)
    Figure  1.  Optical parameters and optical properties of each material (A, T, and R in Figures (b) and (c) represent Absorptivity, Transmissivity, and Reflectivity, respectively. Figures (c) and (b) share the same legend)

    通过FFTD仿真软件,仿真单层材料不同厚度的吸收情况,可以得到各材料的光学特性,从而为确定器件各层薄膜的厚度值提供参考。

    图 1(b)(c)可以看出,光经过SiNx时主要被吸收和透射,反射量较少,吸收波段集中在9~14 μm。随着厚度的增加,SiNx的吸收率也在逐步提高,且吸收峰向短波方向移动,当薄膜厚度超过200 nm时,吸收增速明显下降较快;SiO2在9.5 μm处有一个很强的吸收峰,其他波段吸收较弱,这对于探测器吸收光谱具有一定的调控作用(可以解决探测器在8~10 μm范围内吸收不够强的问题),其主要由吸收和透射决定,反射量较少,故可以降低探测器在可见-近红外波段的反射率,采用SiNx和SiO2的双层复合材料作为微桥支撑结构还能较好地缓解表面残余应力问题[20]。VOx吸收波段在9 μm以上。超薄金属薄膜由于金属表面的自由载流子浓度很高,金属体材料对于太赫兹的反射率接近100%。但是当金属薄膜的厚度减小到纳米量级时,薄膜中的载流子受到束缚而浓度降低,这使得电子与太赫兹波相互作用增强而吸收太赫兹辐射。Ti在整个波段都有吸收,波长越长吸收效果越好,随着厚度的增加,其吸收先增加后减小,这主要由透射引起。当其厚度为5~50 nm时,吸收效果最好,当其厚度超过200 nm时,光线几乎全部被反射。而Al的消光系数特别大,薄膜对光线几乎不产生吸收,膜厚在4 nm以下有一定的透射,但膜厚超过50 nm时,光线几乎全部被反射。

    当然在确定器件各膜层厚度时不能只考虑其吸收特性,比如作为支撑微桥的SiNx层必须超过一定值才能在力学上满足结构要求,VOx在设计厚度时还要考虑其TCR、方阻等问题,整个探测器膜系还要满足相应的热学要求等等。

    提高氧化钒非制冷探测器吸收效率的方法有很多,在没有外部吸收增强装置辅助的情况下,本文将其归纳为4个方面:提高探测器的填充系数;增加反射层减小光的透射;增加谐振腔增加所需波段吸收;表面吸收结构的集成。

    结合上一章所讨论的材料性质与目前普遍的氧化钒非制冷探测器膜系结构,本文以如图 2所示的SiNx/VOx/SiNx/SiO2结构进行氧化钒非制冷探测器不同结构吸收研究。

    图  2  氧化钒非制冷探测器示意图
    Figure  2.  Schematic of an VOx uncooled detector

    填充系数定义为微测辐射热计对红外辐射的有效吸收面积占其总面积的百分比[21]。氧化钒非制冷探测器是由多个探测像元组成,假设每个像元的总面积为A,有效探测面积为AD,则填充因子为βAD/A。填充系数越大则探测器的吸收能力越强。

    微桥的桥臂、相邻微桥之间的空隙、连接微桥与读出电路的开孔等所占的面积对敏感材料吸收都没有直接贡献,所以桥腿与有效吸收面积的设计尤为重要,桥腿类型大致可以分为如图 3(a)~(e)的几种类型,可以看出,桥腿长度越短,桥腿截面积越小,则其填充系数越大,但另一方面为使微测辐射热计与其衬底间的热导尽量小,需要尽可能增加桥腿长度,而桥腿截面积过小则会带来许多工艺上的问题。所以在设计桥腿分布时,需要综合考虑,单层微桥结构填充系数一般是60%~70%,且随着像元尺寸的减小,单层结构的填充系数会进一步下降。研究者们还提出了一种如图 3(f)所示的双层隐藏桥腿结构[22],但这种结构由于信号互连失效的概率较大等因素并未被大多数制造商采用[23]

    图  3  氧化钒非制冷探测器桥腿类型
    Figure  3.  VOx uncooled detector bridge leg types

    反射层、谐振腔、表面吸收结构,如图 4所示,我们可以单独讨论它们各自的以及其互相组合之后的结构,通过FDTD仿真软件对图中各结构进行仿真,可以得到相应的吸收贡献率。

    图  4  氧化钒非制冷探测器不同吸收结构示意图(其中表面结构为SiNx/Ti/SiNx夹层柱状超表面天线结构,SiNx/Ti/SiNx夹层厚度分别为50 nm/10 nm/50 nm;天线周期为2.5 μm,柱状天线直径为1.5 μm;其他结构各膜系参数同图 2所示)
    Figure  4.  Schematic diagram of different absorption structures of VOx uncooled detectors(The surface structure is a SiNx/Ti/SiNx sandwich columnar metasurface antenna structure, with a thickness of 50nm/10nm/50nm for SiNx/Ti/SiNx interlayers; the antenna period is 2.5 μm, and the diameter of the columnar antenna is 1.5 μm; the parameters of other structures and film systems are shown in Figure 2)

    图 5(a)(b)中可以看出,单探测器(无吸收结构)吸收情况下大部分光线被透射,吸收率较低,故需要增加反射层以减小透射,当增加反射层后,透射率几乎下降为零,但另一方面反射率也显著增加,对于探测器的吸收效率并没有正面的效益,故其需要配合谐振腔进行吸收增强。

    图  5  氧化钒非制冷探测器不同吸收结构吸收情况(图(a)~(h)共用图(a)的图例,其中R、A、T分别表示反射率(Reflectivity)、吸收率(Absorptivity)、透射率(Transmissivity))
    Figure  5.  Absorption of different absorption structures of VOx uncooled detectors (Figures (a) to (h) share the legend of Figure (a), where R, A, and T respectively represent Reflectivity, Absorptivity, and Transmittance)

    谐振腔可等效为一个耦合系统[24]。当有反射层存在时,下层金属充当一个镜面的作用,能反射部分入射电磁波;同样上层也会充当一个局部的反射镜,这样上下金属镜面反射的多重波会发生干涉效应。通过来回的振荡反射消耗,使得入射光波完全被“约束”在中间介电耗尽层内。腔体的厚度,也就是微桥悬空的高度,根据探测器吸收结构的设计公式:dλ0/4n,空气的折射率为n=1,长波红外(工作波段)的波长范围λ0为8~12 μm,因此,牺牲层厚度一般设计为2~3 μm就能满足谐振腔高度的要求。从图 5(c)(e)可以看出,在反射层和谐振腔的共同作用下,探测器的吸收效率得到了大幅度的增加,如果单是谐振腔,吸收效果要远差于反射层和谐振腔搭配的效果。另外腔体存在的另一个必要原因在于降低了光敏面与衬底间的热交换,故在氧化钒非制冷探测器设计时显得尤为重要。

    表面吸收结构方面我们以超表面为例,超表面是一种在平面上按照特定需求排列的亚波长单元组合结构。通过对单元结构、排布方式、用材选择等的合理设计,可以实现对光的各种属性的调控。超表面有着“人工原子”的特点,这意味着我们可以微观地去独立设计每一个单元的结构和排布方式,从而实现光的独立调控。因此,超表面为开发探测器件提供了一个通用的平台。通过图 5(d)(f)我们可以看出,将超表面集成到探测器上,有效增加了探测器的吸收光谱范围,起到了调节光谱的作用,而从图 5(g)可以看出,通过搭配反射层,探测器的中波波段吸收得到了极大的增强。这说明超表面结构能够有效调节吸收波段,增强峰值吸收。

    热辐射规律是自然界普遍规律之一,正常人体辐射的峰值波长一般在9.5 μm处,辐射分布在8~14 μm波段的能量占约总能量的46%[25]。对于温度低于室温的物体,75%的热辐射能集中在10 μm以上的红外区。在设计制备红外探测器的时候,控制其工作区间在8~14 μm波段,便能接收室温下物体辐射的主要能量。因此这里我们重点关注这一波段的吸收情况,可以得到如表 1的结果。

    表  1  氧化钒非制冷探测器不同吸收结构吸收情况对比
    Table  1.  Comparison of absorption structures of VOx uncooled detectors
    Serial number Fill factor Resonator Reflective layer Surface structure 8-14 μm Effective average absorption
    1 50% without without without 16%
    2 70% without without without 22%
    3 70% with without without 30%
    4 70% without with without 11%
    5 70% without without with 29%
    6 70% with with without 44%
    7 70% with without with 36%
    8 70% without with with 32%
    9 70% with with with 49%
    下载: 导出CSV 
    | 显示表格

    可以看出单层氧化钒非制冷探测器吸收效率始终有限,故学者们构思出了双层结构来增强氧化钒非制冷探测器的吸收率。

    这里在以上仿真结果的基础上提出一种基于现有工艺可实现的双层氧化钒非制冷探测器结构,如图 6,在单层探测器的基础上增加了一层带腔体的SiNx/Ti/SiNx夹层“伞状”表面吸收结构,并对其腔体高度,膜系厚度等进行仿真优化。

    图  6  双层氧化钒非制冷探测器结构示意图
    Figure  6.  Schematic diagram of the structure of the double-layer VOx uncooled detector

    在腔体高度方面,由于新增加了一个上层腔体,故其物理特性与单层腔体相比肯定会发生一定的变化,在SiNx/Ti/SiNx夹层“伞状”表面吸收结构膜系厚度为100 nm/10 nm/50 nm的条件下,通过FDTD软件,我们可以得到如图 7(a)~(g)所示的仿真结果(这里我们令上层腔体高度为ht,下层腔体高度为hb)可以看出,随着上下腔体的高度增加,吸收波段发生右移,这也符合腔体吸收公式。与下层腔体相比,上腔所起到的作用更显著,我们可以根据氧化钒非制冷探测器工作波段的不同来灵活地设计两个腔体的高度。

    图  7  不同腔体吸收曲线(上层腔体固定时,吸收随下层腔体变化的曲线)
    Figure  7.  Absorption curves of different cavities (curves of absorption with lower chamber when the upper cavity is fixed)

    接着针对各层膜系厚度进行仿真优化。为了方便表示,这里我们令上层表面结构顶层SiNx厚度为t1;上层表面结构中间层Ti厚度为t2;上层表面结构底层SiNx厚度为t3;光敏层膜系顶层SiNx厚度为b1;光敏层膜系中间层VOx厚度为b2;光敏层膜系底层SiNx厚度为b3

    首先对于上层表面吸收结构,由图 8(a)~(c)可知,上层表面吸收层膜系厚度对于探测器吸收的影响十分显著,且在一定范围内,各层膜系越薄探测器吸收效果相对越好,就底层SiNx而言,因为它要肩负起支撑整个腔体的重任,故应控制其厚度在100 nm左右;金属Ti层因工艺限制无法长太薄,目前通常工艺上可实现的厚度在5 nm左右;顶层SiNx为了保证其有效的钝化保护作用,厚度一般在50nm左右;而对于下层光敏吸收层膜系,由图 8(d)~(f)可知,在一定范围内,随着膜厚的增加,探测器吸收峰值会有所增加,但对应的峰值吸收波段将发生右移。如前所述,我们在考虑探测器膜系厚度时,需要结合力学,热学综合讨论,当两个参数发生冲突时,我们通常需要对其进行综合取舍。

    图  8  氧化钒非制冷探测器双层结构各层膜系不同厚度下吸收曲线
    Figure  8.  Absorption curves of different thicknesses of each layer film system in the double layer structure of VOx uncooled detectors

    通过以上仿真分析,我们可以得出一些提高氧化钒非制冷探测器吸收的系统方法。

    首先从材料膜系角度出发,应该尽量选择吸收波段在工作波段的材料,同时综合考虑膜系厚度,通常膜系厚度增加,器件的吸收波段会往长波方向移动,双层结构中,上层“伞”结构各层膜厚通常需要比较薄,而下层光敏层膜系,通常需要在一定的中间值,需要结合工作波段,热学力学性能进行综合取舍。

    而在结构方面,在没有外部吸收增强装置辅助的情况下,可以将提高氧化钒非制冷探测器吸收率的方法归纳为4个方面:提高探测器的填充系数(主要关注桥腿与光敏面的设计分布);增加反射层减小光的透射;增加谐振腔增加所需波段吸收;表面吸收结构的集成,如图 9所示,单探测器(无吸收结构)吸收情况下大部分光线被透射,吸收率较低,当增加反射层后,透射率几乎下降为零,但另一方面反射率也显著增加,故其需要配合谐振腔进形吸收增强。谐振腔对于氧化钒非制冷探测器的光学吸收影响极大,同时在热学方面也发挥着重要作用,是氧化钒非制冷探测器中不可或缺的重要结构。在表面吸收增强结构方面,学者们提出了许多十分有效的结构,如:表面纹理吸收结构;金属陶瓷吸收结构;光子晶体吸收结构;超表面吸收增强结构等。表面吸收结构可以应用到吸收增强,吸收波段控制,偏振控制等各方面。

    图  9  基于上述仿真结果的氧化钒非制冷探测器不同吸收结构吸收情况对比图(其中图例表示如下: a—无吸收结构;b—有反射层;c—有谐振腔;d—有表面结构;e—有腔有反射层;f—有腔有表面结构;g—有反射层有表面结构;h—有表面结构有腔有反射层;i—双层结构)
    Figure  9.  Comparison diagram of different absorption structures of VOx uncooled detectors based on the above simulation results (the legend is shown below: a—without absorption structure; b—with reflective layer; c—with resonant cavity; d—with surface structure; e—with cavity and reflective layer; f—with cavity and surface structure; g—with reflective layer and surface structure; h—with surface structure, cavity, and reflective layer; i—Two-layer structure)

    而双层甚至多层结构的利用将氧化钒非制冷探测器吸收率提升到了新的维度,大大拓宽了吸收波段,使得结构的设计具有了更多的灵活性。从图 9中我们可以很直观地看到这种比较。而将更多的吸收增强结构用简单的方式集成到氧化钒非制冷探测器上,必将成为下一个提高其吸收率的重要课题。

  • 图  1   改进的YOLOv8算法网络结构

    Figure  1.   Network structure of improved YOLOv8 algorithm

    图  2   标准卷积与可变形卷积采样对比图

    Figure  2.   Sampling comparison between standard convolution and deformable convolution

    图  3   坐标注意力模块

    Figure  3.   Schematic diagram of coordinate attention module

    图  4   位置回归损失函数的成本计算

    Figure  4.   The scheme calculates the costs contribution in the position regression loss function

    图  5   位置回归损失函数的权重优化

    Figure  5.   Optimizing the weights of the position regression loss

    图  6   目标类别分布混淆矩阵图(FLIR)

    Figure  6.   Confusion matrix of object category distribution (FLIR)

    图  7   Precision-Recall曲线(FLIR)

    Figure  7.   Precision-Recall curves (FLIR)

    图  8   YOLOv8n与DCS-YOLOv8n在FLIR测试集的部分目标检测结果对比

    Figure  8.   Comparison of object detection results on the FLIR test set between YOLOv8n and DCS-YOLOv8n

    图  9   DCS-YOLOv8n在FLIR、OTCBVS与VEDAI数据集的目标检测结果标注

    Figure  9.   Annotated illustration of object detection results of DS-YOLOv8n on FLIR, OTCBVS, and VEDAI datasets

    表  1   模型训练超参数设置

    Table  1   Model training hyperparameter settings

    Hyperparameter options Setting
    Input Resolution 640×640
    Initial Learning Rate 0 (lr0) 0.01
    Learning Rate Float (lrf) 0.01
    Momentum 0.937
    Weight_Decay 0.0005
    Batch_Size 4
    Epochs 200
    下载: 导出CSV

    表  2   不同数据集上消融实验结果对比

    Table  2   Comparison of ablation experiment results on different datasets

    Models 1 Params/M GFLOPs Precision /% 2 Recall /% 2 mAP@0.5 /% 2
    B D C S D1 D2 D3 D1 D2 D3 D1 D2 D3
    3.2 8.2 74.5 94.1 73.2 68.6 90.0 43.5 77.2 97.6 60.5
    3.4 8.3 80.1 94.5 74.4 74.3 90.2 43.9 79.5 98.0 61.3
    3.2 8.2 80.0 94.4 80.1 73.1 93.3 49.6 78.0 97.9 62.8
    3.2 8.2 80.3 95.7 73.8 75.5 94.7 68.1 80.8 97.8 64.3
    3.4 8.3 80.5 94.3 71.7 75.2 93.3 69.8 80.5 98.2 67.6
    3.4 8.3 80.8 98.5 69.3 75.5 96.3 68.0 81.5 98.3 68.1
    3.2 8.2 81.2 99.5 69.5 75.6 95.4 72.1 82.0 98.0 70.5
    3.4 8.3 81.1 99.3 73.5 75.7 95.9 70.5 83.1 98.5 71.3
    1 B: Base(Yolov8n), D: DCN_C2f, C: CA, S: SIoU. 2 D1: FLIR, D2: OTCBVS, D3: VEDAI.
    下载: 导出CSV

    表  3   不同模型的目标检测实验结果

    Table  3   Results of different object detection model

    Models Params/M GFLOPs mAP@0.5/%1 Inference/(ms) 1
    D1 D2 D3 D1 D2 D3
    Faster R-CNN 15.8 28.3 71.1 87.8 52.4 30.4 102.3 63.1
    YOLOv3_tiny 8.7 13.0 74.2 90.5 58.1 12.6 37.1 21.3
    YOLOv5n 7.0 16.0 75.1 95.8 59.3 6.9 25.1 11.7
    YOLOv8n 3.2 8.2 77.2 97.6 67.5 7.1 23.7 9.9
    YOLOv8s 11.2 28.8 79.3 98.1 71.5 10.8 29.8 12.3
    YOLOv8m 25.9 79.1 81.5 98.5 72.6 20.5 41.0 15.2
    YOLOv8l 43.6 165.4 82.7 98.9 74.8 35.1 52.5 19.5
    YOLOv8x 68.2 258.1 84.5 99.1 76.9 47.5 70.6 27.1
    DCS-YOLOv8n 3.4 8.3 83.1 98.5 72.5 7.1 22.9 10.6
    DCS-YOLOv8s 11.3 29.2 85.2 98.9 73.8 10.9 28.7 13.1
    DCS-YOLOv8m 25.9 79.5 87.4 99.2 75.9 20.6 38.1 16.4
    DCS-YOLOv8l 43.8 165.8 88.1 99.3 77.2 35.3 50.4 21.0
    DCS-YOLOv8x 69.1 258.5 88.6 99.3 78.6 47.9 62.7 29.1
    1 D1: FLIR, D2: OTCBVS, D3: VEDAI.
    下载: 导出CSV
  • [1] 韩金辉, 魏艳涛, 彭真明, 等. 红外弱小目标检测方法综述[J]. 红外与激光工程, 2022, 51(4): 438-461. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202204050.htm

    HAN J H, WEI Y T, PENG Z M, et al. Infrared dim and small target detection: a review[J]. Infrared and Laser Engineering, 2022, 51(4): 438-461. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202204050.htm

    [2]

    Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

    [3]

    ZHAO M, LI W, LI L, et al. Single-frame infrared small-target detection: a survey[J]. IEEE Geoscience and Remote Sensing Magazine, 2022, 10(2): 87-119. DOI: 10.1109/MGRS.2022.3145502

    [4]

    Girshick R. Fast R-CNN[C]//IEEE International Conference on Computer Vision (ICCV), 2015: 1440-1448.

    [5]

    Gavrilescu R, Zet C, Fosalau C, et al. Faster R-CNN: an approach to real-time object detection[C]//Proc of International Conference and Exposition on Electrical and Power Engineering, 2018: 165-168.

    [6]

    CAI Z, Vasconcelos N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6154-6162.

    [7]

    HE Kaiming, Gkioxari Georgia, Dollar Piotr, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI: 10.1109/TPAMI.2018.2858826

    [8]

    WEI Liu, Dragomir Anguelov, Dumitru Erhan, et al. SSD: single shot multibox detector[J]. arXiv, 2015: 1512.02325.

    [9]

    Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 779-788.

    [10]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv, 2018: 1804.02767.

    [11]

    Krizhevsky A, Sutskever I, Hinton Ge. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI: 10.1145/3065386

    [12] 高昂, 梁兴柱, 夏晨星, 等. 一种改进YOLOv8的密集行人检测算法[J]. 图学学报, 2023, 44(5): 890-898. https://www.cnki.com.cn/Article/CJFDTOTAL-GCTX202305005.htm

    GAO A, LIANG X Z, XIA C X, et al. A dense pedestrian detection algorithm with improved Yolov8[J]. Journal of Graphics, 2023, 44(5): 890-898. https://www.cnki.com.cn/Article/CJFDTOTAL-GCTX202305005.htm

    [13] 陈皋, 王卫华, 林丹丹. 基于无预训练卷积神经网络的红外车辆目标检测[J]. 红外技术, 2021, 43(4): 342-348. http://hwjs.nvir.cn/cn/article/id/8142853e-c38f-43ff-8915-4810e1948dc3?viewType=HTML

    CHEN G, WANG W H, LIN D D. Infrared vehicle target detection based on convolutional neural network without pre-training[J]. Infrared Technology, 2021, 43(4): 342-348. http://hwjs.nvir.cn/cn/article/id/8142853e-c38f-43ff-8915-4810e1948dc3?viewType=HTML

    [14] 周颖, 颜毓泽, 陈海永, 等. 基于改进YOLOv8的光伏电池缺陷检测[J]. 激光与光电子学进展, 2024, 61(8): 0812008. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202408025.htm

    ZHOU Y, YAN Y Z, CHEN H Y et al. Defect detection of photovoltaic cells based on improved Yolov8[J]. Laser & Optoelectronics Progress, 2024, 61(8): 0812008. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202408025.htm

    [15]

    HOU L, LU K, XUE J, et al. Cascade detector with feature fusion for arbitrary-oriented objects in remote sensing images[C]//IEEE International Conference on Multimedia and Expo, 2020: 1-6.

    [16]

    XU D, WU Y. FE-YOLO: A feature enhancement network for remote sensing target detection[J]. Remote Sensing, 2021, 13(7): 1311. DOI: 10.3390/rs13071311

    [17]

    LIU W, MA L, WANG J, et al. Detection of multiclass objects in optical remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 16(5): 791-795.

    [18]

    HU J, ZHI X, SHI T, et al. PAG-YOLO: a portable attention-guided YOLO network for small ship detection[J]. Remote Sensing, 2021, 13(16): 3059. DOI: 10.3390/rs13163059

    [19]

    CHEN L, SHI W, DENG D. Improved YOLOv3 based on attention mechanism for fast and accurate ship detection in optical remote sensing images[J]. Remote Sensing, 2021, 13(4): 660. DOI: 10.3390/rs13040660

    [20]

    Gevorgyan Z. Siou Loss: More powerful learning for bounding box regression[J]. arXiv, 2022: 2205.12740.

    [21]

    XU Z, XU X, WANG L, et al. Deformable convnet with aspect ratio constrained NMS for object detection in remote sensing imagery[J]. Remote Sensing, 2017, 9(12): 1312-1331. DOI: 10.3390/rs9121312

    [22]

    LI C, LUO B, HONG H, et al. Object detection based on global-local saliency constraint in aerial images[J]. Remote Sensing, 2020, 12(9): 1435-1457. DOI: 10.3390/rs12091435

    [23]

    ZHENG Z, ZHONG Y F, MA A L, et al. HyNet: hyper-scale object detection network framework for multiple spatial resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166: 1-14. DOI: 10.1016/j.isprsjprs.2020.04.019

    [24] 王建军, 魏江, 梅少辉, 等. 面向遥感图像小目标检测的改进YOLOv3算法[J]. 计算机工程与应用, 2021, 57(20): 133-141. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202120016.htm

    WANG J J, WEI J, MEI S H, et al. Improved Yolov3 for small object detection in remote sensing image[J]. Computer Engineering and Applications, 2021, 57(20): 133-141. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202120016.htm

    [25] 张瑶, 潘志松. GP-YOLOX: 无预训练的轻量级红外目标检测模型[J]. 计算机技术与发展, 2022, 32(12): 165-172. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ202212025.htm

    ZHANG Y, PAN Z S. GP-YOLOX: Light-weight infrared object detection model without pre-training[J]. Computer Technology and Development, 2022, 32(12): 165-172. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ202212025.htm

    [26]

    DAI J, QI H, XIONG Y, et al. Deformable Convolutional Networks[C]//IEEE International Conference on Computer Vision (ICCV), 2017: 764-777.

    [27]

    DENG L, GONG Y, LU X, et al. Focus-enhanced scene text recognition with deformable convolutions[C]//Proceedings of the 5th International Conference on Computer and Communications, 2019: 1685-1689.

    [28]

    XI W, SUN L, SUN J. Upgrade your network in-place with deformable convolution[C]//Proceedings of the 19th International Symposium on Distributed Computing and Applications for Business Engineering and Science, 2020: 239-242.

    [29]

    LIN T, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI: 10.1109/TPAMI.2018.2858826

    [30]

    RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery: A small target detection benchmark[J]. Journal of Visual Communication and Image Representation, 2016, 32(1): 187-203.

  • 期刊类型引用(8)

    1. 李明超,闫宽,张聪,胡记伟,欧锴,陈绪兵. 用于激光软钎焊温度测量的高精度红外辐射测温装置. 红外技术. 2025(01): 108-114 . 本站查看
    2. 秦沛强,聂传杰,吝曼卿,卢永雄,张岸勤,何家冰. 磷矿巷道岩爆风险的可视化及特征增强研究. 矿业研究与开发. 2025(02): 123-131 . 百度学术
    3. 李贞,魏勇. 基于BP神经网络的红外测温补偿算法研究. 机械制造与自动化. 2023(01): 170-172+176 . 百度学术
    4. 曾飞,胡文祥,高彦鑫,宋杰杰. 基于激光扫描的输送带横向跑偏检测系统. 制造业自动化. 2023(05): 21-24 . 百度学术
    5. 杨帆,徐军,吴振生,孙明晓,金添. 基于Web端多节点红外热成像传感系统设计. 激光杂志. 2022(02): 154-157 . 百度学术
    6. 何翔. 非接触式检测装置综合实验设计. 电子技术与软件工程. 2022(07): 148-151 . 百度学术
    7. 谢彬棽. 基于双CAN总线的露天矿带式输送机速度自动化控制方法. 煤矿机械. 2022(12): 214-217 . 百度学术
    8. 武存喜. 回转窑焚烧设备退火温度模糊自适应控制技术. 工业加热. 2022(12): 27-31 . 百度学术

    其他类型引用(2)

图(9)  /  表(3)
计量
  • 文章访问数:  282
  • HTML全文浏览量:  166
  • PDF下载量:  106
  • 被引次数: 10
出版历程
  • 收稿日期:  2023-08-29
  • 修回日期:  2023-09-27
  • 网络出版日期:  2024-05-23
  • 刊出日期:  2024-05-19

目录

/

返回文章
返回