基于改进YOLOv5的水下废弃物红外检测算法

高永奇, 袁志祥

高永奇, 袁志祥. 基于改进YOLOv5的水下废弃物红外检测算法[J]. 红外技术, 2024, 46(9): 994-1005.
引用本文: 高永奇, 袁志祥. 基于改进YOLOv5的水下废弃物红外检测算法[J]. 红外技术, 2024, 46(9): 994-1005.
GAO Yongqi, YUAN Zhixiang. Improved YOLOv5-based Underwater Infrared Garbage Detection Algorithm[J]. Infrared Technology , 2024, 46(9): 994-1005.
Citation: GAO Yongqi, YUAN Zhixiang. Improved YOLOv5-based Underwater Infrared Garbage Detection Algorithm[J]. Infrared Technology , 2024, 46(9): 994-1005.

基于改进YOLOv5的水下废弃物红外检测算法

基金项目: 

国家自然科学基金 61806005

安徽高校协同创新项目 GXXT-2020-012

安徽省高校科学研究重点项目 KJ2021A0373

详细信息
    作者简介:

    高永奇(1999-),男,硕士研究生,研究方向为计算机视觉、目标检测。E-mail:gyqgaoyongqi@foxmail.com

    通讯作者:

    袁志祥(1973-),男,副教授,研究方向为机器学习、Petri网理论。E-mail:zxyuan@ahut.edu.cn

  • 中图分类号: X52;TN219;TP391.41

Improved YOLOv5-based Underwater Infrared Garbage Detection Algorithm

  • 摘要:

    针对水下废弃物红外目标检测中出现的检测目标边界细节模糊、图像质量低和存在各种不规则形状或损坏的覆盖物等问题,本文提出了一种基于YOLOv5的改进目标检测方法(EFDCD-YOLO)。在主干网络中选择InceptionNeXt网络,以增强模型的表达能力和特征提取能力。其次,在特征融合层中通过加入EffectiveSE注意力机制,自适应地学习特征通道的重要性,并进行选择性加权。采用可变形卷积替代原模型中的C3模块,使模型能够更好地感知目标的形状和细节信息。此外,将CARAFE算子替代上采样模块,增强对细粒度特征的表现能力,避免信息丢失。在损失函数方面,采用Focal-EIOU损失函数,以提高模型对目标定位和边界框回归的准确性。最后,引入DyHead替换YOLOv5中的头部,通过动态感受野机制和多尺度的特征融合方式,提升模型的准确性。将改进后的EFDCD-YOLO模型应用于水下废弃物红外目标检测,相比于YOLOv5模型,改进后的模型在准确率(P)、召回率(R)和平均精度(mAP)方面分别提升了21.4%、9.7%和13.6%。实验结果表明,EFDCD-YOLO能够有效地提升水下废弃物红外目标检测场景的性能,更好地满足水下废弃物红外目标检测的需求。

    Abstract:

    An improved object detection method (YOLO with EffectiveSE, Focal-EIOU, DCNv2, CARAFE, and DyHead) is proposed based on YOLOv5 to address issues in underwater waste infrared target detection, such as blurred boundary details, low image quality, and the presence of various irregular or damaged coverings. The InceptionNeXt network is selected as the backbone network to enhance the model's expressive power and feature extraction capability. Additionally, the EffectiveSE attention mechanism is introduced in the feature fusion layer to adaptively learn the importance of feature channels and selectively weight them. Deformable convolutions are used to replace the C3 module in the original model, enabling it to better perceive the shapes and details of the targets. Moreover, the CARAFE operator is employed to replace the upsampling module, thereby enhancing the representation ability of the fine-grained features and avoiding information loss. In terms of the loss function, the Focal-EIOU loss function is adopted to improve the accuracy of the model in target localization and bounding box regression. Finally, DyHead is introduced to replace the head of YOLOv5, thereby enhancing the model accuracy via dynamic receptive field mechanisms and multiscale feature fusion. The improved EFDCD-YOLO model is applied to underwater waste infrared target detection and compared to the YOLOv5 model. The model achieves a 21.4% improvement in precision (P), 9.7% improvement in recall (R), and 13.6% improvement in mean average precision (mAP). The experimental results demonstrate that EFDCD-YOLO effectively enhances the detection performance in underwater waste infrared target detection scenarios and effectively meets the requirements of underwater infrared target detection.

  • 随着计算机技术的进步,自动化控制的相关研究得到了空前发展。自动化技术推动了生产关系的变革,解放发展了生产力[1]。传统的拉曼光谱仪光路控制系统需要光栅进行分段式转动控制,操作复杂精度不好控制,且无法实现激光波长的连续在线可调[2],本文设计出一种光路自动化控制系统,该系统避免了由于实验人员人工调节引入的误差,具有应用广泛、稳定可靠、高精度、抗干扰能力强等特点。

    步进电机凭借其成本较低、控制方法简单等优点,被广泛应用在自动化控制领域中[3]。通过给定不同频率的脉冲以及不同数量的脉冲数,可以改变电机运转速度和电机旋转角度。结合步进电机驱动器,也可以更改电机旋转角度。对于电机控制的研究中,由于其稳定又简易,大多数研究均采用开环系统[4-7]。但是,电机的开环设计对于控制升降台的移动是有局限性的。首先,升降台上升与下降是有固定量程的,如果升降台偏移位置超出量程范围,则会发生电机堵转现象;其次,当电机高速运转时,会发生“丢步”现象,导致脉冲数与电机旋转角度不符,长此以往下去,会造成控制系统的不稳定,形成累计误差。

    针对上述问题,本文设计一种多光路自动控制系统,该系统能够解决传统的人工调节光路位置存在的精度低等问题,并设计了良好的人机交互功能,更加便捷地控制光路位置。本系统所包含功能如下:闭环自检、光路接入、升降台复原、堵转限位值预设、毫米级位移微调和堵转预警等。

    本文设计的激光拉曼光谱仪光路自动化控制系统示意图如图 1所示。它主要由脉冲生成模块、定时器模块、步进电机、步进电机驱动器、升降台、压力传感器以及MC9S12XEP100主控板等部分组成。本设计采用MC9S12XEP100作为核心控制器,负责整个系统调度。首先,主控器通过脉冲信号、方向信号、使能信号等控制步进电机驱动器从而驱动电机运转;此外,压力传感器信号作为一种闭环反馈信息提供给主控器用于闭环自检功能;最后,上位机部分通过SCI串口通信、蓝牙模块通信等实现顶层应用对底层硬件的控制,更加便捷地实现光路控制。

    图  1  多光路自动化控制系统示意图
    Figure  1.  Block diagram of multi-optical automatic control system

    光路控制系统的基本工作原理为:通过数学建模将步距角、脉冲数、细分系数与升降台位移之间建立联系,即通过改变电机旋转角度从而控制升降台的纵向位移。上述只是开环的电机控制系统,虽然已满足大多数电机控制系统,但是为了确保系统的稳定性与高精度,本文采用闭环和堵转预警的方式来保障系统工作的稳定性。闭环自检是通过压力传感器实现,每次接入光路之前,升降台都要进行一个闭环自检操作,从而避免实际操作过程中由于断电造成升降台无法复原的现象发生,确保每次接入光路前初始位置相同;堵转预警功能是通过计数单向移动的最大脉冲数,当该数量到达一定阈值之后,则停止滑动升降台,起到了堵转预警的作用。此外,为了实现对升降台更为精准的控制,增设微调位移1 mm功能,该功能也是通过PWM(Pulse Width Modulation)与定时器实现。最后,通过CAN(Controller Area Network)总线串口通信模块、蓝牙模块可实现上位机与主控板的通信,从而更加便捷地进行光路控制。

    多光路自动化控制系统原理图如图 2所示,主要包括PWM脉冲生成模块、ECT(Enhanced Capture Timer Module)定时器模块、压力传感器闭环检测模块、人机交互模块等。

    图  2  多光路自动化控制系统原理图
    Figure  2.  Operation block diagram of multi-optical automatic control system

    图 2可知,首先初始化PWM模块和定时器模块,该模块负责提供特定频率的脉冲信号作为步进电机控制器的脉冲信号输入;设定主控制器的某个引脚作为输出端,通过向该引脚赋值来决定步进电机旋转方向;步进电器驱动器负责为步进电机输出稳定电流,并通过细分系数以及输入其内部的脉冲信号控制电机旋转方向和旋转速度;步进电机通过联轴器连接升降台,此部分可将旋转角度转换为纵向位移,即角度旋转带动升降台滑动。

    步进电机是控制系统中常见的控制部件,由步进电机驱动器驱动。步进电机的转速由脉冲频率和驱动器细分系数共同决定;步进电机转角由脉冲数决定。步进电机的一个关键参数是步距角θs[8],用于表示给定一个脉冲信号,步进电机转角度数。本设计采用步距角θs为1.8°的42HBD40BJ4步进电机,步进电机转速与脉冲频率、细分系数关系如公式(1)所示:

    $$ w = f \times 60/\left( {\frac{{360^\circ }}{{{\theta _{\rm{s}}}}} \times x} \right) $$ (1)

    式中:w表示电机转速,r/min;f表示脉冲频率;θs表示步距角;x表示细分系数,由步进电机驱动器的拨码开关决定。由公式可知,电机转速由脉冲频率、步距角、细分系数共同决定。当电机选择完毕后,步距角就固定不变了,所以转速最终只与脉冲频率与细分系数有关。在本设计中,设定脉冲频率为50 Hz,细分系数为2。

    电机通过联轴器与升降台直接相连,连接示意图如图 3所示。当电机旋转一周之后。对应升降台会发生10 mm的偏移量∆x10mm。所以转化的对应关系如公式(2)所示。

    图  3  电机、联轴器、升降台
    Figure  3.  Motor, coupling, lifting table
    $$ 200{\rm{pulse}} \to 360^\circ \to \Delta {x_{10{\rm{mm}}}} $$ (2)

    式中:表明给定电机驱动器200个脉冲,电机会旋转1周,通过联轴器带动升降台发生10 mm的位移偏移。

    步进电机驱动器负责驱动电机运行,通过输入脉冲数量、频率、细分系数改变电机转速、转角;通过改变拨码开关改变驱动电流。根据步进电机工作电流设定拨码开关S4、S5、S6,本实验采用的电机驱动电流为1.5 A,故拨码开关分别设定为ON/ON/OFF,拨码开关S4、S5、S6负责控制细分系数,本实验测试了细分系数与电机转速、升降台位移的对应关系,具体细节见实验结果部分。

    步进电机驱动器与电机的连接电路如图 4所示。本文采用共阳极接法,将公共端接入VCC,脉冲信号通过PWM引脚输出来控制,DIR(DIRECTION)通过主控板对应引脚来控制。步进电机的驱动电流为1.5 A,细分系数为2,控制电机低速运转。

    图  4  电路接线方法
    Figure  4.  Circuit wiring method

    本实验通过压力传感器来实现闭环自检功能,压力传感器如图 5所示。采用FSR(Forse Sensing Resistor)膜压力传感器,可以将施加在FSR传感器薄膜区域的压力转换为电阻值的变化,从而获得压力信息。当升降台下降时会和底部发生撞击,压力传感器可以检测到底部撞击,通过改变运动方向向上滑动到预设好的位置,即可实现闭环自检功能。

    图  5  FSR薄膜压力传感器
    Figure  5.  FSR thin film pressure sensor

    由于薄膜区域厚度很薄,且不会产生形变。故当升降台撞击薄膜片时,不会产生行程差,这样更加有利于高精度升降台的位置偏移。

    该传感器会产生一个模拟信号输出VO,一个高低电平输出DO。当检测到压力时,该模块DO引脚会输出高电平,发光二极管导通发亮。与XEP100主控板结合起来时,可以通过检测引脚电平,来判断是否发生碰撞。当主控器检测到引脚出现高电平时,方向端信号就发生改变,从而使得升降台复位,实现闭环自检功能。

    由于实际工程需求,需要设计多光路自动化控制系统。光路1、光路2、光路3实现的功能一样,仅需要设计算法来实现多光路自动化控制。由于PWM模块存在8个独立的通道输出PWM波,所以额外初始化两个PWM波作为光路2、光路3的脉冲信号源即可。采用同一定时器为不同脉冲波计数,PWM波输出频率由内部相关寄存器控制。计算公式如下所示:

    $$ {{\rm{PLCLK}} = 2 \times {\rm{OSCCLK}} \times ({\rm{SYNR}} + 1)/({\rm{REFDV}} + 1)} $$ (3)
    $$ {{\rm{FBUS}} = {\rm{PCCLK}}/2} $$ (4)
    $$ {f_{{\rm{SA}}}} = \frac{{{f_{\rm{A}}}}}{{2 \times ({\rm{PWMSCLA}})}} $$ (5)
    $$ {f_{{\rm{PWM}}}} = \frac{{{f_{{\rm{SA}}}}}}{{{\rm{PWMPERx}}}} $$ (6)

    式中:OSCCLK表示晶振频率,通过锁相环倍频后得到系统总线频率为32 MHz,通过一系列寄存器设定,如PWMSCLA、PWMPERx等,最终PWM波的输出频率控制在50 Hz。

    采用ECT定时器对PWM的输出进行计数,即可实现对电机转速和转角的精准控制。在ECT定时器的设定中,首先设定定时器周期,TSCR2寄存器设为0x07,表示对系统时钟进行128分频,如式(7)所示:

    $$ T = \frac{1}{f} = \frac{1}{{{f_{{\rm{bus}}}}/128}} = \frac{1}{{32{\rm{MHz}}/128}} = 4\;{\rm{ \mathsf{ μ} s}} $$ (7)

    此时,定时器计数一次会耗时4 μs,设定TC0初始值为TCNT+62500,此时,当定时器溢出时,时钟计时0.25 s。当程序控制ECT定时器循环4次,即可计时1 s。

    此时可有如下对应关系:定时器计时1 s,主控器产生50个脉冲,电机旋转90°,升降台上升2.5 mm。多光路控制系统主体算法流程框图如图 6所示。

    图  6  主体算法框图
    Figure  6.  Main algorithm block diagram

    本文创新性的采用压力传感器作为闭环自检的核心部件,通过压力传感器检测压力信号从而检测升降台是否触底。由于传感器薄膜仅仅存在可忽略不计的微小形变,所以不会造成行程误差。在自检模式下,主控板会实时监测压力传感器DO端的电平变化,当检测到高电平时,主控板会控制升降台向相反方向移动,由于底部到平衡位置的行程固定不变,通过公式计算,即可求出需要的PWM脉冲的数量。闭环自检功能的程序流程图如图 7所示。

    图  7  闭环自检功能算法框图
    Figure  7.  Closed-loop self-check function algorithm block diagram

    算法实现步骤如下:

    步骤1:选择光路,使能对应PWM脉冲源,分频对应PWM脉冲源,通过设定对应的使能位PWMEx、分频系数位PWMCLK寄存器实现。

    步骤2:主控器实时检测压力传感器输出端引脚D0,当引脚电平为低电平时,执行步骤3,否则,执行步骤4。

    步骤3:控制方向端DIRx=1,控制升降台向下移动,并执行步骤2,实时检测传感器输出端D0状态。

    步骤4:此时控制电机方向端DIRx=0,使电机向上运动。通过提前标定好平衡位置与压力传感器的距离,从而计算ECT定时器需定时的脉冲个数,完成闭环自检功能,计算公式如下所示:

    $$ {N_x} = \frac{{{d_x}}}{{{d_T}}} \times {N_{{\rm{pulse}}}} $$ (8)
    $$ {t_x} = \frac{{{d_x}}}{{{d_T}}} \times {T_{{\rm{pulse}}}} $$ (9)

    式中:dx表示平衡位置相对于压力传感器的纵向距离;dT表示电机运转一周期升降台的位移变化;Npulse表示电机运转一周所需的脉冲数;Tpulse表示电机运转一周所需要的时间;通过上述公式可以计算出升降台复位所需的定时器时间tx以及脉冲数Nx,通过设定定时器寄存器中TC0初值,即可实现闭环自检功能。首先需要清除定时器标志位,并对定时器赋初值,判断定时器是否溢出,若溢出,则执行步骤5,否则循环计时。

    步骤5:判断是否达到步骤4中的预设值dx,达到预设值之后则闭环自检功能结束,否则执行步骤4。

    此外,由于升降台的量程在±35 mm范围内,所以需要设计堵转预警功能,以防电机发生堵转问题。通过设定全局变量count来计数向上、向下运行时的脉冲数量,由于脉冲数量与升降台位移存在数学对应关系,通过设定全局变量count与预设阈值的大小关系即可。

    图 8为电脑端人机交互控制界面,所设计的控制软件能满足自动化控制的基本需求,主要功能包括光路选择、设定转速、设定脉冲数(堵转限位值)、光路的上升与下降、光路自检等功能,图中右侧可实时反馈各光路实际测量值,通过CAN总线实现上位机与下位机的通信,实现数据的接收与实时显示。本文实验均在此软件下开展的,良好的人机交互便于实验数据的记录与实验现象的观察。

    图  8  上位机人机交互界面
    Figure  8.  Host computer man-machine interface

    由于多光路控制系统涉及到三路光的自动化控制,所以引脚连线略显复杂,主要涉及到步进电机、步进电机驱动器、压力传感器、PWM输出端与主控板引脚的连接。表 1记录主控制器各引脚功能及连线。

    表  1  主控制器引脚功能
    Table  1.  Main controller pin function
    PIN Function Connection
    PB1 Serial Indicator1 -
    PB2 Serial Indicator2 -
    PB3 Serial Indicator3 -
    PK4 Control the direction of motor1 Direction end of stepper motor driver 1
    PB7 Main control board monitors the pressure
    signal 1
    D0 end of pressure sensor 1
    PA0 Stepper motor driver 2 common anode PULSE+ of driver2
    PA2 Stepper motor driver 2 common anode DIR+ of driver2
    PA4 Stepper motor driver 2 common anode ENA+ of driver2
    PA6 Direction control of stepping motor 2 DIR- of driver2
    PE2 Main control board monitors the pressure
    signal 2
    D0 of pressure sensor 2
    PA1 Stepper motor driver 3 common anode PULSE+ of driver23
    PA3 Stepper motor driver 3 common anode DIR+ of driver23
    PA5 Stepper motor driver 3 common anode ENA+ of driver23
    PA7 Direction control of stepping motor 3 D0 of pressure sensor 3
    PE4 Main control board monitors the pressure
    signal 3
    D0 of pressure sensor 3
    P1 PWM output pin 1 PULSE- of driver1
    P3 PWM output pin 3 PULSE- of driver2
    P5 PWM output pin 5 PULSE- of driver3
    TX0 Serial communication receiver Connect with the receiving end of
    communication interface
    RX0 Serial communication receiver Connect with the receiving end of
    communication interface
    下载: 导出CSV 
    | 显示表格

    1)闭环自检

    实验设定通过改变升降台初始位置,来观察闭环自检功能的稳定性,为了全面验证闭环自检功能的性能,实验设定了10组不同的起始位置数据,其中5组数据位于平衡位置之上,5组数据位于平衡位置之下,记录自检完成后升降台的最终位置。实验记录如表 2所示。

    表  2  闭环自检测量结果
    Table  2.  Closed-loop self-test results  mm
    Numbers Start Theory Test
    1 70.0 35.0 35.0
    2 58.0 35.0
    3 51.0 35.0
    4 43.0 35.0
    5 38.0 35.0
    6 31.0 35.0
    7 25.0 35.0
    8 21.0 35.0
    9 18.0 35.0
    10 9.0 35.0
    Average 36.4 35.0
    下载: 导出CSV 
    | 显示表格

    2)方向端、细分系数和脉冲数与位移的对应关系

    该实验验证方向端信号、细分系数、脉冲数与升降台的位移关系,从而验证本文中数学建模的准确性。实验记录结果如表 3所示,其中+/-表示相对于平衡位置上升/下降的位移。

    表  3  实验测量结果
    Table  3.  Experimental measurement results  mm
    Direction Coef Numbers Distance
    1 1 200 +10.0
    1 2 200 +5.0
    1 4 200 +2.5
    1 8 200 +1.2
    1 32 200 +0.6
    0 1 50 -2.5
    0 1 100 -5.0
    0 1 200 -10.0
    0 1 300 -15.0
    0 1 400 -20.0
    下载: 导出CSV 
    | 显示表格

    本文设计了多光路自动化控制系统,解决了传统的激光拉曼光谱仪光路控制系统操作复杂精度不好控制,且无法实现激光位置的连续在线可调的问题;此外,本文提出了一种基于薄膜压力传感器的闭环自检方法,该方法能够解决系统突然断电时的升降台复原问题,从而确保每次接入光路时起始位置一致,保障系统稳定性;毫米级位移微调操作使得光路控制更加便利;堵转预警部分中,当升降台偏移超出量程位置时,升降台会自动停止,该部分可以有效避免电机堵转现象的发生,同时也对电机、升降台起到了一定的保护作用;堵转限位值预设功能,可精确控制升降台定位点。在应用端部分,该控制系统不仅可以通过功能按键控制,也可以通过CAN总线与电脑终端通信,能够实现电脑端APP实时监测实验数据,进一步拓宽了该光路控制系统的应用场景。

  • 图  1   InceptionNeXt网络结构

    Figure  1.   InceptionNeXt network structure

    图  2   EffectiveSE模块结构

    Figure  2.   EffectiveSE module structure

    图  3   EIOU模块结构

    Figure  3.   EIOU module structure

    图  4   可变形卷积示意图

    Figure  4.   Deformable convolutional network sketch map

    图  5   DyHead模块结构

    Figure  5.   DyHead module structure

    图  6   EFDCD-YOLO网络结构

    Figure  6.   EFDCD-YOLO network structure

    图  7   Trash-ICRA19数据集

    Figure  7.   Trash-ICRA19 Dataset

    图  8   mAP曲线对比

    Figure  8.   mAP curves comparison

    图  9   P-R曲线对比

    Figure  9.   P-R curves comparison

    图  10   注意力对比热力图

    Figure  10.   Attention comparison heat chart

    图  11   模型效果对比

    Figure  11.   Comparison of model effects

    表  1   实验环境配置

    Table  1   Experimental environment configuration

    Configuration item Configuration item parameter
    CPU Intel(R)Core(TM)i9-10900X
    CPU@3.70GHz
    GPU NVIDIA RTX2080ti
    Graphics card 12G
    OS version Ubuntu20.04
    CUDA 10.2
    Compiling environment Python3.8+Pytorch1.12.1
    下载: 导出CSV

    表  2   替换主干网络实验

    Table  2   Replacing the backbone network experiment

    mAP/% GFLOPs/G Params/M
    CSPDarknet53 43.8 15.8 7.0
    InceptionNeXt 53.0(+9.2) 75.2 32.2
    下载: 导出CSV

    表  3   添加注意力机制实验

    Table  3   Add attention mechanism experiment

    mAP/% GFLOPs/G Params/M
    BaseLine 53.0 75.2 32.2
    CoordAttention+ 53.2(+0.2) 75.2 32.2
    GAM+ 53.6(+0.6) 107.9 42.4
    SGE+ 53.6(+0.6) 75.1 32.2
    BiFormer+ 55.0(+2.0) 139.6 33.8
    EffectiveSE+ 55.0(+2.0) 75.4 32.6
    下载: 导出CSV

    表  4   损失函数改进实验

    Table  4   Improvement experiment of loss function

    mAP/% GFLOPs/G Params/M
    BaseLine 55.0 75.4 32.6
    SIOU+ 55.0(+0.0) 75.4 32.6
    WIOU+ 55.0(+0.0) 75.4 32.6
    DIOU+ 55.6(+0.6) 75.4 32.6
    FocalEIOU+ 55.7(+0.7) 75.4 32.6
    下载: 导出CSV

    表  5   添加DCNv2、CARARE和DyHead的实验结果

    Table  5   Add DCNv2, CARARE, and DyHead experiment results

    DCNv2 CARAFE DyHead mAP/% GFLOPs/G Params/M
    - - - 55.7 75.4 32.6
    55.8(+0.1) 74.0 32.7
    55.9(+0.2) 75.8 32.7
    56.4(+0.7) 76.2 32.8
    55.8(+0.1) 74.3 32.9
    56.5(+0.8) 74.8 33.0
    57.3(+1.6) 76.5 33.0
    57.4(+1.7) 75.0 33.2
    下载: 导出CSV

    表  6   对比实验

    Table  6   Comparative experiment

    P/% R/% mAP/% GFLOPs/G Params/M
    YOLOv5-
    LeakyReLU
    59.8 34.9 38.0 15.8 7.02
    YOLOv5-
    transformer
    46.3 40.7 40.1 15.6 7.02
    PP-YOLO 56.8 44.5 46.5 16.1 12.3
    YOLO-Ghost 57.8 46.1 46.7 8.0 3.68
    YOLOv5 43.8 44.0 43.8 15.8 7.02
    YOLOv7 45.2 53.2 51.8 103.2 36.5
    YOLOv8 51.0 44.4 47.9 78.7 25.8
    EFDCD-
    YOLO
    65.2 53.7 57.4 75.0 33.2
    下载: 导出CSV
  • [1]

    Schechner Y Y, Narasimhan S G, Nayar S K. Instant dehazing of images using polarization[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2001, 1: Ⅰ-Ⅰ.

    [2]

    Bazeilles, Quidui, Jaulinl. Identification of underwater man-made object using a colour criterion[J]. Proceedings of the Insitute of Acoustics, 2007, 29(6): 25-52.

    [3]

    LI C Y, GUO J C, CONG R M, et al. Underwater image enhancement by dehazing with minimum information loss and histogram distribution prior[J]. IEEE Transactions on Image Processing, 2016, 25(12): 5664-5677. DOI: 10.1109/TIP.2016.2612882

    [4]

    Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

    [5]

    Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.

    [6]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

    [7]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

    [8]

    LIU W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//Computer Vision–ECCV, 2016: 21-37.

    [9] 陈鑫林. 基于深度学习的水下垃圾检测[D]. 贵阳: 贵州师范大学, 2022.

    CHEN Xinlin. Underwater Garbage Detection Based on Deep Learning [D]. Guiyang: Guizhou Normal University, 2022.

    [10] 袁红春, 臧天祺. 基于注意力机制及Ghost-YOLOv5的水下垃圾目标检测[J]. 环境工程, 2023, 41(7): 214-221. DOI: 10.13205/j.hjgc.202307029.

    YUAN Hongchun, ZANG Tianqi. Underwater garbage target detection based on attention mechanism and Ghost-YOLOv5[J]. Environmental Engineering, 2023, 41(7): 214-221. DOI: 10.13205/j.h JGC.202307029.

    [11]

    JIANG H, Learned Miller E. Face detection with the faster R-CNN[C]//12th IEEE International Conference on Automatic Face & Gesture Recognition, 2017: 650-657.

    [12]

    CAI Z, Vasconcelos N. Cascade R-CNN: High quality object detection and instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(5): 1483-1498.

    [13]

    ZHOU X, WANG D, Krähenbühl P. Objects as points[J]. arXiv preprint arXiv: 1904.07850, 2019.

    [14] 吕晓倩. 基于Faster R-CNN的水下目标检测方法研究与实现[D]. 哈尔滨: 哈尔滨工业大学, 2019.

    LYU Xiaoqian. Research and Implementation of Underwater Target Detection Method Based on Faster R-CNN [D]. Harbin: Harbin Institute of Technology, 2019.

    [15] 王蓉蓉, 蒋中云. 基于改进CenterNet的水下目标检测算法[J]. 激光与光电子学进展, 2023, 60(2): 239-248.

    WANG Rongrong, JIANG Zhongyun. Underwater target detection algorithm based on improved CenterNet[J]. Progress in Laser and Optoelectronics, 2023, 60(2): 239-248.

    [16]

    YU W, ZHOU P, YAN S, et al. Inceptionnext: When inception meets convnext[J]. arXiv preprint arXiv: 2303.16900, 2023.

    [17]

    Lee Y, Park J. Centermask: Real-time anchor-free instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 13906-13915.

    [18]

    ZHANG Y F, REN W, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157. DOI: 10.1016/j.neucom.2022.07.042

    [19]

    WANG R, Shivanna R, CHENG D, et al. DCN v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems[C]//Proceedings of the Web Conference, 2021: 1785-1797.

    [20]

    WANG J, CHEN K, XU R, et al. Carafe: Content-aware reassembly of features[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 3007-3016.

    [21]

    DAI X, CHEN Y, XIAO B, et al. Dynamic head: Unifying object detection heads with attentions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 7373-7382.

    [22]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

    [23]

    Fulton M, HONG J, Islam M J, et al. Robotic detection of marine litter using deep visual detection models[C]//International Conference on Robotics and Automation (ICRA). IEEE, 2019: 5752-5758.

    [24]

    HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.

    [25]

    LIU Y, SHAO Z, Hoffmann N. Global attention mechanism: retain information to enhance channel-spatial interactions[J]. arXiv preprint arXiv: 2112.05561, 2021.

    [26]

    ZHU L, WANG X, KE Z, et al. BiFormer: vision transformer with bi-level routing attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 10323-10333.

    [27]

    LI X, HU X, YANG J. Spatial group-wise enhance: Improving semantic feature learning in convolutional networks[J]. arXiv preprint arXiv: 1905.09646, 2019.

    [28]

    ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.

    [29]

    Gevorgyan Z. SIoU loss: More powerful learning for bounding box regression[J]. arXiv preprint arXiv: 2205.12740, 2022.

    [30]

    TONG Z, CHEN Y, XU Z, et al. Wise-IoU: bounding box regression loss with dynamic focusing mechanism[J]. arXiv preprint arXiv: t2301.10051, 2023.

图(11)  /  表(6)
计量
  • 文章访问数:  77
  • HTML全文浏览量:  9
  • PDF下载量:  23
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-09-26
  • 修回日期:  2023-12-12
  • 刊出日期:  2024-09-19

目录

/

返回文章
返回