Infrared Thermal Imaging Low-Resolution and Small Pedestrian Target Detection Method
-
摘要: 红外热成像图像的目标检测中,针对低分辨率小目标检测效果差、复杂尺度目标检测率低等问题,提出一种基于改进YOLOv5的红外低分辨率目标检测算法。选用LLVIP红外数据集,通过引入不同注意力机制来对比检测效果。选用效果最佳的注意力机制,改进目标检测网络的损失函数提高对小目标的检测率。利用TiX650热成像仪采集小目标图像样本对原数据集进行优化采样和增广,分别使用改进前后的YOLOv5网络进行训练。从模型训练结果和目标检测结果评估模型的性能提升,实验结果表明:相较于原始训练模型,改进后YOLOv5的训练模型,在红外成像的同一场景中对低分辨率小目标的检测精度上有明显提升,且漏检率低。Abstract: In the target recognition of infrared thermal imaging images, a detection algorithm based on improved YOLOv5 for infrared low-resolution targets was proposed to address the poor detection of low-resolution small targets and low detection rate of complex-scale targets. The LLVIP infrared dataset was selected and the detection effect was compared by introducing different attention mechanisms. The attention mechanism with the best effect was selected to improve the loss function of the target detection network and improve the detection rate of small targets. A TiX650 thermal imager was utilized to acquire small target image samples for optimal sampling and broadening of the original dataset, and the YOLOv5 network was trained using the improved before and after, respectively. The performance improvement of the model was evaluated from the model-training and target detection results, and the experimental results demonstrate that compared with the original training model, the improved YOLOv5 training model has a significant improvement in the detection accuracy of low-resolution small targets in the same scene of infrared imaging and exhibits a low miss detection rate.
-
Keywords:
- YOLOv5 /
- infrared imaging /
- low-resolution small target /
- attention mechanism
-
0. 引言
在安防监控领域,夜间的目标检测是一个重要问题,传统以照明与微光夜视的方法为主。这些方法易受到光源强度,空气湿度变化,障碍物遮挡等环境条件影响,探测距离有限,效果不佳。由于可见光检测的效果较差,运用红外热成像设备对目标进行拍摄并检测的方法具有很大的优势。红外光谱可以使用仪器在一定波段内检测出来,其不依赖光源且受天气影响较小,探测距离远,适合于对夜间目标的检测[1],具有很高的实际应用价值。目前,广泛使用的红外热成像设备具有成像,热点跟踪等功能,但对于夜间目标检测的智能化程度较低。
随着深度学习技术的快速发展,卷积神经网络在计算机视觉领域取得显著成果[2]。其在目标检测上的准确率和效率均高于传统滤波检测方法[3],但是很少用于红外小目标检测。Zhao M.等提出了一种新型轻量级卷积神经网络TBC-Net(Target, Background and Class Unity Loss-Function Network),用于改善红外复杂背景的小目标检测[4]。Wang等提出了一种基于GAN的目标特征自动学习网络,提高了对红外小目标检测结果的准确度[5]。单阶段目标检测算法SSD[6]、YOLO系列[7-8]等拥有更快的检测速度,其原理是将目标位置转化为回归问题,同时预测类别和位置。YOLO系列已经发展到YOLOv5,它结合了以前版本的优势,并提供了更高的探测速度和准确性,更适用于实时监控情况下的目标检测[9-10]。
为了提高对网络低分辨率行人小目标的检测性能,需对YOLOv5的网络结构进行改进。因此本文在YOLOv5s网络的基础结构上,针对红外图像中的低分辨率小目标检测的特点,通过引入注意力机制与改进目标检测网络的损失函数来提高对小目标的检测率。此方法能大幅改进对红外图像中小目标的检测效果,并且不增加冗余的计算量,实时性好,具有较高的工程应用价值。
1. 方案架构
该方案的总体方法架构主要分为4个部分,具体分为:①对比现有红外图像数据集;②使用仪器实时采集红外图像并对原数据集进行优化;③改进YOLOv5并对图像目标进行训练;④对比原模型和改进模型的检测结果。方案架构如图 1所示。
训练红外图像数据集通过网络收集,拟选用弱光照下的行人的红外图像数据集。测试红外热成像图像由Fluke公司的热成像数码相机TiX650完成拍摄,图像格式需要通过专业软件SmartView R & D导出为JPG、PNG等通用格式,以便YOLOv5网络读取热成像图像并进行处理。预处理环节主要作用在于在软件中将较为模糊的图像锐化,将图像的成像温度参数区间设置为统一标准,以提高图像的对比度。使用LabelImg软件对拍摄的640×480像素的图像中所有的像素面积大于8×8行人打上标记。通过添加注意力机制以及修改损失函数等方法对原始网络的检测精度进行改进,最终将改进前后的检测效果进行对比分析,从而得到结论。
2. 数据集
训练数据集使用朱创、贾新宇等人的“LLVIP: A Visible-infrared Paired Dataset for Low-light Vision”一种用于低光视觉的可见-多帧配对数据集[11]。该数据集是一个公开数据集,数据集包含在26个不同固定场景下拍摄的15488对图像中的红外图像,采集波段为8~14 μm,其中绝大部分是在弱光场景中拍摄的,所有图像在时间和空间上严格对齐。图像之间具有连续性,其中的行人均已打上标记。
如表 1,对比现有的用于各种视觉任务的红外数据集,LLVIP数据集具有图像质量高,包含有大量带有注释的行人,图像处于弱光条件下拍摄,更具有实际使用价值等优点。同时,也存在人物大多为中等大小不适合用于长距离小目标行人检测研究的缺点。
表 1 红外数据集对比[9]Table 1. Comparison of infrared datasetsNumber of image pairs
(1 frame selected per second)Resolution Aligned Camera angle Low-light Pedestrian TNO 261 768×576 √ shot on the ground few few INO 2100 328×254 √ surveillance √ few OSU 285 320×240 √ surveillance × √ CVC-14 849 640×512 × driving √ √ KAIST 4750 640×480 √ driving √ √ FILR 5258 640×512 × driving √ √ LLVIP 15488 1080×720 √ surveillance √ √ 为了提高检测对小目标的检测率,采用在原LLVIP数据集中的每个场景选取150张图片,共3900张。并加入由红外成像仪拍摄的含有大量多尺寸行人目标的数据,对原始数据集进行优化调整。采用TiX650红外热成像仪拍摄采集波段同为8~14 μm,成像范围在20℃~34℃的256位白热图像。将其中较为模糊的图像利用SmartView R & D软件的高斯滤波器锐化,增强其细节特征的同时,不会丢失图像的低频成分。最终的优化数据集为3900张LLVIP红外数据集和356张增广数据集的融合数据集,数据集对比见表 2。按照训练集比验证集9:1的构成随机选取,测试集则采用另外拍摄的连续视频图像。
表 2 LLVIP对比优化数据集Table 2. Comparison LLVIP with optimized datasetNumber of images Resolution Aligned Camera angle Low-light Pedestrian Original 15488 1080×720 √ surveillance √ √ Sampling 3900 1080×720 √ surveillance √ √ Addition 356 640×480 √ shot on the ground √ √ 3. 改进目标检测算法
基于人工智能深度学习技术下的目标识别框架在不断地更新迭代后,目前速度较快、准确度较高的深度学习目标识别框架有:Faster-RCNN、SSD、YOLO框架,其中YOLO系列非常有代表性,3种网络在VOC2007以及COCO数据集上的性能表现如表 3所示[7, 12-13],而最新版本YOLOv5版本是目前mAP(mean average precision)均值平均精度与检测帧速率综合最好的框架。
表 3 几种目标检测算法的性能对比Table 3. Performance comparison of several target detection algorithmsAlgorithm Infrastructure Image Size mAP50(VOC07+12) mAP50(COCO) FPS(Titan X) Faster R-CNN VGG-16 300×300 73.2 42.7 7 SSD300 VGG-16 300×300 74.3 41.2 46 YOLOv3 DarkNet-53 416×416 78.3 55.3 34 YOLOv5l CSPDarknet-53 640×640 68.5 50.4 97 如图 2所示,YOLOv5 6.0网络结构,在YOLOv5 6.0中,为了方便模型的导出,将原本的Focus切片结构替换成了一个标准卷积层CBS(k=6, s=2, p=2),在主干层中使用了SPPF代替了SPP,并且将SPPF放在了Backbone的最后,如表 4相较于YOLOv5 5.0,新版本在各项性能指标方面也略有提升。
表 4 YOLOv5 6.0对比YOLOv5 5.0性能对比Table 4. YOLOv5 6.0 vs YOLOv5 5.0 performance improvementYOLOv5l
(Large)Size/pixels mAPval
0.5:0.95mAPval
0.5Speed
CPU b1/msSpeed
V100 b1/msSpeed
V00 b32/msParams
(M)FLOPs
[@640]
(B)v5.0(previous) 640 48.2 66.9 457.9 11.6 2.8 47 115.4 v6.0(this release) 640 48.8 67.2 424.5 10.9 2.7 46.5 109.1 YOLOv5的损失函数由Lossloc(定位损失)、Lossconf(置信度损失)和Lossclass(类别损失)3部分构成[13]。计算公式如下:
$$ \operatorname{Loss}_{\text {object }}=\operatorname{Loss}_{\text {loc }}+\operatorname{Loss}_{\text {conf }}+\operatorname{Loss}_{\text {class }} $$ (1) $$ \operatorname{Loss}_{1 \mathrm{oc}}=1-\mathrm{GIoU} $$ (2) 式中:Lossconf和Lossclass以二元交叉熵损失函数的形式表示,公式如下:
$$ \begin{aligned} \operatorname{Loss}_{\text {conf }}=&-\sum\limits_{i=0}^{K \times K} I_{i j}^{\text {obj }}\left[\hat{C}_i^j \log C_i^j+\left(1-\hat{C}_i^j\right) \log \left(1-C_i^j\right)\right]-\\ & \lambda \sum\limits_{i=0}^{K \times K} \sum\limits_{j=0}^M I_{i j}^{\text {noobj }}\left[\hat{C}_i^j \log C_i^j+\left(1-\hat{C}_i^j\right) \log \left(1-C_i^j\right)\right] \end{aligned}$$ (3) $$ \operatorname{Loss}_{\text {class }}=-\sum\limits_{i=0}^{K \times K} I_{i j}^{\text {obj }}\left\{\sum\limits_{c \in \text { classes }}\left[\hat{P}_i^j \log P_i^j+\left(1-\hat{P}_i^j\right) \log \left(1-P_i^j\right)\right]\right\} $$ (4) 在YOLOv5 6.0中,改进检测效果采用CIoULoss作为定位损失的损失函数。
$$\begin{aligned} \mathrm{CIoU}_{\text {Loss }} &=1-\mathrm{CIoU}=\\ & 1-\left(\operatorname{IoU}-\frac{\text { Distance }_2^2}{\text { Distance }_{\mathrm{C}}^2}-\frac{v^2}{(1-\mathrm{IoU})+v}\right) \end{aligned}$$ (5) $$v=\frac{4}{\pi^2}\left(\tan ^{-1} \frac{w^{\mathrm{gt}}}{h^{\mathrm{gt}}}-\tan ^{-1} \frac{w^{\mathrm{p}}}{h^{\mathrm{p}}}\right)^2$$ (6) 式中:Distance2为预测框和目标框中心点距离;DistanceC为最小外接矩形的对角线距离;v为表征检测框与目标框的宽高比(形状)差异的量,参与梯度的计算。IoU为预测框与Ground Truth的面积交并比。
在深度学习中,通过最小化损失函数,使得模型达到收敛状态,减少模型预测值的误差。GIoULoss是为解决当预测框与目标框没有交集时所引发的退化问题,其基本思想是加入一个最小外包框作为惩罚项,使得不同位置的无交集预测框可以根据惩罚项持续优化到产生交集。而CIoULoss在GIoULoss的基础上,考虑了检测框和目标的重叠面积,边界框的中心距离的信息,考虑了边界框宽高比的尺度信息,CIoULoss示意图如图 3。
为了改善YOLOv5s网络对小目标的检测效果,在主干网络的特征提取层增加注意力机制,通过添加不同注意力机制的主干网络对YOLOv5s网络进行训练。具体操作为对YOLOv5s的Backbone部分SPPF之前的C3模块进行替换,如图 4。选择该层的原因是特征图的通道数最高,每一块像素对应的感受野更大,提取的特征更丰富,替换此处能保证运算效率的同时最大化利用全局信息。注意力机制有利于解决神经网络通道重要性不同导致的特征损失问题。通过引入非线性的处理过程,拟合了通道之间复杂的相关性,得到不同通道重要性不一样的特征图。
采用的注意力机制分别为SE(Squeeze and Excitation Module)、CBAM(Convolutional Block Attention Module)以及CA(Coordinate Attention Module)。3种注意力机制的实现方式如图 5所示。其中GAP和GMP分别指全局平均池和全局最大池。X Avg Pool和Y Avg Pool分别表示一维水平方向全局池化以及一维垂直方向全局池化。
SE的过程分为Squeeze和Excitation两部分:Squeeze对特征图层进行全局平均池化以获得当前特征图的全局压缩量,Excitation通过两层全连接Bottleneck结构获得特征图中各通道的权重。经过Sigmoid函数加权并将加权后的特征图作为该层的输出[14]。
CBAM将输入的特征图F(H×W×C)分别沿水平宽度和垂直高度做全局最大池化和全局平均池化,得到两个1×1×C的特征图,然后分别送入同一个两层的感知机。其中g为减少率,第一层的神经元数量为C/g,第二层的神经元数量为C。将感知机输出的特征进行Element-wise加法运算,再用Sigmoid函数加权生成通道注意力特征图。通道注意力特征图和输入F进行相乘运算,得到的结果F′作为空间注意力的输入特征图。空间注意力是将F′分别进行全局最大池化和全局平均池化,把得到的两个H×W×1的特征图拼接为一个H×W×2的特征图。经过一次卷积运算后降维为1个通道的特征图(H×W×1)。经过Sigmoid函数再将该特征与这个模块的输入F′做乘法运算,得到增强特征图[15]。
Coordinate Attention则更进一步获取了图像宽度和高度上的注意力,将输入在宽度和高度两个方向进行全局平均池化,通过对精确位置信息进行编码,获得宽度和高度两个方向的一维特征向量。通过在通道上进行拼接和1×1的卷积操作来压缩通道,接着通过批标准化和非线性回归来编码垂直方向和水平方向的坐标信息。对于输入X,分别沿水平W方向和垂直H方向对每个通道进行编码。因此在c通道在高度h处的输出可以表示为:
$$ z_c^h(h)=\frac{1}{W} \sum\limits_{0 \leq i<W} x_c(h, i)$$ (7) 第c通道在宽度w处的输出可以写成:
$$ z_c^w(w)=\frac{1}{H} \sum\limits_{0 \leq i<H} x_c(j, w) $$ (8) 空间信息编码完成后进行split操作,再分别通过一次卷积得到和输入特征图一样的通道数,最后把空间信息通过通道进行加权融合[16]。Coordinate Attention有3个优点:①它捕获了不仅跨通道的信息,还包含了方向感知和位置敏感的信息,这使得模型更准确地定位到目标区域。②这种方法灵活且轻量,很容易插入到现有的经典移动网络中。③对于一个预训练的模型来说,这种Coordinate Attention可以给使用移动网络处理的Downstream任务带来明显性能提升,尤其是那些密集预测的任务,例如语义分割。
4. 检测结果输出
本文对红外成像仪所拍摄的图像的目标检测算法选用YOLOv5s预训练模型,该模型可以检测图像中的行人目标。硬件环境采用AMD 5800X处理器、32G内存、RTX3080显卡。软件环境搭建:PyCharm +Python 3.8+Cuda l.11.4.3+Pytorch 1.11.0+YOLOv5 6.0。红外图像数据的测试集采用Fluke公司的热成像数码相机TiX650完成拍摄,其基本参数如表 5所示。
表 5 红外热成像仪主要参数Table 5. Fluke TiX650 main parameters tableMain parameters TiX650 Infrared resolution 640×480(307, 200 pixels) IFOV/mrad 0.87 Field angle/° 32×24 Infrared spectral/μm 8~14 Temperature measurement range -40℃~2000℃(-40℉~3632℉) Accuracy ±1℃ or 1% at 25℃ ambient temperature 对比用原始YOLOv5s网络,以及改进后的YOLOv5s网络分别对原始数据集与优化后的数据集各自进行训练100个epoch得到的mAP0.5,结果见表 6。
表 6 不同改进方法对平均识别精度的影响Table 6. Effect of different improvement methods on the mAPNo. Dataset Replace C3 Before SPPF by Replace non max suppression by mAP0.5 CBAM SE Coordinate
AttentionCIoU_nms 1 Original 98.2% 2 √ 98.2% 3 √ 98.4% 4 √ 98.4% 5 √ 98.5% 6 97.2% 7 Improved √ 97.4% 8 √ √ 97.6% 其中第1组和第6组为对照组,分别为不对网络做任何改进下的不同训练集的mAP。由结果可得,Coordinate Attention机制对目标检测的提升较好,在LLVIP数据集上的提升达到了0.3%,另外将预测框损失函数中的非极大值抑制(NMS)函数改进为考虑了预测框与标签框的宽高比的CIoU_nms也对模型的精度改良起到了一定的作用[17],mAP在改进数据集基础上提高了0.2%,在原数据集上提升不明显,分析其原因是在原数据集中目标大多处于中距离,标签框大,宽高比对其收敛速度影响较小。修改损失函数后会导致运算参数量增加,从而在最初的数次训练迭代中耗费较长的时间。两种方法共同作用对融合数据集的检测率提升达到了0.4%。另选取单阶段检测SSD_300网络对该数据集进行测试时,其Loss值在1000次迭代后最终收敛于3.5左右,检测阶段的速率达到了55ms/fps,mAP为0.82,表现均低于YOLOv5s,且误检率较高,对比表 6可知SSD_300网络对红外成像低分辨率目标检测能力较弱。
将原始网络训练的LLVIP数据集第1组与改进后检测率最高的第8组所得到的训练模型选取出来,分别对拍摄的多尺度行人视频进行检测。
5. 实验结果分析
采用TiX650采集一段分辨率为640×480包含近中远多尺度的行人的红外视频,分别使用表 6中第1组与第8组所得的模型对同一段视频中的行人目标进行检测。选择同一时间戳下的帧画面场景a与场景b对比检测效果,如图 6所示,其中左图为第1组模型,右图为第8组模型。表 7为上述组别的模型对视频中各尺度行人目标的检测性能对比。图 7为检测目标数随帧数变化的对比统计图,其中结果1为第1组模型的检测结果,结果2为第8组的检测结果。
表 7 测试结果的性能对比Table 7. Comparison of test results performanceNumbers in scenario (a) Numbers in scenario (b) Average numbers per frame Average detection rate(ms/fps) Result 1 3 3 2.53 6 Result 2 9 11 6.08 6 由图 7的实验结果对比图可见,红外热成像与改进YOLOv5框架,在低光环境下对多尺度的行人能够全面的检测,并且漏检的情况较少,检测速度较快,能够检测低光环境下的多个目标。相较原始YOLOv5 6.0网络的检测效果,主要在较远距离小目标检测以及遮挡目标的检测效果上有明显提升。
6. 结束语
综上所述,为了解决红外成像目标检测中遇到的低分辨率小目标的检测效果差,复杂尺度目标检测率低等问题,本文提出一种基于改进YOLOv5的红外低分辨率目标的检测算法。通过改进优化现有的更适用于实际情况的LLVIP红外数据集,对YOLOv5s网络添加不同的注意力机制,将损失函数中的NMS修改为考虑标记框和预测框长宽比的CIoU_nms后。该算法训练出的模型对比原始模型,在对测试集视频进行目标检测的结果中,其对低分辨率小目标的检测能力大大提高。针对视频里的每一帧画面,检测率均高于原始网络,且检测时间无明显增加,对于遮挡目标的检测效果也有一定的提升。验证了算法和模型的正确性。未来的研究工作拟将网络移植到嵌入式边缘计算平台,提高在实际监控场景的使用可行性。
-
表 1 红外数据集对比[9]
Table 1 Comparison of infrared datasets
Number of image pairs
(1 frame selected per second)Resolution Aligned Camera angle Low-light Pedestrian TNO 261 768×576 √ shot on the ground few few INO 2100 328×254 √ surveillance √ few OSU 285 320×240 √ surveillance × √ CVC-14 849 640×512 × driving √ √ KAIST 4750 640×480 √ driving √ √ FILR 5258 640×512 × driving √ √ LLVIP 15488 1080×720 √ surveillance √ √ 表 2 LLVIP对比优化数据集
Table 2 Comparison LLVIP with optimized dataset
Number of images Resolution Aligned Camera angle Low-light Pedestrian Original 15488 1080×720 √ surveillance √ √ Sampling 3900 1080×720 √ surveillance √ √ Addition 356 640×480 √ shot on the ground √ √ 表 3 几种目标检测算法的性能对比
Table 3 Performance comparison of several target detection algorithms
Algorithm Infrastructure Image Size mAP50(VOC07+12) mAP50(COCO) FPS(Titan X) Faster R-CNN VGG-16 300×300 73.2 42.7 7 SSD300 VGG-16 300×300 74.3 41.2 46 YOLOv3 DarkNet-53 416×416 78.3 55.3 34 YOLOv5l CSPDarknet-53 640×640 68.5 50.4 97 表 4 YOLOv5 6.0对比YOLOv5 5.0性能对比
Table 4 YOLOv5 6.0 vs YOLOv5 5.0 performance improvement
YOLOv5l
(Large)Size/pixels mAPval
0.5:0.95mAPval
0.5Speed
CPU b1/msSpeed
V100 b1/msSpeed
V00 b32/msParams
(M)FLOPs
[@640]
(B)v5.0(previous) 640 48.2 66.9 457.9 11.6 2.8 47 115.4 v6.0(this release) 640 48.8 67.2 424.5 10.9 2.7 46.5 109.1 表 5 红外热成像仪主要参数
Table 5 Fluke TiX650 main parameters table
Main parameters TiX650 Infrared resolution 640×480(307, 200 pixels) IFOV/mrad 0.87 Field angle/° 32×24 Infrared spectral/μm 8~14 Temperature measurement range -40℃~2000℃(-40℉~3632℉) Accuracy ±1℃ or 1% at 25℃ ambient temperature 表 6 不同改进方法对平均识别精度的影响
Table 6 Effect of different improvement methods on the mAP
No. Dataset Replace C3 Before SPPF by Replace non max suppression by mAP0.5 CBAM SE Coordinate
AttentionCIoU_nms 1 Original 98.2% 2 √ 98.2% 3 √ 98.4% 4 √ 98.4% 5 √ 98.5% 6 97.2% 7 Improved √ 97.4% 8 √ √ 97.6% 表 7 测试结果的性能对比
Table 7 Comparison of test results performance
Numbers in scenario (a) Numbers in scenario (b) Average numbers per frame Average detection rate(ms/fps) Result 1 3 3 2.53 6 Result 2 9 11 6.08 6 -
[1] 张志强, 王萍, 于旭东, 等. 高精度红外热成像测温技术研究[J]. 仪器仪表学报, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm ZHANG Zhiqiang, WANG Ping, YU Xudong, et al. Study on high accuracy temperature measurement technology of infrared thermal imager[J]. Chinese Journal of Scientific Instrument, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm
[2] 杨其利, 周炳红, 郑伟, 等. 基于全卷积网络的红外弱小目标检测算法[J]. 红外技术, 2021, 43(4): 349-356. http://hwjs.nvir.cn/article/id/0803b37e-a6af-431f-9c4e-77c5efec85b6 YANG Qili, ZHOU Binghong, ZHENG Wei, et al. Infrared weak target detection algorithm based on full convolutional network[J]. Infrared Technology, 2021, 43(4): 349-356. http://hwjs.nvir.cn/article/id/0803b37e-a6af-431f-9c4e-77c5efec85b6
[3] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[4] ZHAO M, CHENG L, YANG X, et al. TBC-Net: A real-time detector for infrared small target detection using semantic constraint[J/OL]. arXiv preprint arXiv: 2001.05852, 2019.
[5] ZHAO B, WANG C, FU Q, et al. A novel pattern for infrared small target detection with generative adversarial network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(5): 4481-4492.
[6] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
[7] Redmon J, Farhadi A. Yolov3: an incremental improvement[J/OL]. Computer Vision and Pattern Recognition, https://arxiv.org/abs/1804.02767.
[8] SUN Y, SHAO Y, YANG G, et al. A Method of Infrared Image Pedestrian Detection with Improved YOLOv3 Algorithm[J]. American Journal of Optics and Photonics, 2021, 9(3): 32-38. DOI: 10.11648/j.ajop.20210903.11
[9] 邱天衡, 王玲, 王鹏, 等. 基于改进YOLOv5的目标检测算法研究[J]. 计算机工程与应用, 2022, 58(13): 63-73. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202213006.htm QIU Tianheng, WANG Ling, WANG Peng, et al. Research on object detection algorithm based on improved YOLOv5[J]. Computer Engineering and Applications, 2022, 58(13): 63-73. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202213006.htm
[10] 郭磊, 王邱龙, 薛伟, 等. 基于改进YOLOv5的小目标检测算法[J]. 电子科技大学学报, 2022, 51(2): 251-258. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202202013.htm GUO Lei, WANG Qiulong, XUE Wei, et al. A Small Object Detection Algorithm Based on Improved YOLOv5[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 251-258. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202202013.htm
[11] JIA X, ZHU C, LI M, et al. LLVIP: A visible-infrared paired dataset for low-light vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 3496-3504.
[12] TAN S, YAN J, JIANG Z, et al. Approach for improving YOLOv5 network with application to remote sensing target detection[J]. Journal of Applied Remote Sensing, 2021, 15(3): 036512.
[13] REN S, HE K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149
[14] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[15] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[16] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.
[17] 聂鹏, 肖欢, 喻聪. YOLOv5预测边界框分簇自适应损失权重改进模型[J/OL]. 控制与决策, [2022-02-07], https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC2022020100G&uniplatform=NZKPT&v=SFfl7Znyzm6DrlyluGWpdKIbirJm5mFkFaafF4bE9xywSjZRggaM-XJWOO0if82l. NIE Peng, XIAO Huan, YU Cong. Enhanced self-adaptive loss weight YOLOv5 model based on predicted[J/OL]. Control and Decision, [2022-02-07], https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC2022020100G&uniplatform=NZKPT&v=SFfl7Znyzm6DrlyluGWpdKIbirJm5mFkFaafF4bE9xywSjZRggaM-XJWOO0if82l.