红外热成像中低分辨率行人小目标检测方法

胡焱, 胡皓冰, 赵宇航, 原子昊, 司成可

胡焱, 胡皓冰, 赵宇航, 原子昊, 司成可. 红外热成像中低分辨率行人小目标检测方法[J]. 红外技术, 2022, 44(11): 1146-1153.
引用本文: 胡焱, 胡皓冰, 赵宇航, 原子昊, 司成可. 红外热成像中低分辨率行人小目标检测方法[J]. 红外技术, 2022, 44(11): 1146-1153.
HU Yan, HU Haobing, ZHAO Yuhang, YUAN Zihao, SI Chengke. Infrared Thermal Imaging Low-Resolution and Small Pedestrian Target Detection Method[J]. Infrared Technology , 2022, 44(11): 1146-1153.
Citation: HU Yan, HU Haobing, ZHAO Yuhang, YUAN Zihao, SI Chengke. Infrared Thermal Imaging Low-Resolution and Small Pedestrian Target Detection Method[J]. Infrared Technology , 2022, 44(11): 1146-1153.

红外热成像中低分辨率行人小目标检测方法

基金项目: 

国家自然科学基金项目 62061003

四川省科技计划重点研发项目 2021YFG0192

省级大学生创新创业项目 S202110624176

详细信息
    作者简介:

    胡焱(1973-),男,四川大英人,教授,研究生导师,研究方向:航空电子设备维修、测控。Email:huyan@cafuc.edu.cn

    通讯作者:

    胡皓冰(1997-),男,硕士研究生,主要从事深度学习目标检测的研究。Email:191650964@qq.com

  • 中图分类号: TP391.4

Infrared Thermal Imaging Low-Resolution and Small Pedestrian Target Detection Method

  • 摘要: 红外热成像图像的目标检测中,针对低分辨率小目标检测效果差、复杂尺度目标检测率低等问题,提出一种基于改进YOLOv5的红外低分辨率目标检测算法。选用LLVIP红外数据集,通过引入不同注意力机制来对比检测效果。选用效果最佳的注意力机制,改进目标检测网络的损失函数提高对小目标的检测率。利用TiX650热成像仪采集小目标图像样本对原数据集进行优化采样和增广,分别使用改进前后的YOLOv5网络进行训练。从模型训练结果和目标检测结果评估模型的性能提升,实验结果表明:相较于原始训练模型,改进后YOLOv5的训练模型,在红外成像的同一场景中对低分辨率小目标的检测精度上有明显提升,且漏检率低。
    Abstract: In the target recognition of infrared thermal imaging images, a detection algorithm based on improved YOLOv5 for infrared low-resolution targets was proposed to address the poor detection of low-resolution small targets and low detection rate of complex-scale targets. The LLVIP infrared dataset was selected and the detection effect was compared by introducing different attention mechanisms. The attention mechanism with the best effect was selected to improve the loss function of the target detection network and improve the detection rate of small targets. A TiX650 thermal imager was utilized to acquire small target image samples for optimal sampling and broadening of the original dataset, and the YOLOv5 network was trained using the improved before and after, respectively. The performance improvement of the model was evaluated from the model-training and target detection results, and the experimental results demonstrate that compared with the original training model, the improved YOLOv5 training model has a significant improvement in the detection accuracy of low-resolution small targets in the same scene of infrared imaging and exhibits a low miss detection rate.
  • 红外成像技术是根据辐射原理成像而得到红外图像,图像的亮度表征物体表面的温度。由于具有隐蔽性好、全天候、适应雨雾等特殊气象条件等优良特性,因此得到了广泛应用[1-4]。然而受制于红外图像的成像机理、成像系统特性的影响,红外图像通常具有信噪比低、分辨率低和边缘模糊的特点,图像中往往缺少细节,这限制了红外图像的进一步应用。因此,如何提高图像分辨率并增强红外图像中的细节,成为了重要需求。

    超分辨率(super resolution, SR)算法[5]是指从同一场景的一个或多个低分辨率观测结果中恢复高分辨率图像的任务。根据输入的低分辨率图像(low resolution,LR)的数量,可以将超分辨率算法(super resolution, SR)分为单图像超分辨率(single-image-super-resolution, SISR)和多图像超分辨率(multiple-image-super-resolution, MISR)。与MISR相比,SISR因其高效而广受欢迎。由于具有高感知质量的HR(high resolution, HR)图像具有更多有价值的细节,因此它被广泛用于许多领域,例如医学成像,卫星成像和安全成像[6-8]。典型的SISR框架中,LR图像建模如下:

    $$ I_{\mathrm{LR}}=\boldsymbol{D}_k \boldsymbol{M}_k I_{\mathrm{HR}}+n $$ (1)

    式中:IHR是对应的是模型输入的原始场景高分辨率图像;Mk表示运动位移矩阵;Dk为降采样矩阵;n表示噪声向量。图像的超分辨率重建就是根据图像的退化模型进行的逆过程。通常低分辨图像可以被认为是降质模型的输出;在超分辨率算法中,研究者们试图从ILR中恢复出高分辨图像ISR尽可能地接近原始的退化前的高分辨图像IHR,过程如公式表示为:

    $$ I_\text{SR}=F(I_\text{LR}, θ) $$ (2)

    式中:F代表超分辨率重建模型;θ是模型中的参数。但该等式并不是唯一的,因为高分辨图像的退化可能同时受到多个退化因素的影响,图像超分辨率重构过程中也无法确定退化因素的种类,因此该公式的解不是唯一的,即在图像超分辨率重建过程中一个低分辨的输出可能获取多个高分辨的输入。因而超分辨率重构问题也被看作是一个病态问题。

    传统SISR的算法主要分为3类:基于插值的超分辨率方法、基于重构的超分辨率方法和基于学习的超分辨率方法。基于插值的超分辨率方法原理简单,其重构效果不是很好,在超分辨率领域应用有限。基于重构的超分辨率方法是从输入图像中提取所有有用信息,整个超分辨率过程等于信息提取和信息融合过程,以输入图像先验知识和全局重构限制作为正则项,构建代价函数求解逆运算,此方法能保持清晰的图像边缘,但不能有效恢复纹理细节信息。基于学习的超分辨率技术是借助机器学习知识,以大量的训练图像学习先验模型,用学习过程中获得的知识对低分辨率图像中丢失的高频细节信息进行预测和补充,它能生成丰富的高频细节部分和纹理信息,但难以控制伪像失真。

    随着深度学习的发展,基于深度学习[8]的SISR算法显示出优于其他基于学习的方法的性能。SRCNN[9]是第一种使用深度学习方法的超分辨率算法,该方法表现出远超传统方法的学习能力,但该算法是先将图像进行上采样而后再利用卷积层进行学习,因而其结果中可能会出现将噪声和有价值信号同时放大的情况,影响重构结果的信噪比。VDSR(very deep super resolution)[10]是SISR算法中第一种深层网络,该网络由20层VGG组成,通过学习插值结果和高分图像之间的残差,以代替原来的直接映射。SRGAN(semi-supervised learning with generative adversarial networks)[11]将GAN网络应用超分辨网络,构建一个具有感知损失的更深层网络的生成对抗网络以构造逼真的超分图像。

    EDSR(enhanced deep residual networks)[12]在ResNet[13]基础上设计了一种新的模块,扩大模型的尺寸来提升结果质量。ESPCN(efficient sub-pixel convolutional neural network)[14]使用亚像素上采样的方法对图像进行快速的超分辨率重建,仅在最后阶段将低分辨率图像放大为高分辨率图像,是一种高效、快速的像素重排列的超分辨率算法。

    上述方法对SISR表现出良好的效果,但应用于红外图像时仍需改进:

    一方面,卷积层提取特征时会很好地保留低频信息,高频信息会作为冗余信息舍弃,进而在重构图像中造成细节缺失,由于红外图像中信息量少相比可见光图像影响更大;另一方面,大多数的SISR中的网络模块对其他层的特征利用较少,无法避免卷积层在使用过程中的信息损失。

    根据以上分析,本文针对红外图像特点提出深度残差神经网络的超分辨率重构算法,结合密集网络、残差结构以及亚像素上采样等结构优点,得到高质量红外重构图像,为后续的语义分割、目标识别等创造条件。

    基于深度学习的超分辨率模型专注于研究低分辨率图像与原始高分辨率图像之间的差异,虽然网络模型之间差异巨大,但本质上是一些模块的组合,比如模型框架、上采样方法等。因此,我们可以根据特定用途将这些模块集成起来构造出一个超分辨率模型。本文设计的深度卷积残差网络结构由残差单元构成深度残差强化模块,上采样部分我们使用亚像素上采样层。

    红外图像信息量少,分辨率低,网络需要学习到足够的图像中的信息才能保证重构图像质量。即使是网络中少量信息损失都可能会影响最终的重构图像质量。对于超分辨率算法来说,网络深度增加意味着网络会损失更多的高频细节,在重构图像中图像细节会有相应的损失。在语义分割、目标识别等高级图像任务中,ResNet被用来解决卷积神经网络深度加深时会产生梯度爆炸的现象,但由于图像超分辨率任务是图像到图像的映射任务,仅需研究输入图像与目标图像高度相关仅学习它们之间的差异即可,一些模块在超分辨率任务中并不是必要的,因而不能直接套用到超分辨这种低级视觉问题上。比如BN层主要应用于输入图像的数据分布和输出数据的分布不一致的情况。对于超分辨率任务来说,输入和输出的数据分布非常接近。因此一些研究保留了ResNet的跳线结构并去掉了BN层,有效地降低了网络的计算量。如图 1所示,EDSR提出的这个残差块(residual block)没有应用池化层和批量归一化(batch normalization,BN)层,去掉后的网络就可以堆叠更多的网络层或者使每层提取更多的特征,从而得到更好的性能表现。由于大多数的残差区域接近零,模型的复杂性和学习难度大大降低。而跳线连接方式的保留本身就可以减轻由于网络深度不断增加而导致的降级问题,减少训练难度并提高学习能力。

    图  1  几种残差学习模块结构对比
    Figure  1.  Comparison of the several residual learning modules

    针对红外图像中信息量少的特点,我们改变原有ResNet中的激活函数。ReLU(可以按公式(3)计算)保留了阶跃函数的生物启发(即只有当输入超过阈值时神经元才会被激活),允许基于梯度的学习(尽管在x=0时,导数未定义)。因为函数及其导数都不包含复杂的数学运算,所以此函数计算过程非常快。但是当输入小于零或梯度为零时,其权重无法更新,此时ReLU的学习速度会变慢,甚至可能使神经元直接失效。Leaky ReLU函数(Leaky Rectified Linear Unit,LeakyReLU)(可按公式(4)计算)是经典ReLU激活函数的变体。其中a需人工设置,一般为0.01或0.001数量级的较小正数。当输入为负时,这个函数的输出仍然有一个小的斜率。当导数非零时,可以减少沉默神经元的出现,允许基于梯度的学习(虽然会很慢),从而解决ReLU函数进入负区间后神经元不学习的问题。与ReLU相比,LeakyReLU具有更大的激活范围。

    $$ \text{ReLU} x=\max (0, x)=\left\{\begin{array}{l} x, \text { if } x \geq 0 \\ 0, \text { if } x<0 \end{array}\right. $$ (3)
    $$ \text{LeakyReLU}(x)=\max (0, x)=\left\{\begin{array}{ll} a x, & \text { if } x \geq 0 \\ 0 & \text { if } x<0 \end{array}\right. $$ (4)

    红外探测器相比可见光探测器像元数量少,获取的红外图像的分辨率低,为便于显示多采用插值法以提高图像分辨率。一般插值法是通过目标函数在若干点的函数值或者导数值附近构造一个与目标函数相近似的低次插值多项式。该方法增加了图像的美观性,但在某种程度上丧失了部分数据的真实性,没有考虑到原有像素间的分布特点,仅能针对局部小区域进行运算并且运算量巨大,在某种程度上丧失了部分数据的真实性,因而在重构图像中可能会出现纹理条纹或者局部模糊甚至对求梯度优化有害。

    亚像素上采样层又称像素混合层(pixel-shuffle layer)不同于基于插值的上采样方法,该层的插值函数隐含在前一个卷积层中,可以自动学习。在本文中,亚像素层可以表示为:

    $$ I_\text{SR}=PS(W_\text{L}*f^{L-1}(I_\text{LR})+b_\text{L}) $$ (5)

    其中PS代表亚像素上采样运算,WL代表卷积操作。

    $$\text{PS}(T)_{x, y, c}=T_{[x /s], [y /s], C \cdot s \cdot {\rm{mod}} (y, s)+C \cdot {\rm{mod}}(x, s)+c}$$ (6)

    式中:mod()表示在最后一层的前一层进行的卷积操作;s是比例因子。

    亚像素上采样层是一个端到端的上采样层,执行上采样通过卷积产生多个通道然后重塑它们。在这一层中,假设输入尺寸为h×w×c,则输出尺寸为h×w×s2。之后,进行变形操作以产生大小sh×sw×c输出。这里的卷积操作是在低分辨率图像,因而亚像素上采样的效率将高于双三次上采样和反卷积。使用这种端到端的上采样方式得到的子像素层提供更多的上下文信息以帮助生成更多现实的细节。然而,因为构造亚像素点时利用的信息来源于同一卷积层,其感受野的大小是相同的,实现了相互独立的块状区域预测。但由于构造过程缺少全局信息,独立预测块状区域中的相邻像素可能会导致输出不平滑。

    在超分辨率重构过程中的信息损失可以分为两部分:一部分源于卷积层在进行卷积操作时造成的中心区域外的信息损失;另一部分是在超分辨率重构过程中,高频信息被作为冗余信息舍弃。在前文设计的深度残差模块可避免卷积层使用过程中的信息损失,可通过堆叠该模块增加网络深度。但是,模块仅能利用这个模块内部信息,其他模块的信息无法充分利用。并且结构中缺少对于低分辨率图像中信息的利用。

    在本文中,我们构建了深度密集残差结构。结构中包含6个改进的残差块,每个残差块用以提取局部特征。为了充分利用每个模块提取的信息,每个残差块的输出可以递进地传递到下一个残差块的各层并与那一层的特征进行融合,从而保证特征信息连续传递。这种局部特征融合策略通过自适应地保存信息来提取局部密集特征,在实现密集网络的同时用于解决梯度消失问题,有效地保证了网络对于红外图像的学习能力。

    在提取多层局部密集特征后,我们进一步进行全局特征融合以传输全局上下文特征,作为对重建图像的指导。通过连接输入和输出图像将全局特征传输到亚像素上采样层(即pixel-shuffle layer),实现对于全局残差特征的利用。如图 2所示,亚像素上采样层可以直接访问原始的低分辨率输入,避免由于卷积层大量使用造成的局部上下文信息缺失引起的重建错误。局部特征融合和全局特征融合也可以起到减少高频信息损失的作用。

    图  2  密集特征传递连接设计
    Figure  2.  Dense feature transfer connection

    在网络中,我们选用L2 loss(即最小化误差)作为网络的损失函数。该函数是真实值和预测值之间所有平方差的总和,公式如(7)所示:

    $$ \text{Loss}(x, y)=\frac{1}{n} \sum\limits_{i=1}^{n}\left(y_{\text {tros }}-y_{\text {probiciona }}\right)^{2} $$ (7)

    式中:ytrue代表真实值;ypredicted代表预测值。

    实验中我们使用中国科技大学提出的地/空背景下红外图像弱小飞机目标检测跟踪数据集[15]。红外数据集中每个红外数据段的原始数据为视频格式,为了后续数据加工的方便,在数据预处理阶段将每个数据段的视频格式数据转换为8 bit位深的Windows位图格式的多文件的图像序列。图像分辨率为10~100 m。

    测试集中我们使用了中波红外热像仪提取的图像,该热像仪能见度为8 km,视场角为17°×13°,图像原始分辨率为768×564。

    我们使用来自NVIDIA 1080Ti GPU的随机样本训练所有网络,为了优化,我们使用b=0.9、且学习率为10−4的ADAM。由于GPU内存限制,我们调整了数据集中图像的大小,我们将图像裁剪为512×512像素,这可以保证网络有足够的数据,防止模型过拟合,提高其鲁棒性。测试图像尺寸为256×256像素。为客观公平进行比较,所有基于深度学习模型的超分辨率算法都采用相同的训练集进行训练。

    为了模拟低分辨率图像,我们首先按比例因子图像进行下采样,将对应的图像大小改为原来的1/比例因子,作为超分辨率网络的输入。我们设置的比例因子为2、3和4。实验中使用PSNR和SSIM作为客观评价标准。

    PSNR的定义可以表示为:

    $$ \mathrm{MSE}=\frac{1}{H \times W} \sum\limits_{i=1}^{H} \sum\limits_{j=1}^{W}(X(i, j)-Y(i, j))^{2} $$ (8)
    $$ \text { PSNR }=10 \times \lg \left(\frac{\left(2^{n}-1\right)^{2}}{M S E}\right) $$ (9)

    式中:n是每个像素的位数;X是原始图像;Y是超分辨图像。HW是图像的宽度和高度。

    SSIM值的公式为:

    $$ \text{SSIM}(x, y)=\frac{\left(2 \mu_{x} \mu_{y}+c_{1}\right)\left(2 \sigma_{x y}+c_{2}\right)}{\left(\mu_{x}^{2}+\mu_{y}^{2}+c_{1}\right)\left(\sigma_{x}^{2}+\sigma_{y}^{2}+c_{2}\right)} $$ (10)

    式中:μx是图像x的平均值;μy是图像y的平均值;σx2x的方差;σy2y的方差;σxyxy的协方差。c1=(k1L)2c2=(k2L)2是维持稳定的函数;L是像素值动态范围,k1=0.01,k2=0.03。

    在对比实验中,采用了3种经典的基于深度学习的超分辨率算法与本文算法进行定性定量比较:EDSR(enhanced deep-networks for super-resolution),超分卷积神经网络(super-resolution convolutional neural network, SRCNN),ESPCN(efficient sub-pixel convolutional neural network)。本文同时选择了常用的双线性插值法(Bicubic)作为实验结果中主观评价的结果之一。为客观公平进行比较,所有基于深度学习模型的超分辨率算法都采用相同的训练集进行训练。

    对比的实验结果分别列在表 1~2以及图 3~4中。从表 1表 2的结果来看,本文设计的超分辨率方法在所有尺度因子下均获得较高的PSNR与SSIM。实验结果表明,本文提出的方法在PSNR和SSIM等客观评价指标上优于其他算法。相比于其他几种算法,本文设计的深度残差神经网络的重构红外图像效果明显优于其他几种算法,图像更加自然,与原图像相比改善了部分区域的纹理细节,实现了高质量的红外图像重构。

    表  1  使用4种方法对红外图像的PSNR与SSIM评价结果1
    Table  1.  PSNR evaluation results of infrared images using four methods
    Scale factor SRCNN EDSR ESPCN Proposed in this paper
    PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM
    2 21.11 0.75 22.51 0.79 23.52 0.76 25.46 0.80
    3 21.55 0.79 23.08 0.81 25.21 0.83 26.31 0.84
    4 22.85 0.80 23.31 0.867 24.58 0.84 26.85 0.84
    下载: 导出CSV 
    | 显示表格
    表  2  使用4种方法对红外图像的PSNR与SSIM评价结果2
    Table  2.  PSNR evaluation results of infrared images using four methods
    Scale factor SRCNN EDSR ESPCN Proposed in this paper
    PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM
    2 22.35 0.81 24.35 0.83 25.11 0.84 27.65 0.85
    3 25.31 0.841 27.35 0.85 28.37 0.88 28.42 0.88
    4 26.31 0.852 27.45 0.87 28.52 0.89 29.41 0.90
    下载: 导出CSV 
    | 显示表格
    图  3  红外图像的超分辨率重构图像对比1
    Figure  3.  Super-resolution reconstruction image comparison
    图  4  红外图像的超分辨率重构图像对比2
    Figure  4.  Super-resolution reconstruction image comparison of infrared images 1 of infrared images 2

    表 1表 2可以看出,本文算法的SSIM值与ESPCN的SSIM值非常接近,PSNR值提升相对较多。这表明本文设计的算法在增加网络深度的同时并没有造成超分辨率重构结果质量的降低。与EDSR算法的对比表明,本文提出的算法在SSIM和PSNR值上有所提高,这表明本文设计的密集网络结构中关于局部特征融合和全局特征融合的设计可以有效地改善重构图像质量。

    图 3图 4中可以看出,所有算法的重建质量相比双线性插值有一定的提升,对于具有明显边界的区域够得到清晰的纹理。所有算法的重建质量相比双线性插值有一定的提升,对于具有明显边界的区域能够得到清晰的纹理。

    图 3中,图 3(b)为双线性上采样方法,重建图像中部分匀质区域过于平滑,缺少细节真实感。图 3(c)是SRCNN的结果,由于网络只有3层,学习能力有限,图像中出现大量虚假纹理信息,在均匀区域容易出现伪影;图 3(d)是EDSR的结果,该网络堆叠更多的残差模块以提高网络学习能力,因此重构结果明显优于SRCNN,但是网络缺少对于其他层信息的利用,图像中出现大量纹理条纹;图 3(e)中的ESPCN算法采用了亚像素上采样层,其效果与EDSR近似,但相比EDSR层数较少,图像中的景物轮廓不够清晰,白点的无人机轮廓也并不清晰;图 3(f)是本文设计的方法,图像细节明显,尤其是林地、草地等具有不规则形状的区域重建效果较好。图 4中可以看出,本文提出的网络对复杂的杂乱纹理的重建效果较好,尤其是草地上的杂乱区域的重构图像比较清晰,细节丰富。

    得益于深度残差模块的使用以及亚像素上采样模块的引入,本文所提出的模型可以获得更加理想的高分辨图像,解决了不规则纹理的模糊问题。尤其是通过采用密集特征连接结构,该网络可以有效地加深网络结构,提高网络的学习能力。这表明我们提出的方法在提取信息和高频信息保留方面效果较好。

    针对红外图像特点,本文提出了一种基于深度残差神经网络的超分辨率重构算法。该模型利用改进的残差模块有效地增加了网络深度,提高了网络的学习能力,通过使用密集特征连接提高了网络对高频信息的利用,并有效地增加了对于网络结构中不同层的信息利用。仿真实验结果表明本文模型能够生成具有丰富细节并且目标轮廓边界清晰的图像,有效地补充了原图中的细节。总体来看,本文中设计的算法在保持较高精度的同时,还可以很好地处理目标的尺度变化和目标周围的环境,说明算法中加入的密集网络结构、深度残差强化模块等发挥了良好的作用。

  • 图  1   实验方案设计流程图

    Figure  1.   Flow chart of experimental scheme design

    图  2   YOLOv5s 6.0结构

    Figure  2.   YOLOv5s 6.0 structure

    图  3   CIoULoss损失函数示意图

    Figure  3.   CIoULoss function diagram

    图  4   主干网络修改示意图

    Figure  4.   Schematic diagram of backbone network modification

    图  5   三种注意力机制的示意图

    Figure  5.   Schematic diagram of the three attention mechanisms

    图  6   两种场景下1组与8组模型的目标检测结果对比

    Figure  6.   Detection results of Group1 and 8 models in two scenarios

    图  7   检测数随帧数变化对比

    Figure  7.   Comparison of recognition number with frame rate

    表  1   红外数据集对比[9]

    Table  1   Comparison of infrared datasets

    Number of image pairs
    (1 frame selected per second)
    Resolution Aligned Camera angle Low-light Pedestrian
    TNO 261 768×576 shot on the ground few few
    INO 2100 328×254 surveillance few
    OSU 285 320×240 surveillance ×
    CVC-14 849 640×512 × driving
    KAIST 4750 640×480 driving
    FILR 5258 640×512 × driving
    LLVIP 15488 1080×720 surveillance
    下载: 导出CSV

    表  2   LLVIP对比优化数据集

    Table  2   Comparison LLVIP with optimized dataset

    Number of images Resolution Aligned Camera angle Low-light Pedestrian
    Original 15488 1080×720 surveillance
    Sampling 3900 1080×720 surveillance
    Addition 356 640×480 shot on the ground
    下载: 导出CSV

    表  3   几种目标检测算法的性能对比

    Table  3   Performance comparison of several target detection algorithms

    Algorithm Infrastructure Image Size mAP50(VOC07+12) mAP50(COCO) FPS(Titan X)
    Faster R-CNN VGG-16 300×300 73.2 42.7 7
    SSD300 VGG-16 300×300 74.3 41.2 46
    YOLOv3 DarkNet-53 416×416 78.3 55.3 34
    YOLOv5l CSPDarknet-53 640×640 68.5 50.4 97
    下载: 导出CSV

    表  4   YOLOv5 6.0对比YOLOv5 5.0性能对比

    Table  4   YOLOv5 6.0 vs YOLOv5 5.0 performance improvement

    YOLOv5l
    (Large)
    Size/pixels mAPval
    0.5:0.95
    mAPval
    0.5
    Speed
    CPU b1/ms
    Speed
    V100 b1/ms
    Speed
    V00 b32/ms
    Params
    (M)
    FLOPs
    [@640]
    (B)
    v5.0(previous) 640 48.2 66.9 457.9 11.6 2.8 47 115.4
    v6.0(this release) 640 48.8 67.2 424.5 10.9 2.7 46.5 109.1
    下载: 导出CSV

    表  5   红外热成像仪主要参数

    Table  5   Fluke TiX650 main parameters table

    Main parameters TiX650
    Infrared resolution 640×480(307, 200 pixels)
    IFOV/mrad 0.87
    Field angle/° 32×24
    Infrared spectral/μm 8~14
    Temperature measurement range -40℃~2000℃(-40℉~3632℉)
    Accuracy ±1℃ or 1% at 25℃ ambient temperature
    下载: 导出CSV

    表  6   不同改进方法对平均识别精度的影响

    Table  6   Effect of different improvement methods on the mAP

    No. Dataset Replace C3 Before SPPF by Replace non max suppression by mAP0.5
    CBAM SE Coordinate
    Attention
    CIoU_nms
    1 Original 98.2%
    2 98.2%
    3 98.4%
    4 98.4%
    5 98.5%
    6 97.2%
    7 Improved 97.4%
    8 97.6%
    下载: 导出CSV

    表  7   测试结果的性能对比

    Table  7   Comparison of test results performance

    Numbers in scenario (a) Numbers in scenario (b) Average numbers per frame Average detection rate(ms/fps)
    Result 1 3 3 2.53 6
    Result 2 9 11 6.08 6
    下载: 导出CSV
  • [1] 张志强, 王萍, 于旭东, 等. 高精度红外热成像测温技术研究[J]. 仪器仪表学报, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm

    ZHANG Zhiqiang, WANG Ping, YU Xudong, et al. Study on high accuracy temperature measurement technology of infrared thermal imager[J]. Chinese Journal of Scientific Instrument, 2020, 41(5): 10-18. https://www.cnki.com.cn/Article/CJFDTOTAL-YQXB202005002.htm

    [2] 杨其利, 周炳红, 郑伟, 等. 基于全卷积网络的红外弱小目标检测算法[J]. 红外技术, 2021, 43(4): 349-356. http://hwjs.nvir.cn/article/id/0803b37e-a6af-431f-9c4e-77c5efec85b6

    YANG Qili, ZHOU Binghong, ZHENG Wei, et al. Infrared weak target detection algorithm based on full convolutional network[J]. Infrared Technology, 2021, 43(4): 349-356. http://hwjs.nvir.cn/article/id/0803b37e-a6af-431f-9c4e-77c5efec85b6

    [3]

    Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

    [4]

    ZHAO M, CHENG L, YANG X, et al. TBC-Net: A real-time detector for infrared small target detection using semantic constraint[J/OL]. arXiv preprint arXiv: 2001.05852, 2019.

    [5]

    ZHAO B, WANG C, FU Q, et al. A novel pattern for infrared small target detection with generative adversarial network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(5): 4481-4492.

    [6]

    LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.

    [7]

    Redmon J, Farhadi A. Yolov3: an incremental improvement[J/OL]. Computer Vision and Pattern Recognition, https://arxiv.org/abs/1804.02767.

    [8]

    SUN Y, SHAO Y, YANG G, et al. A Method of Infrared Image Pedestrian Detection with Improved YOLOv3 Algorithm[J]. American Journal of Optics and Photonics, 2021, 9(3): 32-38. DOI: 10.11648/j.ajop.20210903.11

    [9] 邱天衡, 王玲, 王鹏, 等. 基于改进YOLOv5的目标检测算法研究[J]. 计算机工程与应用, 2022, 58(13): 63-73. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202213006.htm

    QIU Tianheng, WANG Ling, WANG Peng, et al. Research on object detection algorithm based on improved YOLOv5[J]. Computer Engineering and Applications, 2022, 58(13): 63-73. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202213006.htm

    [10] 郭磊, 王邱龙, 薛伟, 等. 基于改进YOLOv5的小目标检测算法[J]. 电子科技大学学报, 2022, 51(2): 251-258. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202202013.htm

    GUO Lei, WANG Qiulong, XUE Wei, et al. A Small Object Detection Algorithm Based on Improved YOLOv5[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 251-258. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202202013.htm

    [11]

    JIA X, ZHU C, LI M, et al. LLVIP: A visible-infrared paired dataset for low-light vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 3496-3504.

    [12]

    TAN S, YAN J, JIANG Z, et al. Approach for improving YOLOv5 network with application to remote sensing target detection[J]. Journal of Applied Remote Sensing, 2021, 15(3): 036512.

    [13]

    REN S, HE K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149

    [14]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

    [15]

    Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

    [16]

    HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.

    [17] 聂鹏, 肖欢, 喻聪. YOLOv5预测边界框分簇自适应损失权重改进模型[J/OL]. 控制与决策, [2022-02-07], https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC2022020100G&uniplatform=NZKPT&v=SFfl7Znyzm6DrlyluGWpdKIbirJm5mFkFaafF4bE9xywSjZRggaM-XJWOO0if82l.

    NIE Peng, XIAO Huan, YU Cong. Enhanced self-adaptive loss weight YOLOv5 model based on predicted[J/OL]. Control and Decision, [2022-02-07], https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC2022020100G&uniplatform=NZKPT&v=SFfl7Znyzm6DrlyluGWpdKIbirJm5mFkFaafF4bE9xywSjZRggaM-XJWOO0if82l.

  • 期刊类型引用(1)

    1. 郭亮. 基于CGAN的近红外关联成像高分辨率重构. 智能计算机与应用. 2024(05): 144-149 . 百度学术

    其他类型引用(10)

图(7)  /  表(7)
计量
  • 文章访问数:  189
  • HTML全文浏览量:  40
  • PDF下载量:  50
  • 被引次数: 11
出版历程
  • 收稿日期:  2022-04-23
  • 修回日期:  2022-06-22
  • 刊出日期:  2022-11-19

目录

/

返回文章
返回