Improved SSD Object Detection Algorithm Based on Contrastive Learning
-
摘要:
现有基于深度学习的目标检测算法在图像的目标检测过程中存在物体视角的多样性、目标本身形变、检测物体受遮挡、光照性以及小目标检测等问题。为了解决这些问题,本文将对比学习思想引入到SSD(Single Shot MutiBox Detectior)目标检测网络中,对原有的SSD算法进行改进。首先,通过采用图像截块的方式随机截取样本图片中的目标图片与背景图片,将目标图像块与背景图像块输入到对比学习网络中提取图片特征进行对比损失计算。随后,使用监督学习的方法对SSD网络进行训练,将对比损失传入到SSD网络中与SSD损失值加权求和反馈给SSD网络,进行网络参数的优化。由于在目标检测网络中加入了对比学习的思想,提高了背景和目标在特征空间中的区分度。因此所提出的算法能显著提高SSD网络对于目标检测的精度,并在可见光和热红外图像中均取得了令人满意的检测效果。在PASCAL VOC2012数据集实验中,AP50值提升了0.3%,在LLVIP数据集实验中,AP50值提升了0.2%。
Abstract:The existing deep learning-based object detection algorithms encounter various issues during the object detection process in images, such as object viewpoint diversity, object deformation, detection occlusion, illumination variations, and detection of small objects. To address these issues, this paper introduces the concept of contrastive learning into the SSD object detection network and improves the original SSD algorithm. First, by randomly cropping object images and background images from sample images using the method of image cropping, the object image blocks and background image blocks are input into the contrastive learning network for feature extraction and contrastive loss calculation. The supervised learning method is then used to train the SSD network, and the contrastive loss is fed into the SSD network and weighted and summed with the SSD loss value for feedback to optimize the network parameters. Because the contrastive learning concept is introduced into the object detection network, the distinction between the background and object in the feature space is improved. Therefore, the proposed algorithm significantly improves the accuracy of the SSD network for object detection, and obtains satisfactory detection results in both visible and thermal infrared images. In the experiment on the PASCAL VOC2012 dataset, the proposed algorithm shows an increase in the AP50 value by 0.3%, whereas in the case of the LLVIP dataset, the corresponding increase in AP50 value is 0.2%.
-
Keywords:
- deep learning /
- SSD /
- object detection /
- contrastive learning /
- infrared thermal /
- image cropping
-
0. 引言
夜间行车滥用远光灯极易引发交通事故[1]。因此,研究夜视抗晕光方法用于消除晕光干扰并获得符合人眼观察的夜视图像,应用于汽车安全辅助系统,可有效保障夜间行驶安全。
目前夜视主动抗晕光方法主要有:前挡风玻璃增加偏振[2]、红外成像技术[3-5]、像素积分时间独立可控的图像传感器[6]、可见光与红外融合图像[7-10]等。其中,结合可见光图像分辨率高且色彩丰富、红外图像不受晕光干扰等优点的异源融合方法,可有效降低晕光干扰并提高图像质量,是当前解决晕光问题的研究热点。文献[11]提出了一种多尺度分解融合方法,通过对低频分量的显著图和残差图分别采用“模值取大”和“平均”规则进行融合,提高了融合图像的清晰度并凸显了红外显著信息。文献[12]采用非下采样剪切波变换(Nonsubsampled shearlet transform,NSST)对图像进行分解,通过设计的自适应稀疏表示模型对低频分量融合,有效提升了显著信息。文献[13]对NSST分解的高频分量采用自适应参数的简化脉冲耦合神经网络(Adaptive-parameter pluse-coupled neural network,AP-SPCNN)进行融合,利用其全局耦合性与脉冲同步性提高了融合图像清晰度。文献[14]采用四阶偏微分方程(Fourth-order partial differential equation,FPDE)分解红外与可见光图像,对低频分量采用期望值最大的融合策略,有效地提升了融合图像的显著信息。但因晕光也属于夜视图像中的显著信息,上述方法在增强图像细节信息的同时会放大晕光区域,不利于夜间行车安全。文献[15]在YUV色彩空间下通过Wavelet变换对低频分量加权融合,降低了晕光干扰,但晕光信息仍参与融合,在强晕光场景中存在晕光消除不足问题。文献[16]提出改进的IHS-Curvelet变换,通过设计的低频红外权值自动调节策略消除晕光较为彻底,但在晕光分布不均匀的场景,由于区域特征差异过大,易导致明暗分裂现象。
为了在不同晕光场景下均能获得视觉效果较好的夜视图像,本文提出一种可见光与红外图像分区融合的夜视抗晕光方法。通过晕光阈值将低频系数分为晕光与非晕光区域,在晕光区着重依据图像晕光程度合理消除晕光;在非晕光区重点提高暗处区域的可见度。
1. 夜视抗晕光原理
在夜视晕光场景,可见光图像中晕光十分刺眼,覆盖了车辆轮廓,导致暗处行人难以观察。在红外图像中车辆与行人轮廓清晰可见,但车牌、车道线、色彩等重要细节信息缺失,如图 1所示。
可见光图像不同区域特征差异极大,故不同区域图像融合处理的着重点也应不同。在高亮度晕光区域,应合理消除晕光干扰,当晕光较强时,易使驾驶员眩目影响夜间行车安全,故要尽可能地消除晕光;当晕光较弱时,避免亮度消除过度导致图像局部过暗,故晕光消除适当即可。在低亮度非晕光区域,应有效提升图像色彩、轮廓及纹理等细节信息,增强夜视图像的视觉效果。为了在不同晕光场景中均能获得视觉效果较好的夜视图像,本文提出了一种基于分区融合的夜视抗晕光方法。
可见光图像转换到YUV空间后,因晕光信息主要分布在亮度分量Y中,故通过自适应阈值迭代法求解亮度分量Y的晕光临界值,并进一步确定低频系数的晕光阈值,将低频系数划分为晕光与非晕光区域。在晕光区通过构造非线性红外系数权值调节策略合理消除晕光;在非晕光区域采用灰度均值先验权值调节策略,提高较亮图像参与融合的权值,提高暗处区域的可见度。高频系数融合采用模值取大策略保留更多的细节信息。利用Curvelet变换具有各向异性的特性,保留边缘细节并抑制周边噪声,有效提高了图像的清晰度。同时仅对YUV变换的亮度分量Y进行融合,降低算法复杂度,提高处理效率,并避免色彩失真。
2. 基于分区融合的夜视抗晕光方法
基于上述夜视抗晕光原理,本文方法的整体处理框图如图 2所示。
2.1 Curvelet分解
可见光图像经YUV变换[17]获得亮度分量Y,再对Y分量与红外图像分别进行Curvelet分解。二维离散Curvelet分解[18]可表示为:
$$ L(j,l,k) = \sum\limits_{0 \leqslant {t_1},{t_2} \leqslant n} {f[{t_1},{t_2}]\overline {{\varphi _{j,l,k}}[{t_1},{t_2}]} } $$ (1) 式中:f[t1, t2]表示输入图像;φj, l, k [t1, t2]表示Curvelet函数;j、l、k分别表示分解的尺度、方向与位置。
分解后得到亮度分量Y和红外图像对应的低频系数L0VI(k)、L0IR(k),高频系数Lj, lVI(k)、Lj, lIR(k),其中上标VI、IR分别表示可见光、红外。
2.2 低频系数晕光阈值的确定及区域划分
首先通过自适应阈值迭代法[19]确定可见光图像亮度分量Y的晕光临界值Gc。
计算第i+1次阈值Ti+1为:
$$T_{i+1}=m\left(\mu_1+\mu_2\right)$$ (2) $$ \left\{ \begin{gathered} {\mu _1} = \frac{{\text{1}}}{{{N_{\text{1}}}}}\sum\limits_{j = 0}^{{N_1} - 1} {{In} (j)} \hfill \\ {\mu _2} = \frac{1}{{{N_2}}}\sum\limits_{j = {N_1}}^{N - 1} {{In} (j)} \hfill \\ \end{gathered} \right. $$ (3) 式中:m为自适应系数;μ1和μ2分别为经阈值Ti分割后的两个区域的灰度均值;In(j)是第j个像素的灰度值;N为总像素数,N1和N2分别为两个区域的像素数,N=N1+N2。
为了尽可能减少迭代次数,自适应系数m需要根据图像的晕光程度自动调整。研究表明晕光程度与晕光区域面积正相关,与非晕光区域面积负相关,通过实际实验,自适应系数m取为:
$$m=-1.7336 s^{0.0253}+2.2243$$ (4) 式中:s表示晕光与非晕光面积比。初始阈值T0取亮度分量Y的灰度中值进行迭代计算,直到阈值不再变化时结束,最新的阈值即为晕光临界灰度值Gc。
由于晕光区域高灰度值像素比较集中,进行晕光消除处理时易造成晕光临界处明暗分裂的现象,故在Gc的基础上扩大低频系数的晕光消除范围,低频系数的晕光阈值GL取为:
$$ {G}_{\text{L}}=\alpha \times {G}_{\text{c}}\times \frac{\mathrm{max}\left({L}_{0}^{\mathrm{Ⅵ}}\left(k\right)\right)}{255} $$ (5) 式中:α为缩放因子,使消除晕光后的晕光与非晕光区域衔接更自然,α∈[0, 1]。通过多次计算优化,本文取α=0.65。若低频系数k位置的灰度值L0VI(k)>GL,则该位置属于晕光区域;反之,若L0VI(k)≤GL,则该位置属于非晕光区域。
2.3 非晕光区域低频系数权值调节策略
夜视图像非晕光区整体较暗,为了增强融合图像非晕光区的可见度,通过提高非晕光区整体较亮像素参与融合的权值,提升融合图像暗处视觉效果。以亮度分量Y与红外图像的非晕光区灰度均值作为先验信息,确定非晕光区域红外低频系数权值ωNHIR(k):
$$ \omega _{{\text{NH}}}^{{\text{IR}}} = \frac{{\frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{IR}}}(i)} }}{{\frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{VI}}}(i)} + \frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{IR}}}(i)} }} $$ (6) 式中:n为非晕光区总像素数。
2.4 晕光区域低频系数权值调节策略
由于晕光信息主要分布于可见光图像的低频分量,Curvelet分解后的可见光低频分量在晕光区域的系数值明显大于其他区域。因此,在晕光区随着晕光程度变强,可见光低频系数值变大,应增大红外低频系数权值,降低可见光低频系数权值以更好地消除晕光;当逐渐递进到晕光中心区域时,对应的红外低频系数权值应取大值,以彻底地消除晕光;在晕光临界处,为了使晕光与非晕光区域明暗衔接自然,且防止晕光消除过度,应合理设置缓冲区,以非晕光区的红外低频系数作为晕光区域红外低频系数权值的基准,且要变化缓慢。根据上述思想构造晕光区域红外低频系数权值ωHIR(k)的非线性表达式:
$$ \omega _{\text{H}}^{{\text{IR}}}(k) = \omega _{{\text{NH}}}^{{\text{IR}}} + (1 - \omega _{{\text{NH}}}^{{\text{IR}}}) \times \frac{{{{\text{e}}^{L_{\text{0}}^{{\text{VI}}}(k)}} - {{\text{e}}^{ - L_{\text{0}}^{{\text{VI}}}(k)}}}}{{{{\text{e}}^{L_{\text{0}}^{{\text{VI}}}(k)}} + C{{\text{e}}^{ - L_{\text{0}}^{{\text{VI}}}(k)}}}} $$ (7) 式中:C为约束因子,用于调节晕光消除程度。当C取不同值时,红外低频系数权值ωHIR(k)随可见光低频系数L0VI(k)的变化趋势如图 3所示。
由图 3可以看出,C取值不同的函数曲线变化趋势,均为ωHIR(k)随L0VI(k)的增大而增大,且变化率开始缓慢后变大,接近1时再变小。另外,对应同一L0VI(k)不变时,C越小该点的ωHIR(k)越大,因此C与晕光消除程度成反比关系。根据晕光程度调整C的取值,再利用式(6)调整红外与可见光低频系数权值,达到合理消除晕光的目的。由于晕光程度与晕光临界值成正比关系,经过多次计算优化,将晕光临界值Gc划分为3个区间,不同区间C的取值为:
$$C=\left\{\begin{array}{lr} 25, & G_{\mathrm{c}} \leq 120 \\ 50, & 120 <G_{\mathrm{c}} \leq 160 \\ 100, & 160 <G_{\mathrm{c}} \leq 255 \end{array}\right.$$ (8) 为了将晕光区域的红外低频系数权值均匀分布在范围[0, 1],首先对L0VI(k)进行区间投射:
$$ L_{\text{0}}^{{\text{VI}}}(k') = \frac{{b - a}}{{\max (L_{\text{0}}^{{\text{VI}}}(k)) - {G_{\text{L}}}}} \times (L_{\text{0}}^{{\text{VI}}}(k) - {G_{\text{L}}}) + a $$ (9) 式中:L0VI(k')表示点L0VI(k)投射到[a, b]区间的低频系数值。本文选择[0, 4]区间投射,以L0VI(k')为作为式(7)的输入,得到红外低频系数权值矩阵ωHIR(k)。
2.5 Curvelet重构
融合后的低频系数L0FU(k)为:
$$ L_{\text{0}}^{{\text{FU}}}(k) = [1 - {\boldsymbol{\omega} _{{\text{IR}}}}(k)] * L_{\text{0}}^{{\text{VI}}}(k) + {\boldsymbol{\omega} _{{\text{IR}}}}(k) * L_{\text{0}}^{{\text{IR}}}(k) $$ (10) 式中:ωIR(k)为红外低频系数权值矩阵,可表示为:
$$ {\boldsymbol{\omega} _{{\text{IR}}}}(k) = \left\{ {\begin{array}{*{20}{c}} {\boldsymbol{\omega} _{\text{H}}^{{\text{IR}}}(k),{\text{ }}L_{\text{0}}^{{\text{VI}}}(k) > {G_{\text{L}}}} \\ {\boldsymbol{\omega} _{{\text{NH}}}^{{\text{IR}}},{\text{ }}L_{\text{0}}^{{\text{VI}}}(k) \leqslant {G_{\text{L}}}} \end{array}} \right. $$ (11) 高频系数融合采用模值取大策略,可获得更多的纹理细节信息[20]。融合后的高频分量Lj, lFU(k)为:
$$ L_{j,l}^{{\text{FU}}}(k) = \max \{ L_{j,l}^{{\text{VI}}}(k),L_{j,l}^{{\text{IR}}}(k)\} $$ (12) 频域的离散Curvelet变换表式为:
$$ L(j,l,k) = \frac{{\sum {\hat f[{\omega _1},{\omega _2}]} \overline {{{\hat \varphi }_{j,l,k}}[{\omega _1},{\omega _2}]} }}{{{{(2{\rm{ \mathit{ π} }})}^2}}} $$ (13) 式中:$ \hat f\left[ {{\omega _1},{\omega _2}} \right] $表示频域的输入;$ {\hat \varphi _{j,l,k}}\left[ {{\omega _1},{\omega _2}} \right] $为频域Curvelet函数。
利用式(13)将L0FU(k)与Lj, lFU(k)进行Curvelet重构,得到新亮度分量Y′,再将其与U、V分量进行YUV逆变换得到最终的融合图像。
3. 实验及分析
为验证本文方法的有效性,本文在两种不同道路晕光场景采集了对向车辆由远及近的可见光与红外图像,分别采用NSST[12]、AP-SPCNN[13]、FPDE[14]、YUV-WT[15]、IIHS-CT[16]等5种融合方法与本文方法进行实验对比。为了避免高亮度晕光信息干扰融合图像的评价结果,本文采用文献[19]提出的自适应分区质量评价方法对融合结果进行客观评价。采用晕光消除度DHE指标对晕光区域的晕光消除效果进行评价,值越大表明晕光消除越彻底。采用均值μ、平均梯度(AG)、边缘强度(EI)、空间频率(SF)等指标对非晕光区域进行评价,μ越大表明非晕光区域亮度越高,AG越大表明图像细节反差的变化速率越大;EI越大表明图像的边缘细节越明显;SF越大表明图像空间域变化越强。
3.1 对向车辆距离较远的晕光场景
夜间对向车辆较远时,图像整体偏暗。可见光图像中晕光较弱,路况等信息受益于晕光变得更加明显,但晕光部位侧方和后方区域缺乏光源,车辆轮廓、行人难以观察;红外图像中车辆轮廓与行人清晰可见,但路面状况、色彩等信息缺失。图 4与图 5分别为场景1与场景2的原始图像及不同算法的融合图像。
从图 4与图 5可以看出,在整体清晰度方面,YUV-WT与NSST相较于其他5种算法融合图像的清晰度欠佳。在晕光消除方面,NSST、AP-SPCNN、FPDE以及YUV-WT在车灯附近仍有光斑残余,晕光消除程度明显不如IIHS-CT与本文算法。在行人、车辆等信息的显著程度与图像整体亮度方面,本文算法的行人与车辆轮廓相较于其它5种算法更显著,且图像整体亮度更好。场景1与场景2各算法融合图像的客观评价结果如表 1与表 2所示。
表 1 场景1融合图像的客观评价指标Table 1. Objective evaluation indexes of fused images of Scene 1Methods DHE μ AG EI SF NSST 0.6554 57.9222 3.7183 38.9179 12.0912 AP-SPCNN 0.6463 52.9799 5.2407 54.9452 15.3742 FPDE 0.7519 54.5537 5.9955 61.4017 17.3364 YUV-WT 0.5446 52.8251 3.3488 34.6032 11.7848 IIHS-CT 0.7764 56.0418 6.9138 71.4292 20.1104 The proposed algorithm 0.8179 63.8456 6.9141 71.5595 20.1938 表 2 场景2融合图像的客观评价指标Table 2. Objective evaluation indexes of fused images of Scene 2Methods DHE μ AG EI SF NSST 0.6254 43.8894 2.247 22.7806 7.001 AP-SPCNN 0.6239 40.862 3.8289 37.0247 10.5302 FPDE 0.6818 40.7409 3.9988 38.0394 11.4102 YUV-WT 0.5095 37.8782 1.938 19.1585 6.6523 IIHS-CT 0.6678 41.1376 4.1846 40.1924 11.9776 The proposed algorithm 0.7052 47.0278 4.1932 40.3044 12.0371 由表 1与表 2知,IIHS-CT与本文算法都设计了晕光消除的低频融合规则,所以DHE明显高于其他4种算法,其中本文算法DHE最高,在场景1中相较于其他5种抗晕光算法分别提升了24.7%、26.5%、8.7%、50.1%、5.3%,在场景2中相较于其他5种抗晕光算法分别提升了12.7%、13%、3.4%、38.4%、5.6%。在非晕光区域,本文算法设计了灰度均值先验权值调节策略,通过提高较亮图像参与融合的权值有效提升融合图像的亮度,指标μ在场景1中相较于其他5种算法分别提升了10.2%、20.5%、17%、20.8%、13.9%,在场景2中相较于其他5种算法分别提升了7.1%、15%、15.4%、24.1%、14.3%。由于Curvelet变换的各向异性,对边缘信息更敏感,所以本文算法与IIHS-CT融合图像的AG、EI与SF指标相较于其它4种算法明显提高,但IIHS-CT晕光消除范围过大,导致图像非晕光区域整体较暗,变化率与细节反差小,故相较于本文方法的AG、EI与SF指标较低。在两种场景下,本文算法的各项指标均高于其它5种方法,验证了本文方法在对向车辆距离较远的晕光场景的有效性。
3.2 对向车辆距离较近的晕光场景
当对向车辆较近时,多个车灯形成的晕光部位连成一个较大区域,十分炫目极易造成交通隐患。可见光图像的高亮度晕光覆盖了车辆轮廓,路面受益晕光变得明显,但也导致暗处区域更加难以观察;红外图像无晕光且目标轮廓清晰,但会丢失车道线等重要信息且细节模糊,无色彩。图 6与图 7分别为场景3与场景4的原始图像及不同算法的融合图像。
由图 6与图 7可看出,NSST与YUV-WT算法融合的图像在两种场景中较为模糊,边缘细节的清晰度较差,行人显著度不足。除了IIHS-CT与本文算法,其他4种算法处理融合图像在场景4中的晕光消除不足,在车灯附近晕光仍比较严重。IIHS-CT在两种场景中均晕光消除过度,导致晕光临界处两侧明暗差异较大,整体视觉效果较差。本文算法相较于其他5种算法,晕光消除较好,车辆轮廓更清晰,整体亮度更符合人眼视觉。场景3与场景4融合图像的客观评价结果如表 3与表 4所示。
表 3 场景3融合图像的客观评价指标Table 3. Objective evaluation indexes of fused images of Scene 3Methods DHE μ AG EI SF NSST 0.5496 85.8534 3.3691 36.2355 15.9706 AP-SPCNN 0.5992 85.8104 4.5618 49.1445 18.3228 FPDE 0.5824 86.3078 4.1521 44.0083 18.6224 YUV-WT 0.5352 97.7207 3.1141 33.1751 15.9455 IIHS-CT 0.6596 78.3601 5.5043 58.6815 21.8962 The proposed algorithm 0.6658 88.1846 5.7085 60.8557 22.4823 表 4 场景4融合图像的客观评价指标Table 4. Objective evaluation indexes of fused images of Scene 4Methods DHE μ AG EI SF NSST 0.5463 111.603 3.6756 37.9153 17.8965 AP-SPCNN 0.5505 111.599 3.7385 38.6726 17.9412 FPDE 0.5824 108.325 5.5694 53.6701 20.9292 YUV-WT 0.5942 108.322 4.7793 44.9491 19.4084 IIHS-CT 0.7670 100.108 6.1216 60.4035 20.8635 The proposed algorithm 0.7545 102.782 6.2002 61.1985 21.2724 由表 3与表 4可知,本文算法与IIHS-CT变换都针对低频部分的晕光信息设计了晕光消除策略,因此两种场景中DHE指标明显高于其它4种方法。在场景4中,虽然IIHS-CT的DHE最高,但晕光临界处明暗分裂明显,影响图像整体视觉效果,而本文算法晕光消除范围控制较好,获得图像的视觉效果更好。YUW-WT与NSST分别在场景3与场景4中μ最高,但行人显著度较差。AP-SPCNN与FPDE能较好保留图像显著信息,但晕光本身也属显著信息,导致上述算法在晕光较强场景中的融合图像μ较高而DHE较低,晕光信息依然存在,导致车辆轮廓比较模糊。本文算法与IIHS-CT利用了Curvelet变化对边缘信息更敏感的特性,相较于其他4种算法边缘信息保留的更多,图像更清晰,故AG、EI与SF较高。另一方面,由于IIHS-CT不能有效地控制晕光消除范围,导致部分非晕光区域亮度较低,灰度变化率变小,所以AG、EI与SF相较于本文算法较低,验证了本文算法在对向车辆距离较近的晕光场景的有效性。
3.3 结果讨论
通过以上的分析可知,NSST、AP-SPCNN、FPDE、YUV-WT算法在强晕光场景中存在晕光消除不足。IIHS-CT方法晕光消除彻底,但存在因晕光消除过度造成严重的明暗分裂现象,适用性较差。本文算法针对不同区域特征采取不同权值调节策略,在不同晕光场景中均能有效消除晕光,提升融合图像质量,普适性较好。
4. 结论
本文提出的基于可见光与红外图像分区融合的夜视抗晕光方法,较好地解决了现有夜视抗晕光融合图像视觉效果不理想的问题。该方法能较好地控制晕光消除,并有效提高暗处色彩、细节的可见度,获得的融合图像更适合人眼观察。不同晕光程度场景下的实验结果表明,本文方法相较于对比的5种图像融合方法普适性更好,对提高夜间行车安全具有重要意义,也可为交通感知、安全监控等领域中的低照度逆光图像采集提供一种解决方案。
-
图 4 改进SSD与原SSD算法在PASCAL VOC2012数据集上的检测结果(上排为改进SSD算法的检测效果图,下排为原SSD算法检测效果图)
Figure 4. The detection results of the improved SSD and the original SSD algorithms on the PASCAL VOC2012 dataset (The top row shows the detection results of the improved SSD algorithm, while the bottom row shows the detection results of the original SSD algorithm)
图 5 改进SSD与原SSD算法在LLVIP数据集上的检测结果(上排为改进SSD算法的检测效果图,下排为原SSD算法检测效果图)
Figure 5. The detection results of the improved SSD and the original SSD algorithms on the LLVIP dataset (The top row shows the detection results of the improved SSD algorithm, while the bottom row shows the detection results of the original SSD algorithm)
表 1 PASCAL VOC2012数据集上改进SSD算法与原SSD算法结果比较
Table 1 Comparison of the results between the improved SSD algorithm and the original SSD algorithm on the PASCAL VOC2012 dataset
Models AP AP50 AP75 APS APM APL Improved SSD algorithm 0.452 0.718 0.487 0.091 0.281 0.522 Original SSD algorithm 0.451 0.715 0.491 0.088 0.270 0.524 表 2 在PASCAL VOC2012数据集中不同图像块截取尺寸下的算法结果比较
Table 2 Comparison of algorithm results under different sizes of image cropping on the PASCAL VOC2012 dataset
Image cropping size (Pixels) AP AP50 AP75 APS APM APL Improved SSD Algorithm(32×32) 0.450 0.717 0.485 0.091 0.281 0.521 Improved SSD Algorithm(64×64) 0.452 0.718 0.487 0.091 0.281 0.522 Improved SSD Algorithm(96×96) 0.449 0.713 0.485 0.085 0.279 0.524 表 3 LLVIP数据集上改进SSD算法与原SSD算法结果比较
Table 3 Comparison of results between the improved SSD algorithm and the original SSD algorithm on the LLVIP dataset
Models AP AP50 AP75 APS APM APL Improved SSD algorithm 0.524 0.928 0.539 0.013 0.272 0.539 Original SSD algorithm 0.522 0.926 0.536 0.011 0.275 0.537 表 4 MS COCO2017数据集上改进SSD算法与其他目标检测算法结果比较
Table 4 Comparison of results between the improved SSD algorithm and other object detection algorithms on the MS COCO 2017 dataset
Models AP AP50 AP75 APS APM APL YOLOv2 [6] 21.6 44.0 19.2 5.0 22.4 35.5 YOLOv3 33.0 57.9 34.4 18.3 35.4 41.9 YOLOv5 36.9 58.4 - - - - SSD [4] 23.2 41.2 23.4 5.3 23.2 39.6 Fast R-CNN [10] 20.5 39.9 19.4 4.1 20.0 35.8 Faster R-CNN [11] 21.9 42.7 - - - - ION [24] 23.6 43.2 23.6 6.4 24.1 38.3 Improved SSD Algorithm 28.9 47.5 30.7 5.5 26.5 43.5 -
[1] XIA G S, BAI X, DING J, et al. DOTA: a large scale dataset for object detection in aerial images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3974-3983.
[2] ZHANG J, LIANG X, WANG M, et al. Coarse⁃to⁃fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency[J]. Neurocomputing, 2020, 398: 555-565. DOI: 10.1016/j.neucom.2019.03.102
[3] Pathak A, Pandey M, Rautaray S. Application of deep learning for object detection[J]. Procedia Computer Science, 2018, 132: 1706⁃1717. DOI: 10.1016/j.procs.2018.05.144
[4] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot MultiBox detector[C]//Proceedings of the 14th 284 European Conference on Computer Vision, 2016: 21-37.
[5] LIU G, NOUAZE J C, TOUKO P L, et al. YOLO-tomato: A robust algorithm for tomato detection based on YOLOv3[J]. Sensors, 2020, 20(7): 2145.1-2145.20.
[6] Redmon J, Farhadi A. Yolo9000: Better, faster, stronger[C]// Computer Vision and Pattern Recognition (CVPR), 2017: 6517-6525.
[7] Sruthi M S, Poovathingal M J, Nandana V N, et al. YOLOv5 based open-source UAV for human detection during search and rescue (SAR) [C]// 10th International Conference on 13 Advances in Computing and Communications, 2021: 1-6.
[8] ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE International Conference on Computer Vision, 2021: 2778-2788.
[9] CHEN C, LIU M Y, Tuzel O, et al. R-CNN for small object detection[C]//Asian Conference on Computer Vision, 2016: 214-230.
[10] Girshick R. Fast R-CNN[C]//IEEE International Conference on Computer Vision, 2015: 1440-1448.
[11] REN S Q, HE K M, Girshick R, et al. Faster CNN: Towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems, 2015: 91-99.
[12] WANG Longguang, WANG Yingqian, DONG Xiaoyu, et al. Unsupervised degradation representation learning for blind super-resolution[C]//CVPR, 2021: 10581-10590.
[13] HUANG Y, TU X, FU G, et al. Low-Light image enhancement by learning contrastive representations in spatial and frequency domains[J]. arXiv preprint arXiv: 2303.13412, 2023.
[14] SUN X H, GU J N, HUANG R. A modified SSD method for electronic computer fast recognition[J]. Optik, 2020, 205: 163767. DOI: 10.1016/j.ijleo.2019.163767
[15] FU C Y, LIU W, Ranga A, et al. Dssd: DeConvolutional single shot detector[J]. arXiv preprint arXiv: 1701. 06659, 2017.
[16] Jeong J, Park H, Kwak N. Enhancement of SSD by con-catenating feature maps for object detection[J]. arXiv preprint arXiv: 1705. 09587, 2017.
[17] 李文涛, 彭力. 多尺度通道注意力融合网络的小目标检测算法[J]. 计算机科学与探索, 2021, 15(12): 2390-2400. https://www.cnki.com.cn/Article/CJFDTOTAL-KXTS202112013.htm LI Wentao, PENG Li. Small objects detection algorithm with multi-scale channel attention fusion network[J]. Journal of Frontiers of Computer Science & Technology, 2021, 15(12): 2390-2400. https://www.cnki.com.cn/Article/CJFDTOTAL-KXTS202112013.htm
[18] LI Z, ZHOU F. FSSD: feature fusion single shot multibox detector[J]. arXiv preprint arXiv: 1712. 00960, 2017.
[19] CHEN T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//Proceedings of the 37th International Conference on Machine Learning, 2020: 1597-1607.
[20] HE K M, FAN H Q, WU Y X, et al. Momentum contrast for unsupervised visual representation learning[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9726-9735.
[21] Grill J B, Strub F, Altche F, et al. Bootstrap your own latent a new approach to self-supervised learning[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS), 2020: 2127121284.
[22] Caron M, Misra I, Mairal J, et al. Unsupervised learning of visual features by contrasting cluster assignments[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems, 2020: 99129924.
[23] CHEN X L, HE K M. Exploring simple Siamese representation learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 1574515753.
[24] Bell S, Zitnick CL, Bala K, Girshick R. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2874-2883.
-
期刊类型引用(1)
1. 付启银. 基于视觉传达技术的可见光与红外图像融合方法. 激光杂志. 2025(04): 128-133 . 百度学术
其他类型引用(0)