轻量级目标检测算法综述

叶栢铖, 朱尤攀, 周永康, 段晨昊, 张昱东, 陶志刚, 傅志宇

叶栢铖, 朱尤攀, 周永康, 段晨昊, 张昱东, 陶志刚, 傅志宇. 轻量级目标检测算法综述[J]. 红外技术, 2025, 47(3): 289-298.
引用本文: 叶栢铖, 朱尤攀, 周永康, 段晨昊, 张昱东, 陶志刚, 傅志宇. 轻量级目标检测算法综述[J]. 红外技术, 2025, 47(3): 289-298.
YE Baicheng, ZHU Youpan, ZHOU Yongkang, DUAN Chenhao, ZHANG Yudong, TAO Zhigang, FU Zhiyu. Review of Lightweight Target Detection Algorithms[J]. Infrared Technology , 2025, 47(3): 289-298.
Citation: YE Baicheng, ZHU Youpan, ZHOU Yongkang, DUAN Chenhao, ZHANG Yudong, TAO Zhigang, FU Zhiyu. Review of Lightweight Target Detection Algorithms[J]. Infrared Technology , 2025, 47(3): 289-298.

轻量级目标检测算法综述

详细信息
    作者简介:

    叶栢铖(1999-),男,硕士研究生,主要研究方向是轻量化目标检测算法。E-mail:279289186@qq.com

    通讯作者:

    朱尤攀(1978-),男,研究员级高级工程师,兵器工业集团学科带头人,博士研究生,研究方向为夜视成像技术。E-mail:87029830@qq.com

  • 中图分类号: TP183

Review of Lightweight Target Detection Algorithms

  • 摘要:

    传统基于深度学习的目标检测算法通常需要巨大的计算资源和长时间的训练,不能满足工业界的需求。轻量级目标检测网络通过牺牲一部分检测精度,换取更快的推理速度和更轻量的模型,适用于边缘计算设备中的应用,受到了广泛关注。本文介绍了常用于压缩和加速模型轻量化技术,归类分析了轻量化骨干网络结构原理,并在YOLOv5s上进行实际效果对比。最后对轻量化目标检测算法的未来前景以及面临的挑战进行了展望。

    Abstract:

    Traditional target detection algorithms based on deep learning usually require extensive computing resources and long-term training, which do not meet the needs of the industry. Lightweight target detection networks sacrifice part of the detection accuracy in exchange for faster inference speed and lighter models. They are suitable for applications in edge-computing devices and have received widespread attention. This study introduces lightweight technologies commonly used to compress and accelerate models, classifies and analyzes the structural principles of lightweight backbone networks, and evaluates their practical impact on YOLOv5s. Finally, the prospects and challenges of lightweight target-detection algorithms are discussed.

  • 目标检测是计算机视觉领域的一个重要研究方向,其目的是在图像或视频中识别和定位特定目标。目标检测在智能交通系统、视频监控、机器人导航、医学影像分析等领域应用十分广泛。然而,基于手工设计特征和分类器的传统目标检测方法有着诸多的限制。近年来随着深度学习的兴起,特别是卷积神经网络在计算机视觉中的广泛应用,为目标检测带来了巨大的突破。2014年,Shick等人[1]首次将CNN(Convolutional Neural Networks)融入目标检测,提出的Region-CNN算法大幅度提高了目标检测的平均精度均值mAP(Mean Average Precision)。此后基于CNN框架的目标检测算法井喷式地涌现出来,这些算法主要可以分为两类,包括基于候选区域的双阶段框架R-CNN系列和基于回归方法的单阶段框架YOLO(You Only Look Once)系列和SSD(Single Shot MultiBox Detector)系列。基于候选区域的目标检测算法先提取候选区域,然后对每个候选区域进行分类和定位,基于回归的方法则直接在特征图上预测目标的类别和位置信息。这两种类别的算法各有优劣,可以根据实际情况具体应用。虽然这些算法显著地提高了检测精度,但往往具有较高的计算成本和内存占用,限制了其在边缘计算设备中的应用。

    因此,算法的轻量化至关重要。轻量化目标检测算法旨在保持或提升检测效果的同时使模型更轻量化,以满足在计算能力、存储空间和功耗都较小的边缘计算设备的需求。轻量化目标检测算法兼顾准确性、高效率和实时性的特点,为资源受限环境下的目标检测提供了一种理想的解决方案。设计轻量化目标检测网络主要有以下几种思路:设计人工轻量化网络,包括创新的卷积层设计、高效的激活函数,以及新型的网络连接方式;使用神经架构搜索NAS(Neural Architecture Search)设计轻量化网络;通过参数剪枝量化、低秩分解、知识蒸馏等轻量化技术压缩网络[2]

    由于神经网络模型的参数量和网络结构具有冗余性,利用轻量化技术可以显著减少深度学习模型的大小和计算复杂度,压缩得到一个对计算资源和内存需求更小的模型。不影响模型性能的前提下,提高了模型在资源受限的环境下的部署效率。常见的轻量化技术包括:参数剪枝、参数量化、低秩分解、知识蒸馏、轻量化卷积算子、神经架构搜索等。

    参数剪枝(Parameter Pruning)是根据网络参数重要性的评价准则,移除模型中对性能贡献很小的冗余参数。根据剪枝粒度不同,参数剪枝可分为非结构化剪枝和结构化剪枝:非结构化剪枝以参数维度为单位,对每个参数进行剪枝操作;结构化剪枝以层为单位,有选择性地剪枝整个层的某一部分参数。非结构化剪枝的优势在于其灵活性和粒度细致,能够适应不同的需求。但是会引入稀疏性,部署和推理方面可能面临额外的挑战。相对而言,结构化剪枝更容易在不同平台上部署和推理,通常能以较小的存储开销实现显著的模型压缩。但是其相对刚性的特性可能限制了对不规则网络结构的适应,并可能难以实现非常细粒度的剪枝。

    常见的非结构化剪枝方式是通过设定一个阈值,将权重值小于该阈值的参数直接置零或删除。Han等人[3]提出三步法剪枝,通过设定阈值范数大小,删除相应的权值连接。另一种方法是,计算每个权重参数对损失的敏感度,选择性地剪枝敏感度较低的权重。Alizadeh等人[4]提出的前景剪枝,使用损失函数对应的梯度绝对值大小衡量权重的重要程度。

    通道剪枝是最常见的结构化剪枝方式,基于通道的权重或输出的重要性进行选择性删除卷积核。He等人[5]提出的软滤波器剪枝的算法SFP,L2范数最小值对应的滤波器权重去除。He等人[6]提出的FPGM算法,采用几何中位数准则,将同一层滤波器几何距离较小的去除。Fang等人[7]提出全自动的结构化剪枝库Torch-Pruning,底层算法采用DepGraph对任意网络的参数依赖关系进行建模,递归地推导出依赖图简化参数分组问题,最后根据依赖图进行剪枝,采用L2正则项稀疏化训练,解决了任意架构的一般剪枝问题。

    参数剪枝能够显著减小模型的大小,降低内存占用,适用于资源受限的环境,也有助于提高推理速度,降低功耗。但不同的模型和任务,需要设计不同的剪枝策略,剪枝完成后还需要进行微调来维持性能,需要更多的计算资源和时间。

    参数量化(Parameter Quantization)是通过减少参数的位数表示,将模型参数用较低位宽数值表示的技术。通过对模型的参数进行精简和优化,减少了模型的计算复杂度和存储需求,使模型更容易部署在计算资源受限的设备上。但因使用较低比特数的参数,导致模型的性能下降和一些硬件不支持的问题出现。常见的参数量化有二值化、三值化、聚类量化等方法。

    k均值聚类的方法应用于存在大量权重参数的情况下。Gong等人[8]通过聚类索引的方式分配权重,首次将k均值聚类应用于权重量化。二值化将参数约束为-1或+1。Courbariaux等人[9]在网络的前向和后向传播过程中约束权重参数,在参数更新期间保留累积梯度的存储权重的精度。三值化将参数约束为-1,0,+1。Li等人[10]提出了三元权重网络TWNs约束权重参数。最小化了全精度权重和三元值权重之间的欧氏距离以及非负比例因子,并用基于阈值的三元函数找到最优的近似解。

    较大的卷积核和较高维度的权重矩阵往往会导致模型参数占用大量的存储空间和计算资源。基于权重矩阵的信息冗余和低秩特性,可以通过低秩分解实现模型的压缩。低秩分解(Low-rank Factorization)是通过找到一个较低秩的近似表示,将原始权重矩阵分解为多个较低秩矩阵的乘积,可以有效地减小存储需求,降低计算复杂度。常见的低秩分解方法有奇异值分解、Tucker分解、CP分解、Tensor Train分解等。

    Lebedev等人[11]提出了CP分解,使用非线性最小二乘法将4D卷积核分解成4个一阶张量。Kim等人[12]提出了Tucker分解,将一个三阶张量分解为3个因子矩阵和一个核张量。Novikov等人[13]提出了Tensor Train分解,将张量分解为边界两个矩阵和一组三阶张量,使用分解的核心作为层的参数,用txt格式存储全连接层的权重。

    低秩分解也伴随一些缺点:一方面,在不同任务下,需要对低秩分解进行仔细调参。另一方面,在捕捉复杂特征的任务上,引入低秩分解会导致模型的表达能力下降。

    知识蒸馏(Knowledge Distillation)通过从教师模型中提取知识,指导训练学生模型。教师模型具有复杂的结构和强大的性能,能够进行准确的预测,而学生模型相对较小,具有更低的存储需求和计算复杂度。知识蒸馏将教师模型中的知识迁移到学生模型中,可以减少模型尺寸,保持或提高模型的性能。

    软目标训练是常见的知识蒸馏方式,教师模型的输出被用作软目标来训练学生模型,使得学生模型更容易学到教师模型的决策边界以及模型的不确定性信息。Hinton等人[14]通过温度参数和Softmax输出层产生的类概率计算软目标分布。另一种特殊的蒸馏方式是自蒸馏,教师和学生模型都是同一体系结构的不同实例,使用学生模型在先前阶段的输出来训练后续阶段。Chen等人[15]提出了一种通过跨样本相似性迁移的方法,改进了经典的排序损失。

    此外,知识蒸馏也存在一定的不足:在知识迁移过程中会存在细节的丢失,导致学生模型性能的降低;一般适用于Softmax损失函数的任务,对其他任务的泛化性不好;教师模型的软标签可能增加额外的计算开销。

    轻量化卷积算子是对深度学习模型中卷积操作进行优化的技术,旨在减少卷积的计算和存储开销。Slfre等人[16]提出深度可分离卷积Depth Conv,由深度卷积对每一个输入通道做卷积,由逐点卷积对通道数做调整。分组卷积Group Conv最早见于AlexNet[17]网络,将通道数分组执行卷积操作。扩张卷积Dilated Conv由Yu等人[18]提出,卷积核在输入上以一定的间隔进行操作。2017年Dai等人[19]提出的可变形的卷积DCnv,根据不同的特征图学习额外的偏移量,得到最优的卷积核结构,来增强模块中的空间采样位置。由于DCnv的感受野超出了目标所在区域,Zhu等人[20]提出了DCnv2,通过加入权重项调节感知输入特征的偏移量。2023年Wang等人[21]提出了DCnv3更适合大规模视觉基础模型的训练,采用了卷积神经元之间共享权重,以及分组卷积的多分组机制,将采样点间的调制标量进行归一化。2019年Gennari等人[22]提出的分布偏移卷积DSConv,通过使用可变量化核和卷积核与通道的分布偏移来模拟卷积层的行为,并使用整数运算代替单精度运算。2022年Li等人[23]提出了GSConv,将普通卷积和深度卷积通过通道重组的方式构建成一个新的卷积算子。对不同卷积算子之间的性能差异进行推理测试,实验结果如表 1所示。

    表  1  卷积算子推理测试
    Table  1.  Convolution operator inference test
    Name All time/s Mean time/ms FPS GFLOPs Params/k
    Conv 16.3 5.44 184 77.6 147.8
    Depth Conv 21.2 7.07 141 9.7 18.3
    Group Conv 12.5 4.17 240 9.9 18.8
    Dilated Conv 16.3 5.43 184 77.6 147.8
    Ghost-GhostNet 12 4.01 250 4.9 9.2
    PConv-FasterNet 9.2 3.05 327.5 5.1 9.5
    DSConv 14.4 4.8 208 0.27 0.26
    GSConv 18.4 6.15 163 39.8 75.7
    DCnv2 65.9 21.97 45.5 16.6 31.4
    DCnv3 44.2 14.74 67.8 20.1 38.2
    下载: 导出CSV 
    | 显示表格

    实验设置,GPU:Nvidia RTX 4070TI;bs:8;测试次数:3000;输入输出:256×256×128;卷积核:3×3。

    神经架构搜索(Neural Architecture Search,NAS)是自动化机器学习[24](AutoML)中的热门主题,其主要是通过基于启发式算法、强化学习或其他优化方法对神经网络的结构设计搜索空间,搜索找到最优性能的网络架构。2017年Zoph等人[25]提出了带有强化学习的神经架构搜索,利用递归神经网络作为控制器,通过强化学习训练,最终获得了与人工设计的最佳架构相媲美的结果。使用NAS自动搜索设计轻量化网络,可以找到人工设计忽略的新颖结构,且搜索到的网络泛化能力更强。但NAS的搜索过程通常需要大量计算资源和时间,且搜索结果可能因为随机性和初始条件的不同而不稳定。

    轻量化目标检测算法主要通过两种方式,在保持较高检测性能的同时减少模型的体积和计算复杂度[26]:一种是设计高效骨干网络backbone,替换模型中的传统的特征提取网络,这些网络也可以用于其他任务;另一种是通过压缩整体网络参数,去除不必要的层或模块简化网络结构等方法,设计一些“小而薄”的网络。

    骨干网络广泛应用于图像分类、目标检测、语义分割等计算机视觉任务。在目标检测任务中通常被当作特征提取网络,对目标检测任务的性能和计算开销有着显著的影响。轻量化目标检测网络重点从骨干网络进行优化。近几年的轻量化骨干网络可分为三种构建方式:基于卷积神经网络、基于CNN和Transformer相结合以及基于神经架构搜索NAS。

    CNN具有权重参数共享和平移不变性的特性,以对局部特征的敏感性和计算的高效性而闻名。在轻量化场景中,这种设计使得模型在保持相对较高性能的同时,能够在有限的计算和存储资源下运行,是人工设计轻量化骨干网络的主流。2016年Landola等人[27]提出的SqueezeNet,利用压缩再扩展减少卷积模型的参数量。2017年,Howard等人[28]提出的MobileNetv1,使用深度可分离卷积减少了网络层之间的计算量和参数量,引入了宽度参数和分辨率参数用于模型收缩。由于模型的深度卷积很多卷积核是空的,Sandler等人[29]提出的MobileNetv2,将部分ReLU激活函数替换为线性激活函数,避免信息的丢失,采用先扩张再卷积后压缩的倒残差结构。Howard等人[30]提出的MobileNetv3,新增了SE注意力机制、h-swish函数,以及NAS搜索操作。Zhang等人[31]提出的ShuffleNetv1使用分组卷积来降低计算复杂度,采用通道重组操作加强通道信息流动。Ma等人[32]提出的ShuffleNetv2,保持卷积层的输入与输出通道数相同,分组卷积使用少量的分组数,减少多路径结构,减少元素间的操作。Han等人[33]发现通过残差模块后的特征图在一些部分存在高度近似的情况,提出了Ghost模块(如图 1)构建的GhostNet模型。Ghost模块本质就是减少滤波器的数量,通过与简单线性变换后的特征图通道连接,达到与更多滤波器卷积相似的效果。

    图  1  Ghost模块
    Figure  1.  Ghost module

    Cui等人[34]提出的LCNet模型采用H-Swish激活函数、SE机制,末尾使用大核卷积和1280维的卷积等策略来提升模型性能。2023年,Vasu等人[35]设计了MobileOne网络。采用结构重参数化技术将训练时的多分支结构合并成推理时的直筒型架构。Chen等人[36]设计了FasterNet网络。采用部分卷积(PConv)作为基本算子(如图 2),只选取了输入特征的一部分进行普通卷积,其余部分特征保持不变,之后引入逐点卷积,有效地利用来自所有通道的信息。

    图  2  PConv模块
    Figure  2.  PConv module

    CNN结构缺乏对全局信息的理解,泛化能力相对较弱。Transformer通过自注意力机制能够更好地捕捉长距离依赖关系,而且具有较好的并行性,以及捕获全局特征的能力。但Transformer对局部特征不敏感,通常具有较大的参数和计算量。基于CNN与Transformer相结合的方式可以在同一个模型中更全面地理解数据的特征,在一定程度上平衡计算效率和模型性能,这种方式为轻量级深度学习提供了更灵活和适应性更强的解决方案。2021年,Mehta等人[37]提出了如图 3所示的轻量级模型MobileViT,通过将相同颜色像素展平,再进行注意力计算,来减少计算成本。

    图  3  轻量级模型MobileViT
    Figure  3.  Lightweight model module

    Maaz等人[38]提出了适用于移动视觉应用的轻量级模型EdgeNeXt。采用四阶段金字塔式结构设计,提出自适应卷积核大小的卷积编码器(Conv Encoder)在空间混合特征信息,分割深度转置注意编码器(SDTA Encoder)通过特征编码模块编码不同尺度的空间信息自适应地学习特征,通过自注意力模块对全局信息隐式编码多尺度特征和增加感受野。Cai等人[39]提出了一个轻量级模型EfficientViT。使用ReLU线性注意力捕获上下文信息,并通过前向神经网络FFN(Feed-Forward Network)和深度卷积来增强局部信息的提取。引入多尺度线性注意力模块和小卷积核聚合,实现全局感受野和多尺度学习相结合。2023年,Vasu等人[40]提出的低延时FastViT模型采用混合算子RepMixer消除跳跃连接,使用结构重参数化将训练时的多分支结构转化为推理时的单分支结构,并在前期使用大卷积核代替自注意力。

    基于神经架构搜索NAS的结构可以自动设计和定制特定任务下的最优网络,找到计算效率和性能之间更好的平衡点,以及适应多种任务需求。但通常会消耗大量时间和计算资源、网络复杂难以部署实现。2019年,Wu等人[41]基于可微分的架构搜索DARTS(Differentiable Architecture Search)算法构建了FBNetv1。通过梯度下降优化方法搜索路径上的操作,寻找最优的候选块分布,将目标设备时延与准确率共同作为优化目标。由于DARTS算法的搜索空间较小,Wan等人[42]提出利用计算效率高的DMaskingNAS算法搜索构建FBNetv2。算法搜索空间增加了通道和分辨率两个维度:将通道数维度以mask的方式加入到搜索空间中;采用类似的方法将不同分辨率的特征构造加权和的形式表征。FBNetv2并没有改变网络原本的结构,搜索过程忽略了网络架构和训练策略的组合。Dai等人[43]基于共享网络参数的NARS算法搜索FBNetV3模型。NARS是通过强化学习方法来搜索最佳的网络架构,同时搜索网络架构和其相应的训练策略。Xiong等人[44]通过NAS方法将常规卷积以正确的位置放置在网络中,提出了包括反向瓶颈层IBN(Inverted Bottleneck Layer)和由张量分解结构激发的灵活的全卷积序列的MobileDet搜索空间族(如图 4),直接优化轻量级目标检测模型的架构,提高了网络对目标检测的延迟—准确性的平衡。

    图  4  搜索空间族(红色部分可搜索)
    Figure  4.  Search space family (the red part is searchable)

    本文使用轻量化骨干网络作为YOLOv5s的特征提取网络,进行目标检测任务,得到的实验结果如表 2所示。模型训练实验设置如下,Optimizer:SGD(lr=0.01);Size:320×320;GPU:Nvidia RTX 4070TI;CPU:I5-13600KF;Epoch:300;data:PASCAL VOC 2007和VOC 2012数据集共计22136张图片;Batch-size:60。除ShuffleNetV2和EfficientViT未载入预训练权重,精度有所下降外,其他轻量化主干网络均载入预训练权重,并且迁移了YOLOv5s的预训练权重。最后选用1000张日常生活的图片在CPU和GPU上基于pytorch进行推理时间测试,bs=1,取平均值,测试时间不包括预处理和NMS(非极大值抑制)。

    表  2  不同骨干网络性能对比实验
    Table  2.  Performance comparison experiment of different backbone networks
    Model Layers Params/M GFLOPs mAP/(%) CPU/ms GPU/ms
    YOLOv5s 157 7.06 15.9 73.7 35.1 8.9
    MobileNetv3 294 4.65(66%) 7.2(45%) 61 29 5.3
    ShuffleNetv2 179 3.28(46%) 6.0(38%) 53.8 17.2 3.8
    GhostNet 385 4.09(58%) 7.8(49%) 65.9 35.0 6.3
    LCNet 242 4.7(67%) 8.8(55%) 68.6 41 4.1
    MobileOne 258 4.48(63%) 11(69%) 64.9 26.9 3.7
    FasterNet 223 5.59(79%) 11.4(72%) 68.4 24.6 4.9
    FBNetV3 597 9.21(130%) 14.3(90%) 71.9 97 8.5
    MobileViT 492 4.3(61%) 10.4(65%) 69.0 78.6 11.8
    EdgeNeXt 259 4.32(61%) 8.8(55%) 65.3 21.1 6.5
    EffientViT 286 3.79(54%) 7.0(44%) 63.4 42.3 6.7
    FastViT 544 6.65(88%) 14.7(92%) 68.0 50.5 7.4
    下载: 导出CSV 
    | 显示表格

    使用轻量级骨干网络作为YOLOv5s的特征提取网络,参数量和计算复杂度显著减少,但mAP值也有所下降。可以看到,MobileNet和ShuffleNet采用深度可分离卷积或分组卷积可以明显提高在CPU上的推理速度。MobileOne和FastViT由于训练时的多分支结构获得了相对较高的mAP,采用结构重参数化操作得到了推理时的单分支结构,参数量和计算量大大减少。基于CNN的模型由于硬件更好的优化,具有更快的推理速度,但mAP相对较低,随着近几年轻量化CNN的快速发展,mAP越来越高。基于NAS搜索的模型FBNetV3达到了71.9%的精度,但受到了模型最大、推理时间最长的困扰。基于CNN和Transformer结合的模型,mAP相对较高,但由于在移动设备上不具有针对Transformer的专用优化操作,所以MobileViT、FastViT模型比其他基于轻量级CNN的模型运行速度慢。

    研究人员通过将YOLO和SSD网络模型整体压缩,得到适用于边缘计算设备的轻量化版本,或基于YOLO和SSD算法与一些轻量化策略结合并改进,或通过自主设计整体架构,使轻量化目标检测算法兼具检测精度与实时性,满足在边缘计算设备目标检测任务需求。

    YOLO系列是基于回归方法的单阶段目标检测框架,在速度和简洁性等方面具有明显的优势,适用于实时目标检测场景。2015年,Redmon[45]提出YOLOv1算法的同时,还推出了轻量化版本YOLOv1-tiny,通过简化卷积层数量,降低检测精度以实现检测速度的提升。YOLOv2~YOLOv8[46-50]中也有专门为边缘计算设备的部署而设计的轻量化算法,通过减少卷积层、降低通道数、减少网络深度或者利用轻量化技术压缩模型。Ma[51]提出了第一个将YOLO算法的参数量减少到1 M以内的YOLO-Fastest算法,其更注重单核的实时推理性能。此后使用单检测头设计网络结构,提出了更轻量的FastestDet模型,虽然在精度上比不过其他轻量级算法,但在速度和模型大小上遥遥领先。YOLO系列轻量级目标检测算法运行速度快,适用于对实时性要求较高的场景。但其为了实现轻量化,牺牲了一定的检测精度,相比于其他的轻量级算法,准确度可能较低,而且对于密集目标或小目标的检测存在一定的局限性。

    另一种单阶段目标检测框架SSD通常使用轻量化的骨干网络作为特征提取网络,来实现轻量级目标检测任务,其平衡了YOLO和R-CNN的优缺点。2018年,Zhang等人[52]首次将SSD框架应用于轻量级目标检测算法,使用MobileNetv1作为特征提取网络。Womg等人[53]将SqueezeNet与SSD探测器进行特定的结合,提出了Tiny-SSD算法。Li等人[54]将深度卷积、DenseNet网络、特征融合金字塔相结合作为特征提取器,提出了Tiny-DSOD算法。

    YOLO系列算法具有实时性能强、网络结构相对简单、较低的复杂度、全局上下文设计、更容易训练和部署等优势,成为了轻量级目标检测领域的一种自然选择,许多轻量级目标检测算法都借鉴了YOLO的思想。2021年,Hu等人[55]提出了Micro-YOLO轻量级目标检测模型,将YOLOv3-tiny网络中权重参数占比最多的几层卷积,替换成具有挤压和激励块的移动反向瓶颈卷积和深度可分离卷积。Zhang等人[56]提出了CSL-YOLO,使用跨阶段轻量级卷积模块(Cross-Stage Lightweight,CSL)构建,类似于GhostNet中廉价的线性操作获取特征信息。Ge等人[57]采用深度卷积和削弱数据增强操作构建YOLOX-Nano模型,将YOLO检测头解耦成预测分类、背景和目标、坐标信息的3个分支,提高网络的收敛速度。Cui等人[58]提出了LC-YOLO模型,高效利用浅层网络的有限细节特征进行小物体检测。拉普拉斯瓶颈结构(Laplace Bottleneck,LB)采用拉普拉斯算子的边缘增强,提取浅层网络的细节特征。跨层注意力上采样(Cross Layer Attention Upsampling,CLAU)通过浅层和深层特征点积和加权和的方式,使深层网络中丰富的语义信息和浅层网络中丰富的细节信息像素级自适应融合。2023年Wang等人[59]提出了Gold-YOLO,通过设计一种收集和分发机制(Gather - and-Distribute,GD),通过卷积和自注意力操作来实现YOLOv6中颈部的不同层级之间信息交换,提高了信息融合能力,避免了原始结构只能通过中间层的递归调用间接获取,导致信息损失的问题。

    基于YOLO进行改进可能受到YOLO整体结构的一些限制,引入一些冗余结构,自主设计的网络可以更灵活地控制网络的规模和参数,并根据任务的特殊性进行定制,更好地适应特定场景下的需求。还可以采用更先进的轻量化策略和技术,提高在边缘计算设备上的部署效率。2020年,RangiLyu[60]权衡了众多轻量化结构的优点,提出了NanoDet。采用ShuffleNetv2作为骨干网络,颈部网络去掉了PAN中所有复杂卷积,采用邻近插值法实现分辨率对齐。采用基于FCOS系列的检测头,每一层特征都使用不同的卷积来加强模型的检测能力。次年,RangiLyu[61]提出了升级版NanoDet-Plus模型,将Ghost模块作为特征融合模块融入PAN结构。检测头新增一个新的下采样探测头,增加网络的检测能力。Yu等人[62]提出的实时目标检测器PicoDet,使用ES-Block模块来增强主干网络的特征提取能力。直接在检测数据集上训练一次性超级网络并在其上使用进化算法EA进行结构搜索,解决不同任务导致模型的性能差别问题。Zhou等人[63]提出的实时目标检测双路径DPNet模型,能够并行提取高级语义特征和低级对象细节。采用双路径结构,通过Bi-FM桥梁实现信息互通。其中轻量级自相关模块LSCM分为空间和通道注意力两个部分,将行空间注意力权重和列通道注意力权重进行加权融合。2023年,Tu等人[64]设计了FemtoDet模型,采用RELU激活函数、较小的内核卷积,以及提出了如图 5所示的特征融合结构SharedNeck。SharedNeck将不同尺度的特征通过上采样或下采样对齐,然后通过元素相加的方式进行合并。采用实例边界增强模块IBE来增强深度可分离卷积,解决了模糊物体边界导致的错误检测问题。

    图  5  SharedNeck结构
    Figure  5.  SharedNeck structure

    以上各种轻量化目标检测算法的相应指标如表 3所示。轻量级网络在保持一定精度的同时,还具有低延时小权重的特性,达到了较好的目标检测水平。

    表  3  轻量级目标检测网络实验结果
    Table  3.  Experimental results of lightweight object detection network
    Model Platform Dataset Params/M mAP/(%) Latency/ms GFLOPs
    YOLOv1-tiny Nvidia Titan X VOC07 - 52.7 6.45 -
    YOLOv2-tiny - VOC07 - 57.1 - -
    YOLOv3-tiny - COCO 6.06 16.6 - 6.96
    YOLOv4-tiny Kirin 990 COCO 8.86 21.7 55.44 5.62
    YOLOv5n Nvidia V100 COCO 1.9 28 6.3 4.5
    YOLOv6lite-S sm8350 COCO 0.55 22.4 7.99 0.56
    YOLOv7-tiny Nvidia V100 COCO 6.2 38.7 3.5 13.8
    YOLOv8n Nvidia A100 COCO 3.2 37.3 0.99 8.7
    YOLO-Fastest RK3568(A55) COCO 0.35 24.4(0.5) 26.6 0.252
    YOLO-Fastestv2 RK3568(A55) COCO 0.25 24.1(0.5) 23.8 0.212
    FastestDet RK3568(A55) COCO 0.24 13 23.51 -
    MobileNetv1-SSD NanoPi 2 VOC07 - 72.0 885 -
    Tiny-SSD - VOC07 1.13 61.3 - -
    Tiny-DSOD Nvidia Titan X VOC07 0.95 72.1 9.5 -
    Micro-YOLO Nvidia 2080ti COCO 1.92 29.3(0.5) 2.8 2.15
    CSL-YOLO Nvidia 1080ti COCO 3.2 24.5 - 1.47
    YOLOX-Nano ARM(4xA76) COCO 0.91 25.8 23.08 1.08
    Tiny LC-YOLO Nvidia 3090 UCAS-AOD 1.83 94.17 14.4 4.6
    Gold-YOLO Tesla T4 COCO 5.6 39.9 1.7 12.1
    NanoDet ARM(4*A76) COCO 0.95 20.6 10.23 0.72
    NanoDet-Plus ARM(4*A76) COCO 1.17 27.0 11.97 0.9
    PP-PicoDet ARM(4*A77) COCO 1.18 29.1 4.8 0.97
    DPNet Nvidia 2080Ti COCO 2.5 29.6 6 1.04
    FemtoDet ARM(4*A77) VOC 0.0688 46.31 15.5 -
    下载: 导出CSV 
    | 显示表格

    如今,目标检测网络主要通过人工设计或神经架构搜索(NAS)两种手段来优化网络结构。人工设计网络结构可以借鉴先前的知识和经验,灵活控制网络结构。但往往受限于自身的知识和经验,不能探索到最优的网络结构。NAS方法可以从大量的搜索空间中寻找最优解,使网络在现有条件下得到性能提升,但由于受到巨大的计算资源和时间的限制,不适用于个人或小团体的网络设计。目前,人工设计是轻量化网络的主流,包括巧妙的特征提取网络设计、高效的信息传递网络设计以及多样化的网络训练技巧3个方向。本文对轻量化技术的优势和局限性进行了详细的分析和总结,介绍了轻量化骨干网络的原理,并在YOLOv5s上实验以对比实际效果,最后总结分析了轻量化目标检测网络,并进行了相应指标的对比。

    在轻量化目标检测领域,存在一些挑战和困难。首先,克服计算和存储限制、应对目标多样性和尺度变化、满足实时性能需求以及平衡轻量化与准确性的挑战是至关重要的。这表明在设计轻量化网络时需要在有限资源下降低模型参数和计算复杂度,同时确保模型能够适应各种目标形状和尺寸,保持实时性能,能够快速响应,并在轻量化和准确性之间找到最佳平衡。其次,迁移学习是应对训练数据不足和提高泛化能力的关键因素。轻量化目标检测网络通常在有限的数据集上进行训练,这增加了模型的泛化能力面临的挑战。

    虽然轻量化目标检测领域面临着诸多挑战和困难,但近几年来轻量化目标检测算法仍旧取得了显著的进展,具有巨大的潜力和发展空间,可以预见将会呈现以下几个方面的发展趋势。①网络结构的创新:改进神经网络的结构,开发更高效的特征提取和目标检测机制。②模型压缩和加速技术的应用:研发针对不同模型高效的参数剪枝、知识蒸馏、量化训练等轻量化技术。③自动化神经架构搜索(NAS):利用NAS来自动寻找最适合特定任务的轻量化网络结构,减少手工调优的工作量。④跨模态融合和多任务学习:结合不同类型的数据(如图像、声音、文本),或同时解决多个任务(如检测和分类),提高算法的效率和效果。

  • 图  1   Ghost模块

    Figure  1.   Ghost module

    图  2   PConv模块

    Figure  2.   PConv module

    图  3   轻量级模型MobileViT

    Figure  3.   Lightweight model module

    图  4   搜索空间族(红色部分可搜索)

    Figure  4.   Search space family (the red part is searchable)

    图  5   SharedNeck结构

    Figure  5.   SharedNeck structure

    表  1   卷积算子推理测试

    Table  1   Convolution operator inference test

    Name All time/s Mean time/ms FPS GFLOPs Params/k
    Conv 16.3 5.44 184 77.6 147.8
    Depth Conv 21.2 7.07 141 9.7 18.3
    Group Conv 12.5 4.17 240 9.9 18.8
    Dilated Conv 16.3 5.43 184 77.6 147.8
    Ghost-GhostNet 12 4.01 250 4.9 9.2
    PConv-FasterNet 9.2 3.05 327.5 5.1 9.5
    DSConv 14.4 4.8 208 0.27 0.26
    GSConv 18.4 6.15 163 39.8 75.7
    DCnv2 65.9 21.97 45.5 16.6 31.4
    DCnv3 44.2 14.74 67.8 20.1 38.2
    下载: 导出CSV

    表  2   不同骨干网络性能对比实验

    Table  2   Performance comparison experiment of different backbone networks

    Model Layers Params/M GFLOPs mAP/(%) CPU/ms GPU/ms
    YOLOv5s 157 7.06 15.9 73.7 35.1 8.9
    MobileNetv3 294 4.65(66%) 7.2(45%) 61 29 5.3
    ShuffleNetv2 179 3.28(46%) 6.0(38%) 53.8 17.2 3.8
    GhostNet 385 4.09(58%) 7.8(49%) 65.9 35.0 6.3
    LCNet 242 4.7(67%) 8.8(55%) 68.6 41 4.1
    MobileOne 258 4.48(63%) 11(69%) 64.9 26.9 3.7
    FasterNet 223 5.59(79%) 11.4(72%) 68.4 24.6 4.9
    FBNetV3 597 9.21(130%) 14.3(90%) 71.9 97 8.5
    MobileViT 492 4.3(61%) 10.4(65%) 69.0 78.6 11.8
    EdgeNeXt 259 4.32(61%) 8.8(55%) 65.3 21.1 6.5
    EffientViT 286 3.79(54%) 7.0(44%) 63.4 42.3 6.7
    FastViT 544 6.65(88%) 14.7(92%) 68.0 50.5 7.4
    下载: 导出CSV

    表  3   轻量级目标检测网络实验结果

    Table  3   Experimental results of lightweight object detection network

    Model Platform Dataset Params/M mAP/(%) Latency/ms GFLOPs
    YOLOv1-tiny Nvidia Titan X VOC07 - 52.7 6.45 -
    YOLOv2-tiny - VOC07 - 57.1 - -
    YOLOv3-tiny - COCO 6.06 16.6 - 6.96
    YOLOv4-tiny Kirin 990 COCO 8.86 21.7 55.44 5.62
    YOLOv5n Nvidia V100 COCO 1.9 28 6.3 4.5
    YOLOv6lite-S sm8350 COCO 0.55 22.4 7.99 0.56
    YOLOv7-tiny Nvidia V100 COCO 6.2 38.7 3.5 13.8
    YOLOv8n Nvidia A100 COCO 3.2 37.3 0.99 8.7
    YOLO-Fastest RK3568(A55) COCO 0.35 24.4(0.5) 26.6 0.252
    YOLO-Fastestv2 RK3568(A55) COCO 0.25 24.1(0.5) 23.8 0.212
    FastestDet RK3568(A55) COCO 0.24 13 23.51 -
    MobileNetv1-SSD NanoPi 2 VOC07 - 72.0 885 -
    Tiny-SSD - VOC07 1.13 61.3 - -
    Tiny-DSOD Nvidia Titan X VOC07 0.95 72.1 9.5 -
    Micro-YOLO Nvidia 2080ti COCO 1.92 29.3(0.5) 2.8 2.15
    CSL-YOLO Nvidia 1080ti COCO 3.2 24.5 - 1.47
    YOLOX-Nano ARM(4xA76) COCO 0.91 25.8 23.08 1.08
    Tiny LC-YOLO Nvidia 3090 UCAS-AOD 1.83 94.17 14.4 4.6
    Gold-YOLO Tesla T4 COCO 5.6 39.9 1.7 12.1
    NanoDet ARM(4*A76) COCO 0.95 20.6 10.23 0.72
    NanoDet-Plus ARM(4*A76) COCO 1.17 27.0 11.97 0.9
    PP-PicoDet ARM(4*A77) COCO 1.18 29.1 4.8 0.97
    DPNet Nvidia 2080Ti COCO 2.5 29.6 6 1.04
    FemtoDet ARM(4*A77) VOC 0.0688 46.31 15.5 -
    下载: 导出CSV
  • [1]

    Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

    [2] 陈东, 刘宁. 深度学习中的模型压缩技术[J]. 人工智能, 2023(3): 40-51. DOI: 10.16453/j.2096-5036.2023.03.004.

    CHEN Dong, LIU Ning. Model compression technology in deep learning[J]. Artificial Intelligence, 2023(3): 40-51. DOI: 10.16453/j.2096-5036.2023.03.004.

    [3]

    HAN S, Pool J, Tran J, et al. Learning both Weights and Connections for Efficient Neural Networks[J]. arXiv e-prints arXiv: 1506.026262015.

    [4]

    Alizadeh M, Tailor S A, Zintgraf L M, et al. Prospect pruning: Finding trainable weights at initialization using meta-gradients[J]. arXiv preprint arXiv: 2202.08132, 2022.

    [5]

    HE Y, KANG G, DONG X, et al. Soft filter pruning for accelerating deep convolutional neural networks[J]. arXiv preprint arXiv: 1808.06866, 2018.

    [6]

    HE Y, LIU P, WANG Z, et al. Filter pruning via geometric median for deep convolutional neural networks acceleration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 4340-4349.

    [7]

    FANG G, MA X, SONG M, et al. Depgraph: towards any structural pruning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 16091-16101.

    [8]

    GONG Y, LIU L, YANG M, et al. Compressing deep convolutional networks using vector quantization[J]. arXiv preprint arXiv: 1412.6115, 2014.

    [9]

    Courbariaux M, Hubara I, Soudry D, et al. Binarized neural networks: training deep neural networks with weights and activations constrained to +1 or-1[J]. arXiv preprint arXiv: 1602.02830, 2016.

    [10]

    LI F, LIU B, WANG X, et al. Ternary weight networks[J]. arXiv preprint arXiv: 1605.04711, 2016.

    [11]

    Lebedev V, Ganin Y, Rakhuba M, et al. Speeding-up convolutional neural networks using fine-tuned cp-decomposition[J]. arXiv preprint arXiv: 1412.6553, 2014.

    [12]

    Kim Y D, Park E, Yoo S, et al. Compression of deep convolutional neural networks for fast and low power mobile applications[J]. arXiv preprint arXiv: 1511.06530, 2015.

    [13]

    Novikov A, Podoprikhin D, Osokin A, et al. Tensorizing Neural Networks[J]. arXiv preprint arXiv: 1509.06569, 2015.

    [14]

    Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv: 1503.02531, 2015.

    [15]

    CHEN Y, WANG N, ZHANG Z. DarkRank: accelerating deep metric learning via cross sample similarities transfer[J]. arXiv e-prints, arXiv: 1707.01220, 2017.

    [16]

    Sifre L, Mallat S. Rigid-motion scattering for texture classification[J]. arXiv preprint arXiv: 1403.1687, 2014.

    [17]

    Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 1097-105. http://www.open-open.com/misc/goto?guid=4959622549944527866

    [18]

    YU F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv: 1511.07122, 2015.

    [19]

    DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 764-773.

    [20]

    ZHU X, HU H, LIN S, et al. Deformable convnets v2: More deformable, better results[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 9308-9316.

    [21]

    WANG W, DAI J, CHEN Z, et al. Internimage: Exploring large-scale vision foundation models with deformable convolutions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 14408-14419.

    [22]

    Gennari M, Fawcett R, Prisacariu V A. DSConv: Efficient Convolution Operator[J]. arXiv preprint arXiv: 1901.01928, 2019.

    [23]

    LI H, LI J, WEI H, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[J]. arXiv preprint arXiv: 2206.02424, 2022.

    [24]

    HE X, ZHAO K, CHU X. AutoML: A survey of the state-of-the-art[J]. Knowledge-Based Systems, 2021, 212: 106622. http://www.sciencedirect.com/science/article/pii/S0950705120307516

    [25]

    Zoph B, Le Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint arXiv: 1611.01578, 2016.

    [26] 邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708. DOI: 10.11999/JEIT210790

    SHAO Yanhua, ZHANG Duo, CHU Hongyu, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3697-3708. DOI: 10.11999/JEIT210790

    [27]

    Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5 MB model size[J]. arXiv preprint arXiv: 1602.07360, 2016.

    [28]

    Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv: 1704.04861, 2017.

    [29]

    Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

    [30]

    Howard A, Sandler M, CHU G, et al. Searching for mobilenetv3[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 1314-1324.

    [31]

    ZHANG X, ZHOU X, LIN M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.

    [32]

    MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient CNN architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 116-131.

    [33]

    HAN K, WANG Y, TIAN Q, et al. Ghostnet: More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589.

    [34]

    CUI C, GAO T, WEI S, et al. PP-LCNet: A lightweight CPU convolutional neural network[J]. arXiv preprint arXiv: 2109.15099, 2021.

    [35]

    Vasu P K A, Gabriel J, Zhu J, et al. MobileOne: an improved one millisecond mobile backbone[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7907-7917.

    [36]

    CHEN J, KAO S, HE H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 12021-12031.

    [37]

    Mehta S, Rastegari M. Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer[J]. arXiv preprint arXiv: 2110.02178, 2021.

    [38]

    Maaz M, Shaker A, Cholakkal H, et al. Edgenext: efficiently amalgamated CNN-transformer architecture for mobile vision applications[C]//European Conference on Computer Vision, 2022: 3-20.

    [39]

    CAI H, GAN C, HAN S. Efficientvit: Enhanced linear attention for high-resolution low-computation visual recognition[J]. arXiv preprint arXiv: 2205.14756, 2022.

    [40]

    Vasu P K A, Gabriel J, ZHU J, et al. FastViT: A fast hybrid vision transformer using structural reparameterization[J]. arXiv preprint arXiv: 2303.14189, 2023.

    [41]

    WU B, DAI X, ZHANG P, et al. Fbnet: Hardware-aware efficient convnet design via differentiable neural architecture search[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 10734-10742.

    [42]

    WAN A, DAI X, ZHANG P, et al. Fbnetv2: Differentiable neural architecture search for spatial and channel dimensions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 12965-12974.

    [43]

    DAI X, WAN A, ZHANG P, et al. Fbnetv3: Joint architecture-recipe search using predictor pretraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 16276-16285.

    [44]

    XIONG Y, LIU H, Gupta S, et al. Mobiledets: Searching for object detection architectures for mobile accelerators[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 3825-3834.

    [45]

    Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

    [46]

    Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.

    [47]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

    [48]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

    [49]

    LI C, LI L, JIANG H, et al. YOLOv6: A single-stage object detection framework for industrial applications[J]. arXiv preprint arXiv: 2209.02976, 2022.

    [50]

    WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464-7475.

    [51] 马雪浩. Yolo-Fastest: 超超超快的开源ARM实时目标检测算法[J/OL]. 漫步视觉, 2020: 1-147. [2023-10-20]. https://zhuanlan.zhihu.com/p/234506503.

    MA Xuehao. Yolo-Fastest: Super-super-fast open source ARM real-time object detection algorithm[J/OL]. Wandering Vision, 2020: 1-147. [2023-10-20]. https://zhuanlan.zhihu.com/p/234506503.

    [52]

    ZHANG Y, BI S, DONG M, et al. The implementation of CNN-based object detector on ARM embedded platforms[C]//2018 IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing, 16th Intl Conf on Pervasive Intelligence and Computing, 4th Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress (DASC/PiCom/DataCom/CyberSciTech). IEEE, 2018: 379-382.

    [53]

    Womg A, Shafiee M J, LI F, et al. Tiny SSD: A tiny single-shot detection deep convolutional neural network for real-time embedded object detection[C]//2018 15th Conference on Computer and Robot Vision (CRV). IEEE, 2018: 95-101.

    [54]

    LI Y, LI J, LIN W, et al. Tiny-DSOD: Lightweight object detection for resource-restricted usages[J]. arXiv preprint arXiv: 1807.11013, 2018.

    [55]

    HU L, LI Y. Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model[C]//ICAART (2). 2021: 151-158.

    [56]

    ZHANG Y M, LEE C C, Hsieh J W, et al. CSL-YOLO: A new lightweight object detection system for edge computing[J]. arXiv preprint arXiv: 2107.04829, 2021.

    [57]

    GE Z, LIU S, WANG F, et al. YOLOx: Exceeding YOLO series in 2021[J]. arXiv preprint arXiv: 2107.08430, 2021.

    [58]

    CUI M, GONG G, CHEN G, et al. LC-YOLO: a lightweight model with efficient utilization of limited detail features for small object detection[J]. Applied Sciences, 2023, 13(5): 3174. http://openurl.ebsco.com/contentitem/doi:10.3390%2Fapp13053174?sid=ebsco:plink:crawler&id=ebsco:doi:10.3390%2Fapp13053174

    [59]

    WANG C, HE W, NIE Y, et al. Gold-YOLO: efficient object detector via gather-and-distribute mechanism[J]. arXiv preprint arXiv: 2309.11331, 2023.

    [60] RangiLyu. YOLO之外的另一选择: 手机端97FPS的Anchor-Free目标检测模型NanoDet现已开源[Z/OL]. 我爱计算机视觉, 2020: 1-405. [2023-10-20]. https://zhuanlan.zhihu.com/p/306530300.

    RangiLyu. Another option besides YOLO: NanoDet, an anchor-free target detection model with 97FPS on mobile phones, is now open source~[Z/OL]. I Love Computer Vision, 2020: 1-405. [2023-10-20]. https://zhuanlan.zhihu.com/p/306530300.

    [61] RangiLyu. 超简单辅助模块加速训练收敛, 精度大幅提升: 移动端实时的NanoDet升级版NanoDet-Plus来了![Z/OL]. CVer计算机视觉, 2022: 1-648. [2023-10-20]. https://zhuanlan.zhihu.com/p/449912627.

    RangiLyu. Super simple auxiliary module accelerates training convergence and greatly improves accuracy: NanoDet-Plus, a real-time mobile NanoDet upgrade, is here! [Z/OL]. CVer Computer Vision, 2022: 1-648. [2023-10-20]. https://zhuanlan.zhihu.com/p/449912627.

    [62]

    YU G, CHANG Q, LV W, et al. PP-PicoDet: A better real-time object detector on mobile devices[J]. arXiv preprint arXiv: 2111.00902, 2021.

    [63]

    ZHOU Q, SHI H, XIANG W, et al. DPNet: Dual-Path network for real-time object detection with lightweight attention[J]. arXiv preprint arXiv: 2209.13933, 2022.

    [64]

    TU P, XIE X, LING M, et al. FemtoDet: an object detection baseline for energy versus performance tradeoffs[J]. arXiv preprint arXiv: 2301.06719, 2023.

图(5)  /  表(3)
计量
  • 文章访问数:  88
  • HTML全文浏览量:  8
  • PDF下载量:  31
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-12-05
  • 修回日期:  2024-01-23
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回