Lightweight Multisource Object Detection Based on Group Feature Extraction
-
摘要:
为兼顾多源目标检测网络的精度与效率,将分组卷积作用于目标多模态特征中,并配合注意力多尺度结构以及改进的目标框筛选策略,设计了一种轻量级的红外与可见光目标检测模型。模型先以多种特征降维策略对输入图像进行采样,降低噪声及冗余信息的影响;其次,根据特征通道所属模态进行分组,并利用深度可分离卷积分别对红外特征、可见光特征以及融合特征进行提取,提升多源特征提取结构的多样性以及高效性;然后,针对各维度多模态特征,引入改进的注意力机制来增强关键特征,再结合邻域多尺度融合结构保障网络的尺度不变性;最后,利用优化后的非极大值抑制算法来综合各尺度目标预测结果,精确检测出各个目标。通过在KAIST、FLIR、RGBT公开数据集上的测试结果表明,所提模型有效提升了目标检测性能,并且相对于同类型多源目标检测方法,该模型也体现出较高的鲁棒性和泛化性,可以更好地实现目标检测。
Abstract:To balance the accuracy and efficiency of multisource object detection networks, a lightweight infrared and visible light object detection model with a multiscale attention structure and an improved object-box filtering strategy was designed by applying group convolution to multimodal object features. First, multiple feature dimensionality reduction strategies were adopted to sample the input image and reduce the impact of noise and redundant information. Subsequently, feature grouping was performed based on the mode of the feature channel, and deep separable convolution was used to extract infrared, visible, and fused features, to enhance the diversity and efficiency of extracted multisource feature structures. Then, an improved attention mechanism was utilized to enhance key multimodal features in various dimensions, combining them with a neighborhood multiscale fusion structure to ensure scale invariance of the network. Finally, the optimized non-maximum suppression algorithm was used to synthesize the prediction results of objects at various scales for accurate detection of each object. Experimental results based on the KAIST, FLIR, and RGBT public thermal datasets show that the proposed model effectively improves object detection performance compared with the same type of multisource object detection methods.
-
0. 引言
目标检测技术是机器视觉领域中最为基础且极具挑战的任务之一[1],旨在识别出图像中感兴趣的物体,并标注其语义类别以及最小包围框[2]。现阶段的目标检测算法主要基于深度学习方法,通过数百个甚至上千个卷积层来提取可描述目标信息的特征,使网络具有较高的表达能力[3]。而随着检测场景的多元化以及复杂化,仅依靠单源的目标检测方法已无法满足实际应用需求[4-5],越来越多的研究者逐渐转向的多源目标检测的研究。但输入源的增加使得多源目标检测模型参数过多,网络的推理效率较低,在实际边缘设备中的应用中存在一定局限[6-7]。因此,如何在保障检测效率的同时充分利用目标多源信息,对目标检测性能的提升以及落地实际应用都有较大的推动作用。
目前,多源目标检测方法主要融合红外和可见光图像来进行识别检测[8],而针对该方式,已有较多学者进行了相应的研究。Zhang等人[9]为提升目标在不同光照条件下的检测,将红外和可见光相机采集的图像分别进行目标检测,并根据检测结果对目标进行去重融合。该方式虽能实现全天候目标检测,但模型过于繁重,且随着输入源增多,模型推理时间也成倍增加。邝楚文等人[10]针对目标多源信息,设计了并列的信息交互目标检测网络,利用可训练参数对各维度红外和可见光特征加权融合以丰富目标特征信息,进而提升检测效果,但其特征融合方式相对简单,且目标多模态特征利用相对有限。马野等人[11]为增强目标信息,先采用图像融合技术对红外和可见光图像进行像素融合,再利用深层卷积网络对目标进行识别定位。该方式虽较好地互补输入目标信息,但也引入了较多背景噪声,容易干扰对小目标的检测。由此可见,现有的基于红外和可见光的多源目标检测方法仍存在一定局限。
针对上述多源目标检测存在的不足,本文以单阶段目标检测结构为基础,结合分组卷积特征提取模块,设计了一种高效率的多源目标检测模型。主要工作如下:
1)在总结前人研究工作基础上构建了一种兼顾精度与效率的红外和可见光融合目标检测模型;
2)设计了一种基于单支路的多源特征提取结构,利用分组卷积结合点卷积实现红外特征、可见光特征以及融合特征分别提取,提升效率的同时保障了特征多样性;
3)引入了基于注意力机制的多尺度特征融合结构,利用注意力结构增强各目标特征后再利用邻域多尺度特征自适应融合来提升模型尺度不变性;
4)改进了非极大值抑制算法(Non-Maximum Suppression, NMS),根据预测框之间的相对关系以及置信度来综合目标包围框,进一步提升了目标定位的准确性。
1. 多源目标检测模型设计
1.1 整体框架
所提单阶段分组特征提取的多源目标检测模型结构如图 1所示,主要分为分组特征提取、注意力多尺度融合以及目标框筛选3个部分。分组特征提取主要将多源输入特征进行分组,再利用分组卷积操作分别对红外特征、可见光特征以及融合特征由浅到深依次提取;而注意力多尺度融合则基于所提的各个维度特征,通过注意力机制捕获每个维度的关键信息后以自适应加权方式融合目标相邻尺度特征;最后,基于融合后的各尺度特征分别对目标类别及位置进行预测,再利用改进的非极大值抑制算法移除冗余目标框,实现目标精确检测。
1.2 分组特征提取
目前,大多数多源目标检测网络的特征提取部分主要采用并列多分支结构来分别对不同输入源的目标信息进行提取[12],该方式虽能相对充分地获取目标各模态特征,但网络的复杂度以及计算量都成倍增加,实际应用范围相对有限。因此,为简化多源目标特征获取方式,设计了如图 2所示的单支路分组特征提取结构。
所提分组特征提取结构主要由初始采样模块、分组卷积模块以及特征降维模块堆叠构成。初始采样模块如图 2(a)所示,主要考虑到输入图像尺寸通常较大,且包含较多噪声信息,故该模块采用了步长为2的2×2均值池化(Mean pool)、2×2众数池化(Mode pool)、3×3深度可分离卷积(DSConv)以及3×3标准卷积(Conv)等操作来分别对可见光和红外图像进行处理,通过多个角度提取原始图像特征可以有效避免采样过程中重要信息丢失,再将结果有序拼接后供后续模块使用。分组卷积模块是多源特征提取结构中的核心部分,通过特征分组的方式代替多分支结构来实现红外和可见光多源信息分别提取。该结构主要是将特征分为3个部分:红外特征、可见光特征以及融合特征,对于红外和可见光特征采用3×3深度可分离卷积结合H-Swish激活函数进行提取;而融合特征则采用点卷积来对多源特征进行综合,最后将3部分特征进行拼接,如图 2(b)所示。通过该模块可以在保证计算效率的同时充分提取目标各模态特征以及融合特征,大幅提升网络特征多样性。特征降维模块结构如图 2(c)所示,主要是为深入提取目标全局抽象特征,采用步长为2的深度可分离卷积和最大池化操作对输入特征的尺寸进行降维,并将降维后特征以对应模态方式进行拼接,即红外卷积特征与红外池化特征进行拼接,方便后续进行分组卷积。通过将初始采样模块以及多个分组卷积拼接模块和特征降维模块依次串联,进而实现多源目标特征高效提取。
1.3 注意力多尺度融合
分组特征提取结构高效提取了目标在不同尺度下的特征,而目标检测的实现需要充分利用所提取各尺度信息。现有的多尺度特征利用方式大多采用直接预测或通过采样融合方式进行预测[13-14],虽然也能实现多尺度目标的检测,但直接预测方式缺乏不同尺度间的信息交互,采样融合预测也容易造成特征相互干扰。针对此,本文设计了图 3所示的结合注意力机制的邻域多尺度特征融合检测结构。
注意力多尺度模块以分组特征提取结构中每个尺度的最后一层输出作为输入,考虑到特征中背景通常多于目标信息,若直接多尺度融合容易增强背景特征,造成对目标的干扰。因此,该结构首先采用了图 3(a)所示的注意力机制来突出每个尺度中的关键特征。所提注意力机制主要借鉴卷积注意力(Convolutional Block Attention Module, CBAM)结构[15]分别对通道和空间特征进行增强,并在此基础上丰富了全局信息获取方式,利用一维卷积替换全连接来减少计算量,计算方式如式(1)(2)(3)所示。而对于多尺度融合,考虑到越小的目标在深层特征中越容易被稀释,若将每个尺度的特征都与其他尺度融合则会造成不同大小目标之间相互干扰。因此,多尺度结构通过依次将相邻尺度的特征进行融合来降低过大过小目标间的影响,如图 3(b)所示。融合策略采用了式(4)所示的自适应加权融合,可以进一步降低背景信息干扰,提升目标预测的准确度。
$$ F = {\text{Concat}}\left( {\begin{array}{*{20}{c}} {{\text{Max}}\left( f \right)} \\ {{\text{Avg}}\left( f \right)} \\ {{\text{Std}}\left( f \right)} \\ {{\text{Mode}}\left( f \right)} \end{array}} \right) $$ (1) $$ {W}_{\text{f}}=\text{Sigmoid}\left({\text{Conv}}_{K}\left(F\right)\right) $$ (2) $$ K = {\text{Odd}}\left( {\frac{{{\text{lb}}\left( {{F_{\dim }}} \right) + 1}}{2}} \right) $$ (3) $$ {y_i} = {\alpha _i}x_i^l + {\beta _i}x_i^h $$ (4) 式中:f为注意力机制输入特征;Max、Avg、Std、Mode分别表示计算最大值、均值、标准差和众数;Concat表示将计算值拼接;F为获取的全局信息;ConvK表示核大小为K的一维卷积;K值计算如式(3),Fdim表示F的维度,Odd表示奇数取值函数;Sigmoid函数对权重归一化;Wf表示f特征对应的权重。xil表示相邻浅层尺度特征;xih表示相邻深层尺度特征;i表示第i个通道特征图;αi和βi为对应的自适应权重,且权重满足αi, βi∈[0, 1],αi+βi=1;yi为多尺度融合后的特征。
1.4 目标框优化及筛选
对于目标预测,主要基于多尺度融合后的每个尺度特征,借鉴YOLO网络[14]对目标类别以及边框进行预测。由于预测的目标框存在极大的冗余,需要进一步优化筛选出最优的目标框。而目前最常用的筛选方法即采用NMS算法,根据不同目标框的交集面积来抑制高重叠度且低置信度的目标框。该方式虽能较好地抑制重叠度较高的冗余框,但也容易造成被同类目标遮挡的目标漏检,且通过直接移除高重叠度目标框的抑制方式也使预测结果未充分利用。因此,针对NMS算法存在的不足,本文将目标预测框的抑制方式进行了优化,筛选流程如图 4所示。
改进的NMS算法针对每类目标,先筛选出其中重叠度和置信度都超过阈值的预测框,然后利用所有筛选预测框的最小包围框来替换,进而优化目标包围框边界信息,提升预测框对目标检测的完整性,计算方式如式(5)所示。其次,为降低目标重叠造成漏检,针对存在重叠的同类目标预测框,将NMS算法中移除抑制方式替换为根据重叠面积大小来调整预测框置信度,调整方式如式(6)所示。最后,根据NMS算法迭代筛选出最终的目标框。
$$ M = \left\{ {\begin{array}{*{20}{l}} {M, \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant T\quad {\text{or}}\quad {C_{{b_i}}} \leqslant T} \\ {{\text{mAR}}\left( {M, {b_i}} \right)\;\, {\text{IoU}}\left( {M, {b_i}} \right) > T\quad {\text{and}}\;{C_{{b_i}}} > T} \end{array}} \right. $$ (5) $$ {C_M} = \left\{ {\begin{array}{*{20}{l}} {{C_M}, \quad \quad \quad \quad \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant t} \\ {{C_M}\left( {1 - {\text{IoU}}\left( {M, {b_i}} \right)} \right), \quad \;{\text{IoU}}\left( {M, {b_i}} \right) > t} \end{array}} \right. $$ (6) 式中:M为置信度最高的预测框;bi是与M存在重叠的预测框;T为预测框高重叠度和置信度阈值,本文设置为0.95;mAR表示M和bi的最小包围框;IoU表示计算两目标框交并比;CM为M预测框置信度值;t为重叠框的IoU阈值,本文设置0.5。
2. 实验与结果分析
为验证所提多源目标检测模型的有效性和泛化能力,实验采用KAIST、FLIR、RGBT[16]标准数据集对模型进行了测试验证。由于标准数据集中的图像或部分目标存在重叠度高、目标难以辨认、标注有误等情况,为降低噪声数据对实验结果的影响,实际训练测试时对其进行了筛选,最终的实验数据集组成如表 1所示。
表 1 实验数据集构成Table 1. Composition of experimental datasetConfigure KAIST FLIR RGBT Number of images 8600 11000 15000 Image size 512×512 512×512 640×480 Number of target categories 4 8 11 Train: Verification: Test 7:1:2 实验平台采用英伟达公司开发的Jetson系列Xavier NX智能边缘设备,网络模型基于TensorFlow深度学习框架进行搭建,训练过程中的超参数设置如表 2所示。
表 2 超参数设置Table 2. Hyperparameter settingHyperparameter Value Batch size 4 Learning rate 0.01 Weight initialization Xavier Learning rate regulation Multistep Weight decay 0.005 Momentum 0.95 Weight adjustment strategy Adam Category loss calculation Cross Entropy Position loss calculation CIoU 对于所提多源目标检测方法的性能评估主要采用均值平均精度(mAP)、模型每秒处理帧数(fps)两个基础指标进行衡量。同时,针对网络的尺度不变性以及预测框精确性,实验借鉴文献[17]方式,将精度细分为mAPs、mAPm、mAPl和AP、AP50、AP75来分别评估模型对不同大小目标的识别效果以及目标边框预测的准确性。
2.1 模型可行性验证
为充分验证所提多源目标检测网络的可行性,实验以轻量级YOLO-tiny v4目标检测结构为基础,通过控制变量法来依次对网络各个结构进行测试。对于特征提取模块,实验分别从特征不分组和分组两个角度进行了对比测试。特征不分组即传统单源目标检测网络,仅输入可见光图像的方式来测试网络基础骨干结构,并将其与当前主流的高效率目标检测结构进行了对比,结果如表 3所示。
通过表 3的对比结果可以看出,虽然各网络结构都采用深度可分离卷积为核心进行特征提取,但本文所提基础网络相对于其他网络在检测精度以及效率之间得到了较好的平衡。特征分组提取即引入本文所述分组卷积结构,以多源信息作为输入进行测试,并分别与并列双支路提取、多源信息融合后提取两种方式进行对比,结果如表 4所示。
表 4 多源特征提取结构对比Table 4. Comparison of multi-source feature extraction structuresNetwork Efficiency/fps Test accuracy/(%) mAP mAPs mAPm mAPl Dual branch extraction 17 76.2 57.1 76.5 85.3 Fusion extraction 33 74.9 55.6 75.1 82.8 Group extraction 30 77.5 58.3 77.8 86.9 根据表 4结果可以看出,所提分组结构不仅有效避免了双支路结构引入的冗余计算,同时也降低了多源信息融合造成的信息干扰,保障了目标各个模态特征以及融合特征的充分提取,使网络在检测精度以及计算效率上都得到了较大的提升。而对于注意力多尺度结构,实验首先针对注意力机制,将所提结构与目前主流的注意力机制进行了对比,结果如表 5所示。
表 5 注意力结构对比Table 5. Comparison of attention structure根据注意力机制的对比结果可以看出,ECANet结构主要从特征通道角度提升目标类别信息,而ViT从空间位置增强目标定位信息,虽对目标检测结果有一定提升,但由于仅考虑了部分特征,故提升效果有限。而CBAM和Triplet注意力虽同时考虑了通道和空间位置特征,但两者对全局信息的获取相对单一,且CBAM中的全连接结构以及Triplet中三分支计算结构都引入了较多计算量,降低了网络检测效率。而本文所提注意力结构充分综合了现有注意力的优势,通过多种全局信息捕获策略结合一维局部卷积来高效增强关键特征,进而提升网络检测性能。对于多尺度融合结构,实验分别对比了YOLO上采样融合、自适应融合、高斯模糊融合结构,结果如表 6所示。
根据表 6可见,不同多尺度结构对不同大小目标的检测效果存在较大差异,上采样结构虽以较小的计算量实现了目标的多尺度融合,但仅适用于特征较强的目标,对于信息较弱的目标识别较差。自适应结构虽综合了所有尺度信息,但引入了较大的计算量。高斯融合结构虽在一定程度上改善了自适应结构的计算效率,但高斯模糊容易弱化小目标特征,使小目标检测效果较差。而所提结构采用多种全局信息计算策略配合邻域自适应融合方式,使网络以较少的计算量实现多尺度目标的检测,可以更好地识别不同大小目标。对于所提目标框优化筛选策略,实验对比了NMS优化前后网络预测框在不同IoU评价指标下的检测精度,结果如表 7所示。
表 7 NMS改进前后对比Table 7. Comparison of NMS before and after improvementNetwork Efficiency/fps Test accuracy/(%) AP AP50 AP75 Before NMS optimization 27 60.5 87.5 60.4 After NMS optimization 27 61.0 88.8 61.3 根据表 7结果可以看出,优化后的筛选策略在基本不引入额外计算消耗的前提下可以相对更充分地利用目标预测框,提升最终目标框的合理性以及精确性,使其更接近标注框。而对于所提多源目标检测模型整体的有效性,实验分别从检测性能以及可视化效果上与其他同类型网络进行了对比,结果如表 8和图 5所示。
根据图 5可以看出,文献[9]将多源数据分别检测再融合,虽然可以较好地检测出不同模态下的显著目标,但对于在各模态中信息都较弱的目标检测效果较差。文献[10]所提多源特征交叉融合结构相对于文献[9]在特征利用以及网络整体效率上都有一定改善,但其基础结构仍采用双支路方式,故提升相对有限。文献[11]先将多源图像融合再利用单支路网络实现目标检测,虽然效率得到了较大提升,但图像融合丰富目标信息的同时也引入了较多噪声,且多源信息融合再提取对目标特征利用不够充分,使检测精度相对有限。而所提模型较好地综合了现有方法的优势,以单支路分组卷积方式代替双支路结构,分别对目标多模态特征以及融合特征进行提取,并结合注意力、多尺度等结构提升网络建模表达能力,进而使得本文多源目标检测网络更优于当时同类型结构。
2.2 模型泛化性验证
为进一步验证所提多源目标检测方法在其他复杂场景下的泛化能力以及稳定性,实验依次利用了FLIR和RGBT数据集对所提网络进行训练测试,并与同类型方法进行对比,结果如表 9、表 10和图 6所示。
根据上述测试结果可见,由于深层卷积神经网络自身具有较高泛化性特点,故各方法在不同场景下的检测性能变化方向基本一致,不存在对某个场景过于依赖的情况。而通过对比各方法在不同数据集下的精度变化率可以看出,本文方法相对于其他方法精度降低相对较少,由此可推断出所提模型具有更高的鲁棒性和泛化性,可以更好地适应复杂目标检测场景。
3. 结语
本文针对现有基于红外和可见光的多源目标检测网络在精度与效率平衡问题上存在的局限,将多源信息看作单源多通道特征,以分组卷积操作为核心,提出了一种高效率的单支路多源目标检测网络。网络首先以局部极值、均值、卷积加权等多种方式对输入图像降维,减少冗余信息的同时降低后续特征提取的计算量;其次,将特征通道根据不同模态进行分组,并利用深度可分离卷积结合点卷积分别提取对红外、可见光以及两者融合的特征;然后,基于所提目标多模态特征,引入通道及空间注意力机制并配合邻域自适应多尺度融合结构来提升目标显著特征,增强各维度特征间信息交互;最后,根据各个尺度特征预测各目标类别及位置,再通过优化后的NMS算法调整并筛选出最优的目标预测框。通过在多个公开数据集上的测试结果有效验证了所提多源目标检测各个模块及整体模型的可行性以及鲁棒性,可以准确高效地完成目标检测任务。尽管本文方法在一定程度上提升了多源目标检测网络性能,但仍值得深入研究,后期将进一步增加其他信息源数据来丰富模型多样性,提升网络在复杂场景的适应性。
-
表 1 实验数据集构成
Table 1 Composition of experimental dataset
Configure KAIST FLIR RGBT Number of images 8600 11000 15000 Image size 512×512 512×512 640×480 Number of target categories 4 8 11 Train: Verification: Test 7:1:2 表 2 超参数设置
Table 2 Hyperparameter setting
Hyperparameter Value Batch size 4 Learning rate 0.01 Weight initialization Xavier Learning rate regulation Multistep Weight decay 0.005 Momentum 0.95 Weight adjustment strategy Adam Category loss calculation Cross Entropy Position loss calculation CIoU 表 3 基础特征提取结构对比
Table 3 Comparison of basic feature extraction structures
表 4 多源特征提取结构对比
Table 4 Comparison of multi-source feature extraction structures
Network Efficiency/fps Test accuracy/(%) mAP mAPs mAPm mAPl Dual branch extraction 17 76.2 57.1 76.5 85.3 Fusion extraction 33 74.9 55.6 75.1 82.8 Group extraction 30 77.5 58.3 77.8 86.9 表 5 注意力结构对比
Table 5 Comparison of attention structure
表 6 多尺度特征融合结构对比
Table 6 Comparison of multi-scale feature fusion structures
表 7 NMS改进前后对比
Table 7 Comparison of NMS before and after improvement
Network Efficiency/fps Test accuracy/(%) AP AP50 AP75 Before NMS optimization 27 60.5 87.5 60.4 After NMS optimization 27 61.0 88.8 61.3 表 8 同类型多源目标检测对比
Table 8 Comparison of same type multiple source object detection
表 9 FLIR数据集测试结果对比
Table 9 Comparison of FLIR dataset test results
-
[1] 杜紫薇, 周恒, 李承阳, 等. 面向深度卷积神经网络的小目标检测算法综述[J]. 计算机科学, 2022, 49(12): 205-218. DOI: 10.11896/jsjkx.220500260 DU Z W, ZHOU H, LI C Y, et al. A survey on small object detection algorithms for deep convolutional neural networks[J]. Computer Science, 2022, 49(12): 205-218. DOI: 10.11896/jsjkx.220500260
[2] 李科岑, 王晓强, 林浩, 等. 深度学习中的单阶段小目标检测方法综述[J]. 计算机科学与探索, 2022, 16(1): 41-58. LI K C, WANG X Q, LIN H, et al. A survey on single-stage small object detection methods in deep learning[J]. Journal of Computer Science and Exploration, 2022, 16(1): 41-58.
[3] LIANG Y, QIN G, SUN M, et al. Multi-modal interactive attention and dual progressive decoding network for RGB-D/T salient object detection[J]. Neurocomputing, 2022, 490: 132-145. DOI: 10.1016/j.neucom.2022.03.029
[4] 宋文姝, 侯建民, 崔雨勇. 基于多源信息融合的智能目标检测技术[J]. 电视技术, 2021, 45(6): 101-105. SONG W S, HOU J M, CUI Y Y. Intelligent object detection technology based on multi-source information fusion[J]. Television Technology, 2021, 45(6): 101-105.
[5] LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.
[6] 吴泽, 缪小冬, 李伟文, 等. 基于红外可见光融合的低能见度道路目标检测算法[J]. 红外技术, 2022, 44(11): 1154-1160. http://hwjs.nvir.cn/article/id/4bac684b-eed1-4894-900f-ed97489995e6 WU Z, MIAO X D, LI W W, et al. Low-visibility road object detection algorithm based on infrared visible light fusion[J]. Infrared Technology, 2022, 44(11): 1154-1160. http://hwjs.nvir.cn/article/id/4bac684b-eed1-4894-900f-ed97489995e6
[7] Afyouni I, Al Aghbari Z, Razack R A. Multi-feature, multi-modal, and multi-source social event detection: a comprehensive survey[J]. Information Fusion, 2022, 79: 279-308. DOI: 10.1016/j.inffus.2021.10.013
[8] 程腾, 孙磊, 侯登超, 等. 基于特征融合的多层次多模态目标检测[J]. 汽车工程, 2021, 43(11): 1602-1610. CHENG T, SUN L, HOU D C, et al. Multi-level multi-modal object detection based on feature fusion[J]. Automotive Engineering, 2021, 43(11): 1602-1610.
[9] ZHANG L, WANG S, SUN H, et al. Research on dual mode target detection algorithm for embedded platform[J]. Complexity, 2021, 2021(8): 1-8. http://openurl.ebsco.com/contentitem/doi:10.1155%2F2024%2F9874354?sid=ebsco:plink:crawler&id=ebsco:doi:10.1155%2F2024%2F9874354
[10] 邝楚文, 何望. 基于红外与可见光图像的目标检测算法[J]. 红外技术, 2022, 44(9): 912-919. http://hwjs.nvir.cn/article/id/60c5ef39-1d9c-4918-842f-3d86b939f3a6 KUANG C W, HE W. Target detection algorithm based on infrared and visible light images[J]. Infrared Technology, 2022, 44(9): 912-919. http://hwjs.nvir.cn/article/id/60c5ef39-1d9c-4918-842f-3d86b939f3a6
[11] 马野, 吴振宇, 姜徐. 基于红外图像与可见光图像特征融合的目标检测算法[J]. 导弹与航天运载技术, 2022(5): 83-87. MA Y, WU Z Y, JIANG X. Target detection algorithm based on feature fusion of infrared and visible light images[J]. Missile and Space Vehicle Technology, 2022(5): 83-87.
[12] ZHANG D, YE M, LIU Y, et al. Multi-source unsupervised domain adaptation for object detection[J]. Information Fusion, 2022, 78: 138-148. http://www.sciencedirect.com/science/article/pii/S1566253521001895
[13] CHEN S, MA W, ZHANG L. Dual-bottleneck feature pyramid network for multiscale object detection[J]. Journal of Electronic Imaging, 2022, 31(1): 1-16. http://www.nstl.gov.cn/paper_detail.html?id=58c6ec4e74c19b48febf51e68105aea0
[14] TANG B. ASFF-YOLOv5: Multielement detection method for road traffic in UAV images based on multiscale feature fusion[J]. Remote Sensing, 2022, 14(14): 3498-3499. http://www.mdpi.com/2072-4292/14/14/3498
[15] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[16] LI C, LIANG X, LU Y, et al. RGB-T object tracking: benchmark and baseline[J]. Pattern Recognition, 2019, 96: 106977. http://doc.paperpass.com/patent/arXiv180508982.html
[17] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//Computer Vision–ECCV 2014: 13th European Conference, 2014: 740-755.
[18] MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 116-131.
[19] HAN K, WANG Y, XU C, et al. GhostNets on heterogeneous devices via cheap operations[J]. International Journal of Computer Vision, 2022, 130(4): 1050-1069. DOI: 10.1007/s11263-022-01575-y
[20] Howard A, Sandler M, CHU G, et al. Searching for mobilenetv3[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 1314-1324.
[21] WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 11534-11542.
[22] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations, 2021: 331-368.
[23] Misra D, Nalamada T, Arasanipalai A U, et al. Rotate to attend: convolutional triplet attention module[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 3139-3148.