基于红外可见光特征增强与融合的目标检测算法

李明禄, 王肖霞, 侯茂新, 杨风暴

李明禄, 王肖霞, 侯茂新, 杨风暴. 基于红外可见光特征增强与融合的目标检测算法[J]. 红外技术, 2025, 47(3): 385-394.
引用本文: 李明禄, 王肖霞, 侯茂新, 杨风暴. 基于红外可见光特征增强与融合的目标检测算法[J]. 红外技术, 2025, 47(3): 385-394.
LI Minglu, WANG Xiaoxia, HOU Maoxin, YANG Fengbao. An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion[J]. Infrared Technology , 2025, 47(3): 385-394.
Citation: LI Minglu, WANG Xiaoxia, HOU Maoxin, YANG Fengbao. An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion[J]. Infrared Technology , 2025, 47(3): 385-394.

基于红外可见光特征增强与融合的目标检测算法

详细信息
    作者简介:

    李明禄(2000-),男,硕士研究生,主要研究方向为多模图像处理与识别。E-mail: lml20010402@foxmail.com

    通讯作者:

    王肖霞(1980-),女,博士,副教授,主要研究方向为不确定性信息处理、关联成像等。E-mail: wangxiaoxia@nuc.edu.cn

  • 中图分类号: TP391

An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion

  • 摘要:

    为了应对复杂动态环境下红外与可见光双模态目标检测的挑战,特别是目标特征表达不足以及红外可见光特征在双模态融合中无法充分利用互补特征导致漏检和误检的问题,提出了一种用于目标检测的双分支特征增强与融合网络(Dual-Branch Feature Enhancement and Fusion,DBEF-Net)。针对模型对红外和可见光特征关注度不足的问题,设计了一种特征交互增强模块,该模块能够有效地关注并增强双模态特征中的有用信息。同时,为了更有效地利用双模态的互补特征,采用基于Transformer的双模态融合网络,并引入交叉注意力机制,以实现模态间的深度融合。实验结果表明,在SYUGV数据集上,与现有双模态目标检测算法相比,本文方法的平均检测精度更高,处理速度也能满足实时检测的需求。

    Abstract:

    A dual-branch feature enhancement and fusion backbone network (DBEF-Net) is proposed for object detection to address the challenges of infrared and visible bimodal object detection in complex dynamic environments. Specifically, DBEF-Net addresses issues such as insufficient object feature expression and the inability of infrared and visible features to fully utilize the complementary features in bimodal fusion leading to omission and misdetection. To further address the insufficient attention of the model to infrared and visible light features, a feature interaction enhancement module is designed to effectively focus on and enhance the useful information in bimodal features. A transformer-based bimodal fusion network is further adopted. To utilize the complementary features of bimodal modalities more effectively, a cross-attention mechanism is introduced to achieve deep fusion between the modalities. Experimental results show that the proposed method has higher average detection accuracy than existing bimodal object detection algorithms on the SYUGV dataset, meeting the processing speed for real-time detection.

  • 目标检测技术是机器视觉领域中最为基础且极具挑战的任务之一[1],旨在识别出图像中感兴趣的物体,并标注其语义类别以及最小包围框[2]。现阶段的目标检测算法主要基于深度学习方法,通过数百个甚至上千个卷积层来提取可描述目标信息的特征,使网络具有较高的表达能力[3]。而随着检测场景的多元化以及复杂化,仅依靠单源的目标检测方法已无法满足实际应用需求[4-5],越来越多的研究者逐渐转向的多源目标检测的研究。但输入源的增加使得多源目标检测模型参数过多,网络的推理效率较低,在实际边缘设备中的应用中存在一定局限[6-7]。因此,如何在保障检测效率的同时充分利用目标多源信息,对目标检测性能的提升以及落地实际应用都有较大的推动作用。

    目前,多源目标检测方法主要融合红外和可见光图像来进行识别检测[8],而针对该方式,已有较多学者进行了相应的研究。Zhang等人[9]为提升目标在不同光照条件下的检测,将红外和可见光相机采集的图像分别进行目标检测,并根据检测结果对目标进行去重融合。该方式虽能实现全天候目标检测,但模型过于繁重,且随着输入源增多,模型推理时间也成倍增加。邝楚文等人[10]针对目标多源信息,设计了并列的信息交互目标检测网络,利用可训练参数对各维度红外和可见光特征加权融合以丰富目标特征信息,进而提升检测效果,但其特征融合方式相对简单,且目标多模态特征利用相对有限。马野等人[11]为增强目标信息,先采用图像融合技术对红外和可见光图像进行像素融合,再利用深层卷积网络对目标进行识别定位。该方式虽较好地互补输入目标信息,但也引入了较多背景噪声,容易干扰对小目标的检测。由此可见,现有的基于红外和可见光的多源目标检测方法仍存在一定局限。

    针对上述多源目标检测存在的不足,本文以单阶段目标检测结构为基础,结合分组卷积特征提取模块,设计了一种高效率的多源目标检测模型。主要工作如下:

    1)在总结前人研究工作基础上构建了一种兼顾精度与效率的红外和可见光融合目标检测模型;

    2)设计了一种基于单支路的多源特征提取结构,利用分组卷积结合点卷积实现红外特征、可见光特征以及融合特征分别提取,提升效率的同时保障了特征多样性;

    3)引入了基于注意力机制的多尺度特征融合结构,利用注意力结构增强各目标特征后再利用邻域多尺度特征自适应融合来提升模型尺度不变性;

    4)改进了非极大值抑制算法(Non-Maximum Suppression, NMS),根据预测框之间的相对关系以及置信度来综合目标包围框,进一步提升了目标定位的准确性。

    所提单阶段分组特征提取的多源目标检测模型结构如图 1所示,主要分为分组特征提取、注意力多尺度融合以及目标框筛选3个部分。分组特征提取主要将多源输入特征进行分组,再利用分组卷积操作分别对红外特征、可见光特征以及融合特征由浅到深依次提取;而注意力多尺度融合则基于所提的各个维度特征,通过注意力机制捕获每个维度的关键信息后以自适应加权方式融合目标相邻尺度特征;最后,基于融合后的各尺度特征分别对目标类别及位置进行预测,再利用改进的非极大值抑制算法移除冗余目标框,实现目标精确检测。

    图  1  多源目标检测整体结构
    Figure  1.  Overall structure of object detection network

    目前,大多数多源目标检测网络的特征提取部分主要采用并列多分支结构来分别对不同输入源的目标信息进行提取[12],该方式虽能相对充分地获取目标各模态特征,但网络的复杂度以及计算量都成倍增加,实际应用范围相对有限。因此,为简化多源目标特征获取方式,设计了如图 2所示的单支路分组特征提取结构。

    图  2  单支路分组特征提取结构
    Figure  2.  Single branch grouping feature extraction structure

    所提分组特征提取结构主要由初始采样模块、分组卷积模块以及特征降维模块堆叠构成。初始采样模块如图 2(a)所示,主要考虑到输入图像尺寸通常较大,且包含较多噪声信息,故该模块采用了步长为2的2×2均值池化(Mean pool)、2×2众数池化(Mode pool)、3×3深度可分离卷积(DSConv)以及3×3标准卷积(Conv)等操作来分别对可见光和红外图像进行处理,通过多个角度提取原始图像特征可以有效避免采样过程中重要信息丢失,再将结果有序拼接后供后续模块使用。分组卷积模块是多源特征提取结构中的核心部分,通过特征分组的方式代替多分支结构来实现红外和可见光多源信息分别提取。该结构主要是将特征分为3个部分:红外特征、可见光特征以及融合特征,对于红外和可见光特征采用3×3深度可分离卷积结合H-Swish激活函数进行提取;而融合特征则采用点卷积来对多源特征进行综合,最后将3部分特征进行拼接,如图 2(b)所示。通过该模块可以在保证计算效率的同时充分提取目标各模态特征以及融合特征,大幅提升网络特征多样性。特征降维模块结构如图 2(c)所示,主要是为深入提取目标全局抽象特征,采用步长为2的深度可分离卷积和最大池化操作对输入特征的尺寸进行降维,并将降维后特征以对应模态方式进行拼接,即红外卷积特征与红外池化特征进行拼接,方便后续进行分组卷积。通过将初始采样模块以及多个分组卷积拼接模块和特征降维模块依次串联,进而实现多源目标特征高效提取。

    分组特征提取结构高效提取了目标在不同尺度下的特征,而目标检测的实现需要充分利用所提取各尺度信息。现有的多尺度特征利用方式大多采用直接预测或通过采样融合方式进行预测[13-14],虽然也能实现多尺度目标的检测,但直接预测方式缺乏不同尺度间的信息交互,采样融合预测也容易造成特征相互干扰。针对此,本文设计了图 3所示的结合注意力机制的邻域多尺度特征融合检测结构。

    图  3  注意力多尺度结构
    Figure  3.  Attention multi-scale structure

    注意力多尺度模块以分组特征提取结构中每个尺度的最后一层输出作为输入,考虑到特征中背景通常多于目标信息,若直接多尺度融合容易增强背景特征,造成对目标的干扰。因此,该结构首先采用了图 3(a)所示的注意力机制来突出每个尺度中的关键特征。所提注意力机制主要借鉴卷积注意力(Convolutional Block Attention Module, CBAM)结构[15]分别对通道和空间特征进行增强,并在此基础上丰富了全局信息获取方式,利用一维卷积替换全连接来减少计算量,计算方式如式(1)(2)(3)所示。而对于多尺度融合,考虑到越小的目标在深层特征中越容易被稀释,若将每个尺度的特征都与其他尺度融合则会造成不同大小目标之间相互干扰。因此,多尺度结构通过依次将相邻尺度的特征进行融合来降低过大过小目标间的影响,如图 3(b)所示。融合策略采用了式(4)所示的自适应加权融合,可以进一步降低背景信息干扰,提升目标预测的准确度。

    $$ F = {\text{Concat}}\left( {\begin{array}{*{20}{c}} {{\text{Max}}\left( f \right)} \\ {{\text{Avg}}\left( f \right)} \\ {{\text{Std}}\left( f \right)} \\ {{\text{Mode}}\left( f \right)} \end{array}} \right) $$ (1)
    $$ {W}_{\text{f}}=\text{Sigmoid}\left({\text{Conv}}_{K}\left(F\right)\right) $$ (2)
    $$ K = {\text{Odd}}\left( {\frac{{{\text{lb}}\left( {{F_{\dim }}} \right) + 1}}{2}} \right) $$ (3)
    $$ {y_i} = {\alpha _i}x_i^l + {\beta _i}x_i^h $$ (4)

    式中:f为注意力机制输入特征;Max、Avg、Std、Mode分别表示计算最大值、均值、标准差和众数;Concat表示将计算值拼接;F为获取的全局信息;ConvK表示核大小为K的一维卷积;K值计算如式(3),Fdim表示F的维度,Odd表示奇数取值函数;Sigmoid函数对权重归一化;Wf表示f特征对应的权重。xil表示相邻浅层尺度特征;xih表示相邻深层尺度特征;i表示第i个通道特征图;αiβi为对应的自适应权重,且权重满足αi, βi∈[0, 1],αi+βi=1;yi为多尺度融合后的特征。

    对于目标预测,主要基于多尺度融合后的每个尺度特征,借鉴YOLO网络[14]对目标类别以及边框进行预测。由于预测的目标框存在极大的冗余,需要进一步优化筛选出最优的目标框。而目前最常用的筛选方法即采用NMS算法,根据不同目标框的交集面积来抑制高重叠度且低置信度的目标框。该方式虽能较好地抑制重叠度较高的冗余框,但也容易造成被同类目标遮挡的目标漏检,且通过直接移除高重叠度目标框的抑制方式也使预测结果未充分利用。因此,针对NMS算法存在的不足,本文将目标预测框的抑制方式进行了优化,筛选流程如图 4所示。

    图  4  目标框筛选流程
    Figure  4.  Target box filtering process

    改进的NMS算法针对每类目标,先筛选出其中重叠度和置信度都超过阈值的预测框,然后利用所有筛选预测框的最小包围框来替换,进而优化目标包围框边界信息,提升预测框对目标检测的完整性,计算方式如式(5)所示。其次,为降低目标重叠造成漏检,针对存在重叠的同类目标预测框,将NMS算法中移除抑制方式替换为根据重叠面积大小来调整预测框置信度,调整方式如式(6)所示。最后,根据NMS算法迭代筛选出最终的目标框。

    $$ M = \left\{ {\begin{array}{*{20}{l}} {M, \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant T\quad {\text{or}}\quad {C_{{b_i}}} \leqslant T} \\ {{\text{mAR}}\left( {M, {b_i}} \right)\;\, {\text{IoU}}\left( {M, {b_i}} \right) > T\quad {\text{and}}\;{C_{{b_i}}} > T} \end{array}} \right. $$ (5)
    $$ {C_M} = \left\{ {\begin{array}{*{20}{l}} {{C_M}, \quad \quad \quad \quad \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant t} \\ {{C_M}\left( {1 - {\text{IoU}}\left( {M, {b_i}} \right)} \right), \quad \;{\text{IoU}}\left( {M, {b_i}} \right) > t} \end{array}} \right. $$ (6)

    式中:M为置信度最高的预测框;bi是与M存在重叠的预测框;T为预测框高重叠度和置信度阈值,本文设置为0.95;mAR表示Mbi的最小包围框;IoU表示计算两目标框交并比;CMM预测框置信度值;t为重叠框的IoU阈值,本文设置0.5。

    为验证所提多源目标检测模型的有效性和泛化能力,实验采用KAIST、FLIR、RGBT[16]标准数据集对模型进行了测试验证。由于标准数据集中的图像或部分目标存在重叠度高、目标难以辨认、标注有误等情况,为降低噪声数据对实验结果的影响,实际训练测试时对其进行了筛选,最终的实验数据集组成如表 1所示。

    表  1  实验数据集构成
    Table  1.  Composition of experimental dataset
    Configure KAIST FLIR RGBT
    Number of images 8600 11000 15000
    Image size 512×512 512×512 640×480
    Number of target categories 4 8 11
    Train: Verification: Test 7:1:2
    下载: 导出CSV 
    | 显示表格

    实验平台采用英伟达公司开发的Jetson系列Xavier NX智能边缘设备,网络模型基于TensorFlow深度学习框架进行搭建,训练过程中的超参数设置如表 2所示。

    表  2  超参数设置
    Table  2.  Hyperparameter setting
    Hyperparameter Value
    Batch size 4
    Learning rate 0.01
    Weight initialization Xavier
    Learning rate regulation Multistep
    Weight decay 0.005
    Momentum 0.95
    Weight adjustment strategy Adam
    Category loss calculation Cross Entropy
    Position loss calculation CIoU
    下载: 导出CSV 
    | 显示表格

    对于所提多源目标检测方法的性能评估主要采用均值平均精度(mAP)、模型每秒处理帧数(fps)两个基础指标进行衡量。同时,针对网络的尺度不变性以及预测框精确性,实验借鉴文献[17]方式,将精度细分为mAPs、mAPm、mAPl和AP、AP50、AP75来分别评估模型对不同大小目标的识别效果以及目标边框预测的准确性。

    为充分验证所提多源目标检测网络的可行性,实验以轻量级YOLO-tiny v4目标检测结构为基础,通过控制变量法来依次对网络各个结构进行测试。对于特征提取模块,实验分别从特征不分组和分组两个角度进行了对比测试。特征不分组即传统单源目标检测网络,仅输入可见光图像的方式来测试网络基础骨干结构,并将其与当前主流的高效率目标检测结构进行了对比,结果如表 3所示。

    表  3  基础特征提取结构对比
    Table  3.  Comparison of basic feature extraction structures
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    ShuffleNetv2[18] 38 71.0 50.8 70.5 79.6
    GhostNetv2[19] 35 71.6 51.1 71.2 80.4
    MobileNetv3[20] 32 72.5 52.2 72.4 81.6
    Our network 34 72.1 51.9 72.0 81.2
    下载: 导出CSV 
    | 显示表格

    通过表 3的对比结果可以看出,虽然各网络结构都采用深度可分离卷积为核心进行特征提取,但本文所提基础网络相对于其他网络在检测精度以及效率之间得到了较好的平衡。特征分组提取即引入本文所述分组卷积结构,以多源信息作为输入进行测试,并分别与并列双支路提取、多源信息融合后提取两种方式进行对比,结果如表 4所示。

    表  4  多源特征提取结构对比
    Table  4.  Comparison of multi-source feature extraction structures
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    Dual branch extraction 17 76.2 57.1 76.5 85.3
    Fusion extraction 33 74.9 55.6 75.1 82.8
    Group extraction 30 77.5 58.3 77.8 86.9
    下载: 导出CSV 
    | 显示表格

    根据表 4结果可以看出,所提分组结构不仅有效避免了双支路结构引入的冗余计算,同时也降低了多源信息融合造成的信息干扰,保障了目标各个模态特征以及融合特征的充分提取,使网络在检测精度以及计算效率上都得到了较大的提升。而对于注意力多尺度结构,实验首先针对注意力机制,将所提结构与目前主流的注意力机制进行了对比,结果如表 5所示。

    表  5  注意力结构对比
    Table  5.  Comparison of attention structure
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    No attention 30 77.5 58.3 77.8 86.9
    ECANet[21] 29 78.1 58.8 78.5 87.7
    ViT[22] 29 78.2 59.0 78.6 87.6
    CBAM[15] 26 78.8 59.7 79.2 88.3
    Triplet[23] 28 78.6 59.4 78.9 88.0
    Our attention 28 79.2 60.1 79.5 88.9
    下载: 导出CSV 
    | 显示表格

    根据注意力机制的对比结果可以看出,ECANet结构主要从特征通道角度提升目标类别信息,而ViT从空间位置增强目标定位信息,虽对目标检测结果有一定提升,但由于仅考虑了部分特征,故提升效果有限。而CBAM和Triplet注意力虽同时考虑了通道和空间位置特征,但两者对全局信息的获取相对单一,且CBAM中的全连接结构以及Triplet中三分支计算结构都引入了较多计算量,降低了网络检测效率。而本文所提注意力结构充分综合了现有注意力的优势,通过多种全局信息捕获策略结合一维局部卷积来高效增强关键特征,进而提升网络检测性能。对于多尺度融合结构,实验分别对比了YOLO上采样融合、自适应融合、高斯模糊融合结构,结果如表 6所示。

    表  6  多尺度特征融合结构对比
    Table  6.  Comparison of multi-scale feature fusion structures
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    Upsampling[13] 28 79.2 60.1 79.5 88.9
    Adaptive[14] 24 80.4 60.8 80.9 90.3
    Gaussian[19] 26 79.7 60.0 80.3 89.7
    Ours Neighborhood 27 80.3 61.0 80.5 90.1
    下载: 导出CSV 
    | 显示表格

    根据表 6可见,不同多尺度结构对不同大小目标的检测效果存在较大差异,上采样结构虽以较小的计算量实现了目标的多尺度融合,但仅适用于特征较强的目标,对于信息较弱的目标识别较差。自适应结构虽综合了所有尺度信息,但引入了较大的计算量。高斯融合结构虽在一定程度上改善了自适应结构的计算效率,但高斯模糊容易弱化小目标特征,使小目标检测效果较差。而所提结构采用多种全局信息计算策略配合邻域自适应融合方式,使网络以较少的计算量实现多尺度目标的检测,可以更好地识别不同大小目标。对于所提目标框优化筛选策略,实验对比了NMS优化前后网络预测框在不同IoU评价指标下的检测精度,结果如表 7所示。

    表  7  NMS改进前后对比
    Table  7.  Comparison of NMS before and after improvement
    Network Efficiency/fps Test accuracy/(%)
    AP AP50 AP75
    Before NMS optimization 27 60.5 87.5 60.4
    After NMS optimization 27 61.0 88.8 61.3
    下载: 导出CSV 
    | 显示表格

    根据表 7结果可以看出,优化后的筛选策略在基本不引入额外计算消耗的前提下可以相对更充分地利用目标预测框,提升最终目标框的合理性以及精确性,使其更接近标注框。而对于所提多源目标检测模型整体的有效性,实验分别从检测性能以及可视化效果上与其他同类型网络进行了对比,结果如表 8图 5所示。

    表  8  同类型多源目标检测对比
    Table  8.  Comparison of same type multiple source object detection
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    Literature [9] 16 77.9 60.1 77.7 88.5
    Literature [10] 22 78.8 60.8 78.9 89.3
    Literature [11] 26 78.3 60.2 78.3 88.7
    Ours 27 80.6 61.4 80.8 90.3
    下载: 导出CSV 
    | 显示表格
    图  5  KAIST数据集目标检测效果对比
    Figure  5.  Comparison of object detection effects in KAIST dataset

    根据图 5可以看出,文献[9]将多源数据分别检测再融合,虽然可以较好地检测出不同模态下的显著目标,但对于在各模态中信息都较弱的目标检测效果较差。文献[10]所提多源特征交叉融合结构相对于文献[9]在特征利用以及网络整体效率上都有一定改善,但其基础结构仍采用双支路方式,故提升相对有限。文献[11]先将多源图像融合再利用单支路网络实现目标检测,虽然效率得到了较大提升,但图像融合丰富目标信息的同时也引入了较多噪声,且多源信息融合再提取对目标特征利用不够充分,使检测精度相对有限。而所提模型较好地综合了现有方法的优势,以单支路分组卷积方式代替双支路结构,分别对目标多模态特征以及融合特征进行提取,并结合注意力、多尺度等结构提升网络建模表达能力,进而使得本文多源目标检测网络更优于当时同类型结构。

    为进一步验证所提多源目标检测方法在其他复杂场景下的泛化能力以及稳定性,实验依次利用了FLIR和RGBT数据集对所提网络进行训练测试,并与同类型方法进行对比,结果如表 9表 10图 6所示。

    表  9  FLIR数据集测试结果对比
    Table  9.  Comparison of FLIR dataset test results
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    Literature [9] 15 75.3 58.2 74.9 86.1
    Literature [10] 21 76.5 59.1 76.0 87.2
    Literature [11] 25 76.2 58.7 75.6 86.8
    Ours 26 79.1 60.6 78.8 88.7
    下载: 导出CSV 
    | 显示表格
    表  10  RGBT数据集测试结果
    Table  10.  Comparison of RGBT dataset test results
    Network Efficiency/fps Test accuracy/(%)
    mAP mAPs mAPm mAPl
    Literature [9] 14 70.3 52.8 70.5 82.1
    Literature [10] 20 71.0 53.5 71.6 83.2
    Literature [11] 24 70.6 53.0 71.2 82.9
    Ours 25 72.4 54.7 72.8 84.3
    下载: 导出CSV 
    | 显示表格
    图  6  FLIR和RGBT数据集目标检测效果(前两行:FLIR;后两行:RGBT)
    Figure  6.  Object detection effect of FLIR and RGBT datasets (first two rows: FLIR; second two rows: RGBT)

    根据上述测试结果可见,由于深层卷积神经网络自身具有较高泛化性特点,故各方法在不同场景下的检测性能变化方向基本一致,不存在对某个场景过于依赖的情况。而通过对比各方法在不同数据集下的精度变化率可以看出,本文方法相对于其他方法精度降低相对较少,由此可推断出所提模型具有更高的鲁棒性和泛化性,可以更好地适应复杂目标检测场景。

    本文针对现有基于红外和可见光的多源目标检测网络在精度与效率平衡问题上存在的局限,将多源信息看作单源多通道特征,以分组卷积操作为核心,提出了一种高效率的单支路多源目标检测网络。网络首先以局部极值、均值、卷积加权等多种方式对输入图像降维,减少冗余信息的同时降低后续特征提取的计算量;其次,将特征通道根据不同模态进行分组,并利用深度可分离卷积结合点卷积分别提取对红外、可见光以及两者融合的特征;然后,基于所提目标多模态特征,引入通道及空间注意力机制并配合邻域自适应多尺度融合结构来提升目标显著特征,增强各维度特征间信息交互;最后,根据各个尺度特征预测各目标类别及位置,再通过优化后的NMS算法调整并筛选出最优的目标预测框。通过在多个公开数据集上的测试结果有效验证了所提多源目标检测各个模块及整体模型的可行性以及鲁棒性,可以准确高效地完成目标检测任务。尽管本文方法在一定程度上提升了多源目标检测网络性能,但仍值得深入研究,后期将进一步增加其他信息源数据来丰富模型多样性,提升网络在复杂场景的适应性。

  • 图  1   红外-可见光目标检测整体架构

    Figure  1.   Overall framework of infrared-visible light object detection

    图  2   双分支编码器结构

    Figure  2.   Dual-branch encoder structure

    图  3   特征交互增强模块结构

    Figure  3.   Feature interaction and enhancement structure

    图  4   交叉注意力融合结构

    Figure  4.   Cross attention fusion structure

    图  5   SYUGV数据集

    Figure  5.   SYUGV Datasets

    图  6   不同模态输入的P-R曲线

    Figure  6.   P-R curves of different modal inputs

    图  7   双分支模型的Grad-CAM热图

    Figure  7.   Grad-CAM heatmap of dual branch model

    图  8   消融实验平均检测精度曲线

    Figure  8.   Average precision curves of ablation experiment

    图  9   不同模型的特征关注可视化

    Figure  9.   Visualization of feature attention for different models

    图  10   模型训练对比

    Figure  10.   Comparison of model training

    图  11   不同模型在SYUGV数据集上的检测效果对比

    Figure  11.   Comparison of detection effects of different models on the SYUGV dataset

    表  1   不同模态输入的模型检测性能

    Table  1   Model detection performance of different modal inputs

    Method Input P/% R/% mAP@0.5/% mAP@0.5-0.95/% GFlops Params/M FPS
    YOLOv8s VI 89.1 78.2 86.7 54.1 28.6 11.1 150
    YOLOv8s IR 91.9 86.3 91.8 65.3 28.6 11.1 150
    Dual-YOLOv8s VI+IR 93.2 88.0 94.2 68.9 22.8 8.8 163
    下载: 导出CSV

    表  2   双分支检测模型的消融实验结果

    Table  2   Ablation experimental results of the dual branch detection model

    Method Input P/% R/% mAP@0.5/% mAP@0.5-0.95/% Params/M FPS
    Baseline VI+IR 93.2 88.0 94.2 68.9 8.8 163
    Baseline+DBE VI+IR 93.9 89.2 95.2 69.3 9.7 135
    Baseline+CBAM VI+IR 93.4 87.6 93.6 67.7 9.2 161
    Baseline+ECA VI+IR 93.3 89.0 94.5 68.7 17.6 98
    Baseline+CTF VI+IR 93.8 88.9 95.0 69.0 11.5 128
    Baseline+DBE+TF VI+IR 95.3 89.5 94.9 69.1 11.0 115
    Baseline+DBE+CTF VI+IR 95.2 90.4 95.6 69.6 12.3 117
    下载: 导出CSV

    表  3   不同模型的对比实验结果

    Table  3   Comparative experimental results of different models

    Method P/% R/% mAP@0.5/% mAP@0.5-0.95/% Params/M FPS
    MAF-YOLO 93.5 85.4 92.8 64.4 6.1 63
    SLBAF-Net 88.5 87.3 93.1 61.8 1.1 71
    ICAFusion 94.0 90.6 95.0 64.9 23.2 26
    Ours 95.2 90.4 95.6 69.6 12.3 117
    下载: 导出CSV
  • [1]

    Ramachandran A, Sangaiah A K. A review on object detection in unmanned aerial vehicle surveillance[J]. International Journal of Cognitive Computing in Engineering, 2021, 2: 215-228.

    [2]

    HU Y, SHI L, YAO L, et al. Dual attention feature fusion for visible-infrared object detection[C]//International Conference on Artificial Neural Networks, 2023: 53-65.

    [3] 宁大海, 郑晟. 可见光和红外图像决策级融合目标检测算法[J]. 红外技术, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    NING Dahai, ZHENG Sheng. An object detection algorithm based on decision-level fusion of visible and infrared images[J]. Infrared Technology, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    [4]

    Bustos N, Mashhadi M, Lai-Yuen S K, et al. A systematic literature review on object detection using near infrared and thermal images[J]. Neurocomputing, 2023, 560: 126804.

    [5]

    YUE G, LI Z, TAO Y, et al. Low-illumination traffic object detection using the saliency region of infrared image masking on infrared-visible fusion image[J]. Journal of Electronic Imaging, 2022, 31(3): 033029-033029.

    [6]

    LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.

    [7]

    TANG Cong, LING Yongshun, YANG Hua, et al. Decision-level fusion detection for infrared and visible spectra based on deep learning[J]. Infrared and Laser Engineering, 2019, 48(6): 626001-0626001(15).

    [8]

    SUN Y M, CAO B, ZHU P F, et al. Drone-based RGB-Infrared cross-modality vehicle detection via uncertainty-aware learning[J]. IEEE Transactions on Circuitsand Systems for Video Technology, 2022, 32: 6700-6713.

    [9]

    GENG K K, ZOU W, YIN G D, et al. Low-observable targets detection for autonomous vehicles based on dual-modal sensor fusion with deep learning approach[J]. Journal of Automobile Engineering, 2019, 233(9): 2270-2283.

    [10]

    XUE Y, JU Z, LI Y, et al. MAF-YOLO: Multi-modal attention fusion based YOLO for pedestrian detection[J]. Infrared Physics & Technology, 2021, 118: 103906.

    [11]

    CHENG X, GENG K, WANG Z, et al. SLBAF-Net: Super-Lightweight bimodal adaptive fusion network for UAV detection in low recognition environment[J]. Multimedia Tools and Applications, 2023, 82(30): 47773-47792.

    [12]

    SHEN J, CHEN Y, LIU Y, et al. ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection[J]. Pattern Recognition, 2024, 145: 109913.

    [13]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020.

    [14]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

    [15]

    Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

    [16]

    CHEN Z, HE Z, LU Z M. DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention[J]. IEEE Transactions on Image Processing, 2024, 33: 1002-1015.

    [17]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Neural Information Processing Systems, Neural Information Processing Systems, 2017, 30: 6000-6010.

    [18]

    FANG Qingyun, HAN Dapeng, WANG Zhaokui. Cross-modality fusion transformer for multispectral object detection[J]. arXiv preprint arXiv: 2111.00273, 2021.

    [19]

    Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.

    [20]

    WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11534-11542.

图(11)  /  表(3)
计量
  • 文章访问数:  32
  • HTML全文浏览量:  6
  • PDF下载量:  15
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-13
  • 修回日期:  2024-06-24
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回