基于稀疏注意力的红外弱小目标检测方法

张兴旺; 李大威; 蔺素珍; 禄晓飞

基于稀疏注意力的红外弱小目标检测方法

1.
中北大学电气与控制工程学院, 山西太原 030051
2.
中北大学大数据学院, 山西太原 030051
3.
酒泉卫星发射中心, 甘肃酒泉 735000

基金项目:

山西省自然科学研究面上项目 202303021211147

太原市关键核心技术攻关“揭榜挂帅项目”项目 2412100022MZ

详细信息

作者简介:
张兴旺（2000-），男，硕士研究生，主要从事图像处理、目标检测方面的研究。E-mail：1214875272@qq.com

通讯作者:
李大威（1980-），男，博士，副教授，硕士生导师，主要从事模式识别、机器学习方面的研究。E-mail：lidawei@nuc.edu.cn

中图分类号: TP391
计量
- 文章访问数: 17
- HTML全文浏览量: 6
- PDF下载量: 8
出版历程
- 收稿日期: 2024-03-03
- 修回日期: 2024-05-26
- 刊出日期: 2025-03-19

Infrared Weak Target Detection Method Based on Sparse Attention

1.
School of Electrical and Control Engineering, North University of China, Taiyuan 030051, China
2.
College of Data Science and Technology, North University of China, Taiyuan 030051, China
3.
Jiuquan Satellite Launch Center, Jiuquan 735000, China

摘要

摘要:
针对复杂背景下红外弱小目标像素占比少，细节纹理特征匮乏导致特征提取困难、检测率低、虚警率高的问题，提出一种基于稀疏注意力和多尺度特征融合的红外弱小目标检测网络。该网络利用Resnest的分割注意力提取不同尺度特征，引入Biformer注意力模块学习目标与背景之间的远程关系，采用融合模块将高、低层特征进行融合，经过Head模块输出检测结果二值图。实验结果表明，本文方法在IoU和F_measure这两项指标中均取得最优，与DNANet方法相比，所提方法的交并比（IoU）提高3.9%、F_measure提高5.6%；与ABCNet方法相比，所提方法的IoU提高5.8%、F_measure提高10%；并且在不同复杂背景下均可有效检测出红外弱小目标，体现良好的鲁棒性和适应性，可以有效应用于复杂背景中的红外弱小目标检测。
- 红外弱小目标检测 /
- 稀疏注意力 /
- 特征融合 /
- 鲁棒性
Abstract:
In this study, a novel weak infrared small target detection network based on sparse attention and multiscale feature fusion is proposed to address the challenges of low pixel occupancy and limited texture features for weak infrared small targets within complex backgrounds, leading to difficulties in feature extraction, low detection rates, and high false alarm rates. The network utilizes the segmentation attention of ResNest to extract features at different scales. A BiFormer attention module is introduced to learn the distant relationships between targets and backgrounds. Furthermore, a fusion module is employed to merge both high- and low-level features, with the final detection results represented as a binary image through a head module. The experimental results demonstrate that the proposed method achieves the best performance in terms of both Intersection over Union (IoU) and F-measure. Compared with the dense nested attention network (DNANet), the proposed method improved the IoU by 3.9% and F-measure by 5.6%. Compared with the attentive bilateral contextual network (ABCNet), the proposed method improved the IoU by 5.8% and F-measure by 10%. Moreover, the proposed approach exhibited robustness and adaptability in effectively detecting small weak infrared targets in diverse, complex backgrounds. This method is applicable to weak infrared small-target detection in complex backgrounds, exhibiting superior performance.
- infrared weak target detection /
- sparse attention /
- feature fusion /
- robustness

HTML全文

0. 引言

目标检测技术是机器视觉领域中最为基础且极具挑战的任务之一^[1]，旨在识别出图像中感兴趣的物体，并标注其语义类别以及最小包围框^[2]。现阶段的目标检测算法主要基于深度学习方法，通过数百个甚至上千个卷积层来提取可描述目标信息的特征，使网络具有较高的表达能力^[3]。而随着检测场景的多元化以及复杂化，仅依靠单源的目标检测方法已无法满足实际应用需求^[4-5]，越来越多的研究者逐渐转向的多源目标检测的研究。但输入源的增加使得多源目标检测模型参数过多，网络的推理效率较低，在实际边缘设备中的应用中存在一定局限^[6-7]。因此，如何在保障检测效率的同时充分利用目标多源信息，对目标检测性能的提升以及落地实际应用都有较大的推动作用。

目前，多源目标检测方法主要融合红外和可见光图像来进行识别检测^[8]，而针对该方式，已有较多学者进行了相应的研究。Zhang等人^[9]为提升目标在不同光照条件下的检测，将红外和可见光相机采集的图像分别进行目标检测，并根据检测结果对目标进行去重融合。该方式虽能实现全天候目标检测，但模型过于繁重，且随着输入源增多，模型推理时间也成倍增加。邝楚文等人^[10]针对目标多源信息，设计了并列的信息交互目标检测网络，利用可训练参数对各维度红外和可见光特征加权融合以丰富目标特征信息，进而提升检测效果，但其特征融合方式相对简单，且目标多模态特征利用相对有限。马野等人^[11]为增强目标信息，先采用图像融合技术对红外和可见光图像进行像素融合，再利用深层卷积网络对目标进行识别定位。该方式虽较好地互补输入目标信息，但也引入了较多背景噪声，容易干扰对小目标的检测。由此可见，现有的基于红外和可见光的多源目标检测方法仍存在一定局限。

针对上述多源目标检测存在的不足，本文以单阶段目标检测结构为基础，结合分组卷积特征提取模块，设计了一种高效率的多源目标检测模型。主要工作如下：

1）在总结前人研究工作基础上构建了一种兼顾精度与效率的红外和可见光融合目标检测模型；

2）设计了一种基于单支路的多源特征提取结构，利用分组卷积结合点卷积实现红外特征、可见光特征以及融合特征分别提取，提升效率的同时保障了特征多样性；

3）引入了基于注意力机制的多尺度特征融合结构，利用注意力结构增强各目标特征后再利用邻域多尺度特征自适应融合来提升模型尺度不变性；

4）改进了非极大值抑制算法（Non-Maximum Suppression, NMS），根据预测框之间的相对关系以及置信度来综合目标包围框，进一步提升了目标定位的准确性。

1. 多源目标检测模型设计

1.1 整体框架

所提单阶段分组特征提取的多源目标检测模型结构如图 1所示，主要分为分组特征提取、注意力多尺度融合以及目标框筛选3个部分。分组特征提取主要将多源输入特征进行分组，再利用分组卷积操作分别对红外特征、可见光特征以及融合特征由浅到深依次提取；而注意力多尺度融合则基于所提的各个维度特征，通过注意力机制捕获每个维度的关键信息后以自适应加权方式融合目标相邻尺度特征；最后，基于融合后的各尺度特征分别对目标类别及位置进行预测，再利用改进的非极大值抑制算法移除冗余目标框，实现目标精确检测。

图 1 多源目标检测整体结构

Figure 1. Overall structure of object detection network

下载: 全尺寸图片幻灯片

1.2 分组特征提取

目前，大多数多源目标检测网络的特征提取部分主要采用并列多分支结构来分别对不同输入源的目标信息进行提取^[12]，该方式虽能相对充分地获取目标各模态特征，但网络的复杂度以及计算量都成倍增加，实际应用范围相对有限。因此，为简化多源目标特征获取方式，设计了如图 2所示的单支路分组特征提取结构。

图 2 单支路分组特征提取结构

Figure 2. Single branch grouping feature extraction structure

下载: 全尺寸图片幻灯片

所提分组特征提取结构主要由初始采样模块、分组卷积模块以及特征降维模块堆叠构成。初始采样模块如图 2(a)所示，主要考虑到输入图像尺寸通常较大，且包含较多噪声信息，故该模块采用了步长为2的2×2均值池化（Mean pool）、2×2众数池化（Mode pool）、3×3深度可分离卷积（DSConv）以及3×3标准卷积（Conv）等操作来分别对可见光和红外图像进行处理，通过多个角度提取原始图像特征可以有效避免采样过程中重要信息丢失，再将结果有序拼接后供后续模块使用。分组卷积模块是多源特征提取结构中的核心部分，通过特征分组的方式代替多分支结构来实现红外和可见光多源信息分别提取。该结构主要是将特征分为3个部分：红外特征、可见光特征以及融合特征，对于红外和可见光特征采用3×3深度可分离卷积结合H-Swish激活函数进行提取；而融合特征则采用点卷积来对多源特征进行综合，最后将3部分特征进行拼接，如图 2(b)所示。通过该模块可以在保证计算效率的同时充分提取目标各模态特征以及融合特征，大幅提升网络特征多样性。特征降维模块结构如图 2(c)所示，主要是为深入提取目标全局抽象特征，采用步长为2的深度可分离卷积和最大池化操作对输入特征的尺寸进行降维，并将降维后特征以对应模态方式进行拼接，即红外卷积特征与红外池化特征进行拼接，方便后续进行分组卷积。通过将初始采样模块以及多个分组卷积拼接模块和特征降维模块依次串联，进而实现多源目标特征高效提取。

1.3 注意力多尺度融合

分组特征提取结构高效提取了目标在不同尺度下的特征，而目标检测的实现需要充分利用所提取各尺度信息。现有的多尺度特征利用方式大多采用直接预测或通过采样融合方式进行预测^[13-14]，虽然也能实现多尺度目标的检测，但直接预测方式缺乏不同尺度间的信息交互，采样融合预测也容易造成特征相互干扰。针对此，本文设计了图 3所示的结合注意力机制的邻域多尺度特征融合检测结构。

图 3 注意力多尺度结构

Figure 3. Attention multi-scale structure

下载: 全尺寸图片幻灯片

注意力多尺度模块以分组特征提取结构中每个尺度的最后一层输出作为输入，考虑到特征中背景通常多于目标信息，若直接多尺度融合容易增强背景特征，造成对目标的干扰。因此，该结构首先采用了图 3(a)所示的注意力机制来突出每个尺度中的关键特征。所提注意力机制主要借鉴卷积注意力（Convolutional Block Attention Module, CBAM）结构^[15]分别对通道和空间特征进行增强，并在此基础上丰富了全局信息获取方式，利用一维卷积替换全连接来减少计算量，计算方式如式(1)(2)(3)所示。而对于多尺度融合，考虑到越小的目标在深层特征中越容易被稀释，若将每个尺度的特征都与其他尺度融合则会造成不同大小目标之间相互干扰。因此，多尺度结构通过依次将相邻尺度的特征进行融合来降低过大过小目标间的影响，如图 3(b)所示。融合策略采用了式(4)所示的自适应加权融合，可以进一步降低背景信息干扰，提升目标预测的准确度。

$$ F = {\text{Concat}}\left( {\begin{array}{*{20}{c}} {{\text{Max}}\left( f \right)} \\ {{\text{Avg}}\left( f \right)} \\ {{\text{Std}}\left( f \right)} \\ {{\text{Mode}}\left( f \right)} \end{array}} \right) $$

(1)

$$ {W}_{\text{f}}=\text{Sigmoid}\left({\text{Conv}}_{K}\left(F\right)\right) $$

(2)

$$ K = {\text{Odd}}\left( {\frac{{{\text{lb}}\left( {{F_{\dim }}} \right) + 1}}{2}} \right) $$

(3)

$$ {y_i} = {\alpha _i}x_i^l + {\beta _i}x_i^h $$

(4)

式中：f为注意力机制输入特征；Max、Avg、Std、Mode分别表示计算最大值、均值、标准差和众数；Concat表示将计算值拼接；F为获取的全局信息；Conv_K表示核大小为K的一维卷积；K值计算如式(3)，F_dim表示F的维度，Odd表示奇数取值函数；Sigmoid函数对权重归一化；W_f表示f特征对应的权重。x_i^l表示相邻浅层尺度特征；x_i^h表示相邻深层尺度特征；i表示第i个通道特征图；α_i和β_i为对应的自适应权重，且权重满足α_i, β_i∈[0, 1]，α_i+β_i=1；y_i为多尺度融合后的特征。

1.4 目标框优化及筛选

对于目标预测，主要基于多尺度融合后的每个尺度特征，借鉴YOLO网络^[14]对目标类别以及边框进行预测。由于预测的目标框存在极大的冗余，需要进一步优化筛选出最优的目标框。而目前最常用的筛选方法即采用NMS算法，根据不同目标框的交集面积来抑制高重叠度且低置信度的目标框。该方式虽能较好地抑制重叠度较高的冗余框，但也容易造成被同类目标遮挡的目标漏检，且通过直接移除高重叠度目标框的抑制方式也使预测结果未充分利用。因此，针对NMS算法存在的不足，本文将目标预测框的抑制方式进行了优化，筛选流程如图 4所示。

图 4 目标框筛选流程

Figure 4. Target box filtering process

下载: 全尺寸图片幻灯片

改进的NMS算法针对每类目标，先筛选出其中重叠度和置信度都超过阈值的预测框，然后利用所有筛选预测框的最小包围框来替换，进而优化目标包围框边界信息，提升预测框对目标检测的完整性，计算方式如式(5)所示。其次，为降低目标重叠造成漏检，针对存在重叠的同类目标预测框，将NMS算法中移除抑制方式替换为根据重叠面积大小来调整预测框置信度，调整方式如式(6)所示。最后，根据NMS算法迭代筛选出最终的目标框。

$$ M = \left\{ {\begin{array}{*{20}{l}} {M, \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant T\quad {\text{or}}\quad {C_{{b_i}}} \leqslant T} \\ {{\text{mAR}}\left( {M, {b_i}} \right)\;\, {\text{IoU}}\left( {M, {b_i}} \right) > T\quad {\text{and}}\;{C_{{b_i}}} > T} \end{array}} \right. $$

(5)

$$ {C_M} = \left\{ {\begin{array}{*{20}{l}} {{C_M}, \quad \quad \quad \quad \quad \quad \quad \quad {\text{IoU}}\left( {M, {b_i}} \right) \leqslant t} \\ {{C_M}\left( {1 - {\text{IoU}}\left( {M, {b_i}} \right)} \right), \quad \;{\text{IoU}}\left( {M, {b_i}} \right) > t} \end{array}} \right. $$

(6)

式中：M为置信度最高的预测框；b_i是与M存在重叠的预测框；T为预测框高重叠度和置信度阈值，本文设置为0.95；mAR表示M和b_i的最小包围框；IoU表示计算两目标框交并比；C_M为M预测框置信度值；t为重叠框的IoU阈值，本文设置0.5。

2. 实验与结果分析

为验证所提多源目标检测模型的有效性和泛化能力，实验采用KAIST、FLIR、RGBT^[16]标准数据集对模型进行了测试验证。由于标准数据集中的图像或部分目标存在重叠度高、目标难以辨认、标注有误等情况，为降低噪声数据对实验结果的影响，实际训练测试时对其进行了筛选，最终的实验数据集组成如表 1所示。

表 1 实验数据集构成

Table 1. Composition of experimental dataset

Configure	KAIST	FLIR	RGBT
Number of images	8600	11000	15000
Image size	512×512	512×512	640×480
Number of target categories	4	8	11
Train: Verification: Test	7:1:2

下载: 导出CSV

| 显示表格

实验平台采用英伟达公司开发的Jetson系列Xavier NX智能边缘设备，网络模型基于TensorFlow深度学习框架进行搭建，训练过程中的超参数设置如表 2所示。

表 2 超参数设置

Table 2. Hyperparameter setting

Hyperparameter	Value
Batch size	4
Learning rate	0.01
Weight initialization	Xavier
Learning rate regulation	Multistep
Weight decay	0.005
Momentum	0.95
Weight adjustment strategy	Adam
Category loss calculation	Cross Entropy
Position loss calculation	CIoU

下载: 导出CSV

| 显示表格

对于所提多源目标检测方法的性能评估主要采用均值平均精度（mAP）、模型每秒处理帧数（fps）两个基础指标进行衡量。同时，针对网络的尺度不变性以及预测框精确性，实验借鉴文献[17]方式，将精度细分为mAP_s、mAP_m、mAP_l和AP、AP⁵⁰、AP⁷⁵来分别评估模型对不同大小目标的识别效果以及目标边框预测的准确性。

2.1 模型可行性验证

为充分验证所提多源目标检测网络的可行性，实验以轻量级YOLO-tiny v4目标检测结构为基础，通过控制变量法来依次对网络各个结构进行测试。对于特征提取模块，实验分别从特征不分组和分组两个角度进行了对比测试。特征不分组即传统单源目标检测网络，仅输入可见光图像的方式来测试网络基础骨干结构，并将其与当前主流的高效率目标检测结构进行了对比，结果如表 3所示。

表 3 基础特征提取结构对比

Table 3. Comparison of basic feature extraction structures

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
ShuffleNetv2^[18]	38	71.0	50.8	70.5	79.6
GhostNetv2^[19]	35	71.6	51.1	71.2	80.4
MobileNetv3^[20]	32	72.5	52.2	72.4	81.6
Our network	34	72.1	51.9	72.0	81.2

下载: 导出CSV

| 显示表格

通过表 3的对比结果可以看出，虽然各网络结构都采用深度可分离卷积为核心进行特征提取，但本文所提基础网络相对于其他网络在检测精度以及效率之间得到了较好的平衡。特征分组提取即引入本文所述分组卷积结构，以多源信息作为输入进行测试，并分别与并列双支路提取、多源信息融合后提取两种方式进行对比，结果如表 4所示。

表 4 多源特征提取结构对比

Table 4. Comparison of multi-source feature extraction structures

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
Dual branch extraction	17	76.2	57.1	76.5	85.3
Fusion extraction	33	74.9	55.6	75.1	82.8
Group extraction	30	77.5	58.3	77.8	86.9

下载: 导出CSV

| 显示表格

根据表 4结果可以看出，所提分组结构不仅有效避免了双支路结构引入的冗余计算，同时也降低了多源信息融合造成的信息干扰，保障了目标各个模态特征以及融合特征的充分提取，使网络在检测精度以及计算效率上都得到了较大的提升。而对于注意力多尺度结构，实验首先针对注意力机制，将所提结构与目前主流的注意力机制进行了对比，结果如表 5所示。

表 5 注意力结构对比

Table 5. Comparison of attention structure

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
No attention	30	77.5	58.3	77.8	86.9
ECANet^[21]	29	78.1	58.8	78.5	87.7
ViT^[22]	29	78.2	59.0	78.6	87.6
CBAM^[15]	26	78.8	59.7	79.2	88.3
Triplet^[23]	28	78.6	59.4	78.9	88.0
Our attention	28	79.2	60.1	79.5	88.9

下载: 导出CSV

| 显示表格

根据注意力机制的对比结果可以看出，ECANet结构主要从特征通道角度提升目标类别信息，而ViT从空间位置增强目标定位信息，虽对目标检测结果有一定提升，但由于仅考虑了部分特征，故提升效果有限。而CBAM和Triplet注意力虽同时考虑了通道和空间位置特征，但两者对全局信息的获取相对单一，且CBAM中的全连接结构以及Triplet中三分支计算结构都引入了较多计算量，降低了网络检测效率。而本文所提注意力结构充分综合了现有注意力的优势，通过多种全局信息捕获策略结合一维局部卷积来高效增强关键特征，进而提升网络检测性能。对于多尺度融合结构，实验分别对比了YOLO上采样融合、自适应融合、高斯模糊融合结构，结果如表 6所示。

表 6 多尺度特征融合结构对比

Table 6. Comparison of multi-scale feature fusion structures

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
Upsampling^[13]	28	79.2	60.1	79.5	88.9
Adaptive^[14]	24	80.4	60.8	80.9	90.3
Gaussian^[19]	26	79.7	60.0	80.3	89.7
Ours Neighborhood	27	80.3	61.0	80.5	90.1

下载: 导出CSV

| 显示表格

根据表 6可见，不同多尺度结构对不同大小目标的检测效果存在较大差异，上采样结构虽以较小的计算量实现了目标的多尺度融合，但仅适用于特征较强的目标，对于信息较弱的目标识别较差。自适应结构虽综合了所有尺度信息，但引入了较大的计算量。高斯融合结构虽在一定程度上改善了自适应结构的计算效率，但高斯模糊容易弱化小目标特征，使小目标检测效果较差。而所提结构采用多种全局信息计算策略配合邻域自适应融合方式，使网络以较少的计算量实现多尺度目标的检测，可以更好地识别不同大小目标。对于所提目标框优化筛选策略，实验对比了NMS优化前后网络预测框在不同IoU评价指标下的检测精度，结果如表 7所示。

表 7 NMS改进前后对比

Table 7. Comparison of NMS before and after improvement

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	AP	AP⁵⁰	AP⁷⁵
Before NMS optimization	27	60.5	87.5	60.4
After NMS optimization	27	61.0	88.8	61.3

下载: 导出CSV

| 显示表格

根据表 7结果可以看出，优化后的筛选策略在基本不引入额外计算消耗的前提下可以相对更充分地利用目标预测框，提升最终目标框的合理性以及精确性，使其更接近标注框。而对于所提多源目标检测模型整体的有效性，实验分别从检测性能以及可视化效果上与其他同类型网络进行了对比，结果如表 8和图 5所示。

表 8 同类型多源目标检测对比

Table 8. Comparison of same type multiple source object detection

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
Literature [9]	16	77.9	60.1	77.7	88.5
Literature [10]	22	78.8	60.8	78.9	89.3
Literature [11]	26	78.3	60.2	78.3	88.7
Ours	27	80.6	61.4	80.8	90.3

下载: 导出CSV

| 显示表格

图 5 KAIST数据集目标检测效果对比

Figure 5. Comparison of object detection effects in KAIST dataset

下载: 全尺寸图片幻灯片

根据图 5可以看出，文献[9]将多源数据分别检测再融合，虽然可以较好地检测出不同模态下的显著目标，但对于在各模态中信息都较弱的目标检测效果较差。文献[10]所提多源特征交叉融合结构相对于文献[9]在特征利用以及网络整体效率上都有一定改善，但其基础结构仍采用双支路方式，故提升相对有限。文献[11]先将多源图像融合再利用单支路网络实现目标检测，虽然效率得到了较大提升，但图像融合丰富目标信息的同时也引入了较多噪声，且多源信息融合再提取对目标特征利用不够充分，使检测精度相对有限。而所提模型较好地综合了现有方法的优势，以单支路分组卷积方式代替双支路结构，分别对目标多模态特征以及融合特征进行提取，并结合注意力、多尺度等结构提升网络建模表达能力，进而使得本文多源目标检测网络更优于当时同类型结构。

2.2 模型泛化性验证

为进一步验证所提多源目标检测方法在其他复杂场景下的泛化能力以及稳定性，实验依次利用了FLIR和RGBT数据集对所提网络进行训练测试，并与同类型方法进行对比，结果如表 9、表 10和图 6所示。

表 9 FLIR数据集测试结果对比

Table 9. Comparison of FLIR dataset test results

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
Literature [9]	15	75.3	58.2	74.9	86.1
Literature [10]	21	76.5	59.1	76.0	87.2
Literature [11]	25	76.2	58.7	75.6	86.8
Ours	26	79.1	60.6	78.8	88.7

下载: 导出CSV

| 显示表格

表 10 RGBT数据集测试结果

Table 10. Comparison of RGBT dataset test results

Network	Efficiency/fps	Test accuracy/(%)
Network	Efficiency/fps	mAP	mAP_s	mAP_m	mAP_l
Literature [9]	14	70.3	52.8	70.5	82.1
Literature [10]	20	71.0	53.5	71.6	83.2
Literature [11]	24	70.6	53.0	71.2	82.9
Ours	25	72.4	54.7	72.8	84.3

下载: 导出CSV

| 显示表格

图 6 FLIR和RGBT数据集目标检测效果（前两行：FLIR；后两行：RGBT）

Figure 6. Object detection effect of FLIR and RGBT datasets (first two rows: FLIR; second two rows: RGBT)

下载: 全尺寸图片幻灯片

根据上述测试结果可见，由于深层卷积神经网络自身具有较高泛化性特点，故各方法在不同场景下的检测性能变化方向基本一致，不存在对某个场景过于依赖的情况。而通过对比各方法在不同数据集下的精度变化率可以看出，本文方法相对于其他方法精度降低相对较少，由此可推断出所提模型具有更高的鲁棒性和泛化性，可以更好地适应复杂目标检测场景。

3. 结语

本文针对现有基于红外和可见光的多源目标检测网络在精度与效率平衡问题上存在的局限，将多源信息看作单源多通道特征，以分组卷积操作为核心，提出了一种高效率的单支路多源目标检测网络。网络首先以局部极值、均值、卷积加权等多种方式对输入图像降维，减少冗余信息的同时降低后续特征提取的计算量；其次，将特征通道根据不同模态进行分组，并利用深度可分离卷积结合点卷积分别提取对红外、可见光以及两者融合的特征；然后，基于所提目标多模态特征，引入通道及空间注意力机制并配合邻域自适应多尺度融合结构来提升目标显著特征，增强各维度特征间信息交互；最后，根据各个尺度特征预测各目标类别及位置，再通过优化后的NMS算法调整并筛选出最优的目标预测框。通过在多个公开数据集上的测试结果有效验证了所提多源目标检测各个模块及整体模型的可行性以及鲁棒性，可以准确高效地完成目标检测任务。尽管本文方法在一定程度上提升了多源目标检测网络性能，但仍值得深入研究，后期将进一步增加其他信息源数据来丰富模型多样性，提升网络在复杂场景的适应性。

图 1 本文的红外弱小目标检测网络结构

Figure 1. The structure diagram of the infrared weak target detection network in this paper

下载: 全尺寸图片幻灯片

图 2 不同模块结构

Figure 2. Diagram of different module structures

下载: 全尺寸图片幻灯片

图 3 特征融合模块

Figure 3. Feature fusion module

下载: 全尺寸图片幻灯片

图 4 不同方法对各类复杂背景干扰的红外弱小目标检测结果对比

Figure 4. Comparison of infrared weak and small target detection results by different methods against various complex background interferences

下载: 全尺寸图片幻灯片

图 5 本文方法与对比方法检测结果的ROC曲线

Figure 5. ROC curves comparison between the proposed method and comparative methods for detection results

下载: 全尺寸图片幻灯片

表 1 不同方法对复杂背景下红外弱小目标检测结果的指标对比

Table 1 Comparison of metrics for infrared weak small target detection results under complex backgrounds using different methods

	SCRG	BSF	IoU	Pr	Re	F_measure
FC3Net	66.8	26.2	0.612	0.739	0.754	0.727
AGPCNet	77.6	28.1	0.628	0.695	0.694	0.659
ACM	74.1	34.9	0.586	0.710	0.754	0.714
LSPM	89.7	25.1	0.543	0.822	0.607	0.682
DNANet	76.6	23.8	0.610	0.799	0.770	0.713
ABCNet	67.6	19.7	0.599	0.699	0.727	0.682
Ours	96.8	36.8	0.634	0.755	0.789	0.750

下载: 导出CSV

表 2 不同方法的参数量和检测时间比较

Table 2 Comparison of parameter count and detection time among different methods

	AGPC	DNA	FC3	ACM	ABC	LSPM	Ours
Parameter count	12423175	4696517	7043282	530335	73508047	31583202	5205458
Detection time/s	51	25	14	10	151	77	21

下载: 导出CSV

表 3 不同模块组合检测结构的指标对比

Table 3 Comparison of metrics for different module combinations in detection structures

Biformer1	Biformer2	Biformer3	AFM	IoU	F_measure
×	×	×	×	0.264	0.341
×	×	×	√	0.549	0.660
√	×	×	√	0.556	0.673
√	√	×	√	0.573	0.680
√	√	√	×	0.592	0.693
√	√	√	√	0.634	0.750

下载: 导出CSV

参考文献(23)

[1]	KOU R, WANG C, PENG Z, et al. Infrared small target segmentation networks: A survey[J]. Pattern Recognition, 2023, 143: 109788. DOI: 10.1016/j.patcog.2023.109788
[2]	崔晨辉, 蔺素珍, 李大威, 等. 基于孪生网络和Transformer的红外弱小目标跟踪方法[J]. 计算机应用, 2024, 44(2): 563-571. CUI C H, LIN S Z, LI D W, et al. Infrared weak target tracking method based on twin network and transformer[J]. Journal of Computer Applications, 2024, 44(2): 563-571.
[3]	蔺素珍, 张海松, 禄晓飞, 等. RBNSM: 一种复杂背景下红外弱小目标检测新方法[J]. 红外技术, 2022, 44(7): 667-675. http://hwjs.nvir.cn/article/id/fb6071f5-08ab-4944-b4a1-9921a68c5948 LIN S Z, ZHANG H S, LU X F, et al. RBNSM: A new method for infrared dim and small target detection in complex backgrounds[J]. Infrared Technology, 2022, 44(7): 667-675. http://hwjs.nvir.cn/article/id/fb6071f5-08ab-4944-b4a1-9921a68c5948
[4]	LIANG X, LIU L, LUO M, et al. Robust infrared small target detection using hough line suppression and rank-hierarchy in complex backgrounds[J]. Infrared Physics & Technology, 2022, 120: 103893.
[5]	LIU F, GAO C, CHEN F, et al. Infrared small and dim target detection with transformer under complex backgrounds[J]. IEEE Transactions on Image Processing, 2023, 32: 5921-5932. DOI: 10.1109/TIP.2023.3326396
[6]	DENG L, ZHANG J, XU G, et al. Infrared small target detection via adaptive M-estimator ring top-hat transformation[J]. Pattern Recognition, 2021, 112: 107729.
[7]	ZHANG T, PENG Z, WU H, et al. Infrared small target detection via self-regularized weighted sparse model[J]. Neurocomputing, 2021, 420: 124-148.
[8]	LU Y, HUANG S, ZHAO W, et al. Sparse representation based infrared small target detection via an online-learned double sparse background dictionary[J]. Infrared Physics & Technology, 2019, 99: 14-27.
[9]	CHEN C L P, LI H, WEI Y, et al. A local contrast method for small infrared target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1): 574-581.
[10]	Pustokhina I V, Pustokhin D A, Vaiyapuri T, et al. An automated deep learning based anomaly detection in pedestrian walkways for vulnerable road users safety[J]. Safety Science, 2021, 142: 105356.
[11]	XIE S H, ZHANG W Z, CHENG P, et al. YOLOv4 fire and smoke detection model with embedded channel attention[J]. Chinese Journal of Liquid Crystal & Displays, 2021, 36(10): 1445-1453.
[12]	DAI Y, WU Y, ZHOU F, et al. Asymmetric contextual modulation for infrared small target detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 950-959.
[13]	DAI Y, WU Y, ZHOU F, et al. Attentional local contrast networks for infrared small target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(11): 9813-9823.
[14]	WANG H, ZHOU L, WANG L, et al. Miss detection vs. false alarm: Adversarial learning for small object segmentation in infrared images [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 8509-8518.
[15]	LI B, XIAO C, WANG L, et al. Dense nested attention network for infrared small target detection[J]. IEEE Transactions on Image Processing, 2022, 32: 1745-1758.
[16]	CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[J/OL]. arXiv: 2005.12872, https://arxiv.org/abs/2005.12872.
[17]	ZHANG F, LIN S, XIAO X, et al. Global attention network with multiscale feature fusion for infrared small target detection[J]. Optics & Laser Technology, 2024, 168: 110012.
[18]	HUANG L, DAI S, HUANG T, et al. Infrared small target segmentation with multiscale feature representation[J]. Infrared Physics & Technology, 2021, 116: 103755.
[19]	PAN P, WANG H, WANG C, et al. ABC: attention with bilinear correlation for infrared small target detection[J]. arXiv preprint arXiv: 2303.10321, 2023.
[20]	ZHANG H, WU C, ZHANG Z, et al. Resnest: split-attention networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 2736-2746.
[21]	ZHU L, WANG X, KE Z, et al. BiFormer: vision transformer with bi-level routing attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 10323-10333.
[22]	ZHANG M, YUE K, ZHANG J, et al. Exploring feature compensation and cross-level correlation for infrared small target detection[C]// Proceedings of the 30th ACM International Conference on Multimedia, 2022: 1857-1865.
[23]	ZHANG T, LI L, CAO S, et al. AGPCNet: Attention-guided pyramid context networks for detecting infrared small target under complex background[J]. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(4): 4250-4261.

施引文献

资源附件(0)

图(5) / 表(3)

计量

文章访问数: 17
HTML全文浏览量: 6
PDF下载量: 8
被引次数: 0

0. 引言
1. 多源目标检测模型设计
1.1 整体框架
1.2 分组特征提取
1.3 注意力多尺度融合
1.4 目标框优化及筛选
2. 实验与结果分析
2.1 模型可行性验证
2.2 模型泛化性验证
3. 结语

基于稀疏注意力的红外弱小目标检测方法

作者简介: 张兴旺（2000-），男，硕士研究生，主要从事图像处理、目标检测方面的研究。E-mail：1214875272@qq.com

通讯作者: 李大威（1980-），男，博士，副教授，硕士生导师，主要从事模式识别、机器学习方面的研究。E-mail：lidawei@nuc.edu.cn

计量

出版历程