LPformer：基于拉普拉斯金字塔多级Transformer的红外小目标检测

杜妮妮; 单凯东; 卫莎莎

LPformer：基于拉普拉斯金字塔多级Transformer的红外小目标检测

1.
浙江工商职业技术学院, 浙江宁波 315100
2.
浙江摩根集团有限公司, 浙江宁波 315012

详细信息

作者简介:
杜妮妮（1977-）女，陕西西安人，硕士，讲师，主要研究方向为图像检测、识别技术，E-mail：314941956@qq.com

中图分类号: TP753
计量
- 文章访问数: 266
- HTML全文浏览量: 83
- PDF下载量: 66
出版历程
- 收稿日期: 2023-01-16
- 修回日期: 2023-01-31
- 刊出日期: 2023-06-19

LPformer: Laplacian Pyramid Multi-Level Transformer for Infrared Small Target Detection

1.
Zhejiang Business Technology Institute, Ningbo 315100, China
2.
Zhejiang Morgan Group Co. Ltd., Ningbo 315012, China

摘要

摘要: 红外小目标检测是指从红外图像中分割出小目标，在火灾探测系统和海上监视及救援系统应用中具有重要意义。然而，由于目标尺寸小、特征不明显、背景环境复杂等因素，导致目前红外小目标检测算法的检测性能通常受到限制。针对上述问题，设计了一种基于拉普拉斯金字塔多级Transformer的红外小目标检测算法。首先，由于红外小目标尺寸较小，容易在网络迭代过程中损失纹理细节信息，利用拉普拉斯金字塔从原始输入的红外图像中提取出不同层级的高频边界信息，进一步通过一种结构信息转换模块与主干网络中不同层级的特征进行融合，用于对损失的纹理信息进行补偿；接着为了进一步提升网络的判别能力，在提高检测准确率的同时抑制虚警率，还采用了一种基于通道维的Transformer结构，将每个通道特征图作为图像块，并沿着通道维进行自注意力的计算。实验结果表明，与目前先进的检测算法相比，本文所提出的算法具有更高的检测性能。
- 红外图像 /
- 弱小目标检测 /
- Transformer /
- 图像分割
Abstract: Infrared small target detection refers to the segmentation of small targets from infrared images. This is of significance in the application of fire detection systems, maritime surveillance, and other rescue systems. However, because of factors such as small target size, inconspicuous features, and complex background environment, the detection performance of current infrared small target detection algorithms is generally limited. To address this issue, an infrared small target detection algorithm based on the Laplacian pyramid multi-level transformer (LPformer) was designed in this study. During network iteration, small infrared targets are prone to losing texture detail information owing to their small size. The Laplacian pyramid was used to extract different levels of high-frequency boundary information from the original input infrared image. A structural information conversion module was then fused with the features of different levels in the backbone network to compensate for the lost texture information. Next, to further improve the discriminative ability of the network and suppress the false alarm rate while improving the detection accuracy, a channel-based transformer structure that takes each channel feature map as tokens was also adopted. This calculated the self-attention map along the channel dimension. Experimental results demonstrated that the detection performance of the proposed algorithm was higher than that of current advanced detection algorithms.
- infrared images /
- small target detection /
- Transformer /
- image segmentation

HTML全文

0. 引言

受到自然界中照明、遮挡、天气等因素的影响，可见光图像中有时候并不能准确地观测到目标。相比之下，红外图像由于其独特的成像机制，能够获取到外界的热辐射信息，即使在极具有挑战性的可见光成像条件下，也可以捕获较多的目标信息，在许多现实应用中都发挥着重要的作用，如精确制导系统、森林火灾探测系统和海上监视及救援系统。因此，从红外图像中检测目标，特别是小目标，在过去的几十年里引起了广泛的关注，也是深度学习领域的一个活跃的研究课题^[1-4]。

相较于一般的目标检测任务，红外小目标检测通常面临着来自三方面的挑战：①由于成像距离远，红外图像中的目标通常很小，所占像素个数不超过整幅图像的0.2%；②受到背景中大量杂波以及噪声的影响，红外图像的信噪比通常较低，导致目标与背景难以区分；③目标通常缺乏特定的形状及纹理，且在不同的场景下形状及大小都会发生变化。

为了准确地检测出红外小目标，早期的研究人员提出了一些包括滤波^[5]、人类视觉系统（human vision system, HVS）^[6-8]和低秩表示^[9-12]在内的基于图像处理和机器学习技术的开创性工作。然而，这些传统算法通常存在一些局限性。基于滤波的方法，如高帽滤波、最大中值/最大平均滤波器^[13]，通常只能对均匀的背景杂波进行一定程度的抑制，而对应对复杂的背景噪声，导致较高的误报率，性能不稳定。对于基于人类视觉系统的方法，通过利用目标与背景之间的差异进行检测，由于严重依赖于手工制作的分割阈值，导致在复杂环境中的检测性能不佳。基于低秩表示的方法假设背景与目标分别具有稀疏性及低秩性，可以处理一些低信噪比的红外图像，但对复杂背景下具有形状较小且容易改变的目标的图像仍然存在较高的误警率。这些基于传统的红外小目标检测算法可以在一些简单的场景中表现出良好的性能，但由于依赖于超参数调优和手工制作的先验，通常会受到上述一些挑战，从而只具有有限的表示能力。

为了解决上述问题，许多研究人员将深度学习引入红外小目标检测领域^[14-15]。Wang等人^[16]基于条件对抗生成网络提出了MDvsFA（miss detection vs. false alarm）算法，实现了漏检率以及虚警率这两个指标之间的平衡。为了从不同的层中提取上下文特征，Dai等人^[17]提出了一种非对称上下文特征融合方法（asymmetric contextual modulation, ACM），并构建了一个红外小目标数据集（single-frame infrared small target, SIRST）。Li等人^[18]提出了一种密集嵌套注意网络（dense nested attention network, DNANet）来准确提取小目标特征。虽然这些方法比传统方法具有更好的性能，但它们仍然忽略了池化和降采样层的细节损失问题。同时，当面对包含有小且难以检测的目标以及复杂背景的情况时，这些模型通常缺乏足够的表达能力来产生有区别的表示。其次，这些基于卷积神经网络（convolutional neural networks, CNN）的模型^[19-22]通常会盲目堆叠许多层来扩大感受野来提取语义特征，这导致它们在提取全局上下文和利用低级别的细节特征方面效率低下，而这些对于检测小目标十分重要。

最近一段时间，Transformer结构在计算机视觉中得到广泛应用^[23-26]，并取得巨大的成功。其中，Transformer结构中的自注意力机制在远程依赖性以及局部自相似性方面的建模能力优于CNN，可以缓解基于CNN的红外小目标算法的局限性。然而直接使用标准的Transformer结构会面临两个问题：①标准全局自注意力的计算复杂度与空间维数呈平方关系，相反地，基于局部窗口的自注意力能很大程度上缓解计算资源的压力，然而由于仅在特定位置的窗口内对特征进行操作，导致感受域十分有限；②红外图像在空间上稀疏的，然而其特征在通道维度却具有较高的相关性，因此对通道维相关性建模的成本效益要高于捕获空间维相互依赖性。

为解决上述问题，本文在先前的研究工作基础上，提出了一种基于拉普拉斯金字塔多级Transformer的红外小目标检测算法（LPformer）。LPformer采用了一种类似U-Net^[27]的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（LPT）块堆叠而成，解码器设计了几个反卷积以及残差块用于对不同层级的特征进行聚合。值得注意的是，对于LPT块，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换（structural information transform, SIF）模块与主干网络中不同层级的LPT块进行融；同时，在LPT块中还采用了一种基于通道维的Transformer（spectral-wise transformer, SWT）结构，将每个通道特征图作为图像块（Token），并沿着通道维进行自注意力的计算。

1. 本文方法

1.1 总体框架

本文提出的LPformer总体框架如图 1所示，首先通过浅层特征提取模块对红外图像进行初步特征提取同时提升通道数，接着主干网络采用了一种类似U-Net的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（Laplace pyramid Transformer, LPT）块堆叠而成，瓶颈层由一个基于通道维的Transformer（spectral-wise transformer, SWT）块组成，解码器部分通过几个反卷积以及残差块用于对不同层级的特征进行聚合，在解码器后本文通过一个由几个卷积组成的head模块对分割结果进行预测，得到最终的二值化结果。具体来说，每个LPT块由SWT块、结构信息转换（structural information transform, SIF）块以及一个残差块串联而成。SWT块通过沿着通道维进行自注意力的计算，实现高效特征的提取，SIF块基于融合由红外图像中提取到的不同层级的拉普拉斯金字塔高频成分对输入特征进行高频部分的补偿，残差块由两个普通的3×3卷积，批归一化操作以及下采样操作组成，降低特征的空间尺寸同时提升通道数。

图 1 基于拉普拉斯金字塔多级Transformer的红外小目标检测框架

Figure 1. Infrared small target detection framework based on Laplacian pyramid multi-level transformer

下载: 全尺寸图片幻灯片

1.2 结构信息转换模块

为了克服红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换模块^[28]与主干网络中不同层级的LPT块进行融合，用于对损失的纹理信息进行补偿。

定义根据拉普拉斯金字塔算法提取到的3层高频成分金字塔P_H＝[H₀, H₁, H₂]，接着如图 2所示，高频结构信息首先经过一个普通卷积提取条件特征图，接着分别通过两组卷积层自适应地学习出一对放射变换系数(γ, β)，其维度与对应层级的由SWT输出的特征图F相同，接着通过下式得到融合后的特征图：

图 2 高频结构信息转换模块

Figure 2. High frequency structure information conversion module

下载: 全尺寸图片幻灯片

$$ {\text{SIT}}(F\mid \gamma ,\beta ) = \gamma \odot F + \beta $$

(1)

式中：$ \odot $表示点乘操作。

1.3 基于通道维的Transformer

由于红外小目标通常尺寸较小且亮度较暗，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的transformer（spectral-wise transformer, SWT）结构，总体结构如图 3(a)所示，输入特征首先经过层归一化操作，通过通道维自注意力计算（spectral-wise self-attention, SWSA）块（如图 3(c)所示）实现基于通道维度的自注意力的计算，接着进行残差连接与进一步的层归一化操作，最后通过前馈网络（如图 3(b)所示）增强模型的拟合能力。

图 3 基于通道维Transformer模块

Figure 3. Spectral-wise transformer block

下载: 全尺寸图片幻灯片

与标准空间维Transformer不同的是，基于通道维的Transformer块将输入特征图的每一个通道视作一个Token，并沿着通道维度进行自注意力的计算。首先将输入图像${X_{{\text{in }}}} \in {\mathbb{R}^{H \times W \times C}}$转换为Token$X \in {\mathbb{R}^{HW \times C}}$，其中H、W、C分别表示特征图的高度、宽度以及通道个数。再将X线性投影到query$Q \in {\mathbb{R}^{HW \times C}}$，key$ K \in {\mathbb{R}^{HW \times C}} $，value$V \in {\mathbb{R}^{HW \times C}}$，则有：

$$ Q＝XW^{Q}\text{，}K＝XW^{K}\text{，}V＝XW^{V} $$

(2)

式中：W^Q，W^K，${W^V} \in {\mathbb{R}^{C \times C}}$都是可以学习的参数。为简化问题，这里省略了biases项。这里，将特征图的每个通道都作为一个Token并进行自注意力的计算：

$$ A=\operatorname{softmax}\left(\boldsymbol{K}^{\mathrm{T}} Q\right) $$

(3)

$$ Z＝VA $$

(4)

式中：K^T代表K的转置矩阵；$ A \in {\mathbb{R}^{C \times C}} $表示生成的注意力特征图；$ Z \in {\mathbb{R}^{HW \times C}} $表示经过注意力加权后的特征，接着再添加位置编码信息：

$$ \operatorname{SWSA}(\boldsymbol{X})=Z+f_{\mathrm{p}}(\boldsymbol{V})$$

(5)

式中：f_p(V)是生成位置编码的函数。最后将上式的结果进行转换从而获得最终的输出特征图$ {X_{{\text{out }}}} \in {\mathbb{R}^{H \times W \times C}} $。

这里本文对其计算复杂度进行分析，由于基于通道维的自注意力将每个通道视为一个Token，并且每个Token的维度n等于H×W。因此其计算复杂度为：

$$ {O}_{(通道维自注意力计算)}=2HW{C}^{2} $$

(6)

而基于全局自注意力计算和基于窗口的自注意力计算的计算复杂度分别为：

$$ {O}_{(全局自注意力计算)}=2{(HW)}^{2}C $$

(7)

$$ {O}_{(基于窗口自注意力计算)}=2{M}^{2}HWC $$

(8)

其中M表示设定窗口的大小，这里不难看出，基于通道维的自注意力以及基于窗口的自注意力的计算复杂度都是与特征图的空间尺寸（H×W）呈线性关系，相比于全局计算自注意力要高效很多。同时，基于通道维的自注意力还将每个光谱特征作为Token，在计算自注意力A时，接受域是全局的，并不局限于特定位置的窗口。因此基于通道维的自注意力的感受野是整幅特征图并且不会受到特定窗口的限制。

为方便说明，如表 1所示，总结了各种自注意力结构的属性。

表 1 不同自注意力结构的属性比较

Table 1. Property comparison of different self-attention structures

Self-attention scheme	Global self-attention	Local-window self-attention	Spectral-wise self-attention
Receptive field	Global	Local	Global
Complexity to HW	Quadratic	Linear	Linear
Calculating wise	Spatial	Spatial	Spectral

下载: 导出CSV

| 显示表格

2. 实验结果与分析

2.1 数据集介绍

本文在NUDT-SIRST数据集上进行实验，包含了427张具有代表性的红外图像和480个不同场景的实例，其中将大约50%的数据用于训练、20%以及30%的数据分别用于验证及测试。

2.2 训练环境及实验设置

本文基于PyTorch1.13.1平台对所提出算法进行实验验证，GPU为GTX2080Ti，操作系统为Ubuntu20.04。本文采用AdaGrad作为优化器，初始学习率为0.04。训练过程总共需要持续500个epoch，衰减率为10⁻⁴，batch大小为8。本文同一些目前较为先进的红外小目标检测算法进行对比，包括：ALCNet^[29]，ACMNet^[17]，MDvsFA^[16]，WSLCM^[30]，TLLCM^[31]，IPI^[32]，NRAM^[33]，PSTNN^[34]以及MSLSTIPT^[35]。

2.3 评价指标

本文采用IoU、归一化交并比nIoU、检测率P_d以及虚警率F_a这几个常用的度量指标将所提出的LPformer与一些先进方法进行对比：

交并比IoU定义为：

$$ \text { IoU }＝A_{i}/A_{u } $$

(9)

式中：A_i和A_u分别表示相交区域和并集区域的大小；nIoU是IoU的标准化，即：

$$ \text {nIoU } = \frac{1}{N}\sum\limits_{i = 1}^N {(TP[i]/(} T[i] + P[i] - TP[i])) $$

(10)

式中：N表示样本总数；TP[⋅]表示被模型正确预测的正样本的像素数目，T[⋅]和P[⋅]分别表示图像中真实值和预测为正样本的像素数目。

检测率表示正确检测出的目标N_pred与所有目标N_all的比值：

$$P_{\mathrm{d}}=N_{\text {pree }} / N_{\text {all }} $$

(11)

虚警率F_a表示错误预测的目标像素数N_false与图像中所有像素N_all的比值：

$$ {F_{\mathrm{a}}} = {N_{{\text{false }}}}/{N_{{\text{all }}}} $$

(12)

2.4 消融实验

本文通过设置消融实验对不同模块对网络性能的影响进行分析，具体包括是否采用本文设计的基于通道维的Transformer模块（SWT），是否采用通过拉普拉斯金字塔（Laplace pyramid）提取高频信息对网络进行补偿以及是否采用结构信息转换（SIF）模块对所提取到的结构信息与主干网络中的特征进行融合。实验结果如表 2所示，同时本文还进行了可视化结果的对比，如图 4所示，分析可知：

表 2 消融实验结果

Table 2. Ablation study results

Index	SWT	Laplace	SIF	IoU	nIoU	P_d	F_a
1	×	√	√	70.24	70.69	96.36	30.54
2	√	√	×	73.45	71.36	97.32	24.54
3	√	×	×	71.43	70.63	96.93	28.42
4	×	×	×	69.76	70.05	95.25	41.32
5	√	√	√	75.42	72.79	98.17	20.98

下载: 导出CSV

| 显示表格

图 4 消融实验红外图像检测结果

Figure 4. Ablation study of infrared image detection results

下载: 全尺寸图片幻灯片

1）通过将实验1、实验5以及实验3、实验4分别进行对比可以发现，采用SWT模块可以使得网络在现有基础上的各项指标均实现提升，可视化检测结果也具有更加准确的目标边缘，得益于通道维自注意力计算，网络能够提升对特征图中的小目标的判别能力，因而效果有显著提升。

2）相较于实验5，实验3中并不包含基于拉普拉斯金字塔对红外图像进行不同尺度高频信息提取的结构信息补偿分支，可以看到IoU指标和nIoU指标分别降低了3.99%和2.16%，同时在可视化结果图中，实验5中的结果具有更加完整以及精确的目标形状，证明了为网络补充结构信息的必要性以及所采用方法的有效性。

3）实验2中，为充分验证SIF模块对于所提取到的结构信息与主干网络中的特征的融合能力，相较于实验5，本文将SIF模块替换为普通的特征相加操作，可以看到，各项指标均下降明显，同时可视化结果中的目标的完整性及准确性受到影响，证明SIF结构的有效性。

2.5 实验结果

为验证本文算法的先进性，在SIRST数据集上对目前已有的经典算法进行比较，如表 3所示。可以看到，一些基于手工先验的传统算法在处理具有挑战性的样例时较为受限，导致检测性能较其他基于深度学习方法相差很多。同时，在基于CNN的算法中，由于自身缺乏表达能力，导致不能准确地进行掩码预测，因此IoU以及nIoU指标都较低；此外，这类方法在存在噪声的背景下学习鉴别能力较弱，容易造成目标的错检以及漏检。与之相比，本文所提出的LPformer网络，在所有的评价指标方面都取得了最好的性能，并且和ALCNet相比，IoU指标和nIoU指标分别提升1.99%以及1.35%，本文将这一提升归因于所采用的高频结构信息补偿分支的设计以及基于通道维度Transformer模块的设计，分别能够为网络提供更多的细节信息以及提升网络的表达能力。除了对模型性能的比较以外，本文还对模型推理单张图像所耗费的平均时间进行了统计。由于一些传统算法的缺乏可比较性，这里只对一些基于深度学习的算法进行了比较，结果表明本文所采用的LPformer不仅在性能上领先其他算法，在算法复杂度及推理时间也优于其他大部分模型，能够满足一般现实中的使用条件。

表 3 对比实验结果

Table 3. Experimental results on different algorithms

Algorithm	IoU	nIoU	P_d	F_a	Time reasoning/s
WSLCM	4.41	33.82	91.74	22593	-
TLLCM	3.51	21.75	92.66	26498	-
IPI	2.62	4.16	84.40	203.07	-
NRAM	45.68	55.49	85.32	161.15	-
PSTNN	51.95	62.66	82.57	394.29	-
MSLSTIPT	20.21	24.74	82.57	259.75	-
MDvsFA	45.28	48.16	76.15	166.07	0.099
ACM	67.96	71.05	97.25	72.92	0.014
ALCNet	73.43	71.44	97.84	25.68	0.035
LPformer	75.42	72.79	98.17	20.98	0.024

下载: 导出CSV

| 显示表格

如图 5所示，本文对一些算法的检测结构进行了可视化，可以看到，即使是在较低对比度以及低信噪比的情况下，本文的LPformer不仅能够准确地对目标进行定位，还能获得一个大致完整和精确的目标形状，这与本文所利用拉普拉斯金字塔提取原始红外图像各层高频结构信息并与网络不同层级高效融合分不开。同时由于基于通道维度Transformer模块的设计提升了网络地表达能力和鉴别学习能力，和其他算法的检测结果相比，较少出现漏检以及错检情况。同时，如图 6所示，本文还绘制了5种性能先进的算法的（receiver operating characteristic，ROC）曲线，可以看到，本文所采用的LPformer网络的性能明显优于其他算法。

图 5 不同算法红外图像检测结果

Figure 5. Visual results of different algorithms on infrared image detection

下载: 全尺寸图片幻灯片

图 6 不同算法ROC曲线

Figure 6. Curves of ROC by different methods

下载: 全尺寸图片幻灯片

3. 结论

本文提出了一个新颖的LPformer网络来解决低对比度以及低信噪比挑战下的红外小目标检测任务。具体来说，针对红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率的问题，本文利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过引入一种结构信息转换模块与主干网络中不同层级的特征进行高效融合，用于对损失的纹理信息进行补偿。此外，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的Transformer，能够有效提升网络检测精度。通过在SIRST数据集上与其他现有算法进行的大量对比实验，证明了本文所提出的算法的优越性。

图 1 基于拉普拉斯金字塔多级Transformer的红外小目标检测框架

Figure 1. Infrared small target detection framework based on Laplacian pyramid multi-level transformer

下载: 全尺寸图片幻灯片

图 2 高频结构信息转换模块

Figure 2. High frequency structure information conversion module

下载: 全尺寸图片幻灯片

图 3 基于通道维Transformer模块

Figure 3. Spectral-wise transformer block

下载: 全尺寸图片幻灯片

图 4 消融实验红外图像检测结果

Figure 4. Ablation study of infrared image detection results

下载: 全尺寸图片幻灯片

图 5 不同算法红外图像检测结果

Figure 5. Visual results of different algorithms on infrared image detection

下载: 全尺寸图片幻灯片

图 6 不同算法ROC曲线

Figure 6. Curves of ROC by different methods

下载: 全尺寸图片幻灯片

表 1 不同自注意力结构的属性比较

Table 1 Property comparison of different self-attention structures

Self-attention scheme	Global self-attention	Local-window self-attention	Spectral-wise self-attention
Receptive field	Global	Local	Global
Complexity to HW	Quadratic	Linear	Linear
Calculating wise	Spatial	Spatial	Spectral

下载: 导出CSV

表 2 消融实验结果

Table 2 Ablation study results

Index	SWT	Laplace	SIF	IoU	nIoU	P_d	F_a
1	×	√	√	70.24	70.69	96.36	30.54
2	√	√	×	73.45	71.36	97.32	24.54
3	√	×	×	71.43	70.63	96.93	28.42
4	×	×	×	69.76	70.05	95.25	41.32
5	√	√	√	75.42	72.79	98.17	20.98

下载: 导出CSV

表 3 对比实验结果

Table 3 Experimental results on different algorithms

Algorithm	IoU	nIoU	P_d	F_a	Time reasoning/s
WSLCM	4.41	33.82	91.74	22593	-
TLLCM	3.51	21.75	92.66	26498	-
IPI	2.62	4.16	84.40	203.07	-
NRAM	45.68	55.49	85.32	161.15	-
PSTNN	51.95	62.66	82.57	394.29	-
MSLSTIPT	20.21	24.74	82.57	259.75	-
MDvsFA	45.28	48.16	76.15	166.07	0.099
ACM	67.96	71.05	97.25	72.92	0.014
ALCNet	73.43	71.44	97.84	25.68	0.035
LPformer	75.42	72.79	98.17	20.98	0.024

下载: 导出CSV

参考文献(35)

[1]	LI Z M, Mei L F, Song M. A survey on infrared weak small target detection method[C]//Advanced Materials Research, 2014, 945: 1558-1560.
[2]	贺顺, 谢永妮, 杨志伟, 等. 基于IHBF的增强局部对比度红外小目标检测方法[J]. 红外技术, 2022, 44(11): 1132-1138. http://hwjs.nvir.cn/article/id/0f2609dc-79df-467e-ac1d-4d5f888850d1 HE Shun, XIE Yongni, YANG Zhiwei, et al. IHBF-based enhanced local contrast measure method for infrared small target detection[J]. Infrared Technology, 2022, 44(11): 1132-1138. http://hwjs.nvir.cn/article/id/0f2609dc-79df-467e-ac1d-4d5f888850d1
[3]	李飚, 徐智勇, 王琛, 等. 基于自适应梯度倒数滤波红外弱小目标场景背景抑制[J]. 光电工程, 2021, 48(8): 47-58. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202108004.htm LI B, XU Z Y, WANG C, et al. Background suppression for infrared dim small target scene based on adaptive gradient reciprocal filtering[J]. Opto-Electron Eng. , 2021, 48(8): 47-58. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202108004.htm
[4]	聂青凤, 刘应杰, 梁赟. 基于稀疏约束神经网络的红外弱小目标检测技术[J]. 电光与控制, 2022, 29(8): 40-44. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ202208008.htm NEI Qingfeng, LIU Yingjie, LIANG Yun. Infrared dim target detection based on neural network model with sparsity constraint[J]. Electronics Optics & Control, 2022, 29(8): 40-44. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ202208008.htm
[5]	BAI Xiangzhi, ZHOU Fugen. Analysis of new top-hat transformation and the application for infrared dim small target detection[J]. Pattern Recognition, 2010, 43(6): 2145-2156. DOI: 10.1016/j.patcog.2009.12.023
[6]	CL Philip CHEN, LI Hong, WEI Yantao, et al. A local contrast method for small infrared target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1): 574-581.
[7]	HAN Jinhui, Saed Moradi, Iman Faramarzi, et al. Infrared small target detection based on the weighted strengthened local contrast measure[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(9): 1670-1674.
[8]	HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition of IEEE, 2007: 1-8.
[9]	DAI Yimian, WU Yiquan. Reweighted infrared patch-tensor model with both nonlocal and local priors for single-frame small target detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 2017, 10(8): 3752-3767. DOI: 10.1109/JSTARS.2017.2700023
[10]	GAO Chenqiang, MENG Deyu, YANG Yi, et al. Infrared patch-image model for small target detection in a single image[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4996-5009. DOI: 10.1109/TIP.2013.2281420
[11]	ZHANG Landan, PENG Lingbing, ZHANG Tianfang, et al. Infrared small target detection via non-convex rank approximation minimization joint l2, 1 norm[J]. Remote Sensing, 2018, 10(11): 1821 DOI: 10.3390/rs10111821
[12]	ZHANG Landan, PENG Zhenming. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382. DOI: 10.3390/rs11040382
[13]	XU Yonghui, ZHANG J A. Real-time detection algorithm for small space targets based on max-median filter[J]. Journal of Information and Computational Science, 2014, 11(4): 1047-1055. DOI: 10.12733/ jics20102961.
[14]	谷雨, 张宏宇, 孙仕成. 融合多尺度分形注意力的红外小目标检测模型[J/OL]. 电子与信息学报: 1-10[2023-01-14]. http://kns.cnki.net/kcms/detail/11.4494.TN.20221107.0920.007.html. GU Yu, ZHANG Hongyu, SUN Shicheng. Infrared small target detection model with multi-scale fractal attention[J/OL]. Journal of Electronics & Information Technology: 1-10[2023-01-14]. http://kns.cnki.net/kcms/detail/11.4494.TN.20221107.0920.007.html
[15]	邵斌, 杨华, 朱斌, 等. 基于实时语义分割的红外小目标检测算法[J/OL]. 激光与光电子学进展: 1-15[2023-01-14]. http://kns.cnki.net/kcms/detail/31.1690.TN.20221031.1649.140.html. SHAO Bin, YANG Hua, ZHU Bing, et al. Infrared small target detection algorithm based on real-time semantic segmentation[J/OL]. Laser & Optoelectronics Progress: 1-15[2023-01-14]. http://kns.cnki.net/kcms/detail/31.1690.TN.20221031.1649.140.html
[16]	WANG Huan, ZHOU Luping, WANG Lei. Miss detection vs. false alarm: Adversarial learning for small object segmentation in infrared images[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision(ICCV), 2019: 8508-8517. DOI: http://dx.doi.org/10.1109/ICCV.2019.00860.
[17]	DAI Y, WU Y, ZHOU F, et al. Asymmetric contextual modulation for infrared small target detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 950-959.
[18]	LI Boyang, XIAO Chao, WANG Longguang, et al. Dense nested attention network for infrared small target detection[J]. IEEE Transactions on Image Processing, 2022: DOI: 10.1109/TIP.2022.3199107.
[19]	张传聪, 李范鸣, 饶俊民. 基于特征显著性融合的红外小目标检测[J]. 半导体光电, 2022, 43(4): 828-834. DOI:10.16818/j.issn1001-5868. 2022032901. ZHANG Chuancong, LI Fanming, RAO Junmin. Infrared small target detection based on feature saliency fusion[J]. Semiconductor Optoelectronics, 2022, 43(4): 828-834. DOI:10.16818/j.issn1001-5868. 2022032901.
[20]	王翔. 一种复杂海空背景下的红外小目标检测跟踪算法[J]. 光学与光电技术, 2022, 20(2): 113-119. DOI:10.19519/j.cnki.1672-3392. 2022.02.010. WANG Xiang. A detecting and tracking algorithm for the infrared small targets under the complex sea-sky background[J]. Optics & Optoelectronic Technology, 2022, 20(2): 113-119. DOI:10.19519/j.cnki.1672-3392. 2022.02.010.
[21]	薛锡瑞, 黄树彩, 马佳顺, 等. 基于局部熵参考预处理的RPCA红外小目标检测[J]. 红外技术, 2021, 43(7): 649-657. http://hwjs.nvir.cn/article/id/e8541151-1530-4561-ad38-42349b5da1b8 XUE Xirui. HUANG Shucai, MA Jiashun, et al. RPCA infrared small target detection based on local Entropy reference in preprocessing[J]. Infrared Technology, 2021, 43(7): 649-657. http://hwjs.nvir.cn/article/id/e8541151-1530-4561-ad38-42349b5da1b8
[22]	朱硕雅, 杨德振, 贾鹏, 等. 时空联合红外小目标检测算法的设计与实现[J]. 激光与红外, 2021, 51(3): 388-392. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW202103023.htm ZHU Shuoya, YANG Dezhen, JIA Peng, et al. Design and implementation of space-time combined infrared small target detection algorithm[J]. Laser and Infrared, 2021, 51(3): 388-392. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW202103023.htm
[23]	CHEN G, WANG W, TAN S. IRST Former: a hierarchical vision transformer for infrared small target detection[J]. Remote Sensing, 2022, 14(14): 3258.
[24]	高峰, 孟德森, 解正源, 等. 基于Transformer和动态3D卷积的多源遥感图像分类[J/OL]. 北京航空航天大学学报: 1-11[2023-01-14]. DOI: 10.13700/j.bh.1001-5965.2022.0397 GAO Feng, MENG Desen, XIE Zhengyuan, et al. Multi-source remote sensing image joint classification based on transformer and dynamic 3D-convolution[J/OL]. Journal of Beijing University of Aeronautics and Astronautics: 1-11[2023-01-14] (DOI: 10.13700/j.bh.1001-5965.2022).
[25]	Jonnalagadda A, WANG W Y, Manjunath B S, et al. Foveater: foveated transformer for image classification[J/OL]. arXiv preprint arXiv: 2105.14173, (https://doi.org/10.48550/arXiv.2105.14173)
[26]	HAN K, XIAO A, WU E, et al. Transformer in transformer[J]. Advances in Neural Information Processing Systems, 2021, 34: 15908-15919.
[27]	Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image Computing and Computer-assisted Intervention, 2015: 234-241.
[28]	WANG X, YU K, DONG C, et al. Recovering realistic texture in image super-resolution by deep spatial feature transform[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 606-615.
[29]	DAI Y, WU Y, ZHOU F, et al. Attentional local contrast networks for infrared small target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(11): 9813-9824.
[30]	HAN J, Moradi S, Faramarzi I, et al. Infrared small target detection based on the weighted strengthened local contrast measure[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(9): 1670-1674.
[31]	CHEN C L P, LI H, WEI Y, et al. A local contrast method for small infrared target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1): 574-581.
[32]	GAO C, MENG D, YANG Y, et al. Infrared patch-image model for small target detection in a single image[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4996-5009.
[33]	ZHANG L, PENG L, ZHANG T, et al. Infrared small target detection via non-convex rank approximation minimization joint l2, 1 norm[J]. Remote Sensing, 2018, 10(11): 1821.
[34]	ZHANG L, PENG Z. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382.
[35]	SUN Y, YANG J, An W. Infrared dim and small target detection via multiple subspace learning and spatial-temporal patch-tensor model[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(5): 3737-3752.

施引文献(3)

期刊类型引用(3)

1.	刘祺，曹林，田澍，杜康宁，宋沛然，郭亚男. 用于遥感图像变化检测的结构感知多尺度混合网络. 激光与光电子学进展. 2024(14): 323-333 . 百度学术
2.	闵锋，刘彪，况永刚，毛一新，刘煜晖. 基于空间自适应和内容感知的红外小目标检测. 红外技术. 2024(07): 735-742 . 本站查看
3.	陈怡馨，马曾. 无线网络信息差分隐私的动态可搜索加密仿真. 计算机仿真. 2024(10): 424-427+442 . 百度学术

其他类型引用(0)

资源附件(0)

图(6) / 表(3)

计量

文章访问数: 266
HTML全文浏览量: 83
PDF下载量: 66
被引次数: 3

0. 引言
1. 本文方法
1.1 总体框架
1.2 结构信息转换模块
1.3 基于通道维的Transformer
2. 实验结果与分析
2.1 数据集介绍
2.2 训练环境及实验设置
2.3 评价指标
2.4 消融实验
2.5 实验结果
3. 结论

LPformer：基于拉普拉斯金字塔多级Transformer的红外小目标检测

作者简介: 杜妮妮（1977-）女，陕西西安人，硕士，讲师，主要研究方向为图像检测、识别技术，E-mail：314941956@qq.com

计量

出版历程