基于滑动窗口与多帧补偿的自适应盲元检测与补偿算法

顾国华

顾国华. 基于滑动窗口与多帧补偿的自适应盲元检测与补偿算法[J]. 红外技术, 2010, 32(7): 420-423. DOI: 10.3969/j.issn.1001-8891.2010.07.013
引用本文: 顾国华. 基于滑动窗口与多帧补偿的自适应盲元检测与补偿算法[J]. 红外技术, 2010, 32(7): 420-423. DOI: 10.3969/j.issn.1001-8891.2010.07.013
A Blind Pixel Self-adaptive Detection And Compensation Algorithm Based on Sliding Window and Multi-frame Compensation[J]. Infrared Technology , 2010, 32(7): 420-423. DOI: 10.3969/j.issn.1001-8891.2010.07.013
Citation: A Blind Pixel Self-adaptive Detection And Compensation Algorithm Based on Sliding Window and Multi-frame Compensation[J]. Infrared Technology , 2010, 32(7): 420-423. DOI: 10.3969/j.issn.1001-8891.2010.07.013

基于滑动窗口与多帧补偿的自适应盲元检测与补偿算法

基金项目: 国防预研基金项目%南京理工大学自主科研专项计划资助项目(2010ZDJH12)
详细信息
  • 中图分类号: TN214

A Blind Pixel Self-adaptive Detection And Compensation Algorithm Based on Sliding Window and Multi-frame Compensation

  • 摘要: 针对红外焦平面阵列元响应的盲元产生机理,提出了一种基于滑动窗口与多帧补偿的自适应盲元检测与补偿方法.该方法首先以多帧补偿找出闪烁盲元,再对累加图像的某一像元为中心进行加窗,计算加窗后的均值与标准差,然后通过比较窗口中心像元灰度与均值的偏差是否大于3倍标准差来判断其是否为盲元.再通过滑动窗口的中值查找法来对盲元进行补偿.仿真结果表明,该方法查找速度快、定位准确、补偿效果好,是一种比较实用的盲元检测与补偿方法.
  • 受到自然界中照明、遮挡、天气等因素的影响,可见光图像中有时候并不能准确地观测到目标。相比之下,红外图像由于其独特的成像机制,能够获取到外界的热辐射信息,即使在极具有挑战性的可见光成像条件下,也可以捕获较多的目标信息,在许多现实应用中都发挥着重要的作用,如精确制导系统、森林火灾探测系统和海上监视及救援系统。因此,从红外图像中检测目标,特别是小目标,在过去的几十年里引起了广泛的关注,也是深度学习领域的一个活跃的研究课题[1-4]

    相较于一般的目标检测任务,红外小目标检测通常面临着来自三方面的挑战:①由于成像距离远,红外图像中的目标通常很小,所占像素个数不超过整幅图像的0.2%;②受到背景中大量杂波以及噪声的影响,红外图像的信噪比通常较低,导致目标与背景难以区分;③目标通常缺乏特定的形状及纹理,且在不同的场景下形状及大小都会发生变化。

    为了准确地检测出红外小目标,早期的研究人员提出了一些包括滤波[5]、人类视觉系统(human vision system, HVS)[6-8]和低秩表示[9-12]在内的基于图像处理和机器学习技术的开创性工作。然而,这些传统算法通常存在一些局限性。基于滤波的方法,如高帽滤波、最大中值/最大平均滤波器[13],通常只能对均匀的背景杂波进行一定程度的抑制,而对应对复杂的背景噪声,导致较高的误报率,性能不稳定。对于基于人类视觉系统的方法,通过利用目标与背景之间的差异进行检测,由于严重依赖于手工制作的分割阈值,导致在复杂环境中的检测性能不佳。基于低秩表示的方法假设背景与目标分别具有稀疏性及低秩性,可以处理一些低信噪比的红外图像,但对复杂背景下具有形状较小且容易改变的目标的图像仍然存在较高的误警率。这些基于传统的红外小目标检测算法可以在一些简单的场景中表现出良好的性能,但由于依赖于超参数调优和手工制作的先验,通常会受到上述一些挑战,从而只具有有限的表示能力。

    为了解决上述问题,许多研究人员将深度学习引入红外小目标检测领域[14-15]。Wang等人[16]基于条件对抗生成网络提出了MDvsFA(miss detection vs. false alarm)算法,实现了漏检率以及虚警率这两个指标之间的平衡。为了从不同的层中提取上下文特征,Dai等人[17]提出了一种非对称上下文特征融合方法(asymmetric contextual modulation, ACM),并构建了一个红外小目标数据集(single-frame infrared small target, SIRST)。Li等人[18]提出了一种密集嵌套注意网络(dense nested attention network, DNANet)来准确提取小目标特征。虽然这些方法比传统方法具有更好的性能,但它们仍然忽略了池化和降采样层的细节损失问题。同时,当面对包含有小且难以检测的目标以及复杂背景的情况时,这些模型通常缺乏足够的表达能力来产生有区别的表示。其次,这些基于卷积神经网络(convolutional neural networks, CNN)的模型[19-22]通常会盲目堆叠许多层来扩大感受野来提取语义特征,这导致它们在提取全局上下文和利用低级别的细节特征方面效率低下,而这些对于检测小目标十分重要。

    最近一段时间,Transformer结构在计算机视觉中得到广泛应用[23-26],并取得巨大的成功。其中,Transformer结构中的自注意力机制在远程依赖性以及局部自相似性方面的建模能力优于CNN,可以缓解基于CNN的红外小目标算法的局限性。然而直接使用标准的Transformer结构会面临两个问题:①标准全局自注意力的计算复杂度与空间维数呈平方关系,相反地,基于局部窗口的自注意力能很大程度上缓解计算资源的压力,然而由于仅在特定位置的窗口内对特征进行操作,导致感受域十分有限;②红外图像在空间上稀疏的,然而其特征在通道维度却具有较高的相关性,因此对通道维相关性建模的成本效益要高于捕获空间维相互依赖性。

    为解决上述问题,本文在先前的研究工作基础上,提出了一种基于拉普拉斯金字塔多级Transformer的红外小目标检测算法(LPformer)。LPformer采用了一种类似U-Net[27]的编码器-解码器结构,其中编码器由3个拉普拉斯金字塔Transformer(LPT)块堆叠而成,解码器设计了几个反卷积以及残差块用于对不同层级的特征进行聚合。值得注意的是,对于LPT块,本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息,接着通过一种结构信息转换(structural information transform, SIF)模块与主干网络中不同层级的LPT块进行融;同时,在LPT块中还采用了一种基于通道维的Transformer(spectral-wise transformer, SWT)结构,将每个通道特征图作为图像块(Token),并沿着通道维进行自注意力的计算。

    本文提出的LPformer总体框架如图 1所示,首先通过浅层特征提取模块对红外图像进行初步特征提取同时提升通道数,接着主干网络采用了一种类似U-Net的编码器-解码器结构,其中编码器由3个拉普拉斯金字塔Transformer(Laplace pyramid Transformer, LPT)块堆叠而成,瓶颈层由一个基于通道维的Transformer(spectral-wise transformer, SWT)块组成,解码器部分通过几个反卷积以及残差块用于对不同层级的特征进行聚合,在解码器后本文通过一个由几个卷积组成的head模块对分割结果进行预测,得到最终的二值化结果。具体来说,每个LPT块由SWT块、结构信息转换(structural information transform, SIF)块以及一个残差块串联而成。SWT块通过沿着通道维进行自注意力的计算,实现高效特征的提取,SIF块基于融合由红外图像中提取到的不同层级的拉普拉斯金字塔高频成分对输入特征进行高频部分的补偿,残差块由两个普通的3×3卷积,批归一化操作以及下采样操作组成,降低特征的空间尺寸同时提升通道数。

    图  1  基于拉普拉斯金字塔多级Transformer的红外小目标检测框架
    Figure  1.  Infrared small target detection framework based on Laplacian pyramid multi-level transformer

    为了克服红外小目标特征容易在网络迭代过程中损失纹理细节信息,被背景所淹没,从而影响检测效率,本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息,接着通过一种结构信息转换模块[28]与主干网络中不同层级的LPT块进行融合,用于对损失的纹理信息进行补偿。

    定义根据拉普拉斯金字塔算法提取到的3层高频成分金字塔PH=[H0, H1, H2],接着如图 2所示,高频结构信息首先经过一个普通卷积提取条件特征图,接着分别通过两组卷积层自适应地学习出一对放射变换系数(γ, β),其维度与对应层级的由SWT输出的特征图F相同,接着通过下式得到融合后的特征图:

    图  2  高频结构信息转换模块
    Figure  2.  High frequency structure information conversion module
    $$ {\text{SIT}}(F\mid \gamma ,\beta ) = \gamma \odot F + \beta $$ (1)

    式中:$ \odot $表示点乘操作。

    由于红外小目标通常尺寸较小且亮度较暗,为了在抑制噪声的同时将小目标特征有效进行提取,本文采用了一种基于通道维的transformer(spectral-wise transformer, SWT)结构,总体结构如图 3(a)所示,输入特征首先经过层归一化操作,通过通道维自注意力计算(spectral-wise self-attention, SWSA)块(如图 3(c)所示)实现基于通道维度的自注意力的计算,接着进行残差连接与进一步的层归一化操作,最后通过前馈网络(如图 3(b)所示)增强模型的拟合能力。

    图  3  基于通道维Transformer模块
    Figure  3.  Spectral-wise transformer block

    与标准空间维Transformer不同的是,基于通道维的Transformer块将输入特征图的每一个通道视作一个Token,并沿着通道维度进行自注意力的计算。首先将输入图像${X_{{\text{in }}}} \in {\mathbb{R}^{H \times W \times C}}$转换为Token$X \in {\mathbb{R}^{HW \times C}}$,其中HWC分别表示特征图的高度、宽度以及通道个数。再将X线性投影到query$Q \in {\mathbb{R}^{HW \times C}}$,key$ K \in {\mathbb{R}^{HW \times C}} $,value$V \in {\mathbb{R}^{HW \times C}}$,则有:

    $$ Q=XW^{Q}\text{,}K=XW^{K}\text{,}V=XW^{V} $$ (2)

    式中:WQWK,${W^V} \in {\mathbb{R}^{C \times C}}$都是可以学习的参数。为简化问题,这里省略了biases项。这里,将特征图的每个通道都作为一个Token并进行自注意力的计算:

    $$ A=\operatorname{softmax}\left(\boldsymbol{K}^{\mathrm{T}} Q\right) $$ (3)
    $$ Z=VA $$ (4)

    式中:KT代表K的转置矩阵;$ A \in {\mathbb{R}^{C \times C}} $表示生成的注意力特征图;$ Z \in {\mathbb{R}^{HW \times C}} $表示经过注意力加权后的特征,接着再添加位置编码信息:

    $$ \operatorname{SWSA}(\boldsymbol{X})=Z+f_{\mathrm{p}}(\boldsymbol{V})$$ (5)

    式中:fp(V)是生成位置编码的函数。最后将上式的结果进行转换从而获得最终的输出特征图$ {X_{{\text{out }}}} \in {\mathbb{R}^{H \times W \times C}} $。

    这里本文对其计算复杂度进行分析,由于基于通道维的自注意力将每个通道视为一个Token,并且每个Token的维度n等于H×W。因此其计算复杂度为:

    $$ {O}_{(通道维自注意力计算)}=2HW{C}^{2} $$ (6)

    而基于全局自注意力计算和基于窗口的自注意力计算的计算复杂度分别为:

    $$ {O}_{(全局自注意力计算)}=2{(HW)}^{2}C $$ (7)
    $$ {O}_{(基于窗口自注意力计算)}=2{M}^{2}HWC $$ (8)

    其中M表示设定窗口的大小,这里不难看出,基于通道维的自注意力以及基于窗口的自注意力的计算复杂度都是与特征图的空间尺寸(H×W)呈线性关系,相比于全局计算自注意力要高效很多。同时,基于通道维的自注意力还将每个光谱特征作为Token,在计算自注意力A时,接受域是全局的,并不局限于特定位置的窗口。因此基于通道维的自注意力的感受野是整幅特征图并且不会受到特定窗口的限制。

    为方便说明,如表 1所示,总结了各种自注意力结构的属性。

    表  1  不同自注意力结构的属性比较
    Table  1.  Property comparison of different self-attention structures
    Self-attention scheme Global self-attention Local-window self-attention Spectral-wise self-attention
    Receptive field Global Local Global
    Complexity to HW Quadratic Linear Linear
    Calculating wise Spatial Spatial Spectral
    下载: 导出CSV 
    | 显示表格

    本文在NUDT-SIRST数据集上进行实验,包含了427张具有代表性的红外图像和480个不同场景的实例,其中将大约50%的数据用于训练、20%以及30%的数据分别用于验证及测试。

    本文基于PyTorch1.13.1平台对所提出算法进行实验验证,GPU为GTX2080Ti,操作系统为Ubuntu20.04。本文采用AdaGrad作为优化器,初始学习率为0.04。训练过程总共需要持续500个epoch,衰减率为10−4,batch大小为8。本文同一些目前较为先进的红外小目标检测算法进行对比,包括:ALCNet[29],ACMNet[17],MDvsFA[16],WSLCM[30],TLLCM[31],IPI[32],NRAM[33],PSTNN[34]以及MSLSTIPT[35]

    本文采用IoU、归一化交并比nIoU、检测率Pd以及虚警率Fa这几个常用的度量指标将所提出的LPformer与一些先进方法进行对比:

    交并比IoU定义为:

    $$ \text { IoU }=A_{i}/A_{u } $$ (9)

    式中:AiAu分别表示相交区域和并集区域的大小;nIoU是IoU的标准化,即:

    $$ \text {nIoU } = \frac{1}{N}\sum\limits_{i = 1}^N {(TP[i]/(} T[i] + P[i] - TP[i])) $$ (10)

    式中:N表示样本总数;TP[⋅]表示被模型正确预测的正样本的像素数目,T[⋅]和P[⋅]分别表示图像中真实值和预测为正样本的像素数目。

    检测率表示正确检测出的目标Npred与所有目标Nall的比值:

    $$P_{\mathrm{d}}=N_{\text {pree }} / N_{\text {all }} $$ (11)

    虚警率Fa表示错误预测的目标像素数Nfalse与图像中所有像素Nall的比值:

    $$ {F_{\mathrm{a}}} = {N_{{\text{false }}}}/{N_{{\text{all }}}} $$ (12)

    本文通过设置消融实验对不同模块对网络性能的影响进行分析,具体包括是否采用本文设计的基于通道维的Transformer模块(SWT),是否采用通过拉普拉斯金字塔(Laplace pyramid)提取高频信息对网络进行补偿以及是否采用结构信息转换(SIF)模块对所提取到的结构信息与主干网络中的特征进行融合。实验结果如表 2所示,同时本文还进行了可视化结果的对比,如图 4所示,分析可知:

    表  2  消融实验结果
    Table  2.  Ablation study results
    Index SWT Laplace SIF IoU nIoU Pd Fa
    1 × 70.24 70.69 96.36 30.54
    2 × 73.45 71.36 97.32 24.54
    3 × × 71.43 70.63 96.93 28.42
    4 × × × 69.76 70.05 95.25 41.32
    5 75.42 72.79 98.17 20.98
    下载: 导出CSV 
    | 显示表格
    图  4  消融实验红外图像检测结果
    Figure  4.  Ablation study of infrared image detection results

    1)通过将实验1、实验5以及实验3、实验4分别进行对比可以发现,采用SWT模块可以使得网络在现有基础上的各项指标均实现提升,可视化检测结果也具有更加准确的目标边缘,得益于通道维自注意力计算,网络能够提升对特征图中的小目标的判别能力,因而效果有显著提升。

    2)相较于实验5,实验3中并不包含基于拉普拉斯金字塔对红外图像进行不同尺度高频信息提取的结构信息补偿分支,可以看到IoU指标和nIoU指标分别降低了3.99%和2.16%,同时在可视化结果图中,实验5中的结果具有更加完整以及精确的目标形状,证明了为网络补充结构信息的必要性以及所采用方法的有效性。

    3)实验2中,为充分验证SIF模块对于所提取到的结构信息与主干网络中的特征的融合能力,相较于实验5,本文将SIF模块替换为普通的特征相加操作,可以看到,各项指标均下降明显,同时可视化结果中的目标的完整性及准确性受到影响,证明SIF结构的有效性。

    为验证本文算法的先进性,在SIRST数据集上对目前已有的经典算法进行比较,如表 3所示。可以看到,一些基于手工先验的传统算法在处理具有挑战性的样例时较为受限,导致检测性能较其他基于深度学习方法相差很多。同时,在基于CNN的算法中,由于自身缺乏表达能力,导致不能准确地进行掩码预测,因此IoU以及nIoU指标都较低;此外,这类方法在存在噪声的背景下学习鉴别能力较弱,容易造成目标的错检以及漏检。与之相比,本文所提出的LPformer网络,在所有的评价指标方面都取得了最好的性能,并且和ALCNet相比,IoU指标和nIoU指标分别提升1.99%以及1.35%,本文将这一提升归因于所采用的高频结构信息补偿分支的设计以及基于通道维度Transformer模块的设计,分别能够为网络提供更多的细节信息以及提升网络的表达能力。除了对模型性能的比较以外,本文还对模型推理单张图像所耗费的平均时间进行了统计。由于一些传统算法的缺乏可比较性,这里只对一些基于深度学习的算法进行了比较,结果表明本文所采用的LPformer不仅在性能上领先其他算法,在算法复杂度及推理时间也优于其他大部分模型,能够满足一般现实中的使用条件。

    表  3  对比实验结果
    Table  3.  Experimental results on different algorithms
    Algorithm IoU nIoU Pd Fa Time reasoning/s
    WSLCM 4.41 33.82 91.74 22593 -
    TLLCM 3.51 21.75 92.66 26498 -
    IPI 2.62 4.16 84.40 203.07 -
    NRAM 45.68 55.49 85.32 161.15 -
    PSTNN 51.95 62.66 82.57 394.29 -
    MSLSTIPT 20.21 24.74 82.57 259.75 -
    MDvsFA 45.28 48.16 76.15 166.07 0.099
    ACM 67.96 71.05 97.25 72.92 0.014
    ALCNet 73.43 71.44 97.84 25.68 0.035
    LPformer 75.42 72.79 98.17 20.98 0.024
    下载: 导出CSV 
    | 显示表格

    图 5所示,本文对一些算法的检测结构进行了可视化,可以看到,即使是在较低对比度以及低信噪比的情况下,本文的LPformer不仅能够准确地对目标进行定位,还能获得一个大致完整和精确的目标形状,这与本文所利用拉普拉斯金字塔提取原始红外图像各层高频结构信息并与网络不同层级高效融合分不开。同时由于基于通道维度Transformer模块的设计提升了网络地表达能力和鉴别学习能力,和其他算法的检测结果相比,较少出现漏检以及错检情况。同时,如图 6所示,本文还绘制了5种性能先进的算法的(receiver operating characteristic,ROC)曲线,可以看到,本文所采用的LPformer网络的性能明显优于其他算法。

    图  5  不同算法红外图像检测结果
    Figure  5.  Visual results of different algorithms on infrared image detection
    图  6  不同算法ROC曲线
    Figure  6.  Curves of ROC by different methods

    本文提出了一个新颖的LPformer网络来解决低对比度以及低信噪比挑战下的红外小目标检测任务。具体来说,针对红外小目标特征容易在网络迭代过程中损失纹理细节信息,被背景所淹没,从而影响检测效率的问题,本文利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息,接着通过引入一种结构信息转换模块与主干网络中不同层级的特征进行高效融合,用于对损失的纹理信息进行补偿。此外,为了在抑制噪声的同时将小目标特征有效进行提取,本文采用了一种基于通道维的Transformer,能够有效提升网络检测精度。通过在SIRST数据集上与其他现有算法进行的大量对比实验,证明了本文所提出的算法的优越性。

  • 期刊类型引用(3)

    1. 刘祺,曹林,田澍,杜康宁,宋沛然,郭亚男. 用于遥感图像变化检测的结构感知多尺度混合网络. 激光与光电子学进展. 2024(14): 323-333 . 百度学术
    2. 闵锋,刘彪,况永刚,毛一新,刘煜晖. 基于空间自适应和内容感知的红外小目标检测. 红外技术. 2024(07): 735-742 . 本站查看
    3. 陈怡馨,马曾. 无线网络信息差分隐私的动态可搜索加密仿真. 计算机仿真. 2024(10): 424-427+442 . 百度学术

    其他类型引用(0)

计量
  • 文章访问数:  80
  • HTML全文浏览量:  9
  • PDF下载量:  15
  • 被引次数: 3
出版历程

目录

/

返回文章
返回