HRformer: Hierarchical Regression Transformer for Infrared Small-Target Detection
-
摘要: 红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如何精确检测红外小目标的外形信息仍然是一个挑战。针对上述问题,构建了一种基于多级回归Transformer(HRformer)网络的红外小目标检测算法。具体来说,首先为了在获得多尺度信息的同时尽可能避免原始图像信息的损失,采用像素逆重组(PixelUnShuffle)操作对原始图像下采样来获取不同层级网络的输入,同时采用一种可学习的像素重组(PixelShuffle)操作对每一层级的输出特征图进行上采样,提升了网络的灵活性;接着,为实现网络中不同层级特征之间的信息交互,本文设计了一种包含空间注意力计算分支以及通道注意力计算分支在内的交叉注意力融合(cross attention fusion, CAF)模块实现特征高效融合以及信息互补;最后,为进一步提升网络的检测性能,结合普通Transformer结构具有较大感受野以及基于窗口的Transformer结构具有较少计算复杂度的优势,提出了一种局部-全局Transformer(LGT)结构,能够在提取局部上下文信息的同时对全局依赖关系进行建模,计算成本也得到节省。实验结果表明,与目前较为先进的一些红外小目标检测算法相比,本文所提出的算法具有更高的检测精度,同时具有较少的参数量,在解决实际问题中更有意义。
-
关键词:
- 红外图像 /
- 弱小目标检测 /
- Transformer /
- 图像分割
Abstract: Infrared small-target detection refers to the detection of small targets in infrared images with low signal-to-noise ratios and complex backgrounds. Infrared small-target detection is essential in applications, such as maritime rescue and traffic management. However, because of factors such as low image resolution, small target size, and inconspicuous features, infrared targets are prone to submergence in a background that contains noise and clutter. The accurate detection of the shape information of small infrared targets remains a challenge. An infrared small-target detection algorithm based on a hierarchical regression transformer (HRformer) network was constructed to address these problems. Specifically, the PixelUnShuffle operation was leveraged to downsample the original image and obtain the input of different network levels to obtain multiscale information while minimizing the loss of the original image information. The PixelShuffle operation upsamples the output feature map of each level, improving the flexibility of the network. Next, a cross-attention fusion module that includes the spatial and channel attention calculation branches realizes efficient feature fusion and information complementarity to realize the information interaction between different levels of features in the network. Finally, combined with the ordinary Transformer structure, which has a large receptive field, and the window-based Transformer, which has the advantage of minimal computational complexity, a local–global transformer structure is proposed to further improve the detection performance of the network and reduce computational costs. The proposed structure can model global dependencies while extracting local context information. The experimental results show that the proposed algorithm has a higher detection accuracy and fewer parameters than some advanced infrared small-target detection algorithms. Therefore, the proposed algorithm is suitable for solving practical problems.-
Keywords:
- infrared images /
- small target detection /
- transformer /
- image segmentation
-
0. 引言
利用同一场景的光谱仪来获取不同光谱下的图像被称为高光谱成像。它包含了比普通图像更丰富的信息,大大提高了地面覆盖识别和特征分析的准确性和可靠性。因此,它有多种应用,包括环境研究、农业、军事、地理等[1]。同时由于高光谱图像提供了丰富的光谱信息,在分类[2]、超分辨率[3]和解混[4]等方面也发挥着重要作用。然而由于高光谱传感器在采集数据时容易受到外界环境的影响,数据不可避免地会受到高斯噪声、椒盐噪声、条带和死线等各种混合噪声污染,从而降低了HSI的质量,限制了其后续的应用[5]。因此,从已被噪声污染的HSI中恢复干净的HSI是很重要且有意义的研究。
在过去的几十年里,许多不同的HSI恢复方法被提出来提高其质量。其中较简单的技术是使用传统的二维灰度图像和一维信号方法来实现HSI逐带[6]或逐像素[7]去除噪声。然而,这些去噪方法没有考虑到HSI光谱域的低秩先验特性。利用这一特性,Candes等人[8]提出了一个最小化核范数的鲁棒主成分分析(Robust Principal Component Analysis,RPCA)模型,以有效地获得清晰的图像。Gu等人[9]提出了一种加权核范数极小化(Weighted Kernel Norm Minimization,WNNM)模型,通过分配不同的权重到奇异值。He[10]等人建立了针对不同波段不同噪声强度的低秩矩阵逼近方法,有效地提高了图像恢复的信噪比。然而,张量矩阵化破坏了张量的高阶结构,这对去噪后的局部细节和重要信息产生了影响。
因此,许多算法引入基于低秩张量的方法来描述HSI的低秩特性。包括Tucker分解[11]和张量奇异值分解(tensor Singular Value Decomposition,t-SVD)[12]。然而,如文献[13]所示,低秩正则化并不足以描述HSI的空间先验信息。总变分正则化是图像处理中保持局部空间分段平滑性常用的工具,因此,许多人提出了基于低秩矩阵/张量分解框架和各种类型的总变分正则化模型,以同时探索HSI的空间和光谱先验。例如,He[13]等人将HTV正则化引入低秩矩阵分解框架,以提高恢复结果。在文献[14]中,将低Tucker秩模型和SSTV(Spatial Spectrum Total Variation)正则化项组合分别利用全局空间谱和光谱相关性,增强空间信息;如范等[15]将SSTV正则化加到低阶张量分解框架中(Spatial Spectrum Total Variation-Low Rank Tensor Decomposition,SSTV-LRTF),使用张量核范数(Tensor Kernel Norm,TNN)近似HSI的低秩属性并同时利用空间和光谱域之间的分段光滑性来完成HSI去噪。Chen[16]等人提出加权群稀疏正则化低秩张量分解方法,将空间差分图像的群稀疏性正则化和Tucker分解结合起来,有效探索了不同光谱波段空间差图像的共享群稀疏模式。近期,许多基于深度学习的算法被提出用于HSI图像去噪,例如3DADNet[17],SSCAN[18],然而这些方法都只能去除单一的高斯噪声,而高光谱图像往往都会被混合噪声污染,这会使其在实际运用中达不到理想的效果。总之,低秩张量框架和总变分正则化的结合在高光谱混合噪声图像恢复时可以达到最优的结果。
然而,SSTV-LRTF的方法中采用张量核范数作为其低秩的凸松弛,它测量非零奇异值的L1范数,这不是张量低秩的一个很好的近似[19]。其次,它平等地对待每个奇异值,因此可能无法很好地保存主要信息。这是因为较大的奇异值通常对应于主要信息,如轮廓、锐利的边缘和光滑的区域,因此收缩应小于较小的奇异值[20-24]。因此,为解决上述问题,我们采用对数张量核范数作为其低秩的非凸松弛。
同时由于SSTV[14]中在空间维度做差分时采用简单的L1范数,其并不能充分表征张量梯度域的空间稀疏结构,最终导致去噪后的图像过于平滑。Chen等[16]设计了一个加权L2, 1正则化器来探索张量空间维度的群稀疏性,取得更好的结果。为弥补SSTV正则项不足,提出了新的群稀疏总变分正则项,来保持HSI局部空间光谱相关性的同时探索其空间维度的群稀疏性。
为了去除高光谱数据的混合噪声,将对数张量核范数和群稀疏总变分正则项结合起来。在模拟和真实HSI数据实验中与其他去噪方法相比,取得了更好的结果。
主要贡献有以下3点:
1)在非凸低秩张量分解模型(Non-convex low-rank tensor factorization,NCLRTF)中,采用对数张量核范数来作为HSI的低秩非凸松弛,可以更好地近似其低秩并保留图像更多的特征信息。
2)提出了新的群稀疏总变分正则项,其考虑HSI空间光谱维度的局部相关性的同时可以探索HSI共享的群稀疏模式,因此能够保留图像更多的细节特征。并将其与非凸低秩张量分解的模型结合起来,提高了图像恢复的结果。
3)为了求解该模型,我们采用了ADMM(交替方向乘子法)算法[25]来获得全局最优解,实验结果表明,该算法易于收敛。
1. 相关工作
1.1 HSI退化模型
基于观测到的HSI总会受到混合噪声污染,假设被混合噪声污染的HSI数据用Y∈RM×N×p表示,其中M×N为空间域,p为谱带数。它们可以被建模为:
$$ Y=X+S+N $$ (1) 式中:X∈RM×N×p为干净的高光谱数据;S∈RM×N×p和N∈RM×N×p分别为稀疏噪声和高斯噪声。HSI恢复的重点是如何从观察到的噪声图像中恢复干净图像。
1.2 HSI低秩张量分解恢复模型
在文献[15]中,将高光谱数据每个波段的二维图像重塑为大小为M×1×N的横向切片,然后将这些横向切片排列,得到大小为M×p×N的三维张量$ \hat X $。
可由以下操作实现:Map(RM×N×p)→(RM×p×N),其逆算子为:iMap(RM×p×N)→(RM×N×p)。对于三向张量$ \hat X \in {R^{M \times p \times N}} $,可以找到两个张量A∈RM×k×N和B∈Rk×p×N满足:
$$ \hat X = A*B = \sum\limits_{j = 1}^k {A\left( {:,j,:} \right)*B\left( {j,:,:} \right)} $$ (2) 因此使用低秩张量分解重构HSI退化模型:
$$ Y={\rm{iMap}}(A*B)+S+N $$ (3) 对于三向张量$ \hat X \in {R^{M*p*N}} $,假设k是它的管状张量秩的上界[26],可得:
$$ {\left\| {\hat X} \right\|_{{\text{TNN}}}} = \mathop {\inf }\limits_{A,B} \left\{ {\frac{1}{2}\left\| A \right\|_{\text{F}}^2 + \left\| B \right\|_{\text{F}}^2:\hat X = A*B} \right\} $$ (4) 式中:张量A∈RM×k×N和B∈Rk×p×N。
因此可以得到以下低秩张量分解的去噪模型[15]:
$$ \begin{array}{l} \mathop {\min }\limits_{X,S} \lambda {\left\| S \right\|_1} + {\left\| {{\text{Map}}\left( X \right)} \right\|_{{\text{TNN}}}}\;{\text{s}}{\text{.t}}. \hfill \\ \left\| {Y - X - S} \right\|_{\text{F}}^2 \leqslant \varepsilon \quad {\text{rank}}\left( {{\text{Map}}\left( X \right)} \right) \leqslant k \hfill \\ \end{array} $$ (5) 该模型等同于受秩约束的TRPCA[27]的拉格朗日形式。
2. 提出的模型
式(5)中采用张量核范数作为其低秩的凸松弛,它测量非零奇异值的L1范数,平等地对待每个奇异值,因此可能无法很好地保存主要信息。这是因为较大的奇异值通常对应于主要信息,如轮廓、边缘和光滑的区域,因此较大的奇异值收缩应小于较小的奇异值[28]。为此采用一个对数张量核范数(Logarithmic tensor kernel norm,LogTNN)来作为低秩的非凸松弛,其可以对较大的奇异值减少收缩以保持主要信息,对较小的奇异值增加收缩以抑制噪声[19]。
张量X∈RM×N×p的基于对数的张量核范数定义为[19]:
$$ {\text{LogTNN}}\left( {X,\varepsilon } \right) = \sum\limits_{i{\text{ = 1}}}^p {{\text{LogMNN}}\left( {{{\bar X}^{\left( i \right)}},\varepsilon } \right)} $$ (6) 式中:$ {\bar X^{\left( i \right)}} $表示$ \bar X = {\text{fft}}\left( {X,\left[ {\ } \right],k} \right) $的第i个切片,其中:
$$ {\text{LogMNN}}\left( {X,\varepsilon } \right) = \sum\limits_{i = 1}^m {\log \left( {{\sigma _i}\left( \boldsymbol X \right),\varepsilon } \right)} $$ (7) 这里σi(X)是X的第i个奇异值,ε>0是一个常数。因此基于LogTNN的HSI去噪模型表述为:
$$ \begin{array}{l} \mathop {\min }\limits_{X,S} \lambda {\left\| S \right\|_1} + {\text{LogTNN}}\left( {{\text{Map}}\left( X \right),\varepsilon } \right)\quad {\text{s}}{\text{.t}}. \hfill \\ \left\| {Y - X - S} \right\|_{\text{F}}^2 \leqslant \varepsilon \quad {\text{rank}}\left( {{\text{Map}}\left( X \right)} \right) \leqslant k \hfill \\ \end{array} $$ (8) 该模型可以充分利用HSI的全局低秩特性,并减小对较大奇异值的收缩来保留图像更多的细节特征。但该模型中缺乏HSI空间维度的先验信息,而总变分正则化是保持图像局部空间平滑的有效工具。
2.1 SSTV正则化
如文献[29-30]中所述,每个HSI波段都可以看作是一个灰度图像,因此它在空间维数上具有局部分段平滑性。空间光谱总变分(SSTV)可以充分保持HSI空间光谱的局部平滑性,其定义为:
$$ {\left\| X \right\|_{{\text{SSTV}}}} = {\left\| {{D_x}X} \right\|_1} + {\left\| {{D_y}X} \right\|_1} + {\left\| {{D_z}X} \right\|_1} $$ (9) 式中:Dx表示水平方向上的差分算子;Dy是垂直方向上的差分算子;Dz是在每个像素的光谱特征上的一维有限差分算子。SSTV的模型为了充分利用空间谱差图像的稀疏特性,一般使用凸L1范数来描述其稀疏先验。虽然L1范数是促进各频带分段光滑结构的有效约束条件,但是其只描述了非零元素的数量,而忽略了非零元素的局部群结构。因此,Chen等人提出了群稀疏正则化[16],其可以表示为:
$$\begin{array}{l} {\left\| {\boldsymbol W \odot DX} \right\|_{2,1}} = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {W\left( {i,j} \right)} } {\left\| {{D_x}X\left( {i,j,;} \right)} \right\|_2} + \hfill \\ \quad \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {W\left( {i,j} \right)} } {\left\| {{D_y}X\left( {i,j,;} \right)} \right\|_2} \hfill \\ \end{array} $$ (10) 式中:W是权重矩阵。采用L2, 1范数的群稀疏性正则化表示在HSI的每个波段边界区域的梯度值明显较大,而平滑区域的梯度值较小。与普通的TV正则项相比,提高了HSI在空间维度的稀疏特性。
为保持HSI空间光谱的局部平滑性的同时可以探索HSI空间维度的群稀疏特性,新的群稀疏TV正则化可以表示为:
$$ ||X|{|_{{\text{GSTV}}}} = ||\boldsymbol W \odot DX|{|_{2,1}} + ||{D_z}X|{|_1} $$ (11) 该GSTV(Group Sparse Total Variation)正则化保证HSI空间维度的群稀疏特性的同时可以增强相邻光谱间的相关性,来保持HSI空间光谱的局部平滑性,以保留图像更多的细节特征,提高了去噪的性能。
2.2 NCLRGSTV模型
基于对数核范数去噪模型是利用高光谱图像的全局低秩特性,来抑制噪声,而GSTV正则项是用来探索HSI空间维度的群稀疏性和增强相邻光谱间的相关性,因此可以结合二者的优势,来恢复含有混合噪声的高光谱图像。为此提出NCLRGSTV模型(Non-Convex Low-Rank Tensor Factorization Group Sparse Total Variation):
$$ \begin{array}{l} \mathop {\min }\limits_{X,S} {\text{LogTNN}}\left( {{\text{Map}}\left( X \right),\varepsilon } \right) + {\lambda _1}{\left\| S \right\|_1} + {\lambda _2}{\left\| X \right\|_{{\text{GSIV}}}} \hfill \\ {\text{s}}{\text{.t}}{\text{.}}\quad \left\| {Y - X - S} \right\|_{\text{F}}^2 \leqslant \varepsilon \quad {\text{rank}}\left( {{\text{Map}}\left( X \right)} \right) \leqslant k \hfill \\ \end{array} $$ (12) 式中:λ2是用来控制对数张量核范数和GSTV之间权衡的参数。
2.3 优化NCLRGSTV模型
通过ADMM算法引入辅助变量F,式(12)可以重写为:
$$ \begin{array}{l} \mathop {\min }\limits_{X,F,S} {\text{LogTNN}}\left( {\hat X,\varepsilon } \right) + {\lambda _1}{\left\| S \right\|_1} + {\lambda _2}{\left\| F \right\|_{{\text{GSTV}}}} \hfill \\ {\text{s}}{\text{.t}}{\text{.}}\quad \left\| {Y - X - S} \right\|_{\text{F}}^2 \leqslant \varepsilon \quad {\text{rank}}\left( {\hat X} \right) \leqslant k\quad F = X \hfill \\ \end{array} $$ (13) 式中:$ \hat X = {\text{Map}}\left( X \right) $。在ADMM框架内X, F, S交替更新为:
$$ \begin{array}{*{20}{c}} {{X^{k + 1}} = \mathop {\arg \min }\limits_{rank\left( {\hat X} \right) \leqslant k} L\left( {X,{F^t},{S^t},P_1^t,P_2^t} \right)} \\ {{F^{k + 1}} = \mathop {\arg \min }\limits_F L\left( {{X^{t + 1}},F,{S^t},P_1^t,P_2^t} \right)} \\ {{S^{k + 1}} = \mathop {\arg \min }\limits_F L\left( {{X^{t + 1}},{F^{t + 1}},S,P_1^t,P_2^t} \right)} \end{array} $$ (14) 1)更新Xt+1,Xt+1的子问题为:
$$ \begin{array}{l} {X^{t + 1}} = \mathop {\arg \min }\limits_{\hat X} \tau {\text{LogTNN}}\left( {\hat X,\varepsilon } \right) + \left\| {\hat X - \hat Q} \right\|_F^2 \hfill \\ {\text{s}}{\text{.t}}{\text{.}}\quad {\text{rank}}\left( {\hat X} \right) \leqslant k \hfill \\ \end{array} $$ (15) 式中:$ \hat Q = {\text{Map}}\left( Q \right),Q = \frac{1}{2}\left( {Y + X - S + \left( {P_1^t + P_2^t} \right)} \right) $,上式求解可以参考文献[19, 31]。
$$ {X^{t + 1}} = D_{It}^{\tau ,\varepsilon }\left( {\hat Q} \right) = \boldsymbol U*\boldsymbol S_{It}^{\tau ,\varepsilon }*{\boldsymbol V^{\text{T}}} $$ (16) 式中:$ \hat Q = \boldsymbol U*\boldsymbol S*{\boldsymbol V^T} $,$ S_{It}^{\tau ,\varepsilon } = {\text{ifft}}\left( {\bar S_{It}^{\tau ,\varepsilon },\left[ {\ } \right],3} \right) $。
2)更新Ft+1,Ft+1的子问题为:
$$ {F^{t + 1}} = \mathop {{\text{arg}}\min }\limits_{_F} {\lambda _2}||F|{|_{{\text{GSTV}}}} + \frac{\beta }{2}||F + \frac{{P_1^t}}{\beta } - {X^{t + 1}}||_F^2 $$ (17) 上式可由ADMM算法求解。F的子问题是一个最小二乘问题,可以采用高效快速傅里叶变换(Fast Fourier transform,FFT)求解:
$$ F = {\text{ifftn}}\left( {\frac{\boldsymbol G}{{\beta 1 + \beta {{\left| {{\text{fftn}}\left( D \right)} \right|}^2}}}} \right) $$ (18) 式中:$ \boldsymbol G = {\text{fftn}}\left( {X + \left( {\frac{{{P_1}}}{\beta }} \right)} \right) + {\boldsymbol D^{\text{T}}}\left( {R + \frac{{{P_3}}}{\beta },C + \frac{{{P_4}}}{\beta }} \right) $,fftn和ifftn是快速的三维傅里叶变换和它的反变换。
3)更新St+1,St+1的子问题为:
$$ \mathop {\min }\limits_S {\lambda _1}{\left\| S \right\|_1} + \frac{\beta }{2}\left\| {Y - {X^{t + 1}} - S + \frac{{P_1^t}}{\beta }} \right\|_{\text{F}}^2 $$ (19) 通过应用软阈值收缩算子,St+1子问题可以用以下方法精确求解:
$$ {S^{t + 1}} = {\text{shrink}}\left( {Y - {X^{t + 1}} + \frac{{P_1^t}}{\beta },\frac{{{\lambda _1}}}{\beta }} \right) $$ (20) 4)更新拉格朗日乘子:
$$ \begin{array}{*{20}{l}} {{P_1} = P_1^t + \beta \left( {{X^{t + 1}} - {F^{t + 1}}} \right)} \\ {{P_2} = P_2^t + \beta \left( {Y - {X^{t + 1}} - {S^{t + 1}}} \right)} \\ {{P_3} = P_3^t + \beta \left( {R - DF} \right)} \\ {{P_4} = P_4^t + \beta \left( {C - {D_z}F} \right)} \end{array} $$ (21) 总结步骤(1)~(4)的过程,可以得到所提HSI恢复模型的NCLRGSTV最优解,如算法1所示。
算法1:NCLRGSTV求解输入的优化过程:
输入:噪声图像Y,参数λ1,λ2,k,ε,β,t=0
1:初始化:X=F=S=P1=P2=P3=P4=0
2:当不收敛时:
3:通过(16)更新X
4:通过(18)更新F
5:通过(20)更新S
6:通过(21)更新得到P1, P2, P3, P4
7: t=t+1
8:检查收敛条件:$ {\left\| {{X^{k + 1}} - {X^k}} \right\|_{\text{F}}}/{\left\| {{X^k}} \right\|_{\text{F}}} < {10^{ - 3}} $
如果收敛,输出恢复HIS。
2.4 计算复杂度分析
设输入的HSI大小为M×N×p,式(13)中的复杂优化问题被分为几个子问题。更新X子问题的计算复杂度为O(MNp(log(MNp)+p));更新F子问题采用fft进行优化,需要O(MNp(log(MNp)))的计算;更新R, S, C是软阈值收缩操作,其计算复杂度为O(MNp);因此整个过程的计算复杂度总计为O(MNp(log(MNp)+p))。
3. 实验结果与讨论
为了验证优化后的NCLRGSTV模型在去除混合噪声中的性能,将NCLRGSTV模型分别应用于模拟数据实验和真实数据实验。此外,为了证明NCLRGSTV算法的去噪有效性,将其与相同条件下的LRMR[10]、LRTV[13]、LRTDTV[14],LRTDGS[16]、FRCTR-PnP[32]5种高效去噪方法进行了比较,在进行实验之前,所使用的HSI的每个波段的灰度值归一化处理。
3.1 模拟数据实验
模拟实验中,采用由反射光学系统成像光谱仪(rose-03)收集的Pavia城市中心数据集,其原始规模为1096×1096×102。由于Pavia城市中心数据集的一些光谱波段被噪声污染严重,不能作为去噪的参考[30]。因此,去掉该数据的前几个波段,选取子图像的大小为200×200×80。由于模拟实验给出了地面真实度的HSI,我们采用了5个定量图像指标进行比较,包括各个波段平均峰值信噪比(Mean Peak Signal Noise Ratio,MPSNR)、平均结构相似度(Mean Structural Similarity,MSSIM)、平均特征相似度(Mean Feature Similarity,MFSIM)、平均光谱角映射(Mean Spectral Angle Mapping,MSAM)和相对全局合成维度误差(Erreur Relative Globale Adimensionnelle de Synthese,ERGAS)。MPSNR、MSSIM和MFSIM越大,MSAM和ERGAS越小,表示算法的去噪性能越好。
Case 1:对HSI每个波段加入不同强度的高斯噪声,零均值高斯噪声的方差在[0, 0.2]间选择,同时每个波段加入不同强度的椒盐噪声,其百分比在[0, 0.2]间选择。
Case 2:在Case1的基础上,在Pavia City Center数据集的第50~第60波段添加条带噪声。条带噪声的数目在10~30之间随机变化。
Case 3:在Case2基础上,在Pavia City Center数据集的54~64增加死线。上述区域的死线数量在[3, 10]之间随机变化,死线宽度在[1, 3]之间随机变化。
1)定量分析
从表 1中可以看到随着噪声种类的增加,各种去噪算法的去噪性能随之下降,但是NCLRGSTV算法的各项指标除MSAM外都为最优,这充分说明了对数张量核范数和群稀疏总变分的结合能够充分抑制图像中的高斯噪声、椒盐噪声、条带和死线等稀疏噪声。同时可以发现,FRCTR-PnP方法在去除每个波段的噪声强度不同时,效果并不理想且很耗时。虽然LRTDGS中群稀疏正则化探索了空间的群稀疏性,提升了去噪性能,但其忽略了局部空间光谱的相关性,会使MSAM值增大,而提出群稀疏总变分考虑到了这一点,可以看到,NCLRGSTV算法的MSAM值与LRTDGS算法相比下降0.01。与此同时,采用对数张量核范数来表示低秩的非凸松弛也表明了其有效性,与采用核范数或Tucker分解的算法相比,其中MPSNR值提升了1 dB左右,MSSIM和MFSIM提升了0.01左右,ERGAS下降了10左右,这也说明了该算法去除混合噪声的优势。NCLRGSTV运行时间虽然不是最快的,但耗时并不长。
表 1 Pavia city center数据集的不同去噪方法的定量评价结果Table 1. Quantitative evaluation results of different denoising methods in Pavia city center data setsCase Indexes Noise LRMR LRTV LRTDTV LRTDGS FRCTR-PnP NCLRGSTV Case 1 MPSNR 14.144 33.336 34.356 34.743 35.380 34.557 36.369 MSSIM 0.2143 0.9341 0.9444 0.9457 0.9506 0.9370 0.9637 MFSIM 0.5985 0.9590 0.9626 0.9646 0.9647 0.9630 0.9761 MSAM 0.6676 0.0833 0.0545 0.0495 0.0637 0.1331 0.0514 ERGAS 707.54 74.698 65.280 70.351 61.441 109.32 51.975 Time/s - 43.046 23.234 61.463 47.482 371.04 71.641 Case 2 MPSNR 14.118 33.175 34.291 34.710 35.294 34.251 36.232 MSSIM 0.2142 0.9332 0.9439 0.9457 0.9496 0.9348 0.9632 MFSIM 0.5976 0.9588 0.9627 0.9643 0.9710 0.9608 0.9757 MSAM 0.6687 0.0846 0.0547 0.0494 0.0625 0.1304 0.0519 ERGAS 707.93 75.787 65.678 61.582 59.506 108.85 52.485 Time/s - 43.294 22.994 61.906 44.786 397.41 72.997 Case 3 MPSNR 14.092 33.083 34.193 34.652 35.220 34.338 35.969 MSSIM 0.2114 0.9330 0.9437 0.9454 0.9491 0.9356 0.9619 MFSIM 0.5955 0.9587 0.9624 0.9641 0.9707 0.9618 0.9746 MSAM 0.6720 0.0855 0.0553 0.0493 0.0641 0.1207 0.0538 ERGAS 709.14 76.431 66.452 61.936 60.275 100.18 54.261 Time/s - 43.680 22.733 61.790 45.851 373.44 77.096 2)视觉质量比较
为了更好地观察这几个算法的去噪效果,将Case1中各种算法去噪后的第20波段的图像进行对比,如图 1所示。从(b)中可以看到图像已经完全被噪声污染,基本观察不到任何图像特征。经过各种算法去噪后,可以看到图像的基本特征,然而LRMR并不能完全去除噪声,如图(c)所示,图像中还有残留的噪声;LRTV和LRTDTV虽然能够去除噪声,但是会使图(d)和图(e)中的图像细节特征模糊;FRCTR-PnP也能取得较好的视觉效果,LRTDGS和NCLRGSTV能够取得最好的视觉效果,这是由于提出的NCLRGSTV算法可以对较大的奇异值减少收缩来保留图像更多的细节特征,增大对小的奇异值的收缩来去除噪声。如图 2所示,在增加了条带噪声后,其他算法仍然有上述问题,而NCLRGSTV算法中结合了群稀疏总变分正则项可以保持空间光谱的局部平滑性,从而抑制条带等稀疏噪声。
3)定性分析
图 3、图 4和图 5为实验中各种算法在每个频段的PSNR和SSIM指标曲线,可以看到,在图 3和图 4中提出的NCLRGSTV算法在Pavia City Center数据集每个波段都达到最高值,这是由于采用对数张量核范数能够减少对较大奇异值的收缩,可以保留图像更多的细节特征,群稀疏总变分也可以在探索空间群稀疏性的同时增强相邻光谱间的相关性。虽然在图 5中该方法并没有在所有波段都达到最高值,但是在所有波段的平均值为最优。
3.2 真实数据实验
由于该模型对HSI中含有高斯噪声、椒盐噪声、条带和死线噪声等混合噪声的去除具有很好的效果,因此,实验中我们采用了具有类似真实噪声的HSI数据集HYDICE Urban进行性能评估[16]。与模拟实验一样,在测试恢复实验之前,将每个图像波段的灰度值归一化。
为了方便对比,用其中一个典型的波段来表示恢复结果。图 6表示第109波段的恢复结果,从图 6(a)中可以看到,图像已经完全被上述4种噪声污染。经过各种方法恢复后,大量噪声被去除,可以看图像的基本特征;但从图(b)、(c)和(f)中的放大图可以看到,仍有一些条纹未能被去除,而图(d)中的图像过于平滑,使图像的细节变得模糊;而提出的NCLRGSTV方法消除了更多的噪声,图像较为清晰,保留了图像很多的细节特征。
为了更清楚地表示各种方法的恢复结果,如图 7所示,给出了恢复后的第109波段的垂直平均剖面图。纵轴表示每行的平均数字数值,横轴表示行数。如图 7(a)所示,受到噪声的影响曲线有强烈的波动,经过恢复后,曲线的波动明显减小。图 7(b)、(c)和(f)还有部分噪声未能去除,而(d)中有些部分过于平滑。相比之下,图(e)和(h)都可以获得更合理的平均轮廓结果。这也说明该模型去噪的有效性。
3.3 参数分析与讨论
NCLRGSTV模型受到一些参数的影响,比如惩罚参数β和常数ε,期望的秩k,正则化参数λ1和λ2。像其他算法一样,将惩罚参数β=10-2设为初始值,并在每次迭代中更新为β=min(1.5β, 106β),这种方法便于算法收敛,在实际中已被证明是有效的。常数ε的设置可以参考文献[17],将其设置过大或过小都不能获得较好的结果,因此将其设置为中等大小,令ε=70。
图 8(a)为根据不同秩k得出的客观评价指标MPSNR。如图所示,该算法对期望的k比较敏感,当k=3时获得较大的值。因此,对期望秩k的估计越准确,恢复的结果就越好。图 8(b)是正则化参数λ1和λ2对PSNR的影响,如图所示,随着λ1和λ2增大,PSNR值也随之减小,而当λ1=0.01和λ2=0.02时,该算法可以取得较大值。因此,在实验中将其设置为k=3、λ1=0.01和λ2=0.02。
在文献[33]中,保证了NCLRGSTV模型理论上的收敛性。此外,图 9显示了所提出的NCLRGSTV方法的收敛曲线。超过20次迭代后,数值不再出现明显的变化,这表明该算法具有较高的收敛速度。
4. 结论
混合噪声的复杂性给高光谱图像处理和分析带来了巨大的挑战,因此,提出了一种非凸低秩张量分解和群稀疏总变分的高光谱图像恢复模型,该模型采用对数张量核范数利用高光谱图像的低秩特性时,减少对较大奇异值的收缩,保留更多的细节特征;同时结合群稀疏总变分正则化,增强HSI空间稀疏性和相邻光谱的相关性,达到去除高斯噪声、椒盐噪声、条带和死线等稀疏噪声。利用ADMM算法进行求解,实验中也易于收敛。与流行的恢复算法进行对比试验发现,该算法去除混合噪声具有一定的优势。
然而,该算法在处理HSI混合噪声中含有大量死线噪声时,仍有少量死线噪声残留难以被去除。除此之外,该算法还有需要改进的地方,如模型参数的自适应设置问题。未来可以利用即插即用框架嵌入一些深度去噪先验[34-35],来增强模型去除噪声的能力。
-
表 1 消融实验结果
Table 1 Ablation experimental results
Experiment Shuffle CAF LGT IoU nIoU Pd Fa 1 × √ √ 75.00 73.62 97.25 31.14 2 √ × √ 74.36 74.00 98.17 36.59 3 √ √ × 74.85 73.65 97.25 45.51 4 √ × × 70.56 72.47 98.17 61.58 5 × √ × 71.16 72.48 98.17 63.67 6 × × √ 68.74 71.53 97.86 68.67 7 × × × 65.28 68.12 97.25 69.06 8 √ √ √ 76.07 74.43 98.17 24.44 表 2 对比实验结果
Table 2 Experimental results comparison of different algorithms
Method IoU ↑ nIoU ↑ Pd↑ Fa↓ Number of parameters↓ Inference time per image↓/s WSLCM 4.41 33.82 91.74 22593 - - TLLCM 3.51 21.75 92.66 26498 - - IPI 2.62 4.16 84.40 203.07 - - NRAM 45.68 55.49 85.32 161.15 - - PSTNN 51.95 62.66 82.57 394.29 - - MSLSTIPT 20.21 24.74 82.57 259.75 - - MDvsFA 45.28 48.16 76.15 166.07 3.77 M 0.0985 ACM 67.96 71.05 97.25 72.92 387.19K 0.0317 AGPCNet 64.26 70.05 98.16 120.56 12.36M 0.1413 IAANet 75.42 73.53 98.10 24.68 9.09M 0.0704 ALCNet 73.43 71.44 97.84 25.68 384.79k 0.0804 HRformer 76.07 74.43 98.17 24.44 182.46k 0.0304 -
[1] LI Z M, MEI L F, SONG M. A survey on infrared weak small target detection method[C]//Advanced Materials Research, 2014, 945: 1558-1560.
[2] BAI X, ZHOU F. Analysis of new top-hat transformation and the application for infrared dim small target detection[J]. Pattern Recognition, 2010, 43(6): 2145-2156. DOI: 10.1016/j.patcog.2009.12.023
[3] XU Y, ZHANG J. Real-time detection algorithm for small space targets based on max-median filter[J]. Journal of Information & Computational Science, 2014, 11(4): 1047-1055.
[4] CHEN C L P, LI H, WEI Y, et al. A local contrast method for small infrared target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1): 574-581.
[5] HAN J, Moradi S, Faramarzi I, et al. Infrared small target detection based on the weighted strengthened local contrast measure[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(9): 1670-1674.
[6] HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.
[7] DAI Y, WU Y. Reweighted infrared patch-tensor model with both nonlocal and local priors for single-frame small target detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(8): 3752-3767. DOI: 10.1109/JSTARS.2017.2700023
[8] GAO C, MENG D, YANG Y, et al. Infrared patch-image model for small target detection in a single image[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4996-5009. DOI: 10.1109/TIP.2013.2281420
[9] ZHANG L, PENG L, ZHANG T, et al. Infrared small target detection via non-convex rank approximation minimization joint l 2, 1 norm[J]. Remote Sensing, 2018, 10(11): 1821. DOI: 10.3390/rs10111821
[10] ZHANG L, PENG Z. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382. DOI: 10.3390/rs11040382
[11] ZHANG Z, REN J, LI S, et al. Robust subspace discovery by block-diagonal adaptive locality-constrained representation[C]//Proceedings of the 27th ACM international conference on multimedia, 2019: 1569-1577.
[12] GUO J, WU Y, DAI Y. Small target detection based on reweighted infrared patch‐image model[J]. IET Image Processing, 2018, 12(1): 70-79. DOI: 10.1049/iet-ipr.2017.0353
[13] 谷雨, 张宏宇, 孙仕成. 融合多尺度分形注意力的红外小目标检测模型[J]. 电子与信息学报, 2022, 44: 332-341. GU Yu, ZHANG Hongyu, SUN Shicheng. Infrared small target detection model with multi-scale fractal attention[J]. Journal of Electronics & Information Technology, 2022, 44: 332-341.
[14] 邵斌, 杨华, 朱斌, 等. 基于实时语义分割的红外小目标检测算法[J/OL]. [2023-01-14]. 激光与光电子学进展, http://kns.cnki.net/kcms/detail/31.1690.TN.20221031.1649.140.html. SHAO Bin, YANG Hua, ZHU Bin, et al. Infrared small target detection algorithm based on real-time semantic segmentation[J/OL]. [2023-01-14]. Laser & Optoelectronics Progress, http://kns.cnki.net/kcms/detail/31.1690.TN.20221031.1649.140.html.
[15] DAI Y, WU Y, ZHOU F, et al. Attentional local contrast networks for infrared small target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(11): 9813-9824. DOI: 10.1109/TGRS.2020.3044958
[16] WANG H, ZHOU L, WANG L. Miss detection vs. false alarm: adversarial learning for small object segmentation in infrared images[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 8509-8518.
[17] CHEN Y, LI L, LIU X, et al. A multi-task framework for infrared small target detection and segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-9.
[18] 张传聪, 李范鸣, 饶俊民. 基于特征显著性融合的红外小目标检测[J]. 半导体光电, 2022, 43(4): 828-834. ZHANG Chuancong, LI Fanming, RAO Junmin. Infrared small target detection based on feature saliency fusion[J]. Semiconductor Optoelectronics, 2022, 43(4): 828-834.
[19] 王翔. 一种复杂海空背景下的红外小目标检测跟踪算法[J]. 光学与光电技术, 2022, 20(2): 113-119. WANG Xiang. A detecting and tracking algorithm for the infrared small targets under the complex sea-sky background[J]. Optics & Optoelectronic Technology, 2022, 20(2): 113.
[20] 薛锡瑞, 黄树彩, 马佳顺, 等. 基于局部熵参考预处理的RPCA红外小目标检测[J]. 红外技术, 2021, 43(7): 649-657. http://hwjs.nvir.cn/article/id/e8541151-1530-4561-ad38-42349b5da1b8 XUE Xirui, HUANG Shucai, MA Jiashun, et al. RPCA infrared small target detection based on local entropy reference in preprocessing[J]. Infrared Technology, 2021, 43(7): 649-657. http://hwjs.nvir.cn/article/id/e8541151-1530-4561-ad38-42349b5da1b8
[21] 朱硕雅, 杨德振, 贾鹏, 等. 时空联合红外小目标检测算法的设计与实现[J]. 激光与红外, 2021, 51(3): 388-392. ZHU Shuoya, YANG Dezhen, JIA Peng, et al. Design and implementation of space-time combined infrared small target detection algorithm[J]. Laser and Infrared, 2021, 51(3): 388-392
[22] CHEN G, WANG W, TAN S. IRSTFormer: a hierarchical vision transformer for infrared small target detection[J]. Remote Sensing, 2022, 14(14): 3258. DOI: 10.3390/rs14143258
[23] 高峰, 孟德森, 解正源, 等. 基于Transformer和动态3D卷积的多源遥感图像分类[J/OL] [2023-01-14]. 北京航空航天大学学报, https://kns.cnki.net/kcms2/article/abstract?v=uzDkwlsKYf_a0mkJDLhoUifLD_CLUjdAHAXvAIM2Oc2U81D9gbL0OG9MgFUoxoPmlYbrUvlkvxOIE-erLa83gdCWbMK_cSetqEA_ 5TqvJOrbmH9oh0lf U4gQL71 LgQeJUj -SQGWx29E=&uniplatform= NZKPT&language= CHS. GAO Feng, MENG Desen, XIE Zhengyuan, et al. Multi-source remote sensing image joint classification based on transformer and dynamic 3D-convolution[J/OL]. [2023-01-14]. Journal of Beijing University of Aeronautics and Astronautics, https://kns.cnki.net/kcms2/article/abstract? v=uzDkwlsKYf_a0mkJDLhoUifLD_CLUjdAHAXvAIM2Oc2U81D9gbL0OG9MgFUoxoPmlYbrUvlkvxOIE-erLa83gdCWbMK_cSetqEA_ 5Tq vJOrbmH9oh0lfU4gQL71LgQeJUj-SQGWx29E=&uniplatform=NZKPT &language=CHS.
[24] Jonnalagadda A, WANG W Y, Manjunath B S, et al. Foveater: Foveated transformer for image classification[J/OL]. arXiv preprint arXiv: 2105.14173, 2021.
[25] HAN K, XIAO A, WU E, et al. Transformer in transformer[J]. Advances in Neural Information Processing Systems, 2021, 34: 15908-15919.
[26] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.
[27] ZHANG X, ZHOU X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.
[28] DAI Y, WU Y, ZHOU F, et al. Asymmetric contextual modulation for infrared small target detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 950-959.
[29] WANG K, DU S, LIU C, et al. Interior attention-aware network for infrared small target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-13.
[30] ZHANG T, CAO S, PU T, et al. Agpcnet: attention-guided pyramid context networks for infrared small target detection[J/OL]. arXiv preprint arXiv: 2111.03580, 2021.
[31] HAN J, Moradi S, Faramarzi I, et al. Infrared small target detection based on the weighted strengthened local contrast measure[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(9): 1670-1674.
[32] CHEN C L P, LI H, WEIY, et al. A local contrast method for small infrared target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1): 574-581.
[33] GAO C, MENG D, YANG Y, et al. Infrared patch-image model for small target detection in a single image[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4996-5009. DOI: 10.1109/TIP.2013.2281420
[34] ZHANG L, PENG L, ZHANG T, et al. Infrared small target detection via non-convex rank approximation minimization joint l 2, 1 norm[J]. Remote Sensing, 2018, 10(11): 1821. DOI: 10.3390/rs10111821
[35] ZHANG L, PENG Z. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382. DOI: 10.3390/rs11040382
[36] SUN Y, YANG J, AN W. Infrared dim and small target detection via multiple subspace learning and spatial-temporal patch-tensor model[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(5): 3737-3752.