基于多尺度特征融合的红外小目标检测方法

王芳; 李传强; 伍博; 于坤; 金婵; 陈亚珂; 卢颖慧

基于多尺度特征融合的红外小目标检测方法

王芳^{1, 2,},
李传强¹,
伍博^{1, 3, ,},
于坤³,
金婵²,
陈亚珂¹,
卢颖慧¹

1.
河南师范大学电子与电气工程学院，河南新乡 453007
2.
中国科学院界面物理技术重点实验室，上海 201800
3.
河南省光电传感集成应用重点实验室，河南新乡 453007

基金项目:

河南省科技创新研究团队项目 21IRTSTHN011

国家自然科学基金项目 62075057

中国科学院界面物理技术重点实验 CASKL-IPT2003

详细信息

作者简介:
王芳（1972-），女，教授，主要研究方向为目标检测技术。E-mail: ffdd1012@163.com

通讯作者:
伍博（1980-），男，讲师，主要研究方向为计算机视觉。E-mail: wubo@htu.edu.cn

中图分类号: TP39
计量
- 文章访问数: 436
- HTML全文浏览量: 72
- PDF下载量: 123
出版历程
- 收稿日期: 2021-03-23
- 修回日期: 2021-05-20
- 刊出日期: 2021-06-30

Infrared Small Target Detection Method Based on Multi-Scale Feature Fusion

WANG Fang^{1, 2,},
LI Chuanqiang¹,
WU Bo^{1, 3, ,},
YU Kun³,
JIN Chan²,
CHEN Yake¹,
LU Yinghui¹

1.
College of Electronic and Electrical Engineering, Henan Normal University, Xinxiang 453007, China
2.
Key laboratory of interfacial Physics Technology project, Chinese Academy of Sciences, Shanghai 201800, China
3.
Henan Key Laboratory of Optoelectronic Sensing Integrated Application, Xinxiang 453007, China

摘要

摘要: 红外小目标检测因其探测距离远、抗干扰能力强等特点，在空中目标探测与跟踪系统中得到了广泛的应用。针对目前红外小目标检测算法在复杂背景下检测准确率低、虚警率高等缺点。提出了一种基于多尺度特征融合的端到端红外小目标检测模型（multi-scale feature fusion single shot multibox detecto，MFSSD）。考虑到红外小目标的特点，通过细化和融合特征图的方法提出了一种特征融合模块，通过SP模块提高特征图不同通道的相关性，3种不同序列红外图像的实验结果表明，该算法在红外小目标检测中的平均检测精度高达87.8%。与传统的多尺度目标检测算法相比，准确率和召回率都有显著提高。
- 注意力机制 /
- 红外小目标 /
- SSD /
- 多尺度特征融合
Abstract: Infrared small target detection is widely used in aerial target detection and tracking systems owing to its long detection range and strong anti-jamming ability. Aiming at to overcome the shortcomings of the current infrared small target detection algorithm, such as a low precision rate and high false alarm rate when dealing with complex backgrounds, we propose an end-to-end infrared small target detection model (called MFSSD) based on multi-scale feature fusion. Considering the traits of the targets, we propose a feature fusion module using a refinement and fusion feature map method and improve the correlation of different channels through the SP module. The experimental results of three different sequences of infrared image detection show that the average detection accuracy of the MFSSD algorithm for infrared small target detection was as high as 87.8%. Compared with those of the traditional multi-scale target detection algorithm, both the precision rate and recall rate have been significantly improved.
- attention mechanism /
- infrared small target /
- SSD /
- multi-scale feature fusion

HTML全文

0. 引言

建设海洋强国是实现中华民族伟大复兴的重大战略任务，有效实施利用海洋资源战略并掌握高效开发海洋资源技术的国家，必将在未来的经济和社会发展中占取先机。获取海洋信息是充分了解海洋的关键，作为海洋信息的载体，水下图像在海洋资源探索和水下作业任务方面发挥着重要作用。但是，由于水下成像环境的复杂和光在水中传播的散射效应^[1]等因素，采集的水下图像通常会产生严重的退化问题，主要呈现为颜色偏差、对比度低和细节模糊等，严重限制了水下图像在海洋勘测、水下目标检测^[2]和水下机器人^[3]等实际场景中的应用。因此，亟须寻找一种有效的增强方法来解决水下图像的退化问题。

水下图像处理一般可以分为图像复原和图像增强^[4]两大类。其中，基于非物理模型的增强方法主要是通过修改像素值来提高水下图像的视觉质量，忽略了水下图像的物理退化过程。例如，Hitam等人^[5]提出了一种直方图均衡算法用于处理水下图像，减少了噪声的产生同时提高了对比度。此外，Huang等人^[6]构建了一种基于自适应参数采集的全局直方图拉伸方法（relative global histogram stretching，RGHS），保留了图像细节的同时有效消除了噪声的影响。基于物理模型的复原方法主要是对成像过程进行建模，通过反演水下物理成像模型获得高质量的水下图像。Paulo等人^[7]利用暗通道先验（dark channel prior，DCP）原理，设计了一种估计水下环境传输的水下DCP算法，克服了DCP在水下成像应用中的局限性。此外，Peng等人^[8]设计了一种基于图像模糊和光吸收的水下场景深度估计方法（image blurriness and light absorption，IBLA），在不同色调和光照条件下都能很好地恢复水下图像。基于物理模型的复原方法考虑了造成水下图像退化的原因，使图像增强效果得到进一步提高，但该方法需要物理先验知识，对模型的参数估计存在一定的偏差，恢复结果易产生失真问题。基于数据驱动的增强方法被认为是水下图像增强领域的深度学习技术，在水下图像增强方面表现出卓越的性能。例如，Li等人^[9]将水下成像模型与水下场景的光学特性相结合，提出了一种利用卷积神经网络的水下图像增强模型（UWCNN），能够直接构建清晰的水下图像。Islam等人^[3]基于条件生成对抗网络设计了一种实时增强模型（FUnIE-GAN），根据图像的全局内容、色彩表现和局部纹理评估图像质量。Salma等人^[10]构建了含有两个生成器的条件生成对抗网络算法（generative adversarial network with dual generator dewatering，DGD-cGAN），分别用于去除色偏和雾化。尽管深度学习算法在水下图像增强领域已经取得了不错的成果，但是未能考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题，这限制了基于数据驱动方法性能的进一步提高。

近几年，Transformer^[11]因其强大的特征提取能力在计算机视觉领域得到了越来越多的关注，且自注意力机制可以有效地对全局特征进行建模并融合多尺度特征，提升算法对图像细节的重建能力。针对现有方法所存在的问题，本文提出了一种结合Transformer与生成对抗网络（generative adversarial network，GAN）的水下图像增强算法（TGAN）。该算法以生成对抗网络为基础框架，生成网络中引入了基于空间自注意力机制的全局特征建模Transformer模块（global feature modeling transformer，GFMT）和多尺度特征融合Transformer模块（multiscale feature fusion transformer，MSFFT），加强了算法对衰减更严重的颜色通道和空间区域的关注，可有效解决现有方法增强后的图像存在的局部色偏、清晰度低、亮度低等问题。

1. 相关理论

1.1 生成对抗网络

GAN包括生成网络和判别网络两个部分，通过对抗训练在生成网络和判别网络之间建立一个数学函数。生成网络采用参数化概率生成模型，接收随机噪声并通过逆变换采样，有效地拟合输入训练集数据的实际分布情况，进而生成符合输入训练集数据特点的近似信息。判别网络是一种分类模型，对于输入的两种数据，其数据处理流程是将真实的训练数据记为真标签，生成网络生成的虚假数据记为假标签，通过计算损失值，对真实数据的判别趋近于真，对生成数据的判别趋近于假，并反馈给生成网络，不断训练模型，更新网络的参数。GAN的目标函数可以用式(1)表示：

$$ \min\limits_G \max\limits_D V(D, G)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))] $$

(1)

式中：x表示输入生成网络的随机噪声；y表示真实的训练数据；G(x)表示生成网络生成的虚假数据；E表示数学期望；判别网络D旨在最大化V(D, G)；生成网络G旨在最小化V(D, G)。通过这种对抗性的学习方式，GAN可以生成高质量的、与真实数据相似的虚假数据。GAN的整体网络结构如图 1所示。

图 1 生成对抗网络结构

Figure 1. Generative adversarial network structure

下载: 全尺寸图片幻灯片

1.2 Transformer模型

Transformer是一种基于自注意力机制（self-attention mechanism）的深度神经网络模型，由编码器和解码器组成。编码器用于将输入序列编码成一个高维的特征向量，而解码器则使用编码器的输出来生成目标序列。Transformer的核心算法是大量的多头自注意力模块，能够直接提取数据样本的整体特征，从而更好地处理长序列和对序列的全局信息进行建模。同时，Transformer也使用了残差连接和层标准化技术来加速训练，并且可以通过并行计算来进一步提高效率。单层Transformer模型的结构如图 2所示。

图 2 单层Transformer模型

Figure 2. A single-layer Transformer model

下载: 全尺寸图片幻灯片

2. 本文算法

2.1 TGAN网络增强模型

本文提出的水下图像增强网络模型TGAN由生成网络和判别网络两部分组成。生成网络的目的是学习清晰的水下图像的概率分布，并且通过反向传播算法训练生成网络中的权重，最终生成质量更好的水下图像，其由4部分组成，分别是编码器、GFMT模块、MSFFT模块和解码器。编码器由连续的卷积层和下采样操作组成，它负责提取输入图像的特征。解码器由连续的反卷积层和上采样操作组成，它负责将编码器提取的特征图映射回原始图像的尺寸，并还原更精细的图像细节。对于输入生成网络中的原始图像，首先经过5次下采样操作，然后作为GFMT模块的输入，再经过GFMT模块特征重映射后，输出直接发送到第一个上采样模块。同时4个下采样模块的输出作为MSFFT模块的输入，解码器中4个不同尺度的上采样模块将接收来自MSFFT模块的4个输出。

判别网络旨在区分出生成网络输出的图像和参考图像，其结构类似于PatchGAN^[12]网络，包含5个下采样模块，输出为16×16×1大小的补丁块，该输出表示两个输入图像之间的平均差异程度。当某个对应区域存在较大的差异时，输出中对应该位置的像素值会越接近于0，反之则接近于1，每个补丁像素点对应于输入图像的一个局部感受野。这种方法的优点在于，不仅减少了参数量和计算量，还能够对图像进行局部细节增强。TGAN的网络结构及数据处理流程如图 3所示。

图 3 TGAN网络结构

Figure 3. TGAN network structure

下载: 全尺寸图片幻灯片

2.2 GFMT全局特征建模模块

针对水下图像在不同空间区域退化不均匀的问题，本文设计了一种基于空间自注意力机制的全局特征建模Transformer模块（GFMT）来替换生成网络中原有的瓶颈层（bottleneck）^[13]。GFMT模块能够准确地建模水下图像的全局特征，加强网络对衰减较为严重的空间区域的关注，从而使增强后的水下图像细节更清晰，内容分布更均匀。GFMT模块的详细结构如图 4所示。

图 4 GFMT模块结构

Figure 4. GFMT module structure

下载: 全尺寸图片幻灯片

GFMT模块的数据处理流程如下，对于输入GFMT的特征图F_in，首先使用线性投影将特征图拉伸成特征序列S_in，可表示为：

$$ S_{\mathrm{in}}=\boldsymbol{W}^* \boldsymbol{F}_{\mathrm{in}} $$

(2)

式中：W表示权重矩阵；W*F_in表示线性投影操作。

然后将特征序列S_in输入到Transformer层中，Transformer层包含多头注意力模块（Multi-Head Attention，MHA）和前馈网络（Feed Forward Networks，FFN），FFN包括一个标准化层和一个全连接层（多层感知机，Multilayer Perceptron，MLP），Transformer层的输出可由下式计算：

$$ S^{\prime} =\operatorname{MHA}\left(\mathrm{LN}\left(S_{\text {in }}\right)\right)+S_{\text {in }} $$

(3)

$$ S =\operatorname{FFN}\left(\mathrm{LN}\left(S^{\prime}\right)\right)+S^{\prime} $$

(4)

式中：LN（layer normalization）表示层标准化；S表示Transformer层的输出序列。经过特征重映射后GFMT模块的输出与输入大小保持一致。

2.3 MSFFT特征提取模块

为解决水下图像在不同颜色通道衰减不一致的问题^[14]，本文设计了一种多尺度特征融合Transformer模块（MSFFT），MSFFT模块利用通道自注意力机制对编码器输出的特征进行通道级多尺度特征融合，并将融合结果传递给解码器，能够加强网络对衰减更严重的颜色通道的关注，从而实现色彩均匀的水下图像增强，有效解决水下图像存在的颜色偏差问题。MSFFT模块的详细结构如图 5所示。

图 5 MSFFT模块的详细结构

Figure 5. Detailed structure of MSFFT module

下载: 全尺寸图片幻灯片

MSFFT模块的输入是不同尺度的特征图F_i(i=1, 2, 3, 4)，其整体的数据处理流程是首先使用线性投影操作将特征图拉伸成特征序列S_i(i=1, 2, 3, 4)，然后计算得到6个矩阵Q_i(i=1, 2, 3, 4)、K和V：

$$ \boldsymbol{Q}_i=\boldsymbol{S}_i \boldsymbol{W}_{Q_t}, \boldsymbol{K}=\boldsymbol{S} \boldsymbol{W}_K, \boldsymbol{V}=\boldsymbol{S} \boldsymbol{W}_V $$

(5)

式中：$ {\boldsymbol W_{{Q_i}}} $(i=1, 2, 3, 4)，W_K和W_V表示可学习的权重矩阵；S是由S_i(i=1, 2, 3, 4)在通道维度上叠加生成的。

计算得到的6个矩阵Q_i(i=1, 2, 3, 4)、K和V经过通道注意力输出CA_i，可表示为：

$$ \mathrm{CA}_i=\operatorname{SoftMax}\left(\operatorname{IN}\left(\frac{\boldsymbol{Q}_i^{\mathrm{T}} \boldsymbol{K}}{\sqrt[2]{C}}\right)\right) \boldsymbol{V}^{\mathrm{T}} $$

(6)

式中：IN（instance normalization）表示实例归一化操作^[15]；C表示4个尺度上通道数之和；Q_i^T和V^T表示Q_i和V的转置矩阵。这个注意力操作是沿着通道轴而不是经典的补丁轴^[16]执行，引导网络关注图像质量下降更严重的颜色通道。

CA_i经过前馈网络传播得到输出Q_i(i=1, 2, 3, 4)，也就是通道级多头注意力模块（CMHA）的输出可以表示为：

$$ \boldsymbol{Q}_i=\mathrm{CA}_i+\operatorname{MLP}\left(\mathrm{LN}\left(\mathrm{CA}_i\right)\right) $$

(7)

式中：MLP代表多层感知机，公式(7)的操作需要依次执行4次。

最后，对4个特征序列Q_i(i=1, 2, 3, 4)执行特征映射，将它们重组为特征图作为解码器上采样模块的输入。

2.4 损失函数

为了利用LAB颜色空间更宽的色域表示范围以及对亮度和对比度进行更准确的描述，本文设计了一种结合RGB和LAB颜色空间的双颜色空间损失函数来训练增强网络模型。首先，将RGB颜色空间的图像转换到LAB颜色空间，可表示为：

$$ L^{G(x)}, A^{G(x)}, B^{G(x)}=\operatorname{RGB} 2 \operatorname{LAB}(G(x)) $$

(8)

$$ L^y, A^y, B^y=\operatorname{RGB} 2 \operatorname{LAB}(G(y)) $$

(9)

式中：x，y和G(x)分别表示原始的水下图像、原始图像对应的参考图像和生成网络输出的图像。

LAB颜色空间中的损失函数可表示为公式(10)：

$$ \begin{array}{l} \operatorname{Loss}_{L A S}(G(x), y)=E_{x, y}\left(\left[L^{y}-L^{Q(x)}\right)^{2}-\right. \\ \left.\sum\limits_{i=1}^{n} Q\left(A_{i}^{y}\right) \log \left(Q\left(A_{i}^{e(x)}\right)\right)-\sum\limits_{i=1}^{n} Q\left(B_{i}^{y}\right) \log \left(Q\left(B_{i}^{Q(x)}\right)\right)\right] \end{array} $$

(10)

式中：Q表示量化操作，用于将连续值映射到离散值；E表示数学期望；L、A、B分别表示LAB颜色空间中图像的亮度分量、从绿色到红色的分量和从蓝色到黄色的分量。

生成网络的3个损失函数分别为RGB颜色空间下的L₂损失函数（表示为Loss_RGB），色彩感知损失Loss_per^[17]和Loss_LAB，可表示为：

$$ \operatorname{Loss}_{\mathrm{Res}}=E_{x, y}\left[\|y-G(x)\|_{\mathrm{L}}\right] $$

(11)

$$ \operatorname{Loss}_{\text {pot }}=\sqrt{\frac{\left(512+r_{\operatorname{mata}}\right) r^{2}}{256}+4 g^{2}+\frac{\left(767-r_{\operatorname{man}}\right) b^{2}}{256}} $$

(12)

式中：r、g、b分别表示生成图像与参考图像在红、绿、蓝颜色通道上的差值；r_mean表示生成图像与参考图像红色通道的平均值。

此外，引入标准的GAN损失函数来表示生成图像和参考图像之间的差异，公式如下：

$$ L_{\mathrm{GAN}}(G, D)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))]$$

(13)

式中：D表示判别网络，旨在最大化L_GAN(G, D)，以准确地区分生成的图像与参考图像；G表示生成网络，作用是将生成图像和参考图像之间的差异最小化。

整体的损失函数可表示为：

$$ \begin{gathered} L = \arg \mathop {\min }\limits_G \mathop {\max }\limits_D {L_{{\text{GAN}}}}\left( {G,D} \right) + \alpha {\text{Los}}{{\text{s}}_{{\text{LAB}}}}\left( {G\left( x \right),y} \right) + \hfill \\ \beta {\text{Los}}{{\text{s}}_{{\text{RGB}}}}\left( {G\left( x \right),y} \right) + \gamma {\text{Los}}{{\text{s}}_{{\text{per}}}}\left( {G\left( x \right),y} \right) \hfill \\ \end{gathered} $$

(14)

式中：α，β，γ为超参数，进行大量实验对比后分别设置为0.2，0.2，0.6。

3. 实验结果与分析

3.1 实验数据

现有的水下图像数据集或多或少存在着图像数量、水下场景少，甚至不是真实的水下场景等缺点，限制了基于数据驱动的水下图像增强方法的性能。因此本文构建了包含4900张图像的数据集UITD，分为训练集和测试集两个部分。训练集包含2400对场景丰富的水下图像和对应的参考图像，其中1000对来自LSUI数据集^[18]，800对来自UIEB数据集^[19]，600对来自EUVP数据集^[3]。测试集由两部分组成，第一部分Test-1是从EUVP数据集中挑选的60张有参考的水下图像，第二部分Test-2是从UIEB数据集中挑选的40张无参考的水下图像。

3.2 实验设置

本实验在Ubuntu操作系统下，通过PyTorch深度学习框架实现。硬件配置如下：AMD 5950X CPU，64 GB运行内存，NVIDIA GeForce RTX3090（24 GB）GPU。

训练时，batchsize设置为6，所有输入图像调整到固定大小（256×256×3），像素值归一化到[0, 1]区间。使用Adam优化算法对模型进行800个epoch训练，优化算法参数β₁设置为0.9，β₂设置为0.999，对于前500个epoch和后300个epoch，网络初始学习率分别设置为0.0005和0.0002，学习率每40个epoch下降20%。

3.3 实验分析

本文进行了消融实验和对比实验，并在独立测试集上对实验结果进行了定性和定量的对比分析。对于带有参考图像的测试数据集，本文使用峰值信噪比（peak signal-to-noise ratio，PSNR）^[20]和结构相似性（structural similarity，SSIM）^[21]指标进行全参考评估，这两个指标反映了待评价图像与参考图像的接近程度，其中PSNR值越高代表图像内容越接近，SSIM值越高代表结构和纹理越相似。对于无参考测试数据集中的图像，本文使用了无参考评价指标UCIQE（undewater color image quality evaluation）^[22]，UIQM（underwater image quality measure）^[23]和NIQE（natural image quality evaluator）^[24]。UCIQE利用色度、饱和度和对比度的线性组合进行定量评估，分别量化色偏、低清晰度和低对比度。UIQM是水下图像色度度量、水下图像清晰度度量和水下图像对比度度量的线性组合。NIQE利用在自然图像中观察到的信息对图像质量进行评估。其中，UIQM和UCIQE值越高则图像质量越好，NIQE值越小则图像越自然。

3.3.1 消融实验

为了验证本文模型的GFMT模块，MSFFT模块和Loss_LAB损失项3个组件对于增强效果的影响，本文在Test-1数据集上进行了消融实验。对比的模型包括：不含3个组件的基准模型（benchmark model，BL），仅包含GFMT模块的模型（BL+GFMT），仅包含MSFFT模块的模型（BL+MSFFT），仅包含Loss_LAB损失项的模型（BL+Loss_LAB）以及完整模型（TGAN）。除对比项外，其余各方面均保持一致。不同模型在测试集Test-1上的定性对比如图 6所示。

图 6 消融实验定性对比(a)水下图像；(b)BL；(c)BL+GFMT；(d)BL+MSFFT；(e)BL+Loss_LAB；(f)TGAN；(g)参考图像

Figure 6. Qualitative comparison of ablation experiments. (a)Underwater images; (b)BL; (c)BL+GFMT; (d)BL+MSFFT; (e)BL+Loss_LAB; (f)TGAN; (g)Reference images

下载: 全尺寸图片幻灯片

观察图 6可知，BL+GFMT增强结果比BL具有更少的噪声和伪影，这得益于GFMT模块能够关注水下图像衰减更严重的空间区域，但水下图像的颜色偏差问题仍然存在；由于MSFFT模块能够将不同尺度的特征融合之后进行增强，BL+MSFFT的增强结果有效提高了水下图像的对比度和饱和度，但是图像的亮度方面表现不佳；BL+Loss_LAB的增强结果整体颜色更接近参考图像。虽然BL+GFMT和BL+MSFFT的增强结果分布均匀，但整体颜色不够准确，完整模型的增强结果具有最好的视觉质量。由此可知，所研究的3个组件在增强过程中都有其特定的功能性，它们的集成可以提高网络的整体性能。

同时，为客观评价各组件的功能性，对Test-1数据集进行定量分析，得到的结果如表 1。完整模型在Test-1数据集上取得了最好的定量性能，增强后的图像最接近参考图像，这证明了结合GFMT模块，MSFFT模块和Loss_LAB损失项3个组件对于增强效果的有效性。

表 1 在测试集Test-1上的消融实验结果

Table 1. Experimental results of ablation study on Test-1

Models	PSNR	SSIM
BL	19.2556	0.7014
BL+GFMT	21.6849	0.7635
BL+MSFFT	22.3719	0.7813
BL+Loss_LAB	21.4161	0.7281
TGAN	24.0546	0.8257

下载: 导出CSV

| 显示表格

3.3.2 对比实验

为了进一步评估本文算法对水下图像增强的有效性，分别在Test-1和Test-2数据集上将本文算法与现有的7个经典的水下图像增强方法进行定性和定量的对比分析，对比方法包括基于非物理模型的增强方法（CLAHE^[5]，RGHS^[6]）、基于物理模型的复原方法（UDCP^[7]，IBLA^[8]）和基于数据驱动的增强方法（UWCNN^[9]，FUnIE-GAN^[10]，DGD-cGAN^[11]）。

不同方法在测试集Test-1上的定性对比结果如图 7所示，基于非物理模型的CLAHE方法增强过的图像会出现曝光现象，与参考图像在颜色和细节上存在一定差距。RGHS方法处理深绿色图像时效果较差。基于物理模型的UDCP方法会加重图像的色偏现象，尤其是绿色和红色偏差。IBLA方法能解决一定程度上的色偏问题，但整体增强效果欠佳。基于数据驱动的UWCNN方法处理后的图像呈现出黄色颜色偏差，且亮度偏暗。FUnIE-GAN方法对深绿色图像增强效果较差，且图像的细节方面还有提升空间。DGD-cGAN方法增强后的图像亮度会得到一定提升，但绿色偏差问题依然存在。相比之下，本文所提算法在颜色校正、提升亮度、增强对比度和饱和度等方面均展示出极具竞争力的性能，并且有效地增强了图像细节，在部分图片上取得了比参考图像更好的视觉效果。

图 7 不同方法在测试集Test-1上的定性对比(a)水下图像；(b)CLAHE；(c)RGHS；(d)UDCP；(e)IBLA；(f)UWCNN；(g)FUnIE-GAN；(h)DGD-cGAN；(i)本文方法；(j)参考图像

Figure 7. Qualitative comparison of different methods on Test-1. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method; (j)Reference images

下载: 全尺寸图片幻灯片

为客观验证本文算法的性能，采用PSNR和SSIM两种参考图像质量评价指标，将本文算法与上述其他方法做定量对比分析。两种指标的均值如表 2所示。由表 2可知，本文算法在PSNR和SSIM评价指标上的平均值为24.0546和0.8257，均优于其他对比方法，分别比第二名提升了5.8%和1.8%，这证明了GFMT和MSFFT模块可以在捕捉全局特征的同时，有效加强对衰减严重的颜色通道和空间区域的关注，从而使本文算法在图像细节增强、校正色偏、提高对比度和提升亮度方面都有表现出很好的效果。

表 2 不同方法在测试集Test-1上的定量对比

Table 2. Quantitative comparison of different methods on Test-1

Methods	PSNR	SSIM
CLAHE	18.4342	0.7653
RGHS	18.2053	0.7672
UDCP	14.0555	0.5650
IBLA	19.9222	0.7487
UWCNN	18.1209	0.7420
FUnIE-GAN	22.7413	0.8112
DGD-cGAN	17.3954	0.6955
TGAN	24.0546	0.8257

下载: 导出CSV

| 显示表格

为了更加全面和准确地评估本文算法的性能，在无参考测试集Test-2上，同样将本文算法与上述其他方法进行定性和定量对比分析。定性对比分析结果如图 8。观察图 8可以发现，CLAHE方法不能完全消除色偏问题。RGHS方法虽提升了一定亮度，但在颜色校正方面效果不佳。基于物理模型的UDCP和IBLA方法复原后的图像加重了色偏且亮度过低。UWCNN方法增强后的图像颜色偏黄，且亮度偏低。FUnIE-GAN方法处理后的图像偏暗，细节纹理不够突出。DGD-cGAN方法处理后的图像整体颜色偏绿，增强效果较差。与上述方法相比，本文算法在对比度和清晰度提升，细节增强以及校正颜色偏差等方面展示出最令人满意的效果，增强后的图像纹理更加突出且视觉感受更好。

图 8 不同方法在测试集Test-2上的定性对比(a)水下图像；(b)CLAHE；(c)RGHS；(d)UDCP；(e)IBLA；(f)UWCNN；(g)FUnIE-GAN；(h)DGD-cGAN；(i)本文方法

Figure 8. Qualitative comparison of different methods on Test-2. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method

下载: 全尺寸图片幻灯片

为客观地评价各方法在无参考测试集Test-2上的性能，本文选取3个非参考图像质量评价指标UCIQE、UIQM和NIQE对增强结果进行定量对比分析。表 3展示了不同方法在测试集Test-2上的评价指标平均得分。从表 3中可以看出，本文方法在UCIQE和UIQM评价指标上取得了最优的结果，NIQE评价指标仅大于IBLA方法，这进一步说明了本文方法在图像细节增强、自然表现和视觉感知提升等方面的表现更为突出。

表 3 不同方法在测试集Test-2的定量对比

Table 3. Quantitative comparison of different methods on Test-2

Methods	UCIQE	UIQM	NIQE
CLAHE	0.4516	3.1570	6.5814
RGHS	0.4673	2.4674	6.4705
UDCP	0.4216	2.0992	5.7852
IBLA	0.4731	2.3331	5.7619
UWCNN	0.3508	3.0378	6.7935
FUnIE-GAN	0.4314	3.0997	6.2796
DGD-cGAN	0.3689	3.1810	7.2689
TGAN	0.4846	3.2963	5.7743

下载: 导出CSV

| 显示表格

4. 结论

水下图像增强是完成各种水下作业的重要支撑技术。针对水下图像存在的对比度低、清晰度差和色彩失真等退化问题，本文提出了一种基于Transformer和生成对抗网络的水下图像增强算法（TGAN）。生成网络中集成的Transformer模块可以解决现有方法中没有考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题，其中GFMT模块能够准确获取水下图像的全局特征，加强网络对图像衰减较为严重区域的关注，从而使算法增强后的图像细节更加清晰。MSFFT模块可以捕获多尺度特征，聚焦退化严重的颜色通道，实现色彩均匀的水下图像增强。此外，结合RGB和LAB颜色空间特征设计的多项损失函数提高了输出图像的亮度和对比度。实验表明，本文算法在评价指标PSNR、SSIM、UCIQE和UIQM上均取得了最优结果，在水下图像增强方面能够有效地校正色偏，均匀地提高清晰度，同时提升图像的整体视觉感知效果。但基于Transformer网络的训练通常需要较大的数据集，未来的工作将尝试对模型进行改进，以提升在小数据集上模型的训练效果。

图 1 MFSSD算法网络结构图框架

Figure 1. MFSSD network structure diagram

下载: 全尺寸图片幻灯片

图 2 特征图调整过程

Figure 2. Feature map adjustment process

下载: 全尺寸图片幻灯片

图 3 FFM模块的网络结构图

Figure 3. FFM module network structure diagram

下载: 全尺寸图片幻灯片

图 4 SP模块网络结构图

Figure 4. SP module network structure diagram

下载: 全尺寸图片幻灯片

图 5 模型-1、2、3、4、5网络的损耗函数曲线

Figure 5. Loss functions curves of Model-1, 2, 3, 4, 5 networks

下载: 全尺寸图片幻灯片

图 6 模型-1、2、3、4、5的测试结果

Figure 6. Test results for Model-1, 2, 3, 4, 5

下载: 全尺寸图片幻灯片

图 7 红外小目标测试中的Recall与precision折线图

Figure 7. Recall versus precision graph in infrared small target test

下载: 全尺寸图片幻灯片

表 1 红外小目标数据集描述

Table 1 Details of the infrared small target dataset

Name	Total number	Image resolution	Detail
Data1	399	256×256	The background is a sky back-ground with varying degrees of thermal noise and a single target
Data2	100	256×256	Background is the intersection of sky and ground background, a single target
Data3	998	256×256	The background is a sky back-ground with two targets and cross flying

下载: 导出CSV

表 2 实验中的比较算法

Table 2 The comparison algorithms in the experiment

Model	Model description
1	SSD
2	SSD+FFM(FFM module adopts up-sampling and down-sampling methods for fusion)
3	SSD +FFM(FFM module adopts subpixel convolutional layer and path layer methods for fusion)
4	SSD + FFM(FFM module adopts up-sampling and down-sampling methods for fusion) + SP module
5(ours)	SSD+FFM(FFM module adopts subpixel convolutional layer and path layer methods for fusion)+ SP module

下载: 导出CSV

表 3 不同网络算法的性能比较

Table 3 Comparison of algorithm performance of different networks

Model	Input	Train	Test	Map	Fps
1	256	1297	200	82.5	29
2	256	1297	200	85.5	23
3	256	1297	200	86.2	25
4	256	1297	200	86.1	15
5	256	1297	200	87.8	17

下载: 导出CSV

参考文献(23)

[1]	SHAO Xiaopeng, FAN Hua, LU Guangxu, et al. An improved infrared dim and small target detection algorithm based on the contrast mechanism of human visual system[J]. Infrared Physics & Technology, 2012, 55(5): 403-408.
[2]	Coppo Peter. Simulation of fire detection by infrared imagers from geostationary satellites[J]. Remote Sensing of Environment, 2015, 162: 84-98. DOI: 10.1016/j.rse.2015.02.016
[3]	王周春, 崔文楠, 张涛. 基于支持向量机的长波红外目标分类识别算法[J]. 红外技术, 2021, 43(2): 153-161. WANG Z, CUI W, ZHANG T. A long-wave infrared target classification and recognition algorithm based on support vector machine[J]. Infrared Technology, 2021, 43(2): 153-161.
[4]	ZHANG X, REN K, WAN M, et al. Infrared small target tracking based on sample constrained particle filtering and sparse representation[J]. Infrared Physics & Technology, 2017, 87: 72-82. http://www.sciencedirect.com/science/article/pii/S1350449517302864
[5]	QIN Y, LI B. Effective Infrared Small Target Detection Utilizing a Novel Local Contrast Method[J]. IEEE Geoscience & Remote Sensing Letters, 2016: 1890-1894. http://ieeexplore.ieee.org/document/7725517
[6]	DENG L, HU Z, QUAN Z, et al. Adaptive top-hat filter based on quantum genetic algorithm for infrared small target detection[J]. Multimedia Tools & Applications, 2017(6): 1-13. DOI: 10.1007/s11042-017-4592-2
[7]	王瑞, 朱志宇, 张冰. 基于人类视觉机制和粒子滤波的红外小目标跟踪[J]. 江苏科技大学学报: 自然科学版, 2018, 32(4): 74-78. https://www.cnki.com.cn/Article/CJFDTOTAL-HDCB201804013.htm WANG R, ZHU Z, ZHANG B. Infrared small target tracking based on human vision mechanism and particle filtering[J]. Journal of Jiangsu University of Science and Technology: Natural Science Edition, 2018, 32(4): 74-78. https://www.cnki.com.cn/Article/CJFDTOTAL-HDCB201804013.htm
[8]	Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran Associates Inc., 2012: 84-90.
[9]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. Computer Science, 2014, https://www.oalib.com/paper/4068791.
[10]	HE K, ZHANG X, REN S, et al. Identity Mappings in Deep Residual Networks[M]. Springer, Cham, 2016.
[11]	Szegedy C, WEI L, JIA Y, et al. Going Deeper with Convolutions[J]. IEEE Computer Society, 2015(6): 19.
[12]	Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. IEEE Computer Society, 2013, 81: 580-587.
[13]	Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV), 2015: 1440-1448.
[14]	REN S, HE K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. http://www.tandfonline.com/servlet/linkout?suffix=CIT0014&dbid=8&doi=10.1080%2F2150704X.2018.1475770&key=27295650
[15]	Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Computer Vision & Pattern Recognition. IEEE, 2016: 779-788.
[16]	LIU W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. European Conference on Computer Vision, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2
[17]	李慕锴, 张涛, 崔文楠. 基于YOLOv3的红外行人小目标检测技术研究[J]. 红外技术, 2020, 42(2): 176-181. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202002014.htm LI M K, ZHANG T, CUI W. Research on Infrared Pedestrian Small Target Detection Based onYOLOv3[J]. Infrared Technology, 2020, 42(2): 176-181. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202002014.htm
[18]	于周吉. 基于卷积神经网络的红外弱小目标检测算法[J]. 光学与光电技术, 2020, 18(5): 63-67. https://www.cnki.com.cn/Article/CJFDTOTAL-GXGD202005012.htm YU Z J. Infrared dim target detection algorithm based on convolutional neural network[J]. Optics & Optoelectronic Technology, 2020, 18(5): 63-67. https://www.cnki.com.cn/Article/CJFDTOTAL-GXGD202005012.htm
[19]	SHI M, WANG H, Infrared Dim and Small Target Detection Based on Denoising Autoencoder Network[J]. Mobile Networks and Applications, 2020, 25(4): 1469-1483. DOI: 10.1007/s11036-019-01377-6
[20]	Ryu J, Kim S. Data Driven Proposal and Deep Learning-based Small Infrared Drone Detection[J]. Journal of Institute of Control, Robotics and Systems, 2018, 24: 1146-1151. DOI: 10.5302/J.ICROS.2018.18.0157
[21]	Ryu J, Kim S. Heterogeneous Gray-Temperature Fusion-Based Deep Learning Architecture for Far Infrared Small Target Detection[J]. Journal of Sensors, 2019(7): 1-15. http://www.researchgate.net/publication/335356131_Heterogeneous_Gray-Temperature_Fusion-Based_Deep_Learning_Architecture_for_Far_Infrared_Small_Target_Detection
[22]	Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. IEEE, 2017(11): 6517-6525. http://ieeexplore.ieee.org/document/8100173
[23]	SHI W, Caballero J, F Huszár, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J]. IEEE, 2016(12): 1063-6919. http://ieeexplore.ieee.org/document/7780576

施引文献

资源附件(0)

图(7) / 表(3)

计量

文章访问数: 436
HTML全文浏览量: 72
PDF下载量: 123
被引次数: 0

0. 引言
1. 相关理论
1.1 生成对抗网络
1.2 Transformer模型
2. 本文算法
2.1 TGAN网络增强模型
2.2 GFMT全局特征建模模块
2.3 MSFFT特征提取模块
2.4 损失函数
3. 实验结果与分析
3.1 实验数据
3.2 实验设置
3.3 实验分析
3.3.1 消融实验
3.3.2 对比实验
4. 结论

0. 引言
1. 相关理论
1.1 生成对抗网络
1.2 Transformer模型
2. 本文算法
2.1 TGAN网络增强模型
2.2 GFMT全局特征建模模块
2.3 MSFFT特征提取模块
2.4 损失函数
3. 实验结果与分析
3.1 实验数据
3.2 实验设置
3.3 实验分析
3.3.1 消融实验
3.3.2 对比实验
4. 结论

参考文献(23)

施引文献

资源附件(0)

基于多尺度特征融合的红外小目标检测方法

作者简介: 王芳（1972-），女，教授，主要研究方向为目标检测技术。E-mail: ffdd1012@163.com

通讯作者: 伍博（1980-），男，讲师，主要研究方向为计算机视觉。E-mail: wubo@htu.edu.cn

计量

出版历程