一种基于多尺度的目标检测锚点构造方法

邵延华; 黄琦梦; 梅艳莹; 张晓强; 楚红雨; 吴亚东

一种基于多尺度的目标检测锚点构造方法

1.
西南科技大学信息工程学院, 四川绵阳 621010
2.
四川轻化工大学计算机科学与工程学院, 四川自贡 643000

基金项目:

国家自然科学基金项目 61601382

国防科工项目

四川省科技支撑计划项目 2019YJ0325

四川省科技支撑计划项目 2020YFG0148

详细信息

作者简介:
邵延华（1982-），男，四川省绵阳市人，博士，讲师，主要研究方向为计算机视觉与图像处理、深度学习。E-mail：syh@alu.cqu.edu.cn

中图分类号: TN911.73
计量
- 文章访问数: 150
- HTML全文浏览量: 34
- PDF下载量: 42
出版历程
- 收稿日期: 2022-04-06
- 修回日期: 2022-05-10
- 刊出日期: 2024-02-19

Multi-scale Anchor Construction Method for Object Detection

1.
School of Information Engineering, Southwest University of Science and Technology, Mianyang 621010, China
2.
School of Computer Science and Engineering, Sichuan University of Science & Engineering, Zigong 643000, China

摘要

摘要: 目标检测是计算机视觉领域的研究热点和基础任务，其中基于锚点（Anchor）的目标检测已在众多领域得到广泛应用。当前锚点选取方法主要面临两个问题：基于特定数据集的先验取值尺寸固定、面对不同场景泛化能力弱。计算锚框的无监督K-means算法，受初始值影响较大，对目标尺寸较单一的数据集聚类产生的锚点差异较小，无法充分体现网络多尺度输出的特点。针对上述问题，本文提出一种基于多尺度的目标检测锚点构造方法（multi-scale-anchor, MSA），将聚类产生的锚点根据数据集本身的特性进行尺度的缩放和拉伸，优化的锚点即保留原数据集的特点也体现了模型多尺度的优势。另外，本方法应用在训练的预处理阶段，不增加模型推理时间。最后，选取单阶段主流算法YOLO（You Only Look Once），在多个不同场景的红外或工业场景数据集上进行丰富的实验。结果表明，多尺度锚点优化方法MSA能显著提高小样本场景的检测精度。
- 目标检测 /
- 锚点 /
- 红外 /
- YOLO(You Only Look Once) /
- 多尺度分析
Abstract: Object detection is a popular research topic and fundamental task in computer vision. Anchor-based object detection has been widely used in many fields. Current anchor selection methods face two main problems: a fixed size of a priori values based on a specific dataset and a weak generalization ability in different scenarios. The unsupervised K-means algorithm for calculating anchor frames, which is significantly influenced by initial values, generates less variation in anchor points for clustering datasets with a single object size and cannot reflect the multiscale output of the network. In this study, a multiscale anchor (MSA) method that introduces multiscale optimization was developed to address these issues. This method scales and stretches the anchor points generated by clustering according to the dataset characteristics. The optimized anchor points retain the characteristics of the original dataset and reflect the advantages of the multiple scales of the model. In addition, this method was applied to the preprocessing phase of training without increasing the model inference time. Finally, the single-stage mainstream algorithm, You Only Look Once (YOLO), was selected to perform extensive experiments on different scenes of the infrared and industrial scene datasets. The results show that the MSA method can significantly improve the detection accuracy of small-sample scenes.
- object detection /
- anchor /
- YOLO (You Only Look Once) /
- infrared /
- multi-scale analysis

HTML全文

0. 引言

建设海洋强国是实现中华民族伟大复兴的重大战略任务，有效实施利用海洋资源战略并掌握高效开发海洋资源技术的国家，必将在未来的经济和社会发展中占取先机。获取海洋信息是充分了解海洋的关键，作为海洋信息的载体，水下图像在海洋资源探索和水下作业任务方面发挥着重要作用。但是，由于水下成像环境的复杂和光在水中传播的散射效应^[1]等因素，采集的水下图像通常会产生严重的退化问题，主要呈现为颜色偏差、对比度低和细节模糊等，严重限制了水下图像在海洋勘测、水下目标检测^[2]和水下机器人^[3]等实际场景中的应用。因此，亟须寻找一种有效的增强方法来解决水下图像的退化问题。

水下图像处理一般可以分为图像复原和图像增强^[4]两大类。其中，基于非物理模型的增强方法主要是通过修改像素值来提高水下图像的视觉质量，忽略了水下图像的物理退化过程。例如，Hitam等人^[5]提出了一种直方图均衡算法用于处理水下图像，减少了噪声的产生同时提高了对比度。此外，Huang等人^[6]构建了一种基于自适应参数采集的全局直方图拉伸方法（relative global histogram stretching，RGHS），保留了图像细节的同时有效消除了噪声的影响。基于物理模型的复原方法主要是对成像过程进行建模，通过反演水下物理成像模型获得高质量的水下图像。Paulo等人^[7]利用暗通道先验（dark channel prior，DCP）原理，设计了一种估计水下环境传输的水下DCP算法，克服了DCP在水下成像应用中的局限性。此外，Peng等人^[8]设计了一种基于图像模糊和光吸收的水下场景深度估计方法（image blurriness and light absorption，IBLA），在不同色调和光照条件下都能很好地恢复水下图像。基于物理模型的复原方法考虑了造成水下图像退化的原因，使图像增强效果得到进一步提高，但该方法需要物理先验知识，对模型的参数估计存在一定的偏差，恢复结果易产生失真问题。基于数据驱动的增强方法被认为是水下图像增强领域的深度学习技术，在水下图像增强方面表现出卓越的性能。例如，Li等人^[9]将水下成像模型与水下场景的光学特性相结合，提出了一种利用卷积神经网络的水下图像增强模型（UWCNN），能够直接构建清晰的水下图像。Islam等人^[3]基于条件生成对抗网络设计了一种实时增强模型（FUnIE-GAN），根据图像的全局内容、色彩表现和局部纹理评估图像质量。Salma等人^[10]构建了含有两个生成器的条件生成对抗网络算法（generative adversarial network with dual generator dewatering，DGD-cGAN），分别用于去除色偏和雾化。尽管深度学习算法在水下图像增强领域已经取得了不错的成果，但是未能考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题，这限制了基于数据驱动方法性能的进一步提高。

近几年，Transformer^[11]因其强大的特征提取能力在计算机视觉领域得到了越来越多的关注，且自注意力机制可以有效地对全局特征进行建模并融合多尺度特征，提升算法对图像细节的重建能力。针对现有方法所存在的问题，本文提出了一种结合Transformer与生成对抗网络（generative adversarial network，GAN）的水下图像增强算法（TGAN）。该算法以生成对抗网络为基础框架，生成网络中引入了基于空间自注意力机制的全局特征建模Transformer模块（global feature modeling transformer，GFMT）和多尺度特征融合Transformer模块（multiscale feature fusion transformer，MSFFT），加强了算法对衰减更严重的颜色通道和空间区域的关注，可有效解决现有方法增强后的图像存在的局部色偏、清晰度低、亮度低等问题。

1. 相关理论

1.1 生成对抗网络

GAN包括生成网络和判别网络两个部分，通过对抗训练在生成网络和判别网络之间建立一个数学函数。生成网络采用参数化概率生成模型，接收随机噪声并通过逆变换采样，有效地拟合输入训练集数据的实际分布情况，进而生成符合输入训练集数据特点的近似信息。判别网络是一种分类模型，对于输入的两种数据，其数据处理流程是将真实的训练数据记为真标签，生成网络生成的虚假数据记为假标签，通过计算损失值，对真实数据的判别趋近于真，对生成数据的判别趋近于假，并反馈给生成网络，不断训练模型，更新网络的参数。GAN的目标函数可以用式(1)表示：

$$ \min\limits_G \max\limits_D V(D, G)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))] $$

(1)

式中：x表示输入生成网络的随机噪声；y表示真实的训练数据；G(x)表示生成网络生成的虚假数据；E表示数学期望；判别网络D旨在最大化V(D, G)；生成网络G旨在最小化V(D, G)。通过这种对抗性的学习方式，GAN可以生成高质量的、与真实数据相似的虚假数据。GAN的整体网络结构如图 1所示。

图 1 生成对抗网络结构

Figure 1. Generative adversarial network structure

下载: 全尺寸图片幻灯片

1.2 Transformer模型

Transformer是一种基于自注意力机制（self-attention mechanism）的深度神经网络模型，由编码器和解码器组成。编码器用于将输入序列编码成一个高维的特征向量，而解码器则使用编码器的输出来生成目标序列。Transformer的核心算法是大量的多头自注意力模块，能够直接提取数据样本的整体特征，从而更好地处理长序列和对序列的全局信息进行建模。同时，Transformer也使用了残差连接和层标准化技术来加速训练，并且可以通过并行计算来进一步提高效率。单层Transformer模型的结构如图 2所示。

图 2 单层Transformer模型

Figure 2. A single-layer Transformer model

下载: 全尺寸图片幻灯片

2. 本文算法

2.1 TGAN网络增强模型

本文提出的水下图像增强网络模型TGAN由生成网络和判别网络两部分组成。生成网络的目的是学习清晰的水下图像的概率分布，并且通过反向传播算法训练生成网络中的权重，最终生成质量更好的水下图像，其由4部分组成，分别是编码器、GFMT模块、MSFFT模块和解码器。编码器由连续的卷积层和下采样操作组成，它负责提取输入图像的特征。解码器由连续的反卷积层和上采样操作组成，它负责将编码器提取的特征图映射回原始图像的尺寸，并还原更精细的图像细节。对于输入生成网络中的原始图像，首先经过5次下采样操作，然后作为GFMT模块的输入，再经过GFMT模块特征重映射后，输出直接发送到第一个上采样模块。同时4个下采样模块的输出作为MSFFT模块的输入，解码器中4个不同尺度的上采样模块将接收来自MSFFT模块的4个输出。

判别网络旨在区分出生成网络输出的图像和参考图像，其结构类似于PatchGAN^[12]网络，包含5个下采样模块，输出为16×16×1大小的补丁块，该输出表示两个输入图像之间的平均差异程度。当某个对应区域存在较大的差异时，输出中对应该位置的像素值会越接近于0，反之则接近于1，每个补丁像素点对应于输入图像的一个局部感受野。这种方法的优点在于，不仅减少了参数量和计算量，还能够对图像进行局部细节增强。TGAN的网络结构及数据处理流程如图 3所示。

图 3 TGAN网络结构

Figure 3. TGAN network structure

下载: 全尺寸图片幻灯片

2.2 GFMT全局特征建模模块

针对水下图像在不同空间区域退化不均匀的问题，本文设计了一种基于空间自注意力机制的全局特征建模Transformer模块（GFMT）来替换生成网络中原有的瓶颈层（bottleneck）^[13]。GFMT模块能够准确地建模水下图像的全局特征，加强网络对衰减较为严重的空间区域的关注，从而使增强后的水下图像细节更清晰，内容分布更均匀。GFMT模块的详细结构如图 4所示。

图 4 GFMT模块结构

Figure 4. GFMT module structure

下载: 全尺寸图片幻灯片

GFMT模块的数据处理流程如下，对于输入GFMT的特征图F_in，首先使用线性投影将特征图拉伸成特征序列S_in，可表示为：

$$ S_{\mathrm{in}}=\boldsymbol{W}^* \boldsymbol{F}_{\mathrm{in}} $$

(2)

式中：W表示权重矩阵；W*F_in表示线性投影操作。

然后将特征序列S_in输入到Transformer层中，Transformer层包含多头注意力模块（Multi-Head Attention，MHA）和前馈网络（Feed Forward Networks，FFN），FFN包括一个标准化层和一个全连接层（多层感知机，Multilayer Perceptron，MLP），Transformer层的输出可由下式计算：

$$ S^{\prime} =\operatorname{MHA}\left(\mathrm{LN}\left(S_{\text {in }}\right)\right)+S_{\text {in }} $$

(3)

$$ S =\operatorname{FFN}\left(\mathrm{LN}\left(S^{\prime}\right)\right)+S^{\prime} $$

(4)

式中：LN（layer normalization）表示层标准化；S表示Transformer层的输出序列。经过特征重映射后GFMT模块的输出与输入大小保持一致。

2.3 MSFFT特征提取模块

为解决水下图像在不同颜色通道衰减不一致的问题^[14]，本文设计了一种多尺度特征融合Transformer模块（MSFFT），MSFFT模块利用通道自注意力机制对编码器输出的特征进行通道级多尺度特征融合，并将融合结果传递给解码器，能够加强网络对衰减更严重的颜色通道的关注，从而实现色彩均匀的水下图像增强，有效解决水下图像存在的颜色偏差问题。MSFFT模块的详细结构如图 5所示。

图 5 MSFFT模块的详细结构

Figure 5. Detailed structure of MSFFT module

下载: 全尺寸图片幻灯片

MSFFT模块的输入是不同尺度的特征图F_i(i=1, 2, 3, 4)，其整体的数据处理流程是首先使用线性投影操作将特征图拉伸成特征序列S_i(i=1, 2, 3, 4)，然后计算得到6个矩阵Q_i(i=1, 2, 3, 4)、K和V：

$$ \boldsymbol{Q}_i=\boldsymbol{S}_i \boldsymbol{W}_{Q_t}, \boldsymbol{K}=\boldsymbol{S} \boldsymbol{W}_K, \boldsymbol{V}=\boldsymbol{S} \boldsymbol{W}_V $$

(5)

式中：$ {\boldsymbol W_{{Q_i}}} $(i=1, 2, 3, 4)，W_K和W_V表示可学习的权重矩阵；S是由S_i(i=1, 2, 3, 4)在通道维度上叠加生成的。

计算得到的6个矩阵Q_i(i=1, 2, 3, 4)、K和V经过通道注意力输出CA_i，可表示为：

$$ \mathrm{CA}_i=\operatorname{SoftMax}\left(\operatorname{IN}\left(\frac{\boldsymbol{Q}_i^{\mathrm{T}} \boldsymbol{K}}{\sqrt[2]{C}}\right)\right) \boldsymbol{V}^{\mathrm{T}} $$

(6)

式中：IN（instance normalization）表示实例归一化操作^[15]；C表示4个尺度上通道数之和；Q_i^T和V^T表示Q_i和V的转置矩阵。这个注意力操作是沿着通道轴而不是经典的补丁轴^[16]执行，引导网络关注图像质量下降更严重的颜色通道。

CA_i经过前馈网络传播得到输出Q_i(i=1, 2, 3, 4)，也就是通道级多头注意力模块（CMHA）的输出可以表示为：

$$ \boldsymbol{Q}_i=\mathrm{CA}_i+\operatorname{MLP}\left(\mathrm{LN}\left(\mathrm{CA}_i\right)\right) $$

(7)

式中：MLP代表多层感知机，公式(7)的操作需要依次执行4次。

最后，对4个特征序列Q_i(i=1, 2, 3, 4)执行特征映射，将它们重组为特征图作为解码器上采样模块的输入。

2.4 损失函数

为了利用LAB颜色空间更宽的色域表示范围以及对亮度和对比度进行更准确的描述，本文设计了一种结合RGB和LAB颜色空间的双颜色空间损失函数来训练增强网络模型。首先，将RGB颜色空间的图像转换到LAB颜色空间，可表示为：

$$ L^{G(x)}, A^{G(x)}, B^{G(x)}=\operatorname{RGB} 2 \operatorname{LAB}(G(x)) $$

(8)

$$ L^y, A^y, B^y=\operatorname{RGB} 2 \operatorname{LAB}(G(y)) $$

(9)

式中：x，y和G(x)分别表示原始的水下图像、原始图像对应的参考图像和生成网络输出的图像。

LAB颜色空间中的损失函数可表示为公式(10)：

$$ \begin{array}{l} \operatorname{Loss}_{L A S}(G(x), y)=E_{x, y}\left(\left[L^{y}-L^{Q(x)}\right)^{2}-\right. \\ \left.\sum\limits_{i=1}^{n} Q\left(A_{i}^{y}\right) \log \left(Q\left(A_{i}^{e(x)}\right)\right)-\sum\limits_{i=1}^{n} Q\left(B_{i}^{y}\right) \log \left(Q\left(B_{i}^{Q(x)}\right)\right)\right] \end{array} $$

(10)

式中：Q表示量化操作，用于将连续值映射到离散值；E表示数学期望；L、A、B分别表示LAB颜色空间中图像的亮度分量、从绿色到红色的分量和从蓝色到黄色的分量。

生成网络的3个损失函数分别为RGB颜色空间下的L₂损失函数（表示为Loss_RGB），色彩感知损失Loss_per^[17]和Loss_LAB，可表示为：

$$ \operatorname{Loss}_{\mathrm{Res}}=E_{x, y}\left[\|y-G(x)\|_{\mathrm{L}}\right] $$

(11)

$$ \operatorname{Loss}_{\text {pot }}=\sqrt{\frac{\left(512+r_{\operatorname{mata}}\right) r^{2}}{256}+4 g^{2}+\frac{\left(767-r_{\operatorname{man}}\right) b^{2}}{256}} $$

(12)

式中：r、g、b分别表示生成图像与参考图像在红、绿、蓝颜色通道上的差值；r_mean表示生成图像与参考图像红色通道的平均值。

此外，引入标准的GAN损失函数来表示生成图像和参考图像之间的差异，公式如下：

$$ L_{\mathrm{GAN}}(G, D)=E_y[\log D(y)]+E_x[\log (1-D(G(x)))]$$

(13)

式中：D表示判别网络，旨在最大化L_GAN(G, D)，以准确地区分生成的图像与参考图像；G表示生成网络，作用是将生成图像和参考图像之间的差异最小化。

整体的损失函数可表示为：

$$ \begin{gathered} L = \arg \mathop {\min }\limits_G \mathop {\max }\limits_D {L_{{\text{GAN}}}}\left( {G,D} \right) + \alpha {\text{Los}}{{\text{s}}_{{\text{LAB}}}}\left( {G\left( x \right),y} \right) + \hfill \\ \beta {\text{Los}}{{\text{s}}_{{\text{RGB}}}}\left( {G\left( x \right),y} \right) + \gamma {\text{Los}}{{\text{s}}_{{\text{per}}}}\left( {G\left( x \right),y} \right) \hfill \\ \end{gathered} $$

(14)

式中：α，β，γ为超参数，进行大量实验对比后分别设置为0.2，0.2，0.6。

3. 实验结果与分析

3.1 实验数据

现有的水下图像数据集或多或少存在着图像数量、水下场景少，甚至不是真实的水下场景等缺点，限制了基于数据驱动的水下图像增强方法的性能。因此本文构建了包含4900张图像的数据集UITD，分为训练集和测试集两个部分。训练集包含2400对场景丰富的水下图像和对应的参考图像，其中1000对来自LSUI数据集^[18]，800对来自UIEB数据集^[19]，600对来自EUVP数据集^[3]。测试集由两部分组成，第一部分Test-1是从EUVP数据集中挑选的60张有参考的水下图像，第二部分Test-2是从UIEB数据集中挑选的40张无参考的水下图像。

3.2 实验设置

本实验在Ubuntu操作系统下，通过PyTorch深度学习框架实现。硬件配置如下：AMD 5950X CPU，64 GB运行内存，NVIDIA GeForce RTX3090（24 GB）GPU。

训练时，batchsize设置为6，所有输入图像调整到固定大小（256×256×3），像素值归一化到[0, 1]区间。使用Adam优化算法对模型进行800个epoch训练，优化算法参数β₁设置为0.9，β₂设置为0.999，对于前500个epoch和后300个epoch，网络初始学习率分别设置为0.0005和0.0002，学习率每40个epoch下降20%。

3.3 实验分析

本文进行了消融实验和对比实验，并在独立测试集上对实验结果进行了定性和定量的对比分析。对于带有参考图像的测试数据集，本文使用峰值信噪比（peak signal-to-noise ratio，PSNR）^[20]和结构相似性（structural similarity，SSIM）^[21]指标进行全参考评估，这两个指标反映了待评价图像与参考图像的接近程度，其中PSNR值越高代表图像内容越接近，SSIM值越高代表结构和纹理越相似。对于无参考测试数据集中的图像，本文使用了无参考评价指标UCIQE（undewater color image quality evaluation）^[22]，UIQM（underwater image quality measure）^[23]和NIQE（natural image quality evaluator）^[24]。UCIQE利用色度、饱和度和对比度的线性组合进行定量评估，分别量化色偏、低清晰度和低对比度。UIQM是水下图像色度度量、水下图像清晰度度量和水下图像对比度度量的线性组合。NIQE利用在自然图像中观察到的信息对图像质量进行评估。其中，UIQM和UCIQE值越高则图像质量越好，NIQE值越小则图像越自然。

3.3.1 消融实验

为了验证本文模型的GFMT模块，MSFFT模块和Loss_LAB损失项3个组件对于增强效果的影响，本文在Test-1数据集上进行了消融实验。对比的模型包括：不含3个组件的基准模型（benchmark model，BL），仅包含GFMT模块的模型（BL+GFMT），仅包含MSFFT模块的模型（BL+MSFFT），仅包含Loss_LAB损失项的模型（BL+Loss_LAB）以及完整模型（TGAN）。除对比项外，其余各方面均保持一致。不同模型在测试集Test-1上的定性对比如图 6所示。

图 6 消融实验定性对比(a)水下图像；(b)BL；(c)BL+GFMT；(d)BL+MSFFT；(e)BL+Loss_LAB；(f)TGAN；(g)参考图像

Figure 6. Qualitative comparison of ablation experiments. (a)Underwater images; (b)BL; (c)BL+GFMT; (d)BL+MSFFT; (e)BL+Loss_LAB; (f)TGAN; (g)Reference images

下载: 全尺寸图片幻灯片

观察图 6可知，BL+GFMT增强结果比BL具有更少的噪声和伪影，这得益于GFMT模块能够关注水下图像衰减更严重的空间区域，但水下图像的颜色偏差问题仍然存在；由于MSFFT模块能够将不同尺度的特征融合之后进行增强，BL+MSFFT的增强结果有效提高了水下图像的对比度和饱和度，但是图像的亮度方面表现不佳；BL+Loss_LAB的增强结果整体颜色更接近参考图像。虽然BL+GFMT和BL+MSFFT的增强结果分布均匀，但整体颜色不够准确，完整模型的增强结果具有最好的视觉质量。由此可知，所研究的3个组件在增强过程中都有其特定的功能性，它们的集成可以提高网络的整体性能。

同时，为客观评价各组件的功能性，对Test-1数据集进行定量分析，得到的结果如表 1。完整模型在Test-1数据集上取得了最好的定量性能，增强后的图像最接近参考图像，这证明了结合GFMT模块，MSFFT模块和Loss_LAB损失项3个组件对于增强效果的有效性。

表 1 在测试集Test-1上的消融实验结果

Table 1. Experimental results of ablation study on Test-1

Models	PSNR	SSIM
BL	19.2556	0.7014
BL+GFMT	21.6849	0.7635
BL+MSFFT	22.3719	0.7813
BL+Loss_LAB	21.4161	0.7281
TGAN	24.0546	0.8257

下载: 导出CSV

| 显示表格

3.3.2 对比实验

为了进一步评估本文算法对水下图像增强的有效性，分别在Test-1和Test-2数据集上将本文算法与现有的7个经典的水下图像增强方法进行定性和定量的对比分析，对比方法包括基于非物理模型的增强方法（CLAHE^[5]，RGHS^[6]）、基于物理模型的复原方法（UDCP^[7]，IBLA^[8]）和基于数据驱动的增强方法（UWCNN^[9]，FUnIE-GAN^[10]，DGD-cGAN^[11]）。

不同方法在测试集Test-1上的定性对比结果如图 7所示，基于非物理模型的CLAHE方法增强过的图像会出现曝光现象，与参考图像在颜色和细节上存在一定差距。RGHS方法处理深绿色图像时效果较差。基于物理模型的UDCP方法会加重图像的色偏现象，尤其是绿色和红色偏差。IBLA方法能解决一定程度上的色偏问题，但整体增强效果欠佳。基于数据驱动的UWCNN方法处理后的图像呈现出黄色颜色偏差，且亮度偏暗。FUnIE-GAN方法对深绿色图像增强效果较差，且图像的细节方面还有提升空间。DGD-cGAN方法增强后的图像亮度会得到一定提升，但绿色偏差问题依然存在。相比之下，本文所提算法在颜色校正、提升亮度、增强对比度和饱和度等方面均展示出极具竞争力的性能，并且有效地增强了图像细节，在部分图片上取得了比参考图像更好的视觉效果。

图 7 不同方法在测试集Test-1上的定性对比(a)水下图像；(b)CLAHE；(c)RGHS；(d)UDCP；(e)IBLA；(f)UWCNN；(g)FUnIE-GAN；(h)DGD-cGAN；(i)本文方法；(j)参考图像

Figure 7. Qualitative comparison of different methods on Test-1. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method; (j)Reference images

下载: 全尺寸图片幻灯片

为客观验证本文算法的性能，采用PSNR和SSIM两种参考图像质量评价指标，将本文算法与上述其他方法做定量对比分析。两种指标的均值如表 2所示。由表 2可知，本文算法在PSNR和SSIM评价指标上的平均值为24.0546和0.8257，均优于其他对比方法，分别比第二名提升了5.8%和1.8%，这证明了GFMT和MSFFT模块可以在捕捉全局特征的同时，有效加强对衰减严重的颜色通道和空间区域的关注，从而使本文算法在图像细节增强、校正色偏、提高对比度和提升亮度方面都有表现出很好的效果。

表 2 不同方法在测试集Test-1上的定量对比

Table 2. Quantitative comparison of different methods on Test-1

Methods	PSNR	SSIM
CLAHE	18.4342	0.7653
RGHS	18.2053	0.7672
UDCP	14.0555	0.5650
IBLA	19.9222	0.7487
UWCNN	18.1209	0.7420
FUnIE-GAN	22.7413	0.8112
DGD-cGAN	17.3954	0.6955
TGAN	24.0546	0.8257

下载: 导出CSV

| 显示表格

为了更加全面和准确地评估本文算法的性能，在无参考测试集Test-2上，同样将本文算法与上述其他方法进行定性和定量对比分析。定性对比分析结果如图 8。观察图 8可以发现，CLAHE方法不能完全消除色偏问题。RGHS方法虽提升了一定亮度，但在颜色校正方面效果不佳。基于物理模型的UDCP和IBLA方法复原后的图像加重了色偏且亮度过低。UWCNN方法增强后的图像颜色偏黄，且亮度偏低。FUnIE-GAN方法处理后的图像偏暗，细节纹理不够突出。DGD-cGAN方法处理后的图像整体颜色偏绿，增强效果较差。与上述方法相比，本文算法在对比度和清晰度提升，细节增强以及校正颜色偏差等方面展示出最令人满意的效果，增强后的图像纹理更加突出且视觉感受更好。

图 8 不同方法在测试集Test-2上的定性对比(a)水下图像；(b)CLAHE；(c)RGHS；(d)UDCP；(e)IBLA；(f)UWCNN；(g)FUnIE-GAN；(h)DGD-cGAN；(i)本文方法

Figure 8. Qualitative comparison of different methods on Test-2. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method

下载: 全尺寸图片幻灯片

为客观地评价各方法在无参考测试集Test-2上的性能，本文选取3个非参考图像质量评价指标UCIQE、UIQM和NIQE对增强结果进行定量对比分析。表 3展示了不同方法在测试集Test-2上的评价指标平均得分。从表 3中可以看出，本文方法在UCIQE和UIQM评价指标上取得了最优的结果，NIQE评价指标仅大于IBLA方法，这进一步说明了本文方法在图像细节增强、自然表现和视觉感知提升等方面的表现更为突出。

表 3 不同方法在测试集Test-2的定量对比

Table 3. Quantitative comparison of different methods on Test-2

Methods	UCIQE	UIQM	NIQE
CLAHE	0.4516	3.1570	6.5814
RGHS	0.4673	2.4674	6.4705
UDCP	0.4216	2.0992	5.7852
IBLA	0.4731	2.3331	5.7619
UWCNN	0.3508	3.0378	6.7935
FUnIE-GAN	0.4314	3.0997	6.2796
DGD-cGAN	0.3689	3.1810	7.2689
TGAN	0.4846	3.2963	5.7743

下载: 导出CSV

| 显示表格

4. 结论

水下图像增强是完成各种水下作业的重要支撑技术。针对水下图像存在的对比度低、清晰度差和色彩失真等退化问题，本文提出了一种基于Transformer和生成对抗网络的水下图像增强算法（TGAN）。生成网络中集成的Transformer模块可以解决现有方法中没有考虑到水下图像在不同颜色通道和空间区域衰减不一致的问题，其中GFMT模块能够准确获取水下图像的全局特征，加强网络对图像衰减较为严重区域的关注，从而使算法增强后的图像细节更加清晰。MSFFT模块可以捕获多尺度特征，聚焦退化严重的颜色通道，实现色彩均匀的水下图像增强。此外，结合RGB和LAB颜色空间特征设计的多项损失函数提高了输出图像的亮度和对比度。实验表明，本文算法在评价指标PSNR、SSIM、UCIQE和UIQM上均取得了最优结果，在水下图像增强方面能够有效地校正色偏，均匀地提高清晰度，同时提升图像的整体视觉感知效果。但基于Transformer网络的训练通常需要较大的数据集，未来的工作将尝试对模型进行改进，以提升在小数据集上模型的训练效果。

图 1 Vox数据集上不同锚点与Ground truth对比

注：蓝色框为Ground truth；红色框为6个锚点

Figure 1. Comparison between Ground truth and different anchors on Vox data sets

Note: The blue box is Ground truth; The red box shows six anchors

下载: 全尺寸图片幻灯片

图 2 IoU值最大的锚点与Ground truth的对比示例

注：实线为Ground truth；虚线为IoU值最大的锚点

Figure 2. Example of comparison between the anchor point with the maximum IoU value and ground truth

Note: The solid line is Ground truth; Dotted line is the anchor point with the maximum IoU value

下载: 全尺寸图片幻灯片

图 3 四类数据集的部分示例图像

Figure 3. Partial sample images of four types of datasets

下载: 全尺寸图片幻灯片

图 4 TDP数据集中锚点缩放的消融测试

Figure 4. Ablative test of anchor point scaling on TDP dataset

下载: 全尺寸图片幻灯片

表 1 不同Anchor在四类数据集上的对比结果

Table 1 Comparison results of different anchors on four data sets

Anchor	ComNet/(%)	TDP/(%)	Roboflow-mask(%)	Vox/(%)
COCO K-means MSA	96.86	90.03	66.20 66.60(+0.40) 67.00(+0.80)	89.36
	97.12(+0.26)	90.90(+0.87)		91.03(+1.67)
	97.24(+0.38)	91.74(+1.77)		91.44(+2.08)

下载: 导出CSV

表 2 Vox数据集在不同网络的表现

Table 2 Performance of different networks on Vox datasets

Network	Anchor	MAP@0.5(%)
YOLOv3-tiny	COCO	89.36
	K-means	91.03(+1.67)
	MSA	91.44(+2.08)
YOLOv4-tiny	COCO	90.16
	K-means	90.35(+0.19)
	MSA	91.56(+1.4)
YOLOv3	COCO	92.69
	K-means	93.32(+0.63)
	MSA	93.59(+0.90)
YOLOv5s	COCO	94.88
	K-means	95.02(+0.14)
	YOLOv5s-Aut	94.82(−0.06)
	MSA	95.63(+0.75)

下载: 导出CSV

参考文献(20)

[1]	伏轩仪, 张銮景, 梁文科, 等. 锚点机制在目标检测领域的发展综述[J]. 计算机科学与探索, 2022, 16(4): 791-805. FU Xuanyi, ZHANG Luanjing, LIANG Wenke, et al. Review on the development of anchor mechanism in object detection[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(4): 791-805.
[2]	易诗, 周思尧, 沈练, 等. 基于增强型轻量级网络的车载热成像目标检测方法[J]. 红外技术, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f YI Shi, ZHOU Siyao, SHEN Lian, et al. Vehicle-based thermal imaging object detection method based on enhanced lightweight network[J]. Infrared Technology, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f
[3]	顾佼佼, 李炳臻, 刘克, 等. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9 GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship object detection algorithm based on improved faster R-CNN[J]. Infrared Technology, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9
[4]	邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708. SHAO Yanhua, ZHANG Duo, CHU Hongyu, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3697-3708.
[5]	ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9759-9768.
[6]	LIN T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context[C]//European Conference on Computer Vision, 2014: 740-755.
[7]	LAW H, DENG J. Cornernet: detecting objects as paired key-points[C]//Proceedings of the 15th European Conference on Computer Vision, 2018: 765-781.
[8]	YUAN C, YANG H. Research on K-value selection method of K-means clustering algorithm[J]. Multidisciplinary Scientific Journal, 2019, 2(2): 226-235. DOI: 10.3390/j2020016
[9]	LI M, ZHAO X, LI J, et al. ComNet: combinational neural network for object detection in UAV-Borne thermal images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(8): 6662-6673. DOI: 10.1109/TGRS.2020.3029945
[10]	LUO Y, SHAO Y, CHU H, et al. CNN-based blade tip vortex region detection in flow field[C]//Eleventh International Conference on Graphics and Image Processing, 2020, 11373: 113730P.
[11]	ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Association for the Advance of Artificial Intelligence(AAAI 2020), 2020: 12993-13000.
[12]	FU C Y, LIU W, Ranga A, et al. Dssd: Deconvolutional single shot detector[J/OL]. arXiv preprint arXiv: 1701.06659, 2017.
[13]	LIN T, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(2): 318-327.
[14]	CAI Z, FAN Q, FE RIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]//Proceedings of the 14th European Conference on Computer Vision, 2016: 354-370.
[15]	ZHU C, TAO R, LU K, et al. Seeing small faces from robust anchor's perspective[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 5127-5136.
[16]	KE W, ZHANG T, HUANG Z, et al. Multiple anchor learning for visual object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10206-10215.
[17]	Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J/OL]. arXiv preprint arXiv: 1710.05941, 2017.
[18]	KONG T, SUN F, LIU H, et al. Foveabox: beyond anchor-based object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398. DOI: 10.1109/TIP.2020.3002345
[19]	ZOU Zhengxia, SHI Zhenwei, GUO Yuhong, et al. Object detection in 20 years: a survey[J/OL]. arXiv preprint arXiv: 1905.05055, 2019.
[20]	Zoph B, Cubuk E D, Ghiasi G, et al. Learning data augmentation strategies for object detection[C]//European Conference on Computer Vision, 2020: 566-583.

施引文献

资源附件(0)

图(4) / 表(2)

计量

文章访问数: 150
HTML全文浏览量: 34
PDF下载量: 42
被引次数: 0

0. 引言
1. 相关理论
1.1 生成对抗网络
1.2 Transformer模型
2. 本文算法
2.1 TGAN网络增强模型
2.2 GFMT全局特征建模模块
2.3 MSFFT特征提取模块
2.4 损失函数
3. 实验结果与分析
3.1 实验数据
3.2 实验设置
3.3 实验分析
3.3.1 消融实验
3.3.2 对比实验
4. 结论

0. 引言
1. 相关理论
1.1 生成对抗网络
1.2 Transformer模型
2. 本文算法
2.1 TGAN网络增强模型
2.2 GFMT全局特征建模模块
2.3 MSFFT特征提取模块
2.4 损失函数
3. 实验结果与分析
3.1 实验数据
3.2 实验设置
3.3 实验分析
3.3.1 消融实验
3.3.2 对比实验
4. 结论

参考文献(20)

施引文献

资源附件(0)

一种基于多尺度的目标检测锚点构造方法

作者简介: 邵延华（1982-），男，四川省绵阳市人，博士，讲师，主要研究方向为计算机视觉与图像处理、深度学习。E-mail：syh@alu.cqu.edu.cn

计量

出版历程