Multi-scale Anchor Construction Method for Object Detection
-
摘要: 目标检测是计算机视觉领域的研究热点和基础任务,其中基于锚点(Anchor)的目标检测已在众多领域得到广泛应用。当前锚点选取方法主要面临两个问题:基于特定数据集的先验取值尺寸固定、面对不同场景泛化能力弱。计算锚框的无监督K-means算法,受初始值影响较大,对目标尺寸较单一的数据集聚类产生的锚点差异较小,无法充分体现网络多尺度输出的特点。针对上述问题,本文提出一种基于多尺度的目标检测锚点构造方法(multi-scale-anchor, MSA),将聚类产生的锚点根据数据集本身的特性进行尺度的缩放和拉伸,优化的锚点即保留原数据集的特点也体现了模型多尺度的优势。另外,本方法应用在训练的预处理阶段,不增加模型推理时间。最后,选取单阶段主流算法YOLO(You Only Look Once),在多个不同场景的红外或工业场景数据集上进行丰富的实验。结果表明,多尺度锚点优化方法MSA能显著提高小样本场景的检测精度。
-
关键词:
- 目标检测 /
- 锚点 /
- 红外 /
- YOLO(You Only Look Once) /
- 多尺度分析
Abstract: Object detection is a popular research topic and fundamental task in computer vision. Anchor-based object detection has been widely used in many fields. Current anchor selection methods face two main problems: a fixed size of a priori values based on a specific dataset and a weak generalization ability in different scenarios. The unsupervised K-means algorithm for calculating anchor frames, which is significantly influenced by initial values, generates less variation in anchor points for clustering datasets with a single object size and cannot reflect the multiscale output of the network. In this study, a multiscale anchor (MSA) method that introduces multiscale optimization was developed to address these issues. This method scales and stretches the anchor points generated by clustering according to the dataset characteristics. The optimized anchor points retain the characteristics of the original dataset and reflect the advantages of the multiple scales of the model. In addition, this method was applied to the preprocessing phase of training without increasing the model inference time. Finally, the single-stage mainstream algorithm, You Only Look Once (YOLO), was selected to perform extensive experiments on different scenes of the infrared and industrial scene datasets. The results show that the MSA method can significantly improve the detection accuracy of small-sample scenes.-
Keywords:
- object detection /
- anchor /
- YOLO (You Only Look Once) /
- infrared /
- multi-scale analysis
-
0. 引言
图像融合是一种图像增强技术,它的目标是将多个传感器采集到的有效信息结合到一起,得到一幅信息较全面的图像,以供后续处理或辅助决策。红外与可见光融合是近几年较为热门的一种图像融合技术。其中红外成像传感器能根据热辐射的不同,可将目标与背景区域区分开,具有全天时全天候工作的能力,即使在雨雪等恶劣条件下仍具有良好的目标检测识别能力,但图像分辨率低、对比度差、边缘模糊;可见光图像可以提供与人眼视觉相似的高分辨率,能获取场景、纹理等信息,但容易受外界光照、天气等因素的影响。因此,将可见光与红外图像的信息互补融合在一起,可生成目标显著、纹理细节丰富的高质量图像,广泛应用于军事侦察、实时监控、汽车自动驾驶等领域[1-2]。
早期研究人员一般采用基于稀疏表示(Sparse Representation,SR)[3]、低秩表示(Low Rank Repre-sentation,LRR)[4-5]、多尺度变换等传统算法实现红外与可见光图像的融合。基于SR和LRR的融合方法[6-9]中,利用滑动窗把原始影像分割成影像块,再把影像块构建成矩阵,该矩阵被反馈送到SR(或LRR)中计算SR(或LRR)系数,利用这些系数表征图像特征。通过该运算,将图像融合问题转化为系数融合问题。融合系数由适当的融合策略生成,然后在SR(或LRR)框架中重构融合图像。多尺度变换方法[10-14]首先对源图像进行多尺度分解,然后设计相应的融合规则对不同尺度的图像进行融合,最后进行多尺度逆变换重构融合图像。这些图像融合算法的融合性能高度依赖于所使用的特征提取方法,且需人工设计融合规则,计算复杂度高,缺乏通用性。
近年来,由于卷积运算强大的特征提取能力,基于深度学习的图像融合算法在图像融合领域得到了飞速发展。2018年,Liu等人[15]提出一种基于卷积神经网络的多聚焦图像融合方法,打破了传统融合算法手动设计图像活动水平测量的约束,但该算法网络层数较少,特征提取能力不足,融合图像存在信息缺失。2019年,Ma等人[16]提出FusionGAN,将生成对抗网络引入图像融合领域,但该算法在对抗训练时,判别器仅以可见光图像作为参照,使得融合图像对比度强但细节纹理不明显。2020年,Ma等人[17]又提出一种GANMcC算法,利用多分类约束生成对抗网络进一步将图像融合问题转化为多分类限定问题,但该算法缺少对源图像非典型特征的抑制。Prabhakar等人[18]提出了一种无监督的深度学习框架DeepFuse,实现多曝光图像的融合,其自编码网络思想被很多研究者采纳,但其网络结构简单,图像深度特征提取不充分。Li等人[19]将密集连接模块引入编码器结构中,以获取图像深层特征,但该算法网络结构简单,不能提取图像多尺度特征,融合图像对比度不足。Zhang等人[20]提出了一种基于卷积神经网络的融合框架,这是一种简单而有效的图像融合架构,但其仅用单一尺度对图像进行特征提取,导致部分特征缺失。
针对上述问题,本文提出一种多尺度和卷积注意力相结合的红外与可将光图像融合算法。首先,编码器采用多尺度卷积操作提取红外和可见光图像不同感受野的特征信息,以克服单一尺度卷积核特征提取不足的问题,同时为了获取全局关联信息,引入改进的可变形卷积注意力模块(Deformable-Convolutional Block Attention Module, D-CBAM)[21],把网络生成的特征图和通过空间注意力和通道注意力得到的注意力特征图进行加权,增强网络对红外和可见光图像重要特征的表达能力。其次,将编码器提取到的红外和可见光的图像特征输入融合层,融合策略中引入空间注意力和通道注意力机制,以融合红外与可见光的典型目标和纹理细节等重要特征。最后,构建三层卷积块组成的解码器,对融合后的特征进行重构,得到最终的融合图像。训练阶段舍弃融合层,并利用混合损失函数进行约束,提升模型学习图像均方误差、结构和色彩等图像特征的能力。
1. 本文算法
1.1 网络总体框架
多尺度和卷积注意力相结合的红外与可见光图像融合方法总体框架如图 1所示。
整体框架由3部分组成:编码器、融合层和解码器。融合时,首先将红外与可见光图像作为源图像输入编码器,通过一层卷积核大小为3×3的卷积层和三层多尺度可变形卷积注意力模块(Multi-scale Deformable-Convolutional Block Attention Module, MSCB)组成的编码器提取源图像的多通道显著特征信息;然后,引入基于空间注意力和通道注意力的双重注意力机制融合策略对编码器提取到的特征进行融合;最后,在解码器中对融合后的特征信息进行重构,输出最终的融合图像。
1.2 编码器
本文编码器由一个单一尺度卷积核的卷积块和3个MSCB组成,每个MSCB包含4个独立分支和一个D-CBAM。4个独立分支采用不同尺度的卷积核,可以提取图像不同感受野的特征信息,丰富图像信息。卷积注意力模块可以捕获红外与可见光图像的全局依赖关系,增强红外与可见光轮廓及纹理细节等信息。
1.2.1 多尺度可变形卷积注意力网络
红外与可见光图像融合旨在将红外目标和可见光的场景纹理信息更好地结合在一起,因此需要提取源图像多尺度的区域特征,以更好地表征红外目标和可见光的纹理细节信息。而在常见的基于卷积神经网络的深度学习方法中,大都采用单一尺度卷积核的卷积块提取图像特征,导致无法对源图像的特征信息进行全面的提取。Szegedy等人[22]提出深度卷积神经网络Inception module模型,该模型通过使用不同大小卷积核的卷积块对源图像不同感受野的特征信息进行提取,从而获得图像不同尺度的特征信息,成功应用于图像分类和图像检测等多种任务中。受其启发,本文提出一种多尺度卷积注意力模块MSCB,结构如图 2所示。
其中,Fi表示输入特征,Fo表示经MSCB提取加强后的特征,即MSCB的输出。每个MSCB包含4个独立分支和一个注意力模块,每个分支结构由不同卷积核的卷积层组成,MSCB模块参数如表 1所示。
表 1 MSCB模块参数设置Table 1. MSCB module parameter settingsKernel size Outputs channel Activation function Branch1 1×1 16 R-Relu Branch2 3×3Maxpooling
1×116
16R-Relu Branch3 1×1
3×3
3×332
64
16R-Relu
R-Relu
R-ReluBranch4 1×1
1×7
7×164
128
16R-Relu
R-Relu
R-Relu分支一可以减少中间层信息的损失;分支二使网络能够更好地提取源图像的背景信息;分支三与分支四增加网络感受野,提取多个尺度的特征信息,丰富融合图像信息。其中,分支三用两个卷积核大小为3×3的卷积层替代卷积核大小为5×5的卷积层,分支四用一个卷积核大小为1×7的卷积层和一个卷积核大小为7×1的卷积层替代卷积核大小为7×7的卷积层,每一分支使用卷积核大小为1×1的卷积层为该分支降维,以降低模型参数量和计算量、增加网络深度,加快计算速度并增强网络的非线性特性。之后,将4个分支的输出进行级联操作,然后将其输入到D-CBAM中,对每一通道信息赋值权重,使更具作用的信息被赋予更大权重,大大提升了对图像特征的提取能力,从而提升融合图像的质量。
1.2.2 可变形卷积注意力机制
在深度学习构建图像融合的众多方法中,注意力机制是最有效的建模方法之一。目前常用的注意力机制主要有通道注意力、空间注意力、通道与空间注意力等;通道注意力机制旨在显示不同通道之间的相关性,空间注意力机制旨在提升关键区域的特征表达,通道与空间注意力机制结合了通道注意力和空间注意力的形式形成一种更加综合的特征注意力机制,例如卷积注意力模块(Convolutional Block Attention Module, CBAM)[23]。
CBAM包含通道注意力(Channel Attention Module, CAM)和空间注意力(Spatial Attention Module, SAM)两个子模块,所提算法选用可变形卷积注意力模块(D-CBAM),就是将CBAM中的SAM子模块中的卷积层换成可变形卷积块,从而增大卷积块的感受野,使重要信息更易被关注到,并予以更大权重,使编码器提取到更加重要的特征信息,并降低信息冗余。其结构示意图如图 3所示。
1.3 融合层
简单的加权平均融合策略没有对提取的特征图进行筛选,容易引入噪声造成融合图像存在伪影[24]。空间注意力和通道注意力可以同时在空间和通道维度上对深度网络提取的深度特征进行提取,从而增强红外与可见光轮廓和纹理细节等特征信息。因而,本文使用基于空间和通道注意力双重注意力机制的融合策略,融合策略结构如图 4所示。
图 4中,Fv和Fi为由编码器分别从可见光图像和红外图像中提取的多尺度深度特征,FS和FC分别为通过空间注意力模型和通道注意力获得的融合特征,Ff为经融合层融合得到的多尺度深度特征,将其作为解码器网络的输入。其中,由FS和FC得到Ff的表达式为:
$$ F_{\rm f}=0.6×F_{\rm S}+0.4×F_{\rm C} $$ (1) 1.3.1 空间注意力模块
空间注意力模型是在图像融合任务中利用基于空间的融合策略,因红外图像中的显著目标亮度较大,为增强融合图像的显著目标对比度,将soft-max算子进行改进,输入特征Fv和Fi通过全局平均池化层和改进后的soft-max算子(Isoft-max)计算获得权重图αv和αi,其计算表达式为:
$$ \begin{aligned} & \alpha_{\mathrm{v}}(x, y)=\left\{\begin{array}{l} 0, I_{\mathrm{ir}}(x, y)>220 \\ \frac{\mid \mathrm{e}^{-F_v(x, y) \|_1}}{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}+\mathrm{e}^{\left\|F_{\mathrm{v}}(x, y)\right\|_1}}, 25 \leq I_{\mathrm{ir}}(x, y) \leq 220 \\ 1, I_{\mathrm{ir}}(x, y)<25 \end{array}\right. \\ & \alpha_{\mathrm{i}}(x, y)=\left\{\begin{array}{l} 1, I_{\mathrm{ir}}(x, y)>220 \\ \frac{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}}{\mathrm{e}^{\left\|F_{\mathrm{i}}(x, y)\right\|_1}+\mathrm{e}^{\left\|F_{\mathrm{v}}(x, y)\right\|_1}}, 25 \leq I_{\mathrm{ir}}(x, y) \leq 220 \\ 0, I_{\mathrm{ir}}(x, y)<25 \end{array}\right. \end{aligned}$$ (2) 式中:||⋅||1表示L1范数;(x, y)表示像素对应位置坐标。
然后,将输入特征(Fv和Fi)与权重图(αv和αi)做相乘操作得到增强后的可见光图像特征$ {\hat F_{\text{v}}} $和红外图像特征$ {\hat F_{\text{i}}} $。最后,将增强后的特征相加得到空间注意力模型增强后的特征Fs,计算表达式为:
$$ F_{\rm S}= {\hat F_{\text{v}}} + {\hat F_{\text{i}}} $$ (3) 1.3.2 通道注意力模块
通道注意力模型是在图像融合任务中利用基于信道信息的融合策略,输入特征Fv和Fi通过全局池化算子计算获得初始加权向量,这里,全局池化算子选用核范数算子,它是一个通道的奇异值之和,通道所包含重要信息越多奇异值之和越大;最后通过soft-max算子计算得到加权向量βv和βi,计算表达式为:
$$ {\beta _n}\left( m \right) = \frac{{G\left( {{F_n}\left( m \right)} \right)}}{{G\left( {{F_{\rm i}}\left( m \right)} \right) + G\left( {{F_{\rm v}}\left( m \right)} \right)}} $$ (4) 式中:n∈{v, i},m表示输入特征中通道的对应索引;G表示全局池化算子。
然后,将输入特征Fv和Fi与加权向量βv和βi做相乘操作得到增强后的可见光图像特征$ {\tilde F_{\text{v}}} $和红外图像特征$ {\tilde F_{\text{i}}} $。最后,将增强后的特征相加得到通道注意力模型增强后的特征FC,计算表达式为:
$$ F_{\rm C}= {\tilde F_{\text{v}}} + {\tilde F_{\text{i}}} $$ (5) 1.4 解码器
解码器网络结构由三层卷积核大小为3×3卷积块组成,步长均为1,输出通道分别为32、16、1,将融合层的输出作为解码器网络的输入,经最后一层卷积重构出灰度融合图像。网络卷积块均舍弃批量归一化层(Batch Normalization),以减少融合图像伪影,提高计算网络计算速率。激活函数均为R-Relu。
1.5 损失函数
设计了一种训练阶段的损失函数L,由均方误差LMSE、多尺度结构相似性度量误差LMS-ssim和色彩感知误差LC共同约束,保证网络进行合理的优化迭代,其表达式为:
$$ L=L_{\rm {MSE}}+μL_{\rm C}+λL_{\rm {Ms-ssim}} $$ (6) 式中:λ和μ为权重系数。
均方误差是利用融合图像与源图像之间像素差的均方值衡量两幅图像间的差异,计算表达式为:
$$ {L_{{\text{MSE}}}} = \frac{1}{{W \times H}}\Sigma {\left( {{F_{{\text{to}}}} - {I_{{\text{ti}}}}} \right)^2} $$ (7) 式中:Fto表示重构图像;Iti表示输入图像;W表示图像的宽;H表示图像的高。
色彩感知误差是通过计算图像的颜色直方图误差来增强融合图像的亮度对比度,从而保证融合图像能够突出可见光图像的纹理以及红外图像的热辐射信息,其计算表达式为:
$$ {L_{\text{C}}} = \frac{1}{{255}}\parallel {\text{Histogram}}\left( O \right) - {\text{Histogram}}\left( I \right){\parallel _2} $$ (8) 式中:Histogram(⋅)表示颜色直方图;||⋅||2表示二范数。
多尺度结构相似性度量误差通过亮度因子L(x, y)对比度因子C(x, y)和结构因子S(x, y)衡量输入图像与重构图像的相似程度,其计算表达式为:
$$ L_{\mathrm{Ms}-\text {ssim }}=1-\mathrm{MS} \_\operatorname{SSIM}(O, I) $$ (9) $$ \left\{\begin{array}{c} L(x, y)=\frac{2 \mu_x \mu_y+c_1}{\mu_x^2+\mu_y^2+c_1} \\ C(x, y)=\frac{2 \sigma_x \sigma_y+c_2}{\sigma_x^2+\sigma_y^2+c_2} \\ S(x, y)=\frac{\sigma_{x y}+c_3}{\sigma_x \sigma_y+c_3} \\ \operatorname{MS}_{-} \operatorname{SSIM}(x, y)=\left[L_M(x, y)\right]^{\alpha_M} \\ \prod\limits_{j=1}^M\left[C_j(x, y)\right]^{\beta_j} \cdot\left[S_j(x, y)\right]^{\gamma_j} \end{array}\right. $$ (10) 式中:MS_SSIM(x, y)表示两个图像间的多尺度结构相似度;(x, y)表示像素坐标;μx和μy分别表示x和y的均值;σx和σy分别表示x和y的标准差,σxy表示x、y的协方差,αj=βj=γj,j={1, …, M},c1, c2, c3是常数,用于保证函数稳定性。
2. 实验结果
2.1 实验设置
训练阶段时舍弃融合层,只训练编码器网络和解码器网络,使模型能更精确地重建输入图像,减少重建图像的损失,训练网络结构如图 5所示。
训练数据集选用MS-COCO数据集[25],选择80000张图像转换为灰度图像,并调整为256 pixel×256 pixel作为输入图像,网络优化器选用Adam, epoch=2, batch size=4,学习率为1×10-4,填充方式为反射填充,填充数p的计算表达式如式(11)所示:
$$ p = {\text{ron(}}\frac{{{\text{kernel}}}}{2}) $$ (11) 式中:ron()为取整函数,kernel为卷积核大小。损失函数参数λ=700,μ=0.01,硬件配置环境为NVIDIA GeForce RTX 3090 24GB、12th Gen Intel(R) Core(TM) i7-12700。
为验证所提方法的有效性,选择7种近几年提出的经典融合算法进行比较,包括统一无监督网络(U2Fusion)[26]、压缩分解网络(SDNet)[27]、密集连接网络(DenseFuse)[19]、生成对抗网络(FusionGAN)[16]、多分类约束(GANMcC)[17]、通用的有监督图像融合网络(IFCNN)[20]、嵌套连接网络(NestFuse)[28],并通过主客观评价指标进行评价分析。
2.2 融合图像主观评价
在TNO [29]和RoadScene数据集[30]中分别选取两组(Scene 1~2)和4组(Scene 3~6)图像进行实验分析,实验结果如图 6所示,采用实线框标记背景纹理、虚线标记红外显著目标。
可以看出,SDNet算法采用压缩分解网络实现红外与可见光图像融合,一定程度上保留了红外显著目标,但存在伪影,树叶、天空等背景纹理方面表现较差;NestFuse算法采用嵌套连接网络实现图像融合,对树叶等背景纹理信息处理表现较好,但云层等背景信息对比度差;DenseFuse算法采用密集连接网络保留红外图像与可见光图像特征,融合图像在保留背景纹理方面表现较好,但未能突出红外目标且树叶等背景纹理信息处理欠佳;FusionGAN算法采用了生成对抗网络实现红外与可见光图像融合,保留了红外显著目标,但树叶等背景纹理信息严重丢失;GANMcC算法在突出红外辐射信息方面较好,但融合图像存在少量伪影,细节纹理清晰度较低;IFCNN算法生成的融合图像未能很好区分红外显著目标与背景纹理,对比度较低;如图 6中Scene1所示,U2Fusion算法未能突出红外显著目标,对比度较差;所提算法生成的融合图像更能凸显红外显著目标,同时保留背景纹理细节,更符合人类视觉系统特征。
2.3 融合图像客观评价
主观评价存在人为主观因素,具有一定的随机性和片面性。为了更好地分析融合图像的质量,选取4种基于融合图像质量的客观评价指标均方误差(mean squared error,MSE)、信息熵(entropy,EN)、标准差(standard deviation,STD)、空间频率(spatial frequency,SF)和3种基于融合图像与源图像的客观评价指标互信息(mutual information,MI)、边缘保持度(QAB/F)、结构相似度(structural similarity,SSIM)对融合图像质量进行对比实验分析。
从TNO和VOT数据集[31]中共选取40对红外与可见光图像,并以5对图像为一组,分为8组作为对比测试集。表 2中示出了通过现有融合算法和所提算法获得的所有融合图像的7个评价指标得分的平均值。将得出的指标得分按分组取均值后以折线图的形式进行可视化,图 7为不同算法的客观评价指标折线图。
表 2 TNO数据集与VOT数据集对比实验客观评价指标均值Table 2. Mean values of objective evaluation indicators in comparative experiments between TNO dataset and VOT datasetAlgorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2704 10.45 11.54 0.68 0.45 36.33 6.95 SDNet 2936 10.49 11.82 0.70 0.45 33.14 6.69 DenseFuse 2696 10.61 8.77 0.72 0.45 34.83 6.78 NestFuse 2999 11.33 10.02 0.71 0.53 41.67 6.98 IFCNN 2701 10.68 12.42 0.71 0.53 35.43 6.74 FusionGAN 3645 10.48 6.08 0.66 0.22 29.61 6.52 GANMcC 3290 10.55 6.14 0.69 0.28 33.33 6.72 Ours 2657 11.67 10.91 0.71 0.56 42.71 7.01 Note: Bold font is the optimal value for each column 可以看出,所提算法在实验中,7项指标中有5项指标为最优值。SSIM指标得分与DenseFuse得分仅有较小差距;尤其较GANMcC算法,QAB/F指标提高了约100%,SF指标提高了约77.69%,说明用所提图像融合算法融合的图像中纹理与边缘信息更加清晰丰富。同时,MSE、SF、QAB/F、STD4项指标较其他7种对比算法的平均值提高了10.3%、23.6%、48.5%、23.5%。说明所提图像融合算法相较于其它对比算法具有较好的边缘保持性、源图像信息保留度、视觉效果及较高的融合图像质量。
为进一步验证所提算法的性能,选择含有221对红外与可见光图像对的RoadScene数据集与其它7种融合算法进行比较,现有融合算法和所提出的融合算法获得的所有融合图像的7个评价指标得分的平均值如表 3所示,其中加粗字体为最优值。从实验各项评价指标得分的均值可以看出,所提算法在7项指标中的5项指标均为最优值。其中MSE、SF、QAB/F、STD指标分别平均提高了21%、16.6%、28.6%、16.6%;从而进一步表明所提算法相较于其它7种对比算法具有更好的图像融合效果。
表 3 RoadScene数据集对比实验客观评价指标均值Table 3. Mean of objective evaluation indicators for comparative experiments on the RoadScene datasetAlgorithms MSE MI SF SSIM QAB/F STD EN U2Fusion 2273 11.77 15.01 0.68 0.51 42.87 7.26 SDNet 2866 12.10 15.03 0.70 0.51 44.97 7.31 DenseFuse 2919 11.82 12.32 0.69 0.48 42.57 7.22 NestFuse 2319 12.45 13.28 0.67 0.50 49.97 7.38 IFCNN 2328 11.77 15.07 0.70 0.51 39.18 7.12 FusionGAN 4460 11.65 8.32 0.59 0.26 38.98 7.06 GANMcC 3807 11.80 8.99 0.65 0.35 43.76 7.23 Ours 2231 12.57 13.90 0.69 0.54 50.03 7.40 Note: Bold font is the optimal value for each column 以上实验结果说明所提算法在红外与可见光图像融合任务中不仅可以保留丰富信息,还有更好的结构和清晰度,且融合图像视觉效果更加自然。
2.4 消融实验
为进一步验证所提算法中提出的各模块的有效性,进行以下消融实验:实验1编码器使用3个单一尺度卷积块(Conv);实验2编码器使用3个单一尺度卷积和卷积注意力机制(Conv+D-CBAM);实验3编码器使用3个多尺度卷积注意力模块(MSCB)。
在TNO数据集中随机选择一组图像结果作为消融实验结果,实验结果如图 8所示。
通过观察发现,实验2融合图像亮度信息和细节纹理信息较好,但对比度较差,实验1相较于实验2对比度有较多提升,但细节纹理信息不足。实验3融合结果改善了上述缺点,结合了二者优点,融合图像很好地保留了红外与可见光图像中的特征信息,纹理信息丰富,有较好对比度。融合效果良好。
另外,表 4是实验融合图像的客观评价指标结果,最优值用加粗标记。所提算法取得了6个最优值,在SF、MI、STD和QAB/F指标上相较于实验2提升较多,这说明融合图像在信息保留度、细节纹理以及视觉方面效果更优。
表 4 消融实验客观指标Table 4. Objective indicators of ablation experimentsExperiment MSE MI SF SSIM QAB/F STD EN Conv 2002 10.58 8.59 0.70 0.45 35.88 6.77 Conv + D-CBAM 1832 10.61 8.86 0.69 0.47 36.21 6.80 MSCB 2122 11.51 10.08 0.71 0.51 39.51 6.95 Note: Bold font is the optimal value for each column 3. 结论
本文提出了一种多尺度和卷积注意力相结合的红外与可见光图像融合算法。首先,在自编码器网络中采用多尺特征提取模块和卷积注意力机制对源图像特征进行提取,同时提取源图像的浅层细节特征和深层显著特征;其次,采用一种基于两阶段注意力模型的融合策略,融合可见光与红外图像的典型目标特征和纹理细节特征,舍弃无用特征,经编码器网络重构最终的融合图像。在两组对比实验中,相较于其他对比实验,所提算法在7种客观评价指标中均有5种评价指标取得最佳。其中,在TNO与VOT数据集对比实验中,在MSE、SF、QAB/F、STD指标相较于其他7种对比算法均值分别提高了10.3%、23.6%、48.5%、23.5%;在RoadScene数据集对比实验中,MSE、SF、QAB/F、STD指标相较于其他7种对比算法均值分别提高了21%、16.6%、28.6%、16.6%。通过对比实验结果证明,所提算法在红外与可见光图像融合任务中不仅可以保留丰富的信息,还有更好的结构和边缘信息清晰度,在客观方面和主观方面均取得较好的融合效果。
-
表 1 不同Anchor在四类数据集上的对比结果
Table 1 Comparison results of different anchors on four data sets
Anchor ComNet/(%) TDP/(%) Roboflow-mask(%) Vox/(%) COCO
K-means
MSA96.86 90.03 66.20
66.60(+0.40)
67.00(+0.80)89.36 97.12(+0.26) 90.90(+0.87) 91.03(+1.67) 97.24(+0.38) 91.74(+1.77) 91.44(+2.08) 表 2 Vox数据集在不同网络的表现
Table 2 Performance of different networks on Vox datasets
Network Anchor MAP@0.5(%) YOLOv3-tiny COCO 89.36 K-means 91.03(+1.67) MSA 91.44(+2.08) YOLOv4-tiny COCO 90.16 K-means 90.35(+0.19) MSA 91.56(+1.4) YOLOv3 COCO 92.69 K-means 93.32(+0.63) MSA 93.59(+0.90) YOLOv5s COCO 94.88 K-means 95.02(+0.14) YOLOv5s-Aut 94.82(−0.06) MSA 95.63(+0.75) -
[1] 伏轩仪, 张銮景, 梁文科, 等. 锚点机制在目标检测领域的发展综述[J]. 计算机科学与探索, 2022, 16(4): 791-805. FU Xuanyi, ZHANG Luanjing, LIANG Wenke, et al. Review on the development of anchor mechanism in object detection[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(4): 791-805.
[2] 易诗, 周思尧, 沈练, 等. 基于增强型轻量级网络的车载热成像目标检测方法[J]. 红外技术, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f YI Shi, ZHOU Siyao, SHEN Lian, et al. Vehicle-based thermal imaging object detection method based on enhanced lightweight network[J]. Infrared Technology, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f
[3] 顾佼佼, 李炳臻, 刘克, 等. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9 GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship object detection algorithm based on improved faster R-CNN[J]. Infrared Technology, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9
[4] 邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708. SHAO Yanhua, ZHANG Duo, CHU Hongyu, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3697-3708.
[5] ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9759-9768.
[6] LIN T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context[C]//European Conference on Computer Vision, 2014: 740-755.
[7] LAW H, DENG J. Cornernet: detecting objects as paired key-points[C]//Proceedings of the 15th European Conference on Computer Vision, 2018: 765-781.
[8] YUAN C, YANG H. Research on K-value selection method of K-means clustering algorithm[J]. Multidisciplinary Scientific Journal, 2019, 2(2): 226-235. DOI: 10.3390/j2020016
[9] LI M, ZHAO X, LI J, et al. ComNet: combinational neural network for object detection in UAV-Borne thermal images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(8): 6662-6673. DOI: 10.1109/TGRS.2020.3029945
[10] LUO Y, SHAO Y, CHU H, et al. CNN-based blade tip vortex region detection in flow field[C]//Eleventh International Conference on Graphics and Image Processing, 2020, 11373: 113730P.
[11] ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Association for the Advance of Artificial Intelligence(AAAI 2020), 2020: 12993-13000.
[12] FU C Y, LIU W, Ranga A, et al. Dssd: Deconvolutional single shot detector[J/OL]. arXiv preprint arXiv: 1701.06659, 2017.
[13] LIN T, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(2): 318-327.
[14] CAI Z, FAN Q, FE RIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]//Proceedings of the 14th European Conference on Computer Vision, 2016: 354-370.
[15] ZHU C, TAO R, LU K, et al. Seeing small faces from robust anchor's perspective[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 5127-5136.
[16] KE W, ZHANG T, HUANG Z, et al. Multiple anchor learning for visual object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10206-10215.
[17] Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J/OL]. arXiv preprint arXiv: 1710.05941, 2017.
[18] KONG T, SUN F, LIU H, et al. Foveabox: beyond anchor-based object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398. DOI: 10.1109/TIP.2020.3002345
[19] ZOU Zhengxia, SHI Zhenwei, GUO Yuhong, et al. Object detection in 20 years: a survey[J/OL]. arXiv preprint arXiv: 1905.05055, 2019.
[20] Zoph B, Cubuk E D, Ghiasi G, et al. Learning data augmentation strategies for object detection[C]//European Conference on Computer Vision, 2020: 566-583.