A Small Target Detection Algorithm from UAV Perspective
-
摘要: 使用无人机对场景区域中的人、车、物、事等小目标进行实时有效监测有利于维护公共安全。针对无人机视角下小目标存在的目标遮挡、重叠、复杂环境干扰等问题,提出一种无人机视角下的小目标检测算法,该算法使用You Only Look Once X(YOLOX)网络作为基线系统,首先在Neck网络部分增大输出特征图减小感受野提高网络的细节表现能力,删除小尺寸特征图的检测头提高小目标的检出率;其次使用Anchor Free的关联机制,降低真值标签中噪声的影响并同时减少参数设置加快网络运行;最后提出一种小目标真实占比系数来计算小目标的位置损失,该系数增大对小目标误判的惩罚使网络对小目标更加敏感。使用该算法在VisDrone2021数据集上进行实验,mAP值较基线系统提高了4.56%,参数量减少29.4%,运算量减少32.5%,检测速度提升19.7%,较其他主流算法也具有优势。
-
关键词:
- YOLOX /
- VisDrone2021 /
- 小目标 /
- 无人机航拍
Abstract: The use of unmanned aerial vehicles (UAVs) for effective real-time monitoring of small targets, such as people, cars, and objects in the scene area, can help maintain public security. To address the problems of small-target occlusion, overlapping, and interference of complex environments in UAV images, a small-target detection algorithm is proposed from the UAV perspective. The algorithm uses the YOLOX network as the baseline system. First, the neck part of the network increases the output feature graph to reduce the receptive field, thereby improving the performance of the network details, and the detection head of the small-sized feature graph is deleted to improve the detection rate of small targets. Second, the anchor-free association mechanism is used to reduce the influence of noise in the truth tag while simultaneously reducing the parameter setting to speed up network operations. Finally, a true proportion coefficient is proposed for small targets to calculate position loss, thereby increasing the penalty for misjudging small targets, which makes the network more sensitive to small targets. Experiments on the VisDrone2021 dataset using this algorithm showed that the mAP value increased by 4.56%; the number of parameters decreased by 29.4%; the amount of computation decreased by 32.5%; and the detection speed increased by 19.7% compared with those of the baseline system, which is an advantage over other mainstream algorithms.-
Keywords:
- YOLOX /
- VisDrone2021 /
- small object /
- drone aerial photography
-
0. 引言
图像融合的目的在于从多个不同传感器或不同拍摄设备下获取的图像中提取最相关的信息,并将这些信息融合生成单幅信息更完备、对后续应用更有利的图像[1-2]。其中,红外与可见光图像融合是最广泛应用之一。红外图像通常具有较强的穿透力,对光线不敏感,可以不受恶劣天气或者光线的影响,能够较好地捕获目标信息;相比之下,可见光图像空间分辨率较高,然而容易受到天气、光照及遮挡等因素的影响。红外与可见光图像融合已经广泛应用于生成同时保留两种图像模态特点的合成图像,以增强图像中显著目标。在人类视觉感知、军事应用、遥感、目标检测和医学成像、航空航天等领域得到广泛应用[3-4]。
红外与可见光图像融合方法通常可以分为两类,即传统方法和深度学习方法[5-9]。深度学习的方法可以利用神经网络强大的特征提取能力和图像重建能力来不断改善融合性能;传统方法通过使用相关的数学变换对活动水平进行空间域或变换域的测量,代表性方法有:基于多尺度变换的方法、基于稀疏表示的方法、基于显著性的方法等。多尺度变换方法是传统方法中常用的方法,在多尺度变换方法中,保边滤波器被广泛使用,它具有空间一致性,可以有效地减少图像边缘伪影并展现出良好的融合效果。Li等人[10]成功实现了图像融合时平滑处理和保边特性的相结合,从而克服了传统多尺度融合方法对融合尺度的限制。Zhan等人[11]利用联合双边滤波器的保边特性设计了一种采用迭代联合双边滤波器优化决策图的融合方法。Jian等人[12]通过将滚动引导滤波和联合双边滤波相结合,实现了对源图像细节的保留和伪影抑制的有效处理。Kong等人[13]在引导滤波器和随机游走模型均具有保边平滑特性的基础上,提出一种引导滤波随机游走和改进的脉冲皮层模型(improved pulse cortex model, ISCM)的图像融合方法。Feng等人[14]提出了一种新的基于变换域双边纹理滤波的方法,该方法通过应用双边纹理滤波器在变换域中对图像进行处理,能够很好地保留源图像的边缘信息和结构信息。这些图像融合方法取得了较好的图像融合效果,但在多尺度分解过程中面临着如何平衡边缘保留、纹理细节信息平滑、亮度对比度变化捕捉的问题,从而导致融合算法目标不突出,边缘不够清晰、对比度低。
为解决以上问题以及提高算法运算效率,同时进一步提升融合图像的质量。利用快速联合双边滤波器保边平滑特性,在平滑图像、去噪的同时能够很好地保留图像的边缘信息,具有较高的运算效率;仿生物视觉机制的脉冲耦合神经网络因其出色的图像特征提取能力,能够有效地模拟人眼视觉神经系统,具有一定的鲁棒性,可以提高融合图像的质量。结合快速联合双边滤波器与PCNN的优势,本文提出了一种基于快速联合双边滤波器与改进PCNN红外与可见光图像融合方法。首先,采用快速联合双边滤波器对源图像进行分解,依次获得基础层图像和细节层图像;然后,针对基础层图像的融合,采用了一种加权平均融合规则,该规则基于视觉显著图(VSM),以使得能够有效提取出图像中的显著结构和目标信息;针对细节层图像采用参数自适应脉冲耦合神经网络模型进行融合,其中PCNN的所有参数都可以根据输入波段自适应确定;最后,将基础层融合图与细节层融合图叠加重构得到融合图像。实验结果表明,该方法极大地增强了融合图像的效果,并有效地保持了目标、背景细节以及边缘等重要信息的完整性。
1. 基本理论
1.1 联合双边滤波器
联合双边滤波器(Joint Bilateral Filter,JBF)是常见的一种非线性保边滤波器[15],其改善了双边滤波器权值不稳定的弊端,避免了在边缘附近会出现部分翻转的问题,因此近年来被广泛用于图像融合领域。它是一种基于双边滤波器的图像滤波技术,可以同时对图像的空间信息和颜色信息进行处理,去除噪声并保留图像细节。可以用下式来表示:
$$ {I_{JBF}}\left( i \right) = \frac{1}{{K\left( i \right)}}\sum\limits_{j \in S} {{{\text{e}}^{ - \frac{{{{\left\| {i - j} \right\|} ^2}}}{{\sigma _{\text{s}}^2}}}}} {{\text{e}}^{ - \frac{{{{\left\| {G\left( i \right) - G\left( j \right)} \right\|} ^2}}}{{\sigma _{\text{r}}^2}}}} $$ (1) 式中:IJBF(i)为联合双边滤波输出;i、j表示空间坐标;K(i)为归一化因子;G为引导图像;σs是空间滤波强度;σr为灰度滤波强度;S为滤波窗口,像素i和j之间的欧氏距离是||i-j||。
引导图G在引导滤波中的作用主要是提供引导和约束,使得滤波过程能够更好地保持边缘和纹理细节,通过利用引导图像的信息,滤波算法能够更好地理解图像的结构,从而更加准确地进行滤波操作。图像I经过联合双边滤波器分解过程通式为:
$$ F_{\mathrm{JBF}}=\operatorname{JBF}\left(I, G, \sigma_{\mathrm{s}}, \sigma_{\mathrm{r}}\right) $$ (2) 1.2 改进的快速联合双边滤波器
在联合双边滤波器基础上,本文提出了快速联合双边滤波器(fast joint bilateral filter,FJBF),快速联合双边滤波器改进了传统双边滤波器中的引导图,采用快速引导滤波后的图像作为引导图,从而最大限度地传递引导图中的边缘信息到输出结果中。这种改进方法可以在保持较好的边缘平滑效果的同时,进一步提高滤波器的效率,其表达式如下:
$$ {I_{{\text{FJBF}}}}\left( i \right) = \frac{1}{{K\left( i \right)}}\sum\limits_{j \in S} {{{\text{e}}^{ - \frac{{{{\left\| {i - j} \right\|}^2}}}{{\sigma _{\text{s}}^2}}}}{{\text{e}}^{ - \frac{{{{\left\| {FG\left( i \right) - FG\left( j \right)} \right\|}^2}}}{{\sigma _{\text{r}}^2}}}}} I\left( j \right) $$ (3) 式中:FG代表快速引导滤波后的图像。快速引导滤波(Fast Guided Filter)本质上通过下采样和上采样的操作来降低时间复杂度的。下采样是利用最近邻插值算法将大小为M×N的输入图像和引导图像按比率r进行下采样操作,使得图像的M、N分别缩小到1/r。上采样则是通过选择合适的插值方法,在相邻像素之间插入新的像素,通过系数映射实现对原始图像的上采样,使其恢复到原始大小。
快速引导滤波技术被应用到FJBF中,将原来的引导图像G替换为快速引导滤波后的图像FG。通过引入快速引导滤波,FJBF可以在滤波过程中更加敏感地捕捉边缘结构和纹理信息,然后将这些信息有选择地转移到输出结果中,从而同时保持图像的边缘特征并提高算法的处理速度。经实验表明,对于子采样率s,该方法将时间复杂度O(N)降低到O(N/s2),因此,FJBF通过利用快速引导滤波技术,在处理过程中能够有选择地保留边缘信息,从而在保护图像边缘的同时提高算法的处理速度。
1)运行时间分析
为了验证快速联合双边滤波器的有效性,本文选择了6组图像进行仿真,表 1是JBF与FJBF对分解图像的运行时间对比。运算时间平均减少56.7%,运行的速度有效提升。
表 1 FJBF和JBF运行时间对比Table 1. FJBF and JBF running time comparisons JBF FJBF Img1 5.0218 3.2591 Img2 20.8309 10.4811 Img3 7.9351 5.2311 Img4 6.7825 4.5788 Img5 12.6445 7.4764 Img6 18.7853 12.9854 由以上分析可知,FJBF方法的计算效率远远高于JBF方法,所需的运行时间最短。
2)滤波平滑效果分析
从图 1中观察各滤波结果及三维图可见,快速联合双边滤波器的结果能够较好地保留大结构的边缘信息,平滑掉细节纹理信息,并便于后续融合,快速联合双边滤波器不仅能够达到与联合双边滤波器相媲美的效果,而且具有更短的运行时间,综上所述,快速联合双边滤波器具有更优秀的性能。
2. PCNN模型
2.1 简化的PCNN模型
PCNN的结构由多个神经元相互连接而成的反馈型网络组成[16-17]。每个神经元包括接收部分、调制部分和脉冲发生器这3个组成部分。本文使用的是一种简化的PCNN模型,它不需要训练,可以直接使用,该模型采用基于迭代的运算方式,在传统的PCNN基本模型中,参数的数量过多,导致在实际应用中很难有效地控制。因此,为了克服这个问题,在本文中采用了经过简化的PCNN模型,如图 2所示,简化PCNN模型中的第(i, j)个神经元的数学表达式如下:
$$ \left\{ {\begin{array}{*{20}{l}} {{F_{ij}}\left[ n \right] = {I_{ij}}} \\ {{L_{ij}}\left[ n \right] = {V_{\text{L}}}\sum\limits_{kl} {{W_{ijkl}}{Y_{kl}}\left[ {n - 1} \right]} } \\ {{U_{ij}}\left[ n \right] = {{\text{e}}^{\left( { - {\alpha _l}} \right)}}{U_{ij}}\left[ {n - 1} \right] + {F_{ij}}\left[ n \right]\left( {1 + \beta {L_{ij}}\left[ n \right]} \right)} \\ {{\theta _{ij}}\left[ n \right] = {{\text{e}}^{\left( { - {\alpha _\theta }} \right)}}{\theta _{ij}}\left[ {n - 1} \right] + {V_\theta }{Y_{ij}}\left[ {n - 1} \right]} \\ {{Y_{ij}}\left[ n \right] = \left\{ {\begin{array}{*{20}{l}} {1, \quad {\text{if}}\quad {U_{ij}}\left[ n \right] > {V_\theta }{Y_{ij}}\left[ {n - 1} \right]} \\ {0, \quad {\text{otherwise}}} \end{array}} \right.} \end{array}} \right. $$ (4) 式中:n为迭代次数,神经元在位置(i, j)处的馈送输入表示为Fij[n];链接输入表示为Lij[n];神经元的输入信号为Iij;链接输入的系数用VL表示;突触连接的权重为Wijkl;链接强度表示为β;动态阈值表示为θij[n];动态阈值的振幅增益表示为Vθ;时间衰减常数分别为αl和αθ;神经元的内部状态信号表示为Uij[n];PCNN的输出Yij[n]有两种状态:已触发和未触发。
2.2 改进的PCNN模型
传统PCNN模型中有5个自由参数,在一定程度上影响了模型的性能。而改进的PCNN模型中仅有4个参数,即将参数β和链接输入系数VL视为一个整体,设λ=(βVL)AG,并采用平均梯度以保留边缘信息作为加权链接强度。因此,在改进的参数自适应PCNN中,所有这些参数都可以通过自适应计算得到。计算式如下:
$$ \left\{ {\begin{array}{*{20}{l}} {{\alpha _{\text{f}}} = \log \left( {1/\sigma \left( s \right)} \right)} \\ {\lambda = \left( {\frac{{{S_{\max }}/S' - 0.5}}{6}} \right)AG} \\ {{V_{\text{E}}} = {{\text{e}}^{ - {\alpha _{\text{f}}}}} + 6\lambda } \\ {{\alpha _\theta } = \ln \frac{{{V_\theta }/S'}}{{\frac{{1 - {{\text{e}}^{ - 3{\alpha _{\text{f}}}}}}}{{1 - {{\text{e}}^{ - {\alpha _{\text{f}}}}}}} + 6\lambda {{\text{e}}^{ - {\alpha _{\text{f}}}}}}}} \end{array}} \right. $$ (5) 式中:$ \sigma (s) $表示输入图像I的标准差和平均梯度的区间;S′表示归一化的Otsu阈值;Smax表示输入图像的最大强度。
在无监督的条件下,通过使用无参数的自动方法,可以利用标准差和平均梯度区间σ(s)来衡量输入图像I中的差异程度,采用归一化的Otsu阈值S′进行图像阈值化,并借助最大强度Smax来确定输入图像中最大的像素值。因此,可以通过无监督的方法自动选择合适的Otsu阈值。
人工选择和决定迭代次数对于基于参数自适应PCNN模型图像融合中同步脉冲性产生不可忽视的影响。通常,可以使用线性函数来表示PCNN简化模型的输出幅度,但这会导致神经元内部层次被削弱,无法充分显示出点火幅度的差异。为了更好地表现点火幅度的差异,在改进模型中引入了一种新的脉冲激活函数,即Sigmoid函数。Sigmoid函数具有较高的敏感度,能够更好地反映出不同点火幅度之间的特征效果差异,尤其在同步脉冲激活时效果更为显著,采用Sigmoid计算每次迭代过程中子带系数的点火输出度,Sigmoid激活函数表达式为:
$$ {O_{ij}}[n] = \frac{1}{{1 + {{\rm{e}}^{ - ({U_{ij}}[n] - {\theta _{ij}}[n])}}}} $$ (6) $$ {Y_{ij}}[n] = \left\{ {\begin{array}{*{20}{l}} {1, \;\;\;\;\;{O_{ij}}[n] > 0.5} \\ {0, {\text{ }}\;\;\;{\text{else }}} \end{array}} \right. $$ (7) 通过对比一组红外与可见光源图像的融合结果,来验证PCNN模型与改进PCNN模型的性能。如图 3(a)和(c)所示分别为两张源图像。图 3(b)展示了PCNN模型的融合结果,图中出现了斑驳现象,融合结果图像不够清晰,表明其融合效果不够理想。而图 3(d)则展示了改进PCNN模型的融合结果,可以看出,改进后的模型理想地融合了红外与可见光图像,呈现出更好的视觉效果,而直方图(e)和(f)反映了图像的灰度分布规律,描述每个灰度级具有的像素个数。结合融合结果图和直方图可知,改进PCNN模型的性能更好。
3. 本文方法
3.1 本文方法结构
本文算法思路框图如图 4所示,具体步骤如下:
① 源图像分解:采用快速联合双边滤波器对源图像I1和I2进行分解,得到基础层B1和B2,以及细节层D1和D2。
② 基础层融合:对于基础层B1和B2,分别采用VSM融合规则,再使用加权平均策略得到融合基础层FB。
③ 细节层融合:对于细节层D1和D2,采用改进的PCNN融合规则,获得融合细节层FD。
④ 图像重构:将得到的基础层图像FB和细节层图像FD通过相加,获得最终的融合结果图像。
3.2 FJBF分解
本文采用FJBF方法进行源图像分解具体步骤如下:
1)用FJBF将源图像I1,I2分解为基础层B1,B2,同时得到对应的细节层D1,D2,FJBF分解如下所示:
$$ B=\mathrm{FJBF}\left(I, \mathrm{FG}, \sigma_{\mathrm{s}}, \sigma_{\mathrm{r}}\right) $$ (8) 式中:FG为快速引导滤波后的图像;σs是空间滤波强度;σr为灰度滤波强度。
2)细节层是从源图像中减去基础层,定义如下:
$$ D=I-B $$ (9) 3.3 基础层融合
本文采用一种基于(visual significance map, VSM)的加权平均融合规则来进行基础层图像的融合。VSM方法具有清晰感知图像中的显著视觉结构和区域,具体来说,像素点P的显著值S(P)可以根据以下公式定义:
$$ S_{(p)}=\left|I_p-I_1\right|+\left|I_p-I_2\right|+\cdots\left|I_p-I_M\right| $$ (10) 式中:Ip表示源图像I中某个像素点P的像素值;M表示源图像I中的总像素数。式(10)可以表达为:
$$ {S_p} = \sum\limits_{i = 0}^{L - 1} {{N_i}\left| {{I_p} - {I_i}} \right|} $$ (11) 根据公式(10),像素强度与强度值相同的像素数量分别表示为I和Ni,L表示灰度值,取256。然后,将Sp归一化到[0, 1]的范围内,源图像经过VSM方法处理后的结果如图 5所示。
将经VSM处理后的红外图像S1和可见光图像S2,使用加权平均策略,如式(12)所示,可以得到融合的基础层:
$$ F_{\mathrm{B}}=W_{\mathrm{b}} B_1+\left(1-W_{\mathrm{b}}\right) B_2 $$ (12) 式(12)中:权值Wb定义为:
$$ {W_{\text{b}}} = 0.5 + \frac{{{S_1} - {S_2}}}{2} $$ (13) 根据加权平均融合规则,当S1=S2时,Wb=0.5;当S1>S2时,Wb>0.5,融合图像会更多地倾向于基础层B1的信息;当S1<S2时,Wb<0.5,融合图像更多地受到基础层B2的信息。
3.4 细节层融合
细节层采用改进参数的自适应PCNN融合,采用细节层D1和D2的绝对值映射作为外部输入激励,根据描述的改进PCNN模型,其参数根据公式(5)计算;
从公式(4)~公式(7),可以通过在每次迭代结束时添加以下步骤来累积触发次数:
$$ T_{i j}[n]=T_{i j}[n-1]+Y_{i j}[n] $$ (14) 根据改进的PCNN算法,迭代总数为N的情况下,每个神经元的触发次数为Tij[N],红外图像的细节层系数为D1,可见光图像的细节层系数为D2。通过以下规则,可以得到改进的PCNN算法中红外图像和可见光图像的触发次数分别为TD1和TD2,并据此得到融合系数:
$$ {F}_{\text{D}}=\left\{ \begin{array}{l} D{}_{1}\text{, }\;{T}_{{D}_{1}}[N]\ge {T}_{{D}_{2}}[N]\\ {D}_{2}\text{, }\;\text{otherwise} \end{array} \right. $$ (15) 最后,对FB和FD的融合系数进行重构,得到最终的融合图像F如下:
$$ F=F_{\mathrm{B}}+F_{\mathrm{D}} $$ (16) 4. 实验结果分析设置
4.1 实验参数设置
本文红外与可见光源图像选取公开数据集TNO[18]上进行了大量的实验。实验环境为操作系统Win10,编程环境为Matlab R2018a;选定6组已配准图像进行实验分析,其大小分别为512 pixel×512 pixel,256 pixel×256 pixel,256 pixel×256 pixel,256 pixel×201 pixel,360 pixel×270 pixel,340 pixel×255 pixel。经多次实验证明,本文方法设置为σs=0.001,σr=15。
4.2 参数分析
如图 6所示,观察分解结果图像可知,随着σr的不断增大,目标与天空亮度逐渐变暗,但随着σr的不断减小,亮度变暗,目标人物轮廓不够清楚,通过实验验证,σr取15时,效果最佳。
4.3 主观评价指标
将本文方法(FJBF)与(Convolutional sparsity based morphological component analysis, CSMCA)方法[19]、(Background reconstruction general, BRG)方法[20]、(Rolling guidance filter, RGF)方法[21]、(Joint bilateral filter, JBF)方法[22]、(Progressive illumination aware fusion, PIAF)方法[23]、(Residual fusion network, RFN-Nest)方法[24]、(Squeeze-and-decomposition network, SDNet)方法[25]进行实验对比。其中,CSMCA方法是一种基于卷积稀疏的形态成分分析模型(CS-SR)用于像素级图像融合;BRG方法是通过红外特征提取和视觉信息保存的红外和视觉图像融合算法;RGF方法是一种基于视觉显著性图(VSM)和加权最小二乘(WLS)优化的多尺度融合方法;JBF方法基于多尺度和联合双边滤波器的图像融合方法;PIAF方法是一种基于光照感知的渐进式图像融合网络;RFN-Nest方法是一种基于残差融合网络中的巢连接的端到端融合框架(RFN-Nest);SDNet是一种压缩分解网络的图像融合算法。选用的实验源图像如图 7所示。
实验结果如图 8所示,第一组中融合图像中,BRG方法、CSMCA方法和RFN-Nest方法呈现出良好的整体融合效果,但是对比度和清晰度方面都不够突出;而RGF方法、PIAF方法的整体融合效果较为模糊,细节纹理信息也不够清晰;JBF方法轮廓不分明,缺少可见光图像中的边缘信息;SDNet方法亮度和对比度较低,相比之下,FJBF方法的整体视觉效果较好,纹理清晰且具有较高的对比度。在第二组融合图像中,CSMCA方法、RGF方法和SDNet方法展现出良好的视觉效果,能使目标物体显著,然而,这3种方法的对比度较低;PIAF方法能够较好地保留目标信息,但目标物体不够显著;JBF方法、BRG方法虽然对比度较高,但在边缘处可能会产生虚影,并且细节信息丢失较多;RFN-Nest方法目标物体不够清晰,相比之下,FJBF方法可以同时保留特征信息、突出目标物体并清晰展示纹理细节,从而实现了较好的视觉效果。第三组和第四组融合图像中,RGF方法、BRG方法融合效果较好,但场景图像缺乏丰富性,并且细节不够清晰;CSMCA方法含有较多的噪声信息,对比度不高,尤其是第四组图像边缘模糊;JBF方法的融合效果较为模糊,噪声信号过多,同时总体对比度也不高;PIAF方法的效果相对较好,但场景信息不够充分,细节信息丢失;SDNet方法效果相对显著,但场景信息不够丰富;RFN-Nest方法融合效果亮度较暗且边缘细节信息丢失严重;相比之下,FJBF方法的总体视觉效果良好,能防止边缘产生虚影,还能更好地保留源图像的整体轮廓和细节信息,从而增加对比度和亮度。在第五组和第六组融合图像中,PIAF方法、SDNet方法的融合效果较好,但对比度较低,且缺乏丰富的场景信息,另外边缘细节也丢失很严重;CSMCA方法目标对象显著,但场景信息不丰富,边缘细节丢失严重;RGF方法则出现了细节信息的缺失,图像边缘轮廓也不够清晰,并且出现了明显的块效应,这对整体融合效果有所影响;BRG方法则导致图像上部的房屋边界模糊,进而导致了可见光图像中的一些重要信息的缺失;JBF方法的整体融合效果模糊,也丢失了很多边缘细节信息;RFN-Nest方法的融合结果有一些亮度较低,图像中边缘也比较模糊,出现部分伪影,图像细节部分丢失;相比之下,FJBF方法能够更有效地保留源图像的边缘轮廓信息以及红外图像中的亮度特征,且不会产生伪影,同时融合结果图中的场景信息也更加丰富,因此得到了更优的融合效果。
由以上对比方法分析可以看出,FJBF融合图像中目标物体清晰度明显地提高,同时对细节纹理信息部分有更多的保留,边缘更加清晰且亮度保真度高。
4.4 客观评价指标
由于人们的视觉差异,主观评价方法有一些局限性。为了克服这些局限性,本文引入了五个客观评价指标来定量评估图像质量:平均梯度(AG)、图像清晰度(ID),信息熵(EN)、标准差(STD)、视觉保真度(VIFF)。这些指标的数值越大,表示融合结果图像的效果越好,如图 9所示。
根据图 9客观评价指标的趋势图可以得出FJBF方法的指标值整体上较高。因此,综合上述所得,本文方优于其他对比方法,得到更优的融合结果图像。
5. 结论
本文提出了一种快速联合双边滤波和改进PCNN的图像融合算法,通过对传统引导滤波的改进,此算法能够有效地保留图像的梯度信息,在基础层的融合中,为了解决使用加权平均策略导致的对比度损失问题,本文采用了基于VSM的加权平均融合规则;而对于细节层的融合,采用了改进的PCNN算法作为融合规则。实验结果表明,本文算法所得到的融合结果图像能更好地保留源图像的整体轮廓和细节信息,且边缘清晰对比度高,在客观评价指标上具有较优的效果。今后将更进一步探索FJBF模型的优化,以及提高算法效率。
-
表 1 实验配置
Table 1 Experiment configuration
Configuration Version Operating systems Windows10 CPU 12th Gen lntel(R) Core(TM) i7-12700KF GPU NVIDIA GeForce RTX 3090 Framework Pytorch1.7.1 Software Pycharm2020.312 表 2 消融实验结果
Table 2 Ablation experiment results
Models mAP/% Params GFLOPs FPS/(frame/s) Baseline 35.28 9.00M 26.8 117 N1 35.39 7.75M 20.2 121 N2 35.68 6.32M 17.9 128 N3 36.21 6.35M 18.1 132 N4 36.11 8.33M 23.0 123 L1 37.00 9.00M 26.8 119 L2 37.73 9.00M 26.8 118 L3 37.38 9.00M 26.8 117 Ours 39.84 6.35M 18.1 140 -
[1] 武连全, 邹清龙. 警用无人机执法应用现状、问题与对策[J]. 北京警察学院学报, 2021(4): 36-43. DOI: 10.16478/j.cnki.jbjpc.20210507.002. WU L Q, ZOU Q L. Application status, problems and countermeasures of police UAV In law enforcement[J]. Journal of Beijing Police College, 2021(4): 36-43. DOI: 10.16478/j.cnki.jbjpc.20210507.002.
[2] TONG K, WU Y, ZHOU F. Recent advances in small object detection based on deep learning: a review[J]. Image and Vision Computing, 2020, 97: 103910. DOI: 10.1016/j.imavis.2020.103910
[3] Kisantal M, Wojna Z, Murawski J, et al. Augmentation for small object detection[J/OL]. arXiv preprint arXiv: 1902.07296, 2019. http://export.arxiv.org/abs/1902.07296.
[4] Nguyen N D, Do T, Ngo T D, et al. An evaluation of deep learning methods for small object detection[J]. Journal of Electrical and Computer Engineering, 2020, 2020: 1-18.
[5] Bharati P, Pramanik A. Deep learning techniques—R-CNN to mask R-CNN: a survey[J]. Computational Intelligence in Pattern Recognition, 2019, 999: 657-668.
[6] CHEN C, LIU M Y, Tuzel O, et al. R-CNN for small object detection[C]//Asian Conference on Computer Vision, 2016: 214-230.
[7] Keles M C, Salmanoglu B, Guzel M S, et al. Evaluation of YOLO models with sliced inference for small object detection[J/OL]. arXiv preprint arXiv: 2203.04799, 2022. https://arxiv.org/abs/2203.04799.
[8] Ziming C, HAN Y, Lingjun K, et al. Multi-scene small object detection with modified YOLOv4[C]//Journal of Physics: Conference Series, 2022, 2253(1): 012027.
[9] 奉志强, 谢志军, 包正伟, 等. 基于改进YOLOv5的无人机实时密集小目标检测算法[J/OL]. 航空学报: 1-15. [2022-07-01]. http://kns.cnki.net/kcms/detail/11.1929.V.20220509.2316.010.html. FENG Z Q, XIE Z J, BAO Z W, et al. Real-time dense small object detection algorithm for UAV based on improved YOLOv5[J/OL]. Acta Aeronautica et Astronautica Snica: 1-15. [2022-07-01]. http://kns.cnki.net/kcms/detail/11.1929.V.20220509.2316.010.html
[10] Akyon F C, Onur Altinuc S, Temizel A. Slicing aided hyper inference and fine-tuning for small object detection[C]// IEEE International Conference on Image Processing (ICIP), 2022: 966-970, Doi: 10.1109/ICIP46576.2022.9897990.
[11] GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO series in 2021[J/OL]. arXiv preprint arXiv: 2107.08430, 2021. https://doi.org/10.48550/arXiv.2107.08430
[12] 武连全, 楚宪腾, 杨海涛, 等. 基于改进YOLOX的X射线违禁物品检测[J]. 红外技术, 2023, 45(4): 427-435. http://hwjs.nvir.cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de WU L Q, CHU X T, YANG H T, et al. X-ray detection of prohibited items based on improved YOLOX[J]. Infrared Technology, 2023, 45(4): 427-435. http://hwjs.nvir.cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de
[13] JIANG P, Ergu D, LIU F, et al. A Review of YOLO algorithm developments[J]. Procedia Computer Science, 2022, 199: 1066-1073. DOI: 10.1016/j.procs.2022.01.135
[14] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 390-391.
[15] ZHU P, WEN L, DU D, et al. Detection and tracking meet drones challenge[J/OL]. arXiv preprint arXiv: 2001.06303, 2020. https://doi.org/10.48550/arXiv.2001.06303
[16] WAN J, ZHANG B, ZHAO Y, et al. Vistrongerdet: stronger visual information for object detection in VisDrone images[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2820-2829.
[17] ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.
[18] Sineglazov V, Kalmykov V. Image processing from unmanned aerial vehicle using modified YOLO detector[J]. Electronics and Control Systems, 2021, 3(69): 37-42. DOI: 10.18372/1990-5548.69.16425
-
期刊类型引用(6)
1. 吴一全,童康. 基于深度学习的无人机航拍图像小目标检测研究进展. 航空学报. 2025(03): 181-207 . 百度学术
2. 王新良,王璐莹. 多感受野增强的爆破现场安全帽检测算法. 计算机工程与应用. 2025(07): 315-324 . 百度学术
3. 张攀峰,陈文强,神显豪,程小辉. DD-YOLO, 一种面向无人机的小目标检测算法. 电光与控制. 2025(05): 20-26 . 百度学术
4. 郭伟,王珠颖,金海波. 高阶深度可分离无人机图像小目标检测算法. 计算机系统应用. 2024(05): 144-153 . 百度学术
5. 朱孟桓,邹清龙,张博. 浅谈无人机对高坠坠落空间勘查的应用前景. 中国设备工程. 2024(11): 31-33 . 百度学术
6. 陈永麟,王恒涛,张上. 基于YOLO v7的轻量级红外目标检测算法. 红外技术. 2024(12): 1380-1389 . 本站查看
其他类型引用(3)