基于孪生网络的无人机目标多模态融合检测

韩自强, 岳明凯, 张骢, 高棋

韩自强, 岳明凯, 张骢, 高棋. 基于孪生网络的无人机目标多模态融合检测[J]. 红外技术, 2023, 45(7): 739-745.
引用本文: 韩自强, 岳明凯, 张骢, 高棋. 基于孪生网络的无人机目标多模态融合检测[J]. 红外技术, 2023, 45(7): 739-745.
HAN Ziqiang, YUE Mingkai, ZHANG Cong, GAO Qi. Multimodal Fusion Detection of UAV Target Based on Siamese Network[J]. Infrared Technology , 2023, 45(7): 739-745.
Citation: HAN Ziqiang, YUE Mingkai, ZHANG Cong, GAO Qi. Multimodal Fusion Detection of UAV Target Based on Siamese Network[J]. Infrared Technology , 2023, 45(7): 739-745.

基于孪生网络的无人机目标多模态融合检测

基金项目: 

辽宁省教育厅基本科研面上项目 LJKMZ20220605

详细信息
    作者简介:

    韩自强(1999-),男,硕士研究生,主要从事探测、控制与信息对抗技术。E-mail:hanzq@sylu.edu.cn

    通讯作者:

    岳明凯(1971-),男,教授,博士,研究方向:武器系统安全控制,探测、控制与毁伤技术。E-mail:13032486996@163.com

  • 中图分类号: TN219

Multimodal Fusion Detection of UAV Target Based on Siamese Network

  • 摘要: 为解决小型无人机“黑飞”对公共领域的威胁问题。基于无人机目标多模态图像信息,文中提出一种轻量化多模态自适应融合孪生网络(Multimodal adaptive fusion Siamese network,MAFS)。设计一种全新的自适应融合策略,该模块通过定义两个模型训练参数赋予不同模态权重以实现自适应融合;本文在Ghost PAN基础上进行结构重建,构建一种更适合无人机目标检测的金字塔融合结构。消融实验结果表明本文算法各个模块对无人机目标检测精度均有提升,多算法对比实验结果表明本文算法鲁棒性更强,与Nanodet Plus-m相比检测时间基本不变的情况下mAP提升9%。
    Abstract: To address the threat of small drones "black flying" to the public domain. Based on the multimodal image information of an unmanned aerial vehicle (UAV) target, a lightweight multimodal adaptive fusion Siamese network is proposed in this paper. To design a new adaptive fusion strategy, this module assigns different modal weights by defining two model training parameters to achieve adaptive fusion. The structure is reconstructed on the basis of a Ghost PAN, and a pyramid fusion structure more suitable for UAV target detection is constructed. The results of ablation experiments show that each module of the algorithm in this study can improve the detection accuracy of the UAV targets. Multi-algorithm comparison experiments demonstrated the robustness of the algorithm. The mAP increased by 9% when the detection time was basically unchanged.
  • 夜间行车滥用远光灯极易引发交通事故[1]。因此,研究夜视抗晕光方法用于消除晕光干扰并获得符合人眼观察的夜视图像,应用于汽车安全辅助系统,可有效保障夜间行驶安全。

    目前夜视主动抗晕光方法主要有:前挡风玻璃增加偏振[2]、红外成像技术[3-5]、像素积分时间独立可控的图像传感器[6]、可见光与红外融合图像[7-10]等。其中,结合可见光图像分辨率高且色彩丰富、红外图像不受晕光干扰等优点的异源融合方法,可有效降低晕光干扰并提高图像质量,是当前解决晕光问题的研究热点。文献[11]提出了一种多尺度分解融合方法,通过对低频分量的显著图和残差图分别采用“模值取大”和“平均”规则进行融合,提高了融合图像的清晰度并凸显了红外显著信息。文献[12]采用非下采样剪切波变换(Nonsubsampled shearlet transform,NSST)对图像进行分解,通过设计的自适应稀疏表示模型对低频分量融合,有效提升了显著信息。文献[13]对NSST分解的高频分量采用自适应参数的简化脉冲耦合神经网络(Adaptive-parameter pluse-coupled neural network,AP-SPCNN)进行融合,利用其全局耦合性与脉冲同步性提高了融合图像清晰度。文献[14]采用四阶偏微分方程(Fourth-order partial differential equation,FPDE)分解红外与可见光图像,对低频分量采用期望值最大的融合策略,有效地提升了融合图像的显著信息。但因晕光也属于夜视图像中的显著信息,上述方法在增强图像细节信息的同时会放大晕光区域,不利于夜间行车安全。文献[15]在YUV色彩空间下通过Wavelet变换对低频分量加权融合,降低了晕光干扰,但晕光信息仍参与融合,在强晕光场景中存在晕光消除不足问题。文献[16]提出改进的IHS-Curvelet变换,通过设计的低频红外权值自动调节策略消除晕光较为彻底,但在晕光分布不均匀的场景,由于区域特征差异过大,易导致明暗分裂现象。

    为了在不同晕光场景下均能获得视觉效果较好的夜视图像,本文提出一种可见光与红外图像分区融合的夜视抗晕光方法。通过晕光阈值将低频系数分为晕光与非晕光区域,在晕光区着重依据图像晕光程度合理消除晕光;在非晕光区重点提高暗处区域的可见度。

    在夜视晕光场景,可见光图像中晕光十分刺眼,覆盖了车辆轮廓,导致暗处行人难以观察。在红外图像中车辆与行人轮廓清晰可见,但车牌、车道线、色彩等重要细节信息缺失,如图 1所示。

    图  1  夜视晕光图像
    Figure  1.  Night-vision halation image

    可见光图像不同区域特征差异极大,故不同区域图像融合处理的着重点也应不同。在高亮度晕光区域,应合理消除晕光干扰,当晕光较强时,易使驾驶员眩目影响夜间行车安全,故要尽可能地消除晕光;当晕光较弱时,避免亮度消除过度导致图像局部过暗,故晕光消除适当即可。在低亮度非晕光区域,应有效提升图像色彩、轮廓及纹理等细节信息,增强夜视图像的视觉效果。为了在不同晕光场景中均能获得视觉效果较好的夜视图像,本文提出了一种基于分区融合的夜视抗晕光方法。

    可见光图像转换到YUV空间后,因晕光信息主要分布在亮度分量Y中,故通过自适应阈值迭代法求解亮度分量Y的晕光临界值,并进一步确定低频系数的晕光阈值,将低频系数划分为晕光与非晕光区域。在晕光区通过构造非线性红外系数权值调节策略合理消除晕光;在非晕光区域采用灰度均值先验权值调节策略,提高较亮图像参与融合的权值,提高暗处区域的可见度。高频系数融合采用模值取大策略保留更多的细节信息。利用Curvelet变换具有各向异性的特性,保留边缘细节并抑制周边噪声,有效提高了图像的清晰度。同时仅对YUV变换的亮度分量Y进行融合,降低算法复杂度,提高处理效率,并避免色彩失真。

    基于上述夜视抗晕光原理,本文方法的整体处理框图如图 2所示。

    图  2  图像融合抗晕光过程
    Figure  2.  Image fusion process of anti-halation

    可见光图像经YUV变换[17]获得亮度分量Y,再对Y分量与红外图像分别进行Curvelet分解。二维离散Curvelet分解[18]可表示为:

    $$ L(j,l,k) = \sum\limits_{0 \leqslant {t_1},{t_2} \leqslant n} {f[{t_1},{t_2}]\overline {{\varphi _{j,l,k}}[{t_1},{t_2}]} } $$ (1)

    式中:f[t1, t2]表示输入图像;φj, l, k [t1, t2]表示Curvelet函数;jlk分别表示分解的尺度、方向与位置。

    分解后得到亮度分量Y和红外图像对应的低频系数L0VI(k)、L0IR(k),高频系数Lj, lVI(k)、Lj, lIR(k),其中上标VI、IR分别表示可见光、红外。

    首先通过自适应阈值迭代法[19]确定可见光图像亮度分量Y的晕光临界值Gc

    计算第i+1次阈值Ti+1为:

    $$T_{i+1}=m\left(\mu_1+\mu_2\right)$$ (2)
    $$ \left\{ \begin{gathered} {\mu _1} = \frac{{\text{1}}}{{{N_{\text{1}}}}}\sum\limits_{j = 0}^{{N_1} - 1} {{In} (j)} \hfill \\ {\mu _2} = \frac{1}{{{N_2}}}\sum\limits_{j = {N_1}}^{N - 1} {{In} (j)} \hfill \\ \end{gathered} \right. $$ (3)

    式中:m为自适应系数;μ1μ2分别为经阈值Ti分割后的两个区域的灰度均值;In(j)是第j个像素的灰度值;N为总像素数,N1N2分别为两个区域的像素数,NN1+N2

    为了尽可能减少迭代次数,自适应系数m需要根据图像的晕光程度自动调整。研究表明晕光程度与晕光区域面积正相关,与非晕光区域面积负相关,通过实际实验,自适应系数m取为:

    $$m=-1.7336 s^{0.0253}+2.2243$$ (4)

    式中:s表示晕光与非晕光面积比。初始阈值T0取亮度分量Y的灰度中值进行迭代计算,直到阈值不再变化时结束,最新的阈值即为晕光临界灰度值Gc

    由于晕光区域高灰度值像素比较集中,进行晕光消除处理时易造成晕光临界处明暗分裂的现象,故在Gc的基础上扩大低频系数的晕光消除范围,低频系数的晕光阈值GL取为:

    $$ {G}_{\text{L}}=\alpha \times {G}_{\text{c}}\times \frac{\mathrm{max}\left({L}_{0}^{\mathrm{Ⅵ}}\left(k\right)\right)}{255} $$ (5)

    式中:α为缩放因子,使消除晕光后的晕光与非晕光区域衔接更自然,α∈[0, 1]。通过多次计算优化,本文取α=0.65。若低频系数k位置的灰度值L0VI(k)>GL,则该位置属于晕光区域;反之,若L0VI(k)≤GL,则该位置属于非晕光区域。

    夜视图像非晕光区整体较暗,为了增强融合图像非晕光区的可见度,通过提高非晕光区整体较亮像素参与融合的权值,提升融合图像暗处视觉效果。以亮度分量Y与红外图像的非晕光区灰度均值作为先验信息,确定非晕光区域红外低频系数权值ωNHIR(k):

    $$ \omega _{{\text{NH}}}^{{\text{IR}}} = \frac{{\frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{IR}}}(i)} }}{{\frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{VI}}}(i)} + \frac{1}{n}\sum\limits_{i = 0}^n {L_{\text{0}}^{{\text{IR}}}(i)} }} $$ (6)

    式中:n为非晕光区总像素数。

    由于晕光信息主要分布于可见光图像的低频分量,Curvelet分解后的可见光低频分量在晕光区域的系数值明显大于其他区域。因此,在晕光区随着晕光程度变强,可见光低频系数值变大,应增大红外低频系数权值,降低可见光低频系数权值以更好地消除晕光;当逐渐递进到晕光中心区域时,对应的红外低频系数权值应取大值,以彻底地消除晕光;在晕光临界处,为了使晕光与非晕光区域明暗衔接自然,且防止晕光消除过度,应合理设置缓冲区,以非晕光区的红外低频系数作为晕光区域红外低频系数权值的基准,且要变化缓慢。根据上述思想构造晕光区域红外低频系数权值ωHIR(k)的非线性表达式:

    $$ \omega _{\text{H}}^{{\text{IR}}}(k) = \omega _{{\text{NH}}}^{{\text{IR}}} + (1 - \omega _{{\text{NH}}}^{{\text{IR}}}) \times \frac{{{{\text{e}}^{L_{\text{0}}^{{\text{VI}}}(k)}} - {{\text{e}}^{ - L_{\text{0}}^{{\text{VI}}}(k)}}}}{{{{\text{e}}^{L_{\text{0}}^{{\text{VI}}}(k)}} + C{{\text{e}}^{ - L_{\text{0}}^{{\text{VI}}}(k)}}}} $$ (7)

    式中:C为约束因子,用于调节晕光消除程度。当C取不同值时,红外低频系数权值ωHIR(k)随可见光低频系数L0VI(k)的变化趋势如图 3所示。

    图  3  晕光区域红外低频系数权值曲线
    Figure  3.  Weight curves of infrared low frequency coefficient in halo region

    图 3可以看出,C取值不同的函数曲线变化趋势,均为ωHIR(k)随L0VI(k)的增大而增大,且变化率开始缓慢后变大,接近1时再变小。另外,对应同一L0VI(k)不变时,C越小该点的ωHIR(k)越大,因此C与晕光消除程度成反比关系。根据晕光程度调整C的取值,再利用式(6)调整红外与可见光低频系数权值,达到合理消除晕光的目的。由于晕光程度与晕光临界值成正比关系,经过多次计算优化,将晕光临界值Gc划分为3个区间,不同区间C的取值为:

    $$C=\left\{\begin{array}{lr} 25, & G_{\mathrm{c}} \leq 120 \\ 50, & 120 <G_{\mathrm{c}} \leq 160 \\ 100, & 160 <G_{\mathrm{c}} \leq 255 \end{array}\right.$$ (8)

    为了将晕光区域的红外低频系数权值均匀分布在范围[0, 1],首先对L0VI(k)进行区间投射:

    $$ L_{\text{0}}^{{\text{VI}}}(k') = \frac{{b - a}}{{\max (L_{\text{0}}^{{\text{VI}}}(k)) - {G_{\text{L}}}}} \times (L_{\text{0}}^{{\text{VI}}}(k) - {G_{\text{L}}}) + a $$ (9)

    式中:L0VI(k')表示点L0VI(k)投射到[a, b]区间的低频系数值。本文选择[0, 4]区间投射,以L0VI(k')为作为式(7)的输入,得到红外低频系数权值矩阵ωHIR(k)。

    融合后的低频系数L0FU(k)为:

    $$ L_{\text{0}}^{{\text{FU}}}(k) = [1 - {\boldsymbol{\omega} _{{\text{IR}}}}(k)] * L_{\text{0}}^{{\text{VI}}}(k) + {\boldsymbol{\omega} _{{\text{IR}}}}(k) * L_{\text{0}}^{{\text{IR}}}(k) $$ (10)

    式中:ωIR(k)为红外低频系数权值矩阵,可表示为:

    $$ {\boldsymbol{\omega} _{{\text{IR}}}}(k) = \left\{ {\begin{array}{*{20}{c}} {\boldsymbol{\omega} _{\text{H}}^{{\text{IR}}}(k),{\text{ }}L_{\text{0}}^{{\text{VI}}}(k) > {G_{\text{L}}}} \\ {\boldsymbol{\omega} _{{\text{NH}}}^{{\text{IR}}},{\text{ }}L_{\text{0}}^{{\text{VI}}}(k) \leqslant {G_{\text{L}}}} \end{array}} \right. $$ (11)

    高频系数融合采用模值取大策略,可获得更多的纹理细节信息[20]。融合后的高频分量Lj, lFU(k)为:

    $$ L_{j,l}^{{\text{FU}}}(k) = \max \{ L_{j,l}^{{\text{VI}}}(k),L_{j,l}^{{\text{IR}}}(k)\} $$ (12)

    频域的离散Curvelet变换表式为:

    $$ L(j,l,k) = \frac{{\sum {\hat f[{\omega _1},{\omega _2}]} \overline {{{\hat \varphi }_{j,l,k}}[{\omega _1},{\omega _2}]} }}{{{{(2{\rm{ \mathit{ π} }})}^2}}} $$ (13)

    式中:$ \hat f\left[ {{\omega _1},{\omega _2}} \right] $表示频域的输入;$ {\hat \varphi _{j,l,k}}\left[ {{\omega _1},{\omega _2}} \right] $为频域Curvelet函数。

    利用式(13)将L0FU(k)与Lj, lFU(k)进行Curvelet重构,得到新亮度分量Y′,再将其与UV分量进行YUV逆变换得到最终的融合图像。

    为验证本文方法的有效性,本文在两种不同道路晕光场景采集了对向车辆由远及近的可见光与红外图像,分别采用NSST[12]、AP-SPCNN[13]、FPDE[14]、YUV-WT[15]、IIHS-CT[16]等5种融合方法与本文方法进行实验对比。为了避免高亮度晕光信息干扰融合图像的评价结果,本文采用文献[19]提出的自适应分区质量评价方法对融合结果进行客观评价。采用晕光消除度DHE指标对晕光区域的晕光消除效果进行评价,值越大表明晕光消除越彻底。采用均值μ、平均梯度(AG)、边缘强度(EI)、空间频率(SF)等指标对非晕光区域进行评价,μ越大表明非晕光区域亮度越高,AG越大表明图像细节反差的变化速率越大;EI越大表明图像的边缘细节越明显;SF越大表明图像空间域变化越强。

    夜间对向车辆较远时,图像整体偏暗。可见光图像中晕光较弱,路况等信息受益于晕光变得更加明显,但晕光部位侧方和后方区域缺乏光源,车辆轮廓、行人难以观察;红外图像中车辆轮廓与行人清晰可见,但路面状况、色彩等信息缺失。图 4图 5分别为场景1与场景2的原始图像及不同算法的融合图像。

    图  4  场景1的原始图像及融合图像
    Figure  4.  Original and fused images of scene 1
    图  5  场景2的原始图像及融合图像
    Figure  5.  Original and fused images of scene 2

    图 4图 5可以看出,在整体清晰度方面,YUV-WT与NSST相较于其他5种算法融合图像的清晰度欠佳。在晕光消除方面,NSST、AP-SPCNN、FPDE以及YUV-WT在车灯附近仍有光斑残余,晕光消除程度明显不如IIHS-CT与本文算法。在行人、车辆等信息的显著程度与图像整体亮度方面,本文算法的行人与车辆轮廓相较于其它5种算法更显著,且图像整体亮度更好。场景1与场景2各算法融合图像的客观评价结果如表 1表 2所示。

    表  1  场景1融合图像的客观评价指标
    Table  1.  Objective evaluation indexes of fused images of Scene 1
    Methods DHE μ AG EI SF
    NSST 0.6554 57.9222 3.7183 38.9179 12.0912
    AP-SPCNN 0.6463 52.9799 5.2407 54.9452 15.3742
    FPDE 0.7519 54.5537 5.9955 61.4017 17.3364
    YUV-WT 0.5446 52.8251 3.3488 34.6032 11.7848
    IIHS-CT 0.7764 56.0418 6.9138 71.4292 20.1104
    The proposed algorithm 0.8179 63.8456 6.9141 71.5595 20.1938
    下载: 导出CSV 
    | 显示表格
    表  2  场景2融合图像的客观评价指标
    Table  2.  Objective evaluation indexes of fused images of Scene 2
    Methods DHE μ AG EI SF
    NSST 0.6254 43.8894 2.247 22.7806 7.001
    AP-SPCNN 0.6239 40.862 3.8289 37.0247 10.5302
    FPDE 0.6818 40.7409 3.9988 38.0394 11.4102
    YUV-WT 0.5095 37.8782 1.938 19.1585 6.6523
    IIHS-CT 0.6678 41.1376 4.1846 40.1924 11.9776
    The proposed algorithm 0.7052 47.0278 4.1932 40.3044 12.0371
    下载: 导出CSV 
    | 显示表格

    表 1表 2知,IIHS-CT与本文算法都设计了晕光消除的低频融合规则,所以DHE明显高于其他4种算法,其中本文算法DHE最高,在场景1中相较于其他5种抗晕光算法分别提升了24.7%、26.5%、8.7%、50.1%、5.3%,在场景2中相较于其他5种抗晕光算法分别提升了12.7%、13%、3.4%、38.4%、5.6%。在非晕光区域,本文算法设计了灰度均值先验权值调节策略,通过提高较亮图像参与融合的权值有效提升融合图像的亮度,指标μ在场景1中相较于其他5种算法分别提升了10.2%、20.5%、17%、20.8%、13.9%,在场景2中相较于其他5种算法分别提升了7.1%、15%、15.4%、24.1%、14.3%。由于Curvelet变换的各向异性,对边缘信息更敏感,所以本文算法与IIHS-CT融合图像的AG、EI与SF指标相较于其它4种算法明显提高,但IIHS-CT晕光消除范围过大,导致图像非晕光区域整体较暗,变化率与细节反差小,故相较于本文方法的AG、EI与SF指标较低。在两种场景下,本文算法的各项指标均高于其它5种方法,验证了本文方法在对向车辆距离较远的晕光场景的有效性。

    当对向车辆较近时,多个车灯形成的晕光部位连成一个较大区域,十分炫目极易造成交通隐患。可见光图像的高亮度晕光覆盖了车辆轮廓,路面受益晕光变得明显,但也导致暗处区域更加难以观察;红外图像无晕光且目标轮廓清晰,但会丢失车道线等重要信息且细节模糊,无色彩。图 6图 7分别为场景3与场景4的原始图像及不同算法的融合图像。

    图  6  场景3的原始图像及融合图像
    Figure  6.  Original and fused images of scene 3
    图  7  场景4的原始图像及融合图像
    Figure  7.  Original and fused images of scene 4

    图 6图 7可看出,NSST与YUV-WT算法融合的图像在两种场景中较为模糊,边缘细节的清晰度较差,行人显著度不足。除了IIHS-CT与本文算法,其他4种算法处理融合图像在场景4中的晕光消除不足,在车灯附近晕光仍比较严重。IIHS-CT在两种场景中均晕光消除过度,导致晕光临界处两侧明暗差异较大,整体视觉效果较差。本文算法相较于其他5种算法,晕光消除较好,车辆轮廓更清晰,整体亮度更符合人眼视觉。场景3与场景4融合图像的客观评价结果如表 3表 4所示。

    表  3  场景3融合图像的客观评价指标
    Table  3.  Objective evaluation indexes of fused images of Scene 3
    Methods DHE μ AG EI SF
    NSST 0.5496 85.8534 3.3691 36.2355 15.9706
    AP-SPCNN 0.5992 85.8104 4.5618 49.1445 18.3228
    FPDE 0.5824 86.3078 4.1521 44.0083 18.6224
    YUV-WT 0.5352 97.7207 3.1141 33.1751 15.9455
    IIHS-CT 0.6596 78.3601 5.5043 58.6815 21.8962
    The proposed algorithm 0.6658 88.1846 5.7085 60.8557 22.4823
    下载: 导出CSV 
    | 显示表格
    表  4  场景4融合图像的客观评价指标
    Table  4.  Objective evaluation indexes of fused images of Scene 4
    Methods DHE μ AG EI SF
    NSST 0.5463 111.603 3.6756 37.9153 17.8965
    AP-SPCNN 0.5505 111.599 3.7385 38.6726 17.9412
    FPDE 0.5824 108.325 5.5694 53.6701 20.9292
    YUV-WT 0.5942 108.322 4.7793 44.9491 19.4084
    IIHS-CT 0.7670 100.108 6.1216 60.4035 20.8635
    The proposed algorithm 0.7545 102.782 6.2002 61.1985 21.2724
    下载: 导出CSV 
    | 显示表格

    表 3表 4可知,本文算法与IIHS-CT变换都针对低频部分的晕光信息设计了晕光消除策略,因此两种场景中DHE指标明显高于其它4种方法。在场景4中,虽然IIHS-CT的DHE最高,但晕光临界处明暗分裂明显,影响图像整体视觉效果,而本文算法晕光消除范围控制较好,获得图像的视觉效果更好。YUW-WT与NSST分别在场景3与场景4中μ最高,但行人显著度较差。AP-SPCNN与FPDE能较好保留图像显著信息,但晕光本身也属显著信息,导致上述算法在晕光较强场景中的融合图像μ较高而DHE较低,晕光信息依然存在,导致车辆轮廓比较模糊。本文算法与IIHS-CT利用了Curvelet变化对边缘信息更敏感的特性,相较于其他4种算法边缘信息保留的更多,图像更清晰,故AG、EI与SF较高。另一方面,由于IIHS-CT不能有效地控制晕光消除范围,导致部分非晕光区域亮度较低,灰度变化率变小,所以AG、EI与SF相较于本文算法较低,验证了本文算法在对向车辆距离较近的晕光场景的有效性。

    通过以上的分析可知,NSST、AP-SPCNN、FPDE、YUV-WT算法在强晕光场景中存在晕光消除不足。IIHS-CT方法晕光消除彻底,但存在因晕光消除过度造成严重的明暗分裂现象,适用性较差。本文算法针对不同区域特征采取不同权值调节策略,在不同晕光场景中均能有效消除晕光,提升融合图像质量,普适性较好。

    本文提出的基于可见光与红外图像分区融合的夜视抗晕光方法,较好地解决了现有夜视抗晕光融合图像视觉效果不理想的问题。该方法能较好地控制晕光消除,并有效提高暗处色彩、细节的可见度,获得的融合图像更适合人眼观察。不同晕光程度场景下的实验结果表明,本文方法相较于对比的5种图像融合方法普适性更好,对提高夜间行车安全具有重要意义,也可为交通感知、安全监控等领域中的低照度逆光图像采集提供一种解决方案。

  • 图  1   MAFS网络模型

    Figure  1.   MAFS network model

    图  2   多模态融合策略

    Figure  2.   Multimodal fusion strategies

    图  3   改进的Ghost PAN

    Figure  3.   Improved Ghost PAN

    图  4   部分测试集数据

    Figure  4.   Part of the test set data

    图  5   多模态特征融合偏差

    Figure  5.   Multimodal feature fusion deviation

    图  6   不同算法检测结果

    Figure  6.   Detection results of different algorithms

    表  1   编码器组成结构

    Table  1   Encoder composition

    Layer Output size Channel
    Image 416×416 3
    Conv1 208×208 24
    MaxPool 104×104
    Stage2 52×52 116
    Stage3 26×26 232
    Stage4 13×13 464
    下载: 导出CSV

    表  2   实验配置

    Table  2   Experimental configuration

    Parameters Configuration
    Operating system Ubuntu 20.04
    RAM 32G
    CPU Intel core i5 12400
    GPU Geforce RTX 3060
    GPU acceleration environment CUDA11.3
    Training framework Pytorch
    下载: 导出CSV

    表  3   算法实现的具体参数配置

    Table  3   Specific parameter configuration for algorithm implementation

    Parameters Configuration
    Model MAFSnet
    Training rounds 100
    Batch size 32
    Optimizer SGD
    下载: 导出CSV

    表  4   多模态融合策略

    Table  4   Multimodal fusion strategy

    Fusion Strategy AP50/% mAP/%
    Add 83.00 38.26
    Mul 75.17 31.86
    Cat 66.32 25.91
    下载: 导出CSV

    表  5   多模态融合的权重因子

    Table  5   Weighting factors for multimodal fusion

    μ λ AP50/% mAP/%
    80.60 36.09
    80.71 36.69
    81.69 37.59
    83.00 38.26
    下载: 导出CSV

    表  6   损失函数

    Table  6   Loss function

    GFLoss GIoULoss AP50/% mAP/%
    80.83 37.24
    78.17 36.87
    83.00 38.26
    下载: 导出CSV

    表  7   改进Ghost PAN的消融实验结果

    Table  7   Improving the ablation experiment results of Ghost PAN

    Model AP50/% mAP/% Flops/G Params/M Latency/s
    Nanodet Plus- Ghost PAN 79.10 35.14 0.757 4.164 0.0082
    MAFSnet-Ghost PAN 79.66 36.26 0.757 4.164 0.0082
    MAFSnet -our PAN 80.35 37.79 0.823 4.201 0.0086
    MAFSnet-our PAN* 83.00 38.26 0.895 4.397 0.0090
    下载: 导出CSV

    表  8   不同算法结果对比

    Table  8   Comparison of the results of different algorithms

    Model Input shape AP50/% mAP/% Flops/G Params/M Latency/s
    YOLOv6-n 640×640 82.44 38.00 2.379 4.63 0.0068
    YOLOX-tiny 416×416 82.70 36.52 3.199 5.033 0.0055
    YOLOv8-n 640×640 81.99 37.52 1.72 3.011 0.0062
    Nanodet Plus-m 416×416 79.1 35.1 0.757 4.164 0.0082
    Ours 416×416 83.00 38.26 0.895 4.397 0.0090
    下载: 导出CSV
  • [1] 张辰, 赵红颖, 钱旭. 面向无人机影像的目标特征跟踪方法研究[J]. 红外技术, 2015, 37(3): 224-228, 239. http://hwjs.nvir.cn/article/id/hwjs201503010

    ZHANG Chen, ZHAO Hongying, QIAN Xu. Research on Target Feature Tracking Method for UAV Images[J]. Infrared Technology, 2015, 37(3): 224-228, 239. http://hwjs.nvir.cn/article/id/hwjs201503010

    [2] 王宁, 李哲, 梁晓龙, 等. 无人机单载荷目标检测及定位联合实现方法[J]. 电光与控制, 2021, 28(11): 94-100. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ202111021.htm

    WANG Ning, LI Zhe, LIANG Xiaolong, et al. Joint realization method of single payload target detection and positioning of UAV[J]. Electro-optic and Control, 2021, 28(11): 94-100. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ202111021.htm

    [3] 杨欣, 王刚, 李椋, 等. 基于深度卷积神经网络的小型民用无人机检测研究进展[J]. 红外技术, 2022, 44(11): 1119-1131. http://hwjs.nvir.cn/article/id/f016be54-e981-4314-b634-7c05912eb61e

    YANG Xin, WANG Gang, LI Liang, et al. Research progress in detection of small civilian UAVs based on deep convolutional neural networks [J]. Infrared Technology, 2022, 44(11): 1119-1131. http://hwjs.nvir.cn/article/id/f016be54-e981-4314-b634-7c05912eb61e

    [4] 粟宇路, 苏俊波, 范益红, 等. 红外中长波图像彩色融合方法研究[J]. 红外技术, 2019, 41(4): 335-340. http://hwjs.nvir.cn/article/id/hwjs201904007

    SU Yulu, SU Junbo, FAN Yihong, et al. Research on color fusion method of infrared medium and long wave images [J]. Infrared Technology, 2019, 41(4): 335-340. http://hwjs.nvir.cn/article/id/hwjs201904007

    [5] 陈旭, 彭冬亮, 谷雨. 基于改进YOLOv5s的无人机图像实时目标检测[J]. 光电工程, 2022, 49(3): 69-81. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202203006.htm

    CHEN Xu, PENG Dongliang, GU Yu. Real-time target detection of UAV images based on improved YOLOv5s [J]. Optoelectronic Engineering, 2022, 49(3): 69-81. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202203006.htm

    [6]

    Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6517-6525.

    [7]

    Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[J/OL]. Computer Vision and Pattern Recognition, 2016. https://arxiv.org/abs/1606.09549

    [8] 闫号, 戴佳佳, 龚小溪, 等. 基于多源图像融合的光伏面板缺陷检测[J]. 红外技术, 2023, 45(5): 488-497. http://hwjs.nvir.cn/article/id/9de7d764-d0af-4af8-9eb1-a1b94186c243

    YAN Hao, DAI Jiajia, GONG Xiaoxi, et al. Photovoltaic panel defect detection based on multi-source image fusion [J]. Infrared Technology, 2023, 45(5): 488-497. http://hwjs.nvir.cn/article/id/9de7d764-d0af-4af8-9eb1-a1b94186c243

    [9]

    MA Jiayi, MA Yong, LI Chang. Infrared and visible image fusion methods and applications: A survey[J]. Information Fusion, 2019, 45: 153-178.

    [10] 白玉, 侯志强, 刘晓义, 等. 基于可见光图像和红外图像决策级融合的目标检测算法[J]. 空军工程大学学报: 自然科学版, 2020, 21(6): 53-59, 100. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm

    BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. Target detection algorithm based on decision-level fusion of visible light images and infrared images [J]. Journal of Air Force Engineering University: Natural Science Edition, 2020, 21(6): 53-59, 100. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm

    [11] 宁大海, 郑晟. 可见光和红外图像决策级融合目标检测算法[J]. 红外技术, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    NING Dahai, ZHENG Sheng. Decision-level Fusion Object Detection Algorithm for Visible and Infrared Images[J]. Infrared Technology, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    [12] 马野, 吴振宇, 姜徐. 基于红外图像与可见光图像特征融合的目标检测算法[J]. 导弹与航天运载技术, 2022(5): 83-87. https://www.cnki.com.cn/Article/CJFDTOTAL-DDYH202205016.htm

    MA Ye, WU Zhenyu, JIANG Xu. Target detection algorithm based on feature fusion of infrared image and visible light image [J]. Missile and Space Vehicle Technology, 2022(5): 83-87. https://www.cnki.com.cn/Article/CJFDTOTAL-DDYH202205016.htm

    [13] 刘建华, 尹国富, 黄道杰. 基于特征融合的可见光与红外图像目标检测[J]. 激光与红外, 2023, 53(3): 394-401. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW202303010.htm

    LIU Jianhua, YIN Guofu, HUANG Daojie. Object detection in visible and infrared images based on feature fusion [J]. Laser and Infrared, 2023, 53(3): 394-401. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW202303010.htm

    [14] 解宇敏, 张浪文, 余孝源, 等. 可见光-红外特征交互与融合的YOLOv5目标检测算法[J/OL]. 控制理论与应用, http://kns.cnki.net/kcms/detail/44.1240.TP.20230511.1643.024.html.

    XIE Yumin, ZHANG Langwen, YU Xiaoyuan, etc. YOLOv5 target detection algorithm based on interaction and fusion of visible light-infrared features [J/OL]. Control theory and application, http://kns.cnki.net/kcms/detail/44.1240.TP.20230511.1643.024.html.

    [15]

    RangiLyu. NanoDet-Plus: Super fast and high accuracy lightweight anchor-free object detection model[EB/OL]. https://github.com/RangiLyu/nanodet, 2021.

    [16]

    MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.

    [17]

    LI X, WANG W, WU L, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection[J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-21012.

    [18]

    JIANG Nan, WANG Kuiran, PENG Xiaoke. Anti-UAV: A Large-Scale Benchmark for Vision-Based UAV Tracking[J]. IEEE Transactions on Multimedia, 2023, 25: 486-500, DOI: 10.1109/TMM.2021.3128047.

    [19]

    ZHAO J, WANG G, LI J, et al. The 2nd Anti-UAV workshop & challenge: Methods and results[J/OL]. arXiv preprint arXiv: 2108.09909, 2021.

    [20]

    LI C, LI L, JIANG H, et al. YOLOv6: A single-stage object detection framework for industrial applications[J/OL]. arXiv preprint arXiv: 2209.02976, 2022.

    [21]

    GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J/OL]. arXiv preprint arXiv: 2107.08430, 2021.

    [22]

    Github. Yolov5[EB/OL]. https://github.com/ultralytics/yolov5, 2021.

    [23]

    LI B, XIAO C, WANG L, et al. Dense nested attention network for infrared small target detection[J]. IEEE Transactions on Image Processing, 2022, 32: 1745-1758.

  • 期刊类型引用(1)

    1. 付启银. 基于视觉传达技术的可见光与红外图像融合方法. 激光杂志. 2025(04): 128-133 . 百度学术

    其他类型引用(0)

图(6)  /  表(8)
计量
  • 文章访问数:  280
  • HTML全文浏览量:  56
  • PDF下载量:  68
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-05-31
  • 修回日期:  2023-06-20
  • 刊出日期:  2023-07-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日