红外与可见光图像多尺度Transformer融合方法

陈彦林, 王志社, 邵文禹, 杨帆, 孙婧

陈彦林, 王志社, 邵文禹, 杨帆, 孙婧. 红外与可见光图像多尺度Transformer融合方法[J]. 红外技术, 2023, 45(3): 266-275.
引用本文: 陈彦林, 王志社, 邵文禹, 杨帆, 孙婧. 红外与可见光图像多尺度Transformer融合方法[J]. 红外技术, 2023, 45(3): 266-275.
CHEN Yanlin, WANG Zhishe, SHAO Wenyu, YANG Fan, SUN Jing. Multi-scale Transformer Fusion Method for Infrared and Visible Images[J]. Infrared Technology , 2023, 45(3): 266-275.
Citation: CHEN Yanlin, WANG Zhishe, SHAO Wenyu, YANG Fan, SUN Jing. Multi-scale Transformer Fusion Method for Infrared and Visible Images[J]. Infrared Technology , 2023, 45(3): 266-275.

红外与可见光图像多尺度Transformer融合方法

基金项目: 

山西省基础研究计划资助项目 201901D111260

信息探测与处理山西省重点实验室开放基金 ISPT2020-4

详细信息
    作者简介:

    陈彦林(1995-)男,硕士研究生,研究方向为图像融合,深度学习。E-mail:chentyust@163.com

    通讯作者:

    王志社(1982-),男,副教授,博士,研究方向为图像融合,深度学习,机器视觉。E-mail:wangzs@tyust.edu.cn

  • 中图分类号: TP391

Multi-scale Transformer Fusion Method for Infrared and Visible Images

  • 摘要: 目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。
    Abstract: Mainstream fusion methods based on deep learning employ a convolutional operation to extract local image features; however, the interaction between an image and convolution kernel is content-independent, and the long-range dependency cannot be well modeled. Consequently, the loss of important contextual information may be unavoidable and further limit the fusion performance of infrared and visible images. To this end, we present a simple and effective fusion network for infrared and visible images, namely, the multiscale transformer fusion method (MsTFusion). We first designed a novel Conv Swin Transformer block to model long-range dependency. A convolutional layer was used to improve the representative ability of the global features. Subsequently, we constructed a multiscale self-attentional encoding-decoding network to extract and reconstruct global features without the help of local features. Moreover, we designed a learnable fusion layer for feature sequences that employed softmax operations to calculate the attention weight of the feature sequences and highlight the salient features of the source image. The proposed method is an end-to-end model that uses a fully attentional model to interact with image content and attention weights. We conducted a series of experiments on TNO and road scene datasets, and the experimental results demonstrated that the proposed MsTFusion transcended other methods in terms of subjective visual observations and objective indicator comparisons. By integrating the self-attention mechanism, our method built a fully attentional fusion model for infrared and visible image fusion and modeled the long-range dependency for global feature extraction and reconstruction to overcome the limitations of deep learning-based models. Compared with other state-of-the-art traditional and deep learning methods, MsTFusion achieved remarkable fusion performance with strong generalization ability and competitive computational efficiency.
  • 自动行人检测技术被广泛应用于车载安全系统、视频监控系统等计算机视觉任务中。基于可见光图像的行人检测算法在光照不足、不均时效果较差,而基于热红外图像的行人检测算法因其热辐射成像原理受光照条件影响小,适合全天候工作,近年来得以广泛关注且成为研究热点。传统的热红外行人检测算法主要通过提取人工特征并结合分类器实现,如:刘峰等[1]提出了一种多特征级联方法,利用感兴趣区域长宽比特征和头部Haar特征组成初级分类器,再通过HOG(Histogram of Oriented Gradient)与SVM(Support Vector Machine)结合的方式得到最终检测结果;Cai等[2]提出一种对显著图提取局部强度差异直方图特征并使用SVM分类器得到行人检测结果;还有些方法通过提取感兴趣区域或热点图,将其转化为特征向量送入分类器进行判别[3-5]。这类传统方法由于依赖于特征设计,存在鲁棒性不强、准确率较低等缺点。随着深度学习的发展,使用深度卷积神经网络(Deep Convolutional Neural Network,DCNN)来解决行人检测问题成为当前主流方法。DCNN能够自学习更可靠、表达能力更强的图像特征,使得行人检测方法泛化能力更强、检测精度更高,如李慕锴等[6]通过将YOLOv3与SENet两种深度网络进行结合,提高了检测精度。

    不过,因夜晚环境与人体温度相差较大,包含行人的热红外图像会呈现较明显的人体边缘,有利于算法检测,而在温差较小的白天人体目标成像不够明显,会导致算法检测效果差。Liu等[7]和Wagner等[8]提出多光谱融合的行人检测方法,将可见光与热红外图像同时送入深度网络,利用两者优劣势互补提高了检测精度,但多光谱融合方法需要使用多个传感器,成本较高,且不同光谱图像很难完全对准。Ghose等[9]以热红外图像作为深度网络输入,结合强显著图检测来缓解温差较小时行人与背景对比度低的问题,但显著图中出现漏检时,行人会被视作背景而忽略,且该方法使用复杂的显著性检测网络,以像素级标注作为显著图标签进行训练,费时较长。此外,上述方法中均采用了较为复杂的Faster R-CNN或YOLO系列网络,在实际应用中实现实时检测需要依赖昂贵的硬件资源。

    针对以上问题,本文提出一种基于弱显著图的实时热红外行人检测方法,采用弱标注方式训练显著性检测网络,将显著性检测网络和目标检测网络产生的结果进行融合从而提高行人检测准确率;同时,本文方法以轻量级单目标检测网络LFFD[10]为基础进行改进,使之在硬件资源有限的情况下也能实时工作。

    LFFD是由He等提出的一种实用轻量级单目标检测网络[10],最初针对人脸检测任务设计,但能方便地扩展到行人检测、头部检测、车辆检测等任务中。作为一种无锚框(Anchor-free)网络,LFFD利用感受野作为天然锚框,特征图中的每个像素点都具有相对应大小的感受野,当前像素点的感受野大小就是锚框大小。文中提出浅层网络的有效感受野要比小目标尺度大,这样可充分利用周围特征对目标检测的贡献;由于深层网络的感受野较大,适合检测大目标,同时大目标本身有足够的特征信息辅助目标判别,因此有效感受野与目标比例无需太大。基于这些观点,通过精心设计感受野大小,可将锚框大小覆盖目标检测的各个尺度,同时能在一定程度上缓解小目标检测问题。LFFD网络结构简单,便于在各个平台上部署,且运行速度较快。

    本文方法使用的基础网络就是用来解决行人检测任务的LFFD,其结构如图 1所示,包含由20个卷积层C1~C20组成的骨干网络(backbone),并包含4个不同的输出分支(out branch),负责检测不同尺度大小的目标,高层网络具有较大的感受野,适合用来预测较大目标,因此输出目标的大小从out branch1到out branch4依次递增。

    图  1  LFFD网络结构图
    Figure  1.  The network structure of LFFD

    LFFD在速度与精度间有较好的平衡,运行速度快,但与复杂的深度学习网络相比提取的图像特征表达能力有限,影响了检测精度,因此本文方法使用两级改进的LFFD,增强网络提取特征的表达能力,在提高检测精度的同时保证实时性。

    本文提出的基于弱显著图的实时热红外图像行人检测方法的工作流程如图 2所示,使用了两级改进的LFFD网络。为便于表述,本文将原始LFFD网络简称为ORI-LFFD(Original LFFD),其输入为热红外图像,输出为目标检测结果,包括位置信息、类别信息和置信度。两级LFFD都是在ORI-LFFD基础之上进行改进,前一级增加目标显著性检测功能,简称为SD-LFFD,其输入为热红外图像,输出为目标位置信息、类别信息和置信度以及弱显著图;后一级为融合上述弱显著图信息进行进一步检测的LFFD网络,简称为SF-LFFD,其输入为弱显著图与原始热红外图像,输出为目标位置信息、类别信息和置信度。

    图  2  本文方法的工作流程
    Figure  2.  Flowchart of the proposed method

    本文方法的工作流程可概括为3个步骤:

    1)将原始热红外图像送入SD-LFFD网络,产生初步行人检测结果,同时产生行人区域弱显著图。训练SD-LFFD网络时,只需将已标记的行人区域作为显著性检测的标签,故易于实现。

    2)将产生的弱显著图与原始热红外图像进行结合送入SF-LFFD中再一次进行检测,产生新的行人检测结果。为保持LFFD网络输入通道数不变,本文输入的原始热红外图像是RGB格式,但3个通道像素值相同(其实质为灰度图像),因此该步骤中取其中两通道与SD-LFFD产生的弱显著图组成新的三通道图像,再送入SF-LFFD中进行预测得到新的行人检测结果。该做法的优点在于能够“点亮”潜在行人区域,使神经网络能聚焦在可能的行人区域并抑制背景信息,从而凸显行人区域。

    3)将两级改进的LFFD网络即SD-LFFD和SF-LFFD产生的行人检测结果融合得到最终结果,即行人的位置信息、类别信息和置信度。使用两级改进的LFFD网络,相当于将ORI-LFFD网络结构加深,增强了网络信息处理和特征表达能力。

    SD-LFFD网络主要由两部分组成:①目标检测部分,与ORI-LFFD结构相同,主要用来生成目标位置信息、类别信息和置信度;②目标显著性检测部分,在ORI-LFFD基础上进行改造,主要用来产生弱显著图,实现对热红外图像中行人区域的粗略增强。

    为追求速度,本文方法不使用像素级强显著图检测方法[11],只简单地将网络多个输出层的特征图连接后输出即可。在深度网络中,从低层的特征层进行输出,纹理信息丰富,能较好地定位图像重要区域,但缺乏语义信息,难以准确区分行人和背景,会导致在热红外图像中的汽车、路灯等高亮区域也被输出为行人;而从高层的特征层进行输出,则正好相反。因此将尺度小、语义信息充足的高层特征和尺度大、缺乏语义信息的低层特征连接,实现了不同尺度特征的融合,可改善检测效果。具体做法是:在ORI-LFFD的网络结构中的C11、C14、C17和C20四个输出分支处插入卷积层和上采样层,将得到的特征图在通道维度上连接,经过一个1×1的卷积层改变通道数,最后经过sigmod激活函数进行输出,对输出的特征图利用双线性插值的方式进行缩放即可得到最终显著图。SD-LFFD中显著性检测网络结构图如图 3所示。

    图  3  显著性检测网络结构
    Figure  3.  The structure of saliency detection network

    SD-LFFD的损失函数为:

    $$L = \sum\limits_{i = 0}^B {\sum\limits_{j = 0}^S {{L_c}({c_{ij}},{{\hat c}_{ij}})} } + \sum\limits_{i = 0}^B {\sum\limits_{j = 0}^S {{L_r}({t_{ij}},{{\hat t}_{ij}})} } + \sum\limits_{k = 0}^S {{L_s}({p_k},{{\hat p}_k})} $$ (1)

    式中:i表示第i个输出分支;j表示第j个像素点;S表示当前输出分支面积Sw×h。第1项是分类损失函数Lc,使用交叉熵损失函数,当第i个输出分支第j个像素点落入真实框中,则cij=1,否则cij=0;第2项是回归损失函数Lr,使用L2损失函数,tij表示的是当前像素点感受野对应的坐标位置与真实框坐标位置的相对位移;第3项是显著性检测部分的损失函数Ls,使用交叉熵损失函数,k表示第k个像素点,p表示显著图标签,行人区域pk=1,背景区域pk=0。

    训练SD-LFFD网络时,显著图标注方式如图 4所示,其中(a)为原图,(b)为标签。由于热红外行人检测的像素级标注数据集很少,标注过程繁琐、成本高,且本文方法无需高精度显著性检测结果,只需粗略的显著图便可达到突出行人潜在区域的目的,因此本文方法通过简化显著性检测网络结构和弱标注的方式来产生弱显著图,提高检测效率。

    图  4  显著图标签
    Figure  4.  Saliency map label

    由于SD-LFFD网络中显著性检测部分与目标检测部分的输出形式和对于特征图的利用方式不同,会导致二者对于行人区域的输出不一致。对于显著图中检测到行人区域而目标检测网络发生漏检时,可通过显著图与热红外图像结合,送入下一级LFFD网络即SF-LFFD再次检测,对其进行弥补;虽然本文方法仅使用弱显著图来突出行人,但SF-LFFD的输入图像中仍包含了两通道不变的热红外图像信息,故使用弱显著图相当于增强了原始红外图像中的行人区域,有利于SF-LFFD进行更准确地检测。对于目标检测网络检测到行人区域,而显著图中发生漏检时,行人作为背景被抑制导致SF-LFFD出现漏检,则可通过对SD-LFFD与SF-LFFD产生的行人检测结果进行融合实现弥补。

    本文中将两级LFFD网络即SD-LFFD和SF-LFFD产生的行人检测结果进行融合,实现两种方法的互补,以得到更准确的结果。将SD-LFFD产生的置信度和位置信息分别表示为CSD-LFFDBSD-LFFD,将SF-LFFD产生的置信度和位置信息分别表示为CSF-LFFDBSF-LFFD,则最终输出的置信度和位置信息CoutBout为:

    $$\left\{ {\begin{array}{*{20}{c}} {{C^{{\rm{out}}}} = w_C^{{\rm{SD - LFFD}}}{C^{{\rm{SD - LFFD}}}} + w_C^{{\rm{SF - LFFD}}}{C^{{\rm{SF - LFFD}}}}}\\ {{B^{{\rm{out}}}} = w_B^{{\rm{SD - LFFD}}}{B^{{\rm{SD - LFFD}}}} + w_B^{{\rm{SF - LFFD}}}{B^{{\rm{SF - LFFD}}}}} \end{array}} \right.$$ (2)

    确定参数wCSD-LFFDwCSF-LFFDwBSD-LFFDwBSF-LFFD时,由于SF-LFFD的输入结合了SD-LFFD产生的显著图和原始热红外图像,故SF-LFFD的检测结果要优于SD-LFFD,从而可设置wSF-LFFDwSD-LFFD,且wSF-LFFD+wSD-LFFD=1。本文基于上述原则尝试了多组值取得的效果后,取wCSD-LFFD=0.3,wCSF-LFFD=0.7,wBSD-LFFD=0.2,wBSF-LFFD=0.8。

    为了验证本文方法的有效性,采用CVC-09[12]和CVC-14[13]两个典型的热红外图像行人数据集进行网络训练和测试。训练时将白天和夜晚的训练集合并,测试时将白天与夜晚的测试集分开,以便比较两种不同环境下的行人检测效果。两个数据集的样本分布如表 1所示。为提升网络的鲁棒性,采用了随机裁剪、随机水平翻转等操作进行数据增强。

    表  1  CVC-09和CVC-14数据集的样本分布
    Table  1.  The distribution of samples in CVC-09 and CVC-14
    Dataset Day Night
    Train set Test set Train set Test set
    CVC-09 4225 2882 3201 2883
    CVC-14 3695 707 3390 727
    下载: 导出CSV 
    | 显示表格

    由于原CVC-09数据集在训练集中将骑行的人标注成行人类别,但在测试集中却未进行标注,为了保持统一性,本文将CVC-09测试集中骑行的人重新标注为行人类别,且所有实验都是在重新标注的数据集上进行的。

    网络训练时,本文使用MXNet框架,NVIDIA GTX 1080 GPU,CUDA版本10.0,cuDNN版本7.6.5,使用SGD梯度下降法,初始学习率(learning rate)为0.1,动量(momentum)为0.9,批大小(batch size)为16。为避免正负样本严重不均衡,采用正负样本比例1:5的方式限制负样本数量来进行反向传播,保证训练过程更快更稳定。整个训练过程迭代200000次,学习率设置为动态调整,在第60000和第120000次迭代时将学习率降低90%。

    1)行人检测准确率比较

    本文使用P-R(Precision-Recall)曲线作为评价指标。P-R曲线刻画了精确率(Precision)和召回率(Recall)之间的关系。精确率和召回率分别定义为:

    $$ {\rm{ Precision }} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}},\quad {\rm{ Recall }} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} $$ (3)

    式中:TP为正样本被正确预测的数量;FP为负样本被预测为正样本的数量;FN为正样本被预测为负样本的数量。将所有样本按预测为正样本的置信度从大到小排序,根据设置的IoU阈值(本文取0.5),计算Precision和Recall值,并以Recall为横坐标、Precision为纵坐标绘图即得到P-R曲线。P-R曲线下方面积即为平均精确率(Average Precision,AP),AP值越高,效果越好。

    本文行人检测实验结果的P-R曲线如图 5所示,比较了ORI-LFFD、SD-LFFD、SF-LFFD以及本文方法(即SD-LFFD+SF-LFFD)得到的检测结果,其中图 5(a)(b)分别为CVC-09数据集白天和夜晚的测试结果,图 5(c)(d)分别为CVC-14数据集白天和夜晚的测试结果。在4幅图中本文方法(即SD-LFFD+SF-LFFD)得到的P-R曲线均优于其它3种独立网络(即ORI-LFFD、SD-LFFD或SF-LFFD),可见本文方法对两级改进的LFFD网络的行人检测结果进行融合能有效提升最终的行人检测精度。表 2列出了不同网络行人检测的AP值,其中Day、Night和Total分别代表数据集中白天、夜晚和整体数据集3种测试场景。

    图  5  两个数据集上行人检测结果的P-R曲线
    Figure  5.  The P-R curves of pedestrian detection results on two datasets
    表  2  行人检测AP值比较
    Table  2.  AP comparison for pedestrian detection  %
    Dataset TestScenario AP(IoU=0.5)
    ORI-LFFD SD-LFFD SF-LFFD SD-LFFD+SF-LFFD
    CVC-09 Day 74.15 73.25 76.05 78.46
    Night 74.70 75.54 75.81 79.85
    Total 73.82 74.01 75.52 78.74
    CVC-14 Day 53.94 57.93 64.81 66.76
    Night 75.70 76.17 83.61 83.94
    Total 63.45 66.06 73.21 74.46
    下载: 导出CSV 
    | 显示表格

    相比于原始LFFD网络(即ORI-LFFD),本文方法(即SD-LFFD+SF-LFFD)在CVC-09数据集上整体检测效果提升了近5%,在CVC-14数据集上提升了近11%。由于白天人体与环境温差较夜晚要小,白天的检测效果往往要比夜晚差,在使用本文方法后白天和夜晚的检测精度都有提升,且对白天的提升更为明显,尤其在CVC-14数据集上提高了近13%,因此本文方法能够在一定程度上缓解热红外图像在白天检测效果较差的问题。此外,SF-LFFD的AP值在不同的数据集和不同的测试场景中均要优于ORI-LFFD和SD-LFFD,可以体现出本文方法中使用弱显著图对于提升SF-LFFD网络的目标检测效果是有帮助的。

    2)与典型轻量级检测网络的对比

    进一步在相同条件下通过实验将本文改进的轻量级网络与典型的轻量级目标检测网络Tiny-YOLOv3[14]进行了对比,在上述两个数据库上的行人检测AP值对比情况如图 6所示。

    图  6  本文方法与Tiny-YOLO v3方法的AP值对比
    Figure  6.  AP comparison between the proposed method and Tiny- YoLov3 method

    可见,在CVC-09数据集中,对于Day、Night和Total不同的测试场景下,本文方法(SD-LFFD+SF-LFFD)的AP值均要高于Tiny-YOLOv3;在CVC-14数据集中,在Day的测试场景下,本文方法AP值稍低,但在Night的测试场景中本文方法的AP值要高出约10%,在Total的测试场景下本文方法表现更佳。由此可体现出本文方法在同等的轻量级目标检测网络中具有一定的精度优势。

    3)行人检测速度测试及比较

    测试阶段,本文使用MXNet框架,NVIDIA GTX 960M 4G GPU,CUDA版本9.0,cuDNN版本7.4.1,输入图像分辨率为640×480。除测试本文方法外,还对Tiny-YOLOv3进行速度测试,与本文方法进行对比,结果如表 3所示。

    表  3  行人检测的速度对比
    Table  3.  Speed comparison for pedestrian detection
    Method Model size/M Frame rate /fps Inference speed/ms
    Tiny-YOLOv3 33.99 18.31 54.61
    SD-LFFD+SF-LFFD 14.45 31.25 32
    下载: 导出CSV 
    | 显示表格

    可见,相较于Tiny-YOLO v3,本文方法(SD-LFFD+SF-LFFD)用更小的模型取得了更快的速度,处理帧率约为31 fps,说明在硬件资源有限的情况下本文方法能实时工作,这得益于使用简单易实现的目标弱显著性检测算法和改进的轻量级LFFD网络。

    本文提出了一种基于弱显著图的实时热红外图像行人检测方法,主要贡献在于:①设计了一种针对行人的弱显著性检测网络结构,在产生行人检测结果的同时能够产生行人的弱显著图;②将检测到的弱显著图与原始热红外图像相结合,使得深度网络能更加关注行人潜在区域,从而改善在人体与背景温差较小的白天时热红外图像行人检测效果较差的问题;③对两级改进的LFFD网络产生的行人检测结果进行融合,提升了算法整体的检测精度。实验结果表明,本文方法中使用弱显著图和两级改进的轻量级LFFD网络进行行人检测,不仅有效提升了检测准确率,而且实现了在硬件资源有限的情况下的实时检测。

  • 图  1   多尺度Transformer图像融合方法原理

    Figure  1.   Principle of multi-scale Transformer image fusion method

    图  2   融合层示意图

    Figure  2.   Schematic diagram of fusion strategy

    图  3   5种融合模型的主观对比结果

    Figure  3.   The subjective comparison results of five fusion models

    图  4   TNO数据集Nato_camp主观评价对比结果

    Figure  4.   The subjective comparison results of Nato_camp from the TNO dataset

    图  5   TNO数据集Street主观评价对比结果

    Figure  5.   The subjective comparison results of Street from the TNO dataset

    图  6   TNO数据集Bench主观评价对比结果

    Figure  6.   The subjective comparison results of Bench from the TNO dataset

    图  7   TNO数据集Kaptein_1123主观评价对比结果

    Figure  7.   The subjective comparison results of Kaptein_1123 from the TNO dataset

    图  8   TNO数据集不同融合方法指标EN、SD、MI、SF、NCIE、VIF对比结果

    Figure  8.   The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from the TNO dataset

    图  9   Roadscene数据集FLIR_07210主观评价对比结果

    Figure  9.   The subjective comparison results of FLIR 07210 from the Roadscene dataset

    图  10   Roadscene数据集FLIR_08954主观评价对比结果

    Figure  10.   The subjective comparison results of FLIR_08954 from the Roadscene dataset

    图  11   Roadscene数据集不同融合方法指标指标EN、SD、MI、SF、NCIE、VIF对比结果

    Figure  11.   The objective comparison results of EN, SD, MI, SF, NCIE and VIF of different fusion methods from Roadscene dataset

    表  1   5种融合模型的客观对比结果

    Table  1   The objective comparison results of five fusion model

    Models Parameters SF VIF EN SD MI NCIE
    Fusion Layer Add 9.51591 0.36018 7.22888 47.80041 2.55456 0.80587
    Ours 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    STL Number 5 9.31619 0.35836 7.20091 48.01473 2.57833 0.80592
    6 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    7 9.40830 0.37508 7.22529 48.40002 2.49068 0.80564
    Conv Layer No 9.39838 0.36835 7.21169 47.38488 2.45803 0.80556
    Yes 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607
    下载: 导出CSV

    表  2   不同融合方法计算效率对比结果

    Table  2   The comparison results of computation efficiency for different fusion methods  s

    Method TNO Roadscene
    MDLatLRR 7.941×101 3.839×101
    IFCNN 4.554×10-2 2.246×10-2
    DenseFuse 8.509×10-2 4.001×10-2
    RFN-Nest 1.777×10-1 8.609×10-2
    FusionGAN 2.015 1.093
    GANMcC 4.21 2.195
    PMGI 5.445×10-1 2.928×10-1
    SwinFuse 2.145×10-1 1.291×10-1
    IFT 8.141×10-1 4.025×10-1
    Ours 5.091×10-1 2.848×10-1
    下载: 导出CSV
  • [1]

    Paramanandham N, Rajendiran K. Multi sensor image fusion for surveillance applications using hybrid image fusion algorithm[J]. Multimedia Tools and Applications, 2018, 77(10): 12405-12436. DOI: 10.1007/s11042-017-4895-3

    [2]

    ZHANG Xingchen, YE Ping, QIAO Dan, et al. Object fusion tracking based on visible and infrared images: a comprehensive review[J]. Information Fusion, 2020, 63: 166-187. DOI: 10.1016/j.inffus.2020.05.002

    [3]

    TU Zhengzheng, LI Zhun, LI Chenglong, et al. Multi-interactive dual- decoder for RGB-thermal salient object detection[J]. IEEE Transactions on Image Processing, 2021, 30: 5678-5691. DOI: 10.1109/TIP.2021.3087412

    [4] 汪荣贵, 王静, 杨娟, 等. 基于红外和可见光模态的随机融合特征金子塔行人重识别[J]. 光电工程, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669.

    WANG Ronggui, WANG Jing, YANG Juan, et al. Random feature fusion of golden Tower for pedestrian rerecognition based on infrared and visible modes[J]. Opto-Electronic Engineering, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669

    [5]

    WANG Zhishe, XU Jiawei, JIANG Xiaolin, et al. Infrared and visible image fusion via hybrid decomposition of NSCT and morphological sequential toggle operator[J]. Optik, 2020, 201: 163497. DOI: 10.1016/j.ijleo.2019.163497

    [6]

    LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746. DOI: 10.1109/TIP.2020.2975984

    [7] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576

    SUN Bin, ZHUGE Wuwei, GAO Yunxiang et al. Infrared and visible image fusion based on potential low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576

    [8]

    MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.

    [9]

    KONG Weiwei, LEI Yang, ZHAO Huaixun. Adaptive fusion method of visible light and infrared images based on non-subsampled shearlet transform and fast non-negative matrix factorization[J]. Infrared Physics & Technology, 2014, 67: 161-172.

    [10] 姜迈, 沙贵君, 李宁. 基于PUCS与DTCWT的红外与弱可见光图像融合[J]. 红外技术, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954

    JIANG Mai, SHA Guijun, LI Ning. Infrared and inferior visible image fusion based on PUCS and DTCWT [J]. Infrared Technology, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954

    [11]

    WANG Zhishe, YANG Fengbao, PENG Zhihao, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]. Optik, 2015, 126(23): 4184-4190. DOI: 10.1016/j.ijleo.2015.08.118

    [12]

    LIU Yu, CHEN Xun, PENG Hu, et al. Multi-focus imagefusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36: 191-207. DOI: 10.1016/j.inffus.2016.12.001

    [13]

    ZHANG Hao, XU Han, TIAN Xin, et al. Image fusion meets deep learning: A survey and perspective[J]. Information Fusion, 2021, 76: 323-336. DOI: 10.1016/j.inffus.2021.06.008

    [14]

    ZHANG Yu, LIU Yu, SUN Peng, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011

    [15]

    LI Hui, WU Xiaojun. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614- 2623. DOI: 10.1109/TIP.2018.2887342

    [16]

    LI Hui, WU Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023

    [17]

    JIAN Lihua, YANG Xiaomin, LIU Zheng, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.

    [18]

    ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12797-12804.

    [19]

    WANG Zhishe, WANG Junyao, WU Yuanyuan, et al. UNFusion: a unified multi-scale densely connected network for infrared and visible image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3360- 3374.

    [20]

    WANG Zhishe; WU Yuanyuan; WANG Junyao, et al. Res2Fusion: infrared and visible image fusion based on dense Res2net and double non-local attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-12.

    [21]

    MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.

    [22]

    MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.

    [23] 王志社, 邵文禹, 杨风暴, 等. 红外与可见光图像交互注意力生成对抗融合方法[J]. 光子学报, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm

    WANG Zhishe, SHAO Wenyu, YANG Fengbao, et al. A generative antagonism fusion method for interactive attention of infrared and visible images [J]. Acta Photonica Sinica, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm

    [24]

    LI Jing, ZHU Jianming, LI Chang, et al. CGTF: Convolution-Guided Transformer for Infrared and Visible Image Fusion [J]. IEEE Transactions on Instrumentation and Measurement. 2022, 71: 1-14.

    [25]

    RAO Dongyu, WU Xiaojun, XU Tianyang. TGFuse: An infrared and visible image fusion approach based on transformer and generative adversarial network [J/OL].arXiv preprint arXiv: 2201.10147. 2022.

    [26]

    WANG Zhishe, CHEN Yanlin, SHAO Wenyu, et al. SwinFuse: a residual swin transformer fusion network for infrared and visible images[J/OL]. arXiv preprint arXiv: 2204.11436. 2022.

    [27]

    ZHAO Haibo, NIE Rencan. DNDT: infrared and visible image fusion via DenseNet and dual-transformer[C]// International Conference on Information Technology and Biomedical Engineering (ICITBE), 2021: 71-75.

    [28]

    VS V, Valanarasu J M J, Oza P, et al. Image fusion transformer [J/OL]. arXiv preprint arXiv: 2107.09011. 2021.

    [29]

    LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.

    [30]

    TOET A. TNO Image Fusion Datase[DB/OL]. [2014-04-26].https://figshare.com/articles/TNImageFusionDataset/1008029.

    [31]

    XU Han. Roadscene Database[DB/OL]. [2020-08-07].https://github.com/hanna-xu/RoadScene.

    [32]

    LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746.

图(11)  /  表(2)
计量
  • 文章访问数:  400
  • HTML全文浏览量:  504
  • PDF下载量:  166
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-08-22
  • 修回日期:  2022-09-12
  • 刊出日期:  2023-03-19

目录

/

返回文章
返回