结合信息感知与多尺度特征的红外与可见光图像融合

曲海成; 胡倩倩; 张雪聪

结合信息感知与多尺度特征的红外与可见光图像融合

辽宁工程技术大学软件学院, 辽宁葫芦岛 125105

基金项目:

辽宁省教育厅一般项目 LJ2019JL010

辽宁工程技术大学学科创新团队资助项目 LNTU20TD-23

详细信息

作者简介:
曲海成（1981-），男，博士，副教授，主要研究方向：图像与智能信息处理。E-mail：quhaicheng@lntu.edu.cn

中图分类号: TP391
计量
- 文章访问数: 358
- HTML全文浏览量: 62
- PDF下载量: 103
出版历程
- 收稿日期: 2022-08-27
- 修回日期: 2022-11-29
- 网络出版日期: 2024-05-15
- 刊出日期: 2023-07-19

Infrared and Visible Image Fusion Combining Information Perception and Multiscale Features

School of Software, Liaoning Technical University, Huludao 125105, China

摘要

摘要:
现有的基于深度学习图像融合算法无法同时满足融合效果与运算效率，且在建模过程中大部分采用基于单一尺度的融合策略，无法很好地提取源图像中上下文信息。为此本文提出了一种基于信息感知与多尺度特征结合的端到端图像融合网络。该网络由编码器、融合策略和解码器组成。具体来说，通过编码器提取红外与可见光图像的多尺度特征，并设计特征增强融合模块来融合多个尺度的不同模态特征，最后设计了一个轻量级的解码器将不同尺度的低级细节与高级语义信息结合起来。此外，利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练，从而生成具有丰富信息的融合图像。在TNO、MSRS数据集上对提出的融合框架进行了评估实验。结果表明：与现有的融合方法相比，该网络具有较高计算效率；同时在主观视觉评估和客观指标评价上都优于其它方法。
- 图像融合 /
- 多尺度特征 /
- 信息感知 /
- 特征增强
Abstract:
Existing image fusion algorithms based on deep learning are unable to satisfy the demands of computational efficiency and fusion effect. Most have also adopted a fusion strategy based on a single-scale model, which cannot effectively extract the contextual information in images. This study proposes an end-to-end image fusion network based on information perception and multiscale features. The network consists of an encoder, a fusion strategy, and decoder. Specifically, the multiscale features of the infrared and visible images were extracted by the encoder, and a feature complementary enhancement module was designed to fuse different modal multiscale features. Finally, the lightweight decoder was designed to combine the low-level details and high-level semantic information. In addition, the information entropy of the source image was used to construct an information-sensing loss function to train the fusion network and generate the fused image with rich information. The proposed fusion framework was evaluated on the TNO and MSRS datasets. The results show that compared with existing fusion methods, the proposed network was superior to other methods in terms of both subjective visual description and objective index evaluation, with higher computational efficiency.
- image fusion /
- multi-scale feature /
- information perception /
- feature complementary enhancement
前言
多源图像融合能最大限度地综合各信道有利信息，在计算机视觉、军事遥感、医学图像处理等领域发挥着重要作用。近年来，在以混合型融合算法为代表的智能化浪潮推动下，多源图像融合领域取得了长足的发展和进步。基于此，《红外技术》面向研究人员推出“多源图像融合专栏”，力图展示多源图像融合技术的最新研究成果，为从事相关研究的读者提供参考。

通过广泛征集和严格评审，本期专栏收录了来自西安工业大学、中国石油大学等从事多源图像融合团队的7篇论文。论文内容既有对红外与可见光图像融合等热门方向的研究，也有面向全色与多光谱图像融合、夜视抗晕光针对性融合、无人机目标检测自适应融合等最新应用技术的研究。

然而，图像特征的差异性、探测环境的复杂性、应用场景的多样性等都对多源图像融合技术的发展和应用提出了更严峻的挑战。本期专栏只是一个起点，希望能够启发广大读者做出更多更精彩的研究。

最后，感谢各位审稿专家和编辑的辛勤工作。

——杨风暴

HTML全文

0. 引言

近年来，借助于深度学习等理论，视觉目标跟踪技术取得了重大突破。但现有跟踪算法大多是针对可见光场景，对于热红外目标跟踪的研究文献较少，只有LIU等人^[1-4]进行了较为深入的研究。

与可见光目标跟踪相比，热红外跟踪具有不受照明变化影响的优点，可以在完全黑暗的情况下跟踪目标。因此，热红外跟踪在灾难救援、视频监控和夜间巡逻等领域具有广阔的应用前景^[5]。随着热红外成像设备在民用领域的普及化使用，热红外目标跟踪正逐步成为计算机视觉领域的一个研究热点。

和可见光跟踪相似，热红外跟踪也面临着不少挑战。首先，热红外图像缺少颜色信息，较难获得目标对象的判别特征，从而降低了跟踪性能^[6]。比如两个不同颜色的相似物体在热红外图像中几乎是相同的。除此之外，热红外跟踪还面临如遮挡、外观变化和运动模糊等挑战。

近年来，深度学习已成功应用到视觉跟踪中，取得了一系列重要成果。与基于手工特征的跟踪器相比，基于卷积神经网络（Convolutional Neural Networks，CNN）的跟踪器可以获得更优越的跟踪性能。因为单个卷积层特征对跟踪中的各种挑战（例如形变和背景杂斑）鲁棒性不强，现有基于深度学习的跟踪算法大多是融合浅层和深层特征进行跟踪，比如HCF（Hierarchical Convolutional Features）^[7]基于KCF（Kernel Correlation Filter）框架，使用预训练的VGG-19（Visual Geometry Group-19）网络提取目标的Conv3-4（Convolution 3-4）、Conv4-4、Conv5-4层特征进行融合，而TADT（Target-Aware Deep Tracking）^[8]基于全卷积孪生网络（Fully-Convolutional Siamese Network，SiamFC）^[9]框架使用预训练的VGG-16网络提取Conv4-1、Conv4-3层特征并进行融合等等。上述算法均属于特征层融合，并没有实现决策层融合，而且使用单一跟踪器无法有效应对复杂背景及目标外观变化等挑战因素。

考虑到卷积神经网络的强大表征能力及其在视觉跟踪中的成功应用，本文将在可见光图像数据集上预训练的CNN用于热红外跟踪任务，并基于此设计了一个多响应图集成的热红外目标跟踪方法。

1. 全卷积孪生网络框架

全卷积孪生网络是ECCV 2016（European Conference on Computer Vision 2016）会议^[9]上提出的一种全新的目标跟踪框架，其通过比较初始目标模板和当前帧中搜索区域的特征来进行跟踪。其实现流程可以由下式定义：

$$ f\left( {z, x} \right) = \varphi \left( z \right)*\varphi \left( x \right) + b $$

(1)

式中：ϕ(z)为第一帧中模板图像z对应的特征图；ϕ(x)为后续帧中待搜索区域x的特征图；*为卷积运算符，b为偏置项。图 1给出了SiamFC网络结构图。

图 1 SiamFC网络结构

Figure 1. SiamFC network structure

下载: 全尺寸图片幻灯片

本文算法选择全卷积孪生网络作为目标跟踪的基本框架，主要原因在于：①全卷积孪生网络结构简单，可以在较大的搜索图像中定位目标模版，并且跟踪速度快。②在跟踪过程中目标模板不更新，可以有效应对目标遮挡等挑战。

2. 本文算法

2.1 预训练网络

虽然Siamese框架是在大型视频数据集ILSVRC15（Large Scale Visual Recognition Challenge 2015）上预先训练的，但是Siamese跟踪器没有充分利用与特定目标对象相关的语义信息。因此在本文算法中，我们借鉴了TADT的做法，从一个预先训练好的CNN中选择对于目标最具判别性以及对于目标尺度变化最为敏感的卷积滤波器（特征通道）来生成目标深度特征。在本文中，我们选择使用VGG-16卷积网络来提取对于热红外目标敏感的特征。在2.2节中将给出特征通道的选择方法。

2.2 通道选择

诸如VGG、ResNet（Residual Network）等卷积网络中的参数是在庞大的数据集中预训练获得的，相对于当前要跟踪的对象存在许多冗余的特征通道信息。冗余的特征通道会占用大量的计算资源，这也是许多基于深度学习的跟踪算法执行速度较慢的原因。除此之外，冗余的特征通道还会对跟踪造成干扰，影响跟踪精度。本文在特征提取过程中进行通道选择，减少冗余特征通道对当前跟踪目标的不利影响。

本文的通道选择是基于文献[10]提出的GCAM（Grad-Class Activation Mapping）模型来实现的。GCAM模型根据每个输入像素点的梯度来表示其属于给定类别标记的重要性，通过沿特征通道计算加权和，生成一个类活动映射。特征通道的权值是通过对该通道中所有梯度的全局平均池化（Global Average Pooling，GAP）来计算的，权值高的特征通道对当前类的贡献大。公式如下：

$$ {\varDelta _i} = {G_{{\text{AP}}}}\frac{{\partial L}}{{\partial {z_i}}} $$

(2)

式中：Δ_i表示计算出的第i个通道的重要性；G_AP是全局平均池化函数；L是损失函数；z_i指的是第i个过滤器的输出特征。

借鉴该理论，本文算法在提取深度特征后计算每个特征通道的梯度值，从中选择最能标记目标特征也就是重要性较高的特征通道进行后续运算。

2.3 多跟踪器设计

虽然当前主流跟踪算法都使用了深度特征，但使用单个跟踪器在某些场景下仍然很难获得优秀的跟踪性能。基于此，本文提出利用多个互补的卷积层特征构建一个集成式热红外目标跟踪方法。本文利用VGG-16卷积网络分别提取待跟踪目标的Conv4-1、Conv4-2、Conv4-3和Conv5-1层特征，并形成如下3种特征组合：{Conv4-2、Conv4-1}、{Conv4-3、Conv4-1}、{Conv5-1、Conv4-1}。利用上述3种特征组合分别设计跟踪器1、跟踪器2、跟踪器3，在3种特征组合中均包含Conv4-1层，这是因为文献[8]的实验表明Conv4-1层特征最适合用来进行目标的尺度估计。每个跟踪器的计算过程都是相似的，下面以跟踪器1为例给出具体跟踪过程：

1）提取待跟踪目标的Conv4-1和Conv4-2层特征（每层共包含512个特征通道）；

2）利用2.2节中提到的方法计算所有特征通道的梯度信息，选择对于目标活动和尺度变化较为敏感的特征通道参与后序的互相关操作。经过通道选择后，降低了卷积层的维度，提高了卷积层的有效性。本文按照重要性高低对所有特征通道进行排序并选择了Conv4-2层的前300个通道和Conv4-1层的前80个通道进行融合参与后续运算。

3）通过互相关操作获取目标响应图。

2.4 基于KL散度的集成模型

利用2.3节的方法可以获得多个响应图，在本节将给出利用KL散度将多个响应图进行集成的过程。

我们可以用P^k表示第k个跟踪器产生的目标位置响应图，Q∈R^M×N表示集成后的响应图。然后采用KL散度度量他们之间的广义距离，该距离越小则认为他们之间的分布差异越小，也就意味着集成后的概率图Q更能反映每一个概率图P^k中一致的部分，即目标出现概率最大的区域。通过最小化该KL散度，可以达到优化概率图Q的目的，具体过程如下式：

$$ \arg \mathop {\min }\limits_Q \sum\limits_{k = 1}^n {{\text{KL}}({P^k}||Q)} $$

(3)

$$ {\text{s}}{\text{.t}}{\text{.}}\quad \sum {{q_{ij}} = 1} $$

其中：

$$ {\text{KL}}({P^k}||Q) = \sum\limits_{ij} {p_{ij}^k} \log \frac{{p_{ij}^k}}{{{q_{ij}}}} $$

(4)

式中：p_ij，q_ij分别表示概率图P与概率图Q中的第(i, j)个元素。p_ij^k表示概率图P^k中目标位置为(i, j)的概率，i＝{1, 2, …, M}, j＝{1, 2, …, N}，并且服从$ \sum {p_{ij}^k} = 1 $。

由于在跟踪场景中可能存在背景杂斑等干扰，因此在响应图中会存在“多峰”现象，即存在多个目标位置响应。文献[1]提供了一个行之有效的去噪策略，本文借鉴该策略将2.3节中得到的响应图进行过滤，下式给出过滤过程：

$$ {P^{k, z}} = {P^k} \odot {P^z} $$

(5)

式中：k＝{1, 2, …, n－1}，z＝{k+1, k+2, …, n}。

在式(5)中n代表跟踪器的数量；⊙表示点乘操作。按照式(5)进行去噪处理可以使过滤后的概率图具有更高的置信度，提高跟踪的精确度。n个响应图进行两两去噪处理后可以得到(n(n－1))/2个噪音更少、置信度更高的概率图A＝{P^{1, 2}, P^{1, 3}, …, P^{2, 3}, …P^{n－1, n}}。因此公式(3)可以被重写成如下形式：

$$ \arg \mathop {\min }\limits_Q \sum\limits_{p \in A} {\sum\limits_{ij} {{p_{ij}}} } \log \frac{{{p_{ij}}}}{{{q_{ij}}}} $$

(6)

$$ {\text{s}}{\text{.t}}{\text{.}}\quad \sum {{q_{ij}} = 1} $$

根据拉格朗日乘数法，令：

$$ F({p_{ij}}, {q_{ij}}) = \sum\limits_{p \in A} {\sum\limits_{ij} {{p_{ij}}} } \log \frac{{{p_{ij}}}}{{{q_{ij}}}} + \lambda (\sum {{q_{ij}} - 1} ) $$

(7)

对所有的p_ij、q_ij求偏导并令F′(p)和F′(q)等于0，最终可求得：

$$ Q = \frac{2}{{n(n - 1)}}\sum\limits_{p \in A} p $$

(8)

通过取式(8)中响应图Q中的最大值可以得到目标的位置(x, y)：

$$ (x, y) = \arg \mathop {\max }\limits_{i, j} Q(i, j) $$

(9)

3. 实验结果与分析

3.1 实验环境

我们在Win10系统中使用Matlab2016b编程语言实现了所提出的目标跟踪算法。为了验证本文所提算法的有效性，在配备I7-10700 2.9 GHz CPU和GTX-1080 GPU的PC上进行了实验，对比算法有HCF^[7]、SiamFC^[9]、TADT^[8]、MDNet（Multi-Domain Convolutional Neural Networks）^[11]、ATOM（Accurate Tracking by Overlap Maximization）^[12]、MCFTS（Multi-Layer Convolutional Features for Thermal Infrared Tracking）^[1]、HSSNet（Hierarchical Spatial-Aware Siamese Network）^[2]、MLSSNet（Multi-Level Similarity Network）^[3]、MMNet（Multi-Task Matching Network）^[4]。其中MCFTS、MLSSNet、HSSNet和MMNet是专用红外目标跟踪算法，其他5种算法均为近年来优秀的可见光跟踪算法。

3.2 评估数据集

因为目前公开的红外视频数据集非常少，所以很多学者使用VOT-TIR16（The Thermal Infrared Visual Object Tracking 2016）^[13]和PTB-TIR（Thermal Infrared Pedestrian Tracking Benchmark）^[14]作为热红外跟踪评估数据集。VOT-TIR16数据集中视频序列过少，只包含25个红外视频序列，部分跟踪算法可以通过调参的方式去适应。PTB-TIR数据集中虽然包含60个红外视频序列，但跟踪目标均为行人，类别较为单一，无法评估跟踪算法对通用目标的跟踪效果。

2020年8月发布的LSOTB-TIR^[15]有效解决了上述问题。LSOTB-TIR是迄今为止规模最大，多样性最强的热红外目标跟踪数据集。包含120个跟踪序列，涵盖22个目标类别，超过8.2万帧图像。LSOTB-TIR中定义了4种场景属性，这4种场景中的红外视频分别由车载、手持、无人机载和监控设备拍摄，保证了视频来源的多样性。著名的可见光数据集OTB-100（Object Tracking Benchmark）定义了11种挑战属性，LSOTB-TIR则定义了红外目标跟踪中的12种挑战属性。在这12种挑战属性中，有8种属性和OTB-100中的类似，分别为遮挡、出视野、背景杂斑、形变、尺度变化、低分辨率、快速运动和运动模糊，这里不再赘述。剩余的4种为热红外跟踪中特有的挑战属性，具体定义在表 1中列出。

表 1 LSOTB-TIR定义的的4种热红外挑战属性

Table 1. Four thermal infrared challenge attributes defined by LSOTB-TIR

Infrared challenge attributes	Specific definitions
Aspect Ratio Variation（ARV）	The aspect ratio of the target exceeds [0.5, 2] during tracking
Intensity Variation （Ⅳ）	The intensity of the target changes during tracking
Thermal Crossover （TC）	Two targets of the same intensity cross each other
Distractor（DIS）	There are interfering objects similar to the target around the target

下载: 导出CSV

| 显示表格

因为LSOTB-TIR的全面性和多样性，所以本文选择使用LSOTB-TIR作为评估数据集。需要说明的是，本文并没有选择全部视频序列进行测试，而是从上述4种应用场景数据集中随机选择了40个典型红外短视频序列进行测试，这是因为LSOTB-TIR没有跟踪失败重启机制，在长视频序列中如果在某一帧丢失目标并且在后续帧无法找回将极大影响跟踪成功率，采用短视频序列测试更加公平。本文所提算法在40个视频序列上的平均跟踪速度约为11.2 FPS。

3.3 与经典跟踪算法的性能对比

3.3.1 定量分析

图 2为本文算法与MDNet等9种对比算法在LSOTB-TIR上生成的总精确度图和成功率图，本文提出的算法在这两项重要指标上均排名第一。与参照算法TADT相比，跟踪精确度和成功率分别提高了3.6%和4.2%，大幅超过了MMNet等红外目标跟踪算法，证明了本文采用的响应图集成策略取得较好的效果。图 3给出了10种算法在变形、背景杂斑、运动模糊、相似物干扰等4种复杂场景下的精确度曲线图，本文所提算法均体现了较强的鲁棒性。相比优秀的可见光跟踪器ATOM，本文算法的跟踪精确度率分别提高了13.2%、10.5%、13.9%和27.8%，说明本文所提算法更适合于红外目标跟踪。

图 2 10种算法在LSOTB-TIR的距离精度曲线图和成功率曲线

Figure 2. Distance accuracy curves and success rate curves of ten algorithms in LSOTB-TIR

下载: 全尺寸图片幻灯片

图 3 10种算法在LSOTB-TIR上4种挑战性场景下精确度曲线图

Figure 3. Accuracy curves of ten algorithms in four challenging scenarios of LSOTB-TIR

下载: 全尺寸图片幻灯片

3.3.2 定性分析

为了更直观地评估本文所提算法的跟踪性能，图 4给出了本文算法与另外3种在LSOTB-TIR数据集上表现优异的算法（TADT、ATOM和MDNet）在car_S_003、cow_H_001、person_S_015、street_S_001等4个视频序列的可视化跟踪结果。这4个视频序列非常具有代表性，包括汽车、动物、行人和环境复杂的街道，几乎涵盖了重要种类的地面红外目标。定性分析过程如下：

图 4 本文算法与另外三种算法跟踪结果比较

Figure 4. Comparison of tracking results with other three algorithms

下载: 全尺寸图片幻灯片

1）car_S_003视频序列中跟踪目标为行进中的汽车。ATOM跟踪器在第9帧时即受到周围相似物的干扰而发生漂移，第52帧中TADT和MDNet也接近丢失目标，第105帧时只有本文算法可以准确跟踪。

2）cow_H_001跟踪目标为右起第二只羊，从视频截图可以看出，ATOM和MDNet均受到相似物和周围环境干扰丢失目标，只有本文算法和TADT可以持续准确跟踪。

3）person_S_015视频序列中跟踪目标为右边的行人，旁边有个撑伞的行人和其同步前进，存在相似物及热交叉等干扰。ATOM、TADT分别在第30帧、第210帧时跟踪失败。相比MDNet，本文算法定位更为精确。

4）street_S_001视频序列中跟踪目标为街道上背包的行人，该视频序列包含热交叉、背景杂斑、遮挡等多种挑战。从视频截图可以看出其他几种算法跟踪框均漂移到相似的行人上，而本文算法因为集成了多个跟踪器可以正确跟踪。

3.4 消融实验

本节通过标准数据集LSOTB-TIR上的消融实验来验证算法相关模块设计的合理性。首先，为了验证通道选择的有效性，以跟踪器1（Ours_1）为例，比较了不进行通道选择（No_CS）和进行通道选择的效果对比。如图 5(a)所示，本文算法在只选择了300个通道的情况下跟踪精度还提高了0.6%，证明冗余通道可以丢弃，并且丢弃冗余通道后跟踪速度有了显著提升，因此利用通道选择后的跟踪器参与后续集成更加高效。其次，为了验证集成方法的有效性，将本文提出的集成方法（Ours）与跟踪器1（Ours_1）、跟踪器2（Ours_2）及跟踪器3（Ours_3）分别单独跟踪的结果进行了对比。如图 5(b)所示，可以看出集成算法较其他3个单独跟踪方法在跟踪精确度上分别提升了2.5%、3.6%和1.6%。消融结果证明了本文所提算法的有效性。

图 5 消融实验

Figure 5. Ablation experiment

下载: 全尺寸图片幻灯片

4. 结论

基于简洁高效的全卷积孪生网络框架提出了一种多响应图集成的红外目标跟踪算法。算法的创新之处在于利用预训练的VGG-16网络来提取热红外目标的深度特征并进行通道选择，进而通过对不同层次的深度特征进行组合设计了3个跟踪器。最后基于KL散度将3个跟踪器的响应图进行集成以获取最优结果。为了验证本文算法的实际效果，在大型热红外数据集LSOTB-TIR上进行了测试并和近年来几种先进的目标跟踪算法进行了比较。实验结果表明，本文所提算法性能良好，具有一定的实际应用价值。

图 1 MFF-Net整体框架

Figure 1. Overall framework of MFF-Net

下载: 全尺寸图片幻灯片

图 2 FEF网络结构

Figure 2. Architecture of FEF network

下载: 全尺寸图片幻灯片

图 3 ECA模块示意图

Figure 3. Diagram of ECA module

下载: 全尺寸图片幻灯片

图 4 解码器网络结构

Figure 4. Architecture of decoder network

下载: 全尺寸图片幻灯片

图 5 MSRS数据集中白天场景一融合结果

Figure 5. Fusion results of daytime scene 1 in MSRS dataset

下载: 全尺寸图片幻灯片

图 6 MSRS数据集中白天场景二融合结果

Figure 6. Fusion results of daytime scene 2 in MSRS dataset

下载: 全尺寸图片幻灯片

图 7 MSRS数据集中夜间场景一融合结果

Figure 7. Fusion results of nighttime scene 1 in MSRS dataset

下载: 全尺寸图片幻灯片

图 8 MSRS数据集中夜间场景二融合结果

Figure 8. Fusion results of nighttime scene 2 in MSRS dataset

下载: 全尺寸图片幻灯片

图 9 TNO数据集部分一融合结果图

Figure 9. The TNO dataset partially 1 fuses the result graph

下载: 全尺寸图片幻灯片

图 10 TNO数据集部分二融合结果图

Figure 10. The TNO dataset partially 2 fuses the result graph

下载: 全尺寸图片幻灯片

表 1 编码器网络整体结构

Table 1 Overall structure of encoder network

	Layer	Input	k	s	Padding	n₁	n₂	Activation function	Output
Encoder	Conv0	64×64	1	1	-	1	16	ReLU	64×64
	Conv1	64×64	3	1	Reflect(1)	16	64	ReLU	64×64
	DCB-1	64×64	1	1	-	64	112	ReLU	32×32
	DCB-2	32×32	1	1	-	112	128	ReLU	16×16

下载: 导出CSV

表 2 解码器网络整体结构

Table 2 Overall structure of decoder network

	Layer	Input	k	s	Padding	n₁	n₂	Activation function	Output
Decoder	Conv-5	16×16	3	1	Reflect(1)	128	128	-	16×16
	Conv-6	16×16	3	1	Reflect(1)	128	128	-	16×16
	Up1	16×16	1	1	-	128	112	-	32×32
	Up2	32×32	1	1	-	112	64	-	64×64
	Conv-7	32×32	3	1	Reflect(1)	112	112	-	32×32
	Conv-8	64×64	3	1	Reflect(1)	64	64	-	64×64
	Up3	16×16	1	1	-	128	112	-	32×32
	Up4	32×32	1	1	-	112	64	-	64×64
	Conv-9	64×64	3	1	Reflect(1)	64	1	Tanh	64×64

下载: 导出CSV

表 3 融合算法在MSRS数据集上的客观评价指标

Table 3 Quantitative comparison of fused images on MSRS dataset

Methods	SD	SF	EN	MI	VIF	SCD	Q_abf
CBF	7.7880	0.0527	6.4528	2.3140	0.7053	1.1759	0.5543
WLS	7.2165	0.0492	6.2557	2.3176	0.8327	1.4460	0.5983
DenseFuse	7.4370	0.0236	5.9353	2.6540	0.7025	1.2507	0.3641
RFN-Nest	7.7975	0.0242	6.1846	2.4534	0.7332	1.4696	0.3870
FusionGAN	5.9594	0.0171	5.4369	1.8721	0.5001	0.9827	0.1394
PIAFusion	8.3451	0.0451	6.5710	4.5837	0.9476	1.5964	0.6597
NestFuse	8.2033	0.0372	6.4502	4.3981	0.9229	1.5210	0.6440
MMF	8.4057	0.0475	6.6374	3.9909	1.0423	1.7012	0.6605

下载: 导出CSV

表 4 融合算法在TNO数据集上的客观评价指标

Table 4 Quantitative comparison of fused images on TNO dataset

Methods	SD	SF	EN	MI	VIF	SCD	Qabf	CPU Inference speed /s	GPU Inference speed /ms
CBF	8.9962	0.0563	6.9025	2.2250	0.5296	1.3407	0.4152	17.1433	-
WLS	8.8128	0.0498	6.8034	2.0866	0.8206	1.7473	0.4972	2.0014	-
DenseFuse	9.2424	0.0352	6.8193	2.3019	0.8175	1.7838	0.4457	0.8064	8.5483
RFN-Nest	9.3589	0.0230	6.9632	2.1184	0.8183	1.7843	0.3342	6.4789	20.6544
FusionGAN	8.6736	0.0246	6.5580	2.3352	0.6541	1.3793	0.2341	6.8548	188.1594
PIAFusion	9.0679	0.0377	6.8143	3.3576	0.8714	1.6032	0.5281	3.6406	11.6401
NestFuse	9.4417	0.0392	7.0200	3.4612	0.9819	1.7129	0.5219	4.7373	16.4316
MMF	9.3766	0.0418	7.0539	3.8345	0.9297	1.7947	0.5452	2.0770	10.6815

下载: 导出CSV

表 5 FEF模块的消融实验结果

Table 5 Ablation experiment results of FEF module

Index	Mean	Max	FEF
SD	9.3203	9.2381	9.3766
SF	0.0409	0.0422	0.0418
EN	6.9346	6.9194	7.0539
MI	3.223	3.0378	3.8345
VIF	0.8921	0.8788	0.9297
SCD	1.5765	1.5839	1.7947
Q_abf	0.5501	0.5577	0.5452

下载: 导出CSV

表 6 损失函数的消融实验

Table 6 Ablation experiment results of loss function

Index	p₁	p₂	p₃	p₄	p₅
SD	9.2666	9.6089	9.0371	9.3457	9.3766
SF	0.0432	0.0316	0.0424	0.0412	0.0418
EN	6.9494	7.1032	6.7531	6.9172	7.0539
MI	2.7852	3.3849	2.2977	3.2337	3.8345
VIF	0.8903	0.9038	0.4650	0.9056	0.9297
SCD	1.7151	1.5606	0.7138	1.6246	1.7947
Q_abf	0.5597	0.4342	0.5238	0.5488	0.5452

下载: 导出CSV

参考文献(25)

[1]	白玉, 侯志强, 刘晓义, 等. 基于可见光图像和红外图像决策级融合的目标检测算法[J]. 空军工程大学学报: 自然科学版, 2020, 21(6): 53-59. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. An object detection algorithm based on decision-level fusion of visible light image and infrared image[J]. Journal of Air Force Engineering University: Natural Science Edition, 2020, 21(6): 53-59. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm
[2]	CAO Yanpeng, GUAN Dayan, HUANG Weilin, et al. Pedestrian detection with unsupervised multispectral feature learning using deep neural networks[J]. Information Fusion, 2019, 46: 206-217. DOI: 10.1016/j.inffus.2018.06.005
[3]	段辉军, 王志刚, 王彦. 基于改进YOLO网络的双通道显著性目标识别算法[J]. 激光与红外, 2020, 50(11): 1370-1378. DOI: 10.3969/j.issn.1001-5078.2020.11.014 DUAN Huijun, WANG Zhigang, WANG Yan. Two-channel saliency object recognition algorithm based on improved YOLO network[J]. Laser & Infrared, 2020, 50(11): 1370-1378. DOI: 10.3969/j.issn.1001-5078.2020.11.014
[4]	TANG Linfeng, YUAN Jiteng, MA Jiayi. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42. DOI: 10.1016/j.inffus.2021.12.004
[5]	CHEN Jun, LI Xuejiao, LUO Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]. Information Sciences, 2020, 508: 64-78. DOI: 10.1016/j.ins.2019.08.066
[6]	LIU Xingbin, MEI Wenbo, DU Huiqian. Structure tensor and nonsubsampled shearlet transform based algorithm for CT and MRI image fusion[J]. Neurocomputing, 2017, 235: 131-139. DOI: 10.1016/j.neucom.2017.01.006
[7]	LIU Yipeng, JIN Jing, WANG Qiang, et al. Region level based multi-focus image fusion using quaternion wavelet and normalized cut[J]. Signal Processing, 2014, 97: 9-30. DOI: 10.1016/j.sigpro.2013.10.010
[8]	ZHANG Qiong, Maldague X. An adaptive fusion approach for infrared and visible images based on NSCT and compressed sensing[J]. Infrared Physics & Technology, 2016, 74: 11-20.
[9]	LI Hui, WU Xiaojun J, Kittler J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746. DOI: 10.1109/TIP.2020.2975984
[10]	LIU Yu, CHEN Xun, Ward R K, et al. Image fusion with convolutional sparse representation[J]. IEEE signal Processing Letters, 2016, 23(12): 1882-1886. DOI: 10.1109/LSP.2016.2618776
[11]	FU Zhizhong, WANG Xue, XU Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]. Infrared Physics & Technology, 2016, 77: 114-123.
[12]	MOU Jiao, GAO Wei, SONG Zongxi. Image fusion based on non-negative matrix factorization and infrared feature extraction[C]//6th International Congress on Image and Signal Processing (CISP). IEEE, 2013, 2: 1046-1050.
[13]	MA Jiayi, CHEN Chen, LI Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109. DOI: 10.1016/j.inffus.2016.02.001
[14]	LIU Yu, LIU Shuping, WANG Zengfu. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164. DOI: 10.1016/j.inffus.2014.09.004
[15]	LI Hui, WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[16]	MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[17]	武圆圆, 王志社, 王君尧, 等. 红外与可见光图像注意力生成对抗融合方法研究[J]. 红外技术, 2022, 44(2): 170-178. http://hwjs.nvir.cn/article/id/7f2ae6e4-af9c-4929-a689-cb053b4dda85 WU Yuanyuan, WANG Zhishi, WANG Junyao, et al. Infrared and visible image fusion using attention-based generative adversarial networks[J]. Infrared Technology, 2022, 44(2): 170-178. http://hwjs.nvir.cn/article/id/7f2ae6e4-af9c-4929-a689-cb053b4dda85
[18]	HOU Ruichao, ZHOU Dongming, NIE Rencan, et al. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]. IEEE Transactions on Computational Imaging, 2020, 6: 640-651. DOI: 10.1109/TCI.2020.2965304
[19]	TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.
[20]	LI Hui, WU Xiaojun, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656.
[21]	LI Hui, WU Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86.
[22]	Toet Alexander. TNO Image Fusion Dataset[EB/OL]. [2022-08-20]. https://doi.org/10.6084/m9.figshare.1008029.v2.
[23]	WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11531-11539.
[24]	Kumar B S. Image fusion based on pixel significance using cross bilateral filter[J]. Signal Image Video Process, 2015, 9(5): 1193-1204.
[25]	MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.

施引文献

资源附件(0)

图(10) / 表(6)

计量

文章访问数: 358
HTML全文浏览量: 62
PDF下载量: 103
被引次数: 0

0. 引言
1. 全卷积孪生网络框架
2. 本文算法
2.1 预训练网络
2.2 通道选择
2.3 多跟踪器设计
2.4 基于KL散度的集成模型
3. 实验结果与分析
3.1 实验环境
3.2 评估数据集
3.3 与经典跟踪算法的性能对比
3.3.1 定量分析
3.3.2 定性分析
3.4 消融实验
4. 结论

0. 引言
1. 全卷积孪生网络框架
2. 本文算法
2.1 预训练网络
2.2 通道选择
2.3 多跟踪器设计
2.4 基于KL散度的集成模型
3. 实验结果与分析
3.1 实验环境
3.2 评估数据集
3.3 与经典跟踪算法的性能对比
3.3.1 定量分析
3.3.2 定性分析
3.4 消融实验
4. 结论

参考文献(25)

施引文献

资源附件(0)

结合信息感知与多尺度特征的红外与可见光图像融合

作者简介: 曲海成（1981-），男，博士，副教授，主要研究方向：图像与智能信息处理。E-mail：quhaicheng@lntu.edu.cn

计量

出版历程