Infrared and Visible Image Fusion Combining Information Perception and Multiscale Features
-
摘要:
现有的基于深度学习图像融合算法无法同时满足融合效果与运算效率,且在建模过程中大部分采用基于单一尺度的融合策略,无法很好地提取源图像中上下文信息。为此本文提出了一种基于信息感知与多尺度特征结合的端到端图像融合网络。该网络由编码器、融合策略和解码器组成。具体来说,通过编码器提取红外与可见光图像的多尺度特征,并设计特征增强融合模块来融合多个尺度的不同模态特征,最后设计了一个轻量级的解码器将不同尺度的低级细节与高级语义信息结合起来。此外,利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练,从而生成具有丰富信息的融合图像。在TNO、MSRS数据集上对提出的融合框架进行了评估实验。结果表明:与现有的融合方法相比,该网络具有较高计算效率;同时在主观视觉评估和客观指标评价上都优于其它方法。
Abstract:Existing image fusion algorithms based on deep learning are unable to satisfy the demands of computational efficiency and fusion effect. Most have also adopted a fusion strategy based on a single-scale model, which cannot effectively extract the contextual information in images. This study proposes an end-to-end image fusion network based on information perception and multiscale features. The network consists of an encoder, a fusion strategy, and decoder. Specifically, the multiscale features of the infrared and visible images were extracted by the encoder, and a feature complementary enhancement module was designed to fuse different modal multiscale features. Finally, the lightweight decoder was designed to combine the low-level details and high-level semantic information. In addition, the information entropy of the source image was used to construct an information-sensing loss function to train the fusion network and generate the fused image with rich information. The proposed fusion framework was evaluated on the TNO and MSRS datasets. The results show that compared with existing fusion methods, the proposed network was superior to other methods in terms of both subjective visual description and objective index evaluation, with higher computational efficiency.
前言多源图像融合能最大限度地综合各信道有利信息,在计算机视觉、军事遥感、医学图像处理等领域发挥着重要作用。近年来,在以混合型融合算法为代表的智能化浪潮推动下,多源图像融合领域取得了长足的发展和进步。基于此,《红外技术》面向研究人员推出“多源图像融合专栏”,力图展示多源图像融合技术的最新研究成果,为从事相关研究的读者提供参考。
通过广泛征集和严格评审,本期专栏收录了来自西安工业大学、中国石油大学等从事多源图像融合团队的7篇论文。论文内容既有对红外与可见光图像融合等热门方向的研究,也有面向全色与多光谱图像融合、夜视抗晕光针对性融合、无人机目标检测自适应融合等最新应用技术的研究。
然而,图像特征的差异性、探测环境的复杂性、应用场景的多样性等都对多源图像融合技术的发展和应用提出了更严峻的挑战。本期专栏只是一个起点,希望能够启发广大读者做出更多更精彩的研究。
最后,感谢各位审稿专家和编辑的辛勤工作。
——杨风暴 -
0. 引言
折射率n和消光系数k称为物质的光学常数,这两个参量是随光波长变化的,但习惯称为常数。在电磁波理论中,光谱反射率和透射率等光学性质可用物质的光学常数来描述,因此可通过测量光学性质来确定光学常数。方法主要有双光谱反演法[1]、反射光谱反演法[2]、透射光谱反演法[3-5]、双厚度透射光谱反演法[6-7]。
Bohren和Huffman[8]用电磁波理论建立了平板材料的光谱透射率模型、以及只考虑光在平板内的多次反射,而忽略干涉效应时的非相干透射率模型。基于前者,Tuntomo[6]等人采用玻璃-液体-玻璃三层平板结构,测量两个不同厚度液体的光谱透射率,在忽略玻璃影响的情形下通过迭代法反演确定了碳氢燃料庚烷和癸烷的光学常数。基于非相干透射率模型,李全葆等人[7]通过测量不同厚度碲镉汞晶片的光谱透射率,采用迭代法求解了碲镉汞的光学常数;苏星等人[9]测量了一种红外硒化物玻璃的光学常数。李栋等人[10-12]以上述研究为基础,提出了多种改进透射率模型及反演算法,提高了三层平板结构测量液体光学常数的精度;王程超等人[13]基于射线踪迹法推导了三层结构系统的总透射率模型,并采用粒子群优化算法(Particle Swarm Optimization, PSO)进行反演计算了生物柴油的光学常数。
因为多层结构的存在,上述测量液体光学常数的透射率模型和反演算法较为复杂。但对于半透明固体材料,如石英、金刚石、砷化镓、氟化镁和硒化锌等红外光学材料在光学窗口、像质改善和液体光学测量等方面有重要应用。这类固体材料可制备成单一材料结构并基于双厚度透射率模型测量其光学常数,这种情况下主要研究反演算法。如李栋等人[14-15]提出了简化方程迭代法(Simplifie-Equation Iterative, SEI)和蒙特卡洛法(Monte-Carlo, MC);吴国忠等人[16]对SEI、MC和PSO三种方法做了比较研究,结论是PSO方法精度更高。
使用反演迭代法确定光学常数的方法计算耗时且存在迭代误差,上述学者在反演算法的设计、精度提升及误差减小上做了很多研究,但直接去求解双厚度透射率方程的尝试还未见报道。本文在这一方面做了探索,只要将双厚度透射率模型中的两个厚度设定为2倍关系,则经过代数推导,即可获得与衰减系数(可换算出消光系数)有关的八次多项式方程,以及关于界面反射率的一元二次方程。这两个方程均可求得精确数值解或解析解,从而避免了反演算法的耗时和误差。本文以文献[6]中庚烷的光学常数作为“理论值”,代入双厚度透射率方程计算的透射率作为“实验数据”,用多项式求根的方法确定庚烷的折射率n和消光系数k,验证了本文方法的可靠性。最后分析了双厚度偏离2倍关系时对计算结果的影响。
1. 多项式求根的双厚度透射率模型
设半透明平板材料的折射率、消光系数分别为n和k,则衰减系数α=4πk/λ,其中λ为光波长。将平板材料置于空气(折射率为1,消光系数为0)中,当光线垂直入射时,根据菲涅耳定律和斯涅耳定律,在平板材料与空气分界面上的界面反射率R=[(n-1)2+k2]/[(n+1)2+k2]。由于平板材料有两个界面,考虑光在平板内的多次反射,而忽略干涉效应时,光垂直通过厚度为Li的平板后的透射率Ti可表示为[8]:
$$ T_i=(1-R)^2 \exp \left(-\alpha L_i\right) /\left[1-R^2 \exp \left(-2 \alpha L_i\right)\right] $$ (1) 则光通过厚度为L和2L的平板材料后的透射率a和b分别用式(2)、式(3)表示:
$$ a=(1-R)^{2}y/(1-R^{2}y^{2})$$ (2) $$ b=(1-R)^{2}y^{2}/(1-R^{2}y^{4})$$ (3) 式中:y=exp(-αL)。给式(2)两侧同乘以y,联立式(3)消去两式右侧的分子,有:
$$ ay-b=(ay-by^{2})y^{2}R^{2} $$ (4) 将式(4)中的R代入式(2),经过代数运算可得:
$$ \begin{aligned} f(y)= & p_8 y^8+p_7 y^7+p_6 y^6+p_5 y^5+p_4 y^4+p_3 y^3+p_2 y^2+ \\ & p_1 y+p_0=0 \end{aligned}$$ (5) 式中:p8=b2,p7=-2ab(1+b),p6=a2(1+b)2,p5=2ab(1+b),p4=-2(a2+a2b2+b2),p3=2ab(1-b),p2=a2(1-b)2,p1=-2ab(1-b),p0=b2,式(5)是关于y的一元八次多项式方程,通过数值求解可得到其8个根,但只有满足0<y<1的根才有实际物理意义。则平板材料的衰减系数和消光系数分为:
$$ \alpha=-\ln (y) / L$$ (6) $$ k=-\lambda \ln (y) /(4 {\rm{ \mathsf{ π} }} L)$$ (7) 另由式(2)可得:
$$ R^{2}(ay^{2}+y)-2yR+(y-a)=0 $$ (8) 式(8)是关于R的一元二次方程,由于其判别式非负,又因0<R<1,则方程(8)的解为:
$$ R = (1 - \sqrt {a(a - y + 1/y)} )/(ay + 1) $$ (9) 则平板材料的折射率为:
$$ n = (1 + R)/(1 - R) + \sqrt {{{(1 + R)}^2}/{{(1 - R)}^2} - (1 + {k^2})} $$ (10) 只要测量出L、2L两种厚度下的光谱透射率a、b,可由式(5)求多项式方程的根,再由式(6)、式(7)和式(10)计算出衰减系数、消光系数和折射率。上述方法不必经过耗时的反演迭代来确定光学常数(多项式求根所用计算时间可忽略不计),所以结果中不存在反演误差。
2. 结果和讨论
本文采用文献[6]中庚烷在2.5~15 μm的光学常数作为“理论值”。将上述光学常数代入式(2)、式(3),计算厚度分别为L=15 μm和2L=30 μm下的透射率作为“实验数据”,然后利用多项式求根的方法确定庚烷的光学常数,通过比较计算结果与理论值的相对误差来验证本文方法的可靠性。需要指出,由于本文透射率模型与文献[6]的透射率模型不同,这里的“实验数据”与文献[6]的真实实验数据是有差别的。此处仅是借用文献[6]的数据构造了适合本文透射率模型的“实验数据”来代替实际实验,其好处是可以避免实际实验的其他误差而专门研究多项式求根方法的可靠性。
基于多项式求根方法确定的庚烷光学常数如图 1所示,消光系数有3个峰值,对应3个强吸收带。从消光系数和折射率的相对误差可以看出计算结果与理论值符合得很好,其中消光系数的最大相对误差为-9.4×10-7%,折射率的最大相对误差为1.4×10-5%。结果表明本文方法确定光学常数没有反演迭代误差。
由于本文方法要求材料的两个厚度成2倍关系,如果第二厚度的制备或测量存在误差,则会导致计算结果出现误差。假定第二个厚度2L存在1%和5%的误差,则实际的厚度为(2±0.02)L和(2±0.1)L,不妨取1.98L和1.9L,则相应的透射率为b′=(1-R)2y1.98/(1-R2y3.96)和b″=(1-R)2y1.9/(1-R2y3.9)。将文献[6]中庚烷的光学常数代入此处公式计算的透射率作为“实验数据”,但仍按照基于2倍厚度关系推导的多项式方程来计算光学常数,通过比较计算结果与理论值的相对误差来评估厚度偏离2倍关系时对计算结果的影响,结果分别如图 2、3和图 4、5所示。
如图 2、3所示,第二个厚度2L存在1%的误差时,消光系数的相对误差在(2~2.03)%之内,而折射率在3.4 μm、6.8 μm、13.8 μm吸收带的误差较大,分别为26.9%、3.8%和1.3%,其余波长处的误差不超过1%。可见,不考虑强吸收点,就整个波段范围来看,由于厚度不满足2倍关系对消光系数计算结果的影响大于折射率;但在强吸收点,同样的厚度改变,由于k值较大所造成的透过率的相对误差就比较大,折射率的计算对此比较敏感,而消光系数的计算却不敏感。
如图 4、5所示,第二个厚度2L存在5%的误差时,消光系数的相对误差在(10~10.15)%之内,而折射率在3.4 μm、6.8 μm、13.8 μm吸收带的误差较大,分别为134.9%、18.5%和6.4%,其余波长处的误差不超过3.5%。其结论与厚度存在1%误差时的情形相似。再比较厚度误差1%和5%的计算结果,可以看出当厚度误差扩大5倍时,消光系数、强吸收点折射率的计算误差也扩大5倍左右,但其余波长处折射率的计算误差仅扩大3.5倍,对厚度的误差相对不敏感。
3. 结论
基于传统的双厚度透射率模型,在将两个厚度设定为2倍关系时,可获得与衰减系数有关的八次多项式方程,以及关于界面反射率的一元二次方程。通过多项式方程求根的方法实现了光学常数的确定,从而避免了反演迭代法的耗时和误差。借用文献[6]中庚烷的光学常数验证了本文方法的可靠性,除了个别的强吸收点,即使模型中的两个厚度偏离2倍关系时本方法仍能获得较好的计算结果。
-
表 1 编码器网络整体结构
Table 1 Overall structure of encoder network
Layer Input k s Padding n1 n2 Activation function Output Encoder Conv0 64×64 1 1 - 1 16 ReLU 64×64 Conv1 64×64 3 1 Reflect(1) 16 64 ReLU 64×64 DCB-1 64×64 1 1 - 64 112 ReLU 32×32 DCB-2 32×32 1 1 - 112 128 ReLU 16×16 表 2 解码器网络整体结构
Table 2 Overall structure of decoder network
Layer Input k s Padding n1 n2 Activation function Output Decoder Conv-5 16×16 3 1 Reflect(1) 128 128 - 16×16 Conv-6 16×16 3 1 Reflect(1) 128 128 - 16×16 Up1 16×16 1 1 - 128 112 - 32×32 Up2 32×32 1 1 - 112 64 - 64×64 Conv-7 32×32 3 1 Reflect(1) 112 112 - 32×32 Conv-8 64×64 3 1 Reflect(1) 64 64 - 64×64 Up3 16×16 1 1 - 128 112 - 32×32 Up4 32×32 1 1 - 112 64 - 64×64 Conv-9 64×64 3 1 Reflect(1) 64 1 Tanh 64×64 表 3 融合算法在MSRS数据集上的客观评价指标
Table 3 Quantitative comparison of fused images on MSRS dataset
Methods SD SF EN MI VIF SCD Qabf CBF 7.7880 0.0527 6.4528 2.3140 0.7053 1.1759 0.5543 WLS 7.2165 0.0492 6.2557 2.3176 0.8327 1.4460 0.5983 DenseFuse 7.4370 0.0236 5.9353 2.6540 0.7025 1.2507 0.3641 RFN-Nest 7.7975 0.0242 6.1846 2.4534 0.7332 1.4696 0.3870 FusionGAN 5.9594 0.0171 5.4369 1.8721 0.5001 0.9827 0.1394 PIAFusion 8.3451 0.0451 6.5710 4.5837 0.9476 1.5964 0.6597 NestFuse 8.2033 0.0372 6.4502 4.3981 0.9229 1.5210 0.6440 MMF 8.4057 0.0475 6.6374 3.9909 1.0423 1.7012 0.6605 表 4 融合算法在TNO数据集上的客观评价指标
Table 4 Quantitative comparison of fused images on TNO dataset
Methods SD SF EN MI VIF SCD Qabf CPU Inference speed /s GPU Inference speed /ms CBF 8.9962 0.0563 6.9025 2.2250 0.5296 1.3407 0.4152 17.1433 - WLS 8.8128 0.0498 6.8034 2.0866 0.8206 1.7473 0.4972 2.0014 - DenseFuse 9.2424 0.0352 6.8193 2.3019 0.8175 1.7838 0.4457 0.8064 8.5483 RFN-Nest 9.3589 0.0230 6.9632 2.1184 0.8183 1.7843 0.3342 6.4789 20.6544 FusionGAN 8.6736 0.0246 6.5580 2.3352 0.6541 1.3793 0.2341 6.8548 188.1594 PIAFusion 9.0679 0.0377 6.8143 3.3576 0.8714 1.6032 0.5281 3.6406 11.6401 NestFuse 9.4417 0.0392 7.0200 3.4612 0.9819 1.7129 0.5219 4.7373 16.4316 MMF 9.3766 0.0418 7.0539 3.8345 0.9297 1.7947 0.5452 2.0770 10.6815 表 5 FEF模块的消融实验结果
Table 5 Ablation experiment results of FEF module
Index Mean Max FEF SD 9.3203 9.2381 9.3766 SF 0.0409 0.0422 0.0418 EN 6.9346 6.9194 7.0539 MI 3.223 3.0378 3.8345 VIF 0.8921 0.8788 0.9297 SCD 1.5765 1.5839 1.7947 Qabf 0.5501 0.5577 0.5452 表 6 损失函数的消融实验
Table 6 Ablation experiment results of loss function
Index p1 p2 p3 p4 p5 SD 9.2666 9.6089 9.0371 9.3457 9.3766 SF 0.0432 0.0316 0.0424 0.0412 0.0418 EN 6.9494 7.1032 6.7531 6.9172 7.0539 MI 2.7852 3.3849 2.2977 3.2337 3.8345 VIF 0.8903 0.9038 0.4650 0.9056 0.9297 SCD 1.7151 1.5606 0.7138 1.6246 1.7947 Qabf 0.5597 0.4342 0.5238 0.5488 0.5452 -
[1] 白玉, 侯志强, 刘晓义, 等. 基于可见光图像和红外图像决策级融合的目标检测算法[J]. 空军工程大学学报: 自然科学版, 2020, 21(6): 53-59. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. An object detection algorithm based on decision-level fusion of visible light image and infrared image[J]. Journal of Air Force Engineering University: Natural Science Edition, 2020, 21(6): 53-59. https://www.cnki.com.cn/Article/CJFDTOTAL-KJGC202006009.htm
[2] CAO Yanpeng, GUAN Dayan, HUANG Weilin, et al. Pedestrian detection with unsupervised multispectral feature learning using deep neural networks[J]. Information Fusion, 2019, 46: 206-217. DOI: 10.1016/j.inffus.2018.06.005
[3] 段辉军, 王志刚, 王彦. 基于改进YOLO网络的双通道显著性目标识别算法[J]. 激光与红外, 2020, 50(11): 1370-1378. DOI: 10.3969/j.issn.1001-5078.2020.11.014 DUAN Huijun, WANG Zhigang, WANG Yan. Two-channel saliency object recognition algorithm based on improved YOLO network[J]. Laser & Infrared, 2020, 50(11): 1370-1378. DOI: 10.3969/j.issn.1001-5078.2020.11.014
[4] TANG Linfeng, YUAN Jiteng, MA Jiayi. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42. DOI: 10.1016/j.inffus.2021.12.004
[5] CHEN Jun, LI Xuejiao, LUO Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]. Information Sciences, 2020, 508: 64-78. DOI: 10.1016/j.ins.2019.08.066
[6] LIU Xingbin, MEI Wenbo, DU Huiqian. Structure tensor and nonsubsampled shearlet transform based algorithm for CT and MRI image fusion[J]. Neurocomputing, 2017, 235: 131-139. DOI: 10.1016/j.neucom.2017.01.006
[7] LIU Yipeng, JIN Jing, WANG Qiang, et al. Region level based multi-focus image fusion using quaternion wavelet and normalized cut[J]. Signal Processing, 2014, 97: 9-30. DOI: 10.1016/j.sigpro.2013.10.010
[8] ZHANG Qiong, Maldague X. An adaptive fusion approach for infrared and visible images based on NSCT and compressed sensing[J]. Infrared Physics & Technology, 2016, 74: 11-20.
[9] LI Hui, WU Xiaojun J, Kittler J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746. DOI: 10.1109/TIP.2020.2975984
[10] LIU Yu, CHEN Xun, Ward R K, et al. Image fusion with convolutional sparse representation[J]. IEEE signal Processing Letters, 2016, 23(12): 1882-1886. DOI: 10.1109/LSP.2016.2618776
[11] FU Zhizhong, WANG Xue, XU Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]. Infrared Physics & Technology, 2016, 77: 114-123.
[12] MOU Jiao, GAO Wei, SONG Zongxi. Image fusion based on non-negative matrix factorization and infrared feature extraction[C]//6th International Congress on Image and Signal Processing (CISP). IEEE, 2013, 2: 1046-1050.
[13] MA Jiayi, CHEN Chen, LI Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109. DOI: 10.1016/j.inffus.2016.02.001
[14] LIU Yu, LIU Shuping, WANG Zengfu. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164. DOI: 10.1016/j.inffus.2014.09.004
[15] LI Hui, WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[16] MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[17] 武圆圆, 王志社, 王君尧, 等. 红外与可见光图像注意力生成对抗融合方法研究[J]. 红外技术, 2022, 44(2): 170-178. http://hwjs.nvir.cn/article/id/7f2ae6e4-af9c-4929-a689-cb053b4dda85 WU Yuanyuan, WANG Zhishi, WANG Junyao, et al. Infrared and visible image fusion using attention-based generative adversarial networks[J]. Infrared Technology, 2022, 44(2): 170-178. http://hwjs.nvir.cn/article/id/7f2ae6e4-af9c-4929-a689-cb053b4dda85
[18] HOU Ruichao, ZHOU Dongming, NIE Rencan, et al. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]. IEEE Transactions on Computational Imaging, 2020, 6: 640-651. DOI: 10.1109/TCI.2020.2965304
[19] TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.
[20] LI Hui, WU Xiaojun, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656.
[21] LI Hui, WU Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86.
[22] Toet Alexander. TNO Image Fusion Dataset[EB/OL]. [2022-08-20]. https://doi.org/10.6084/m9.figshare.1008029.v2.
[23] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11531-11539.
[24] Kumar B S. Image fusion based on pixel significance using cross bilateral filter[J]. Signal Image Video Process, 2015, 9(5): 1193-1204.
[25] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.
-
期刊类型引用(2)
1. 吕永林,郑万祥,李汝劼,张友良,唐莹娟,张伟涛,陈奕君,王贵全,李彦生,王乔方. 基于反射光谱的薄膜光学常数和厚度测试. 红外技术. 2024(08): 965-973 . 本站查看
2. 杨百愚,武晓亮,王翠香,王伟宇,李磊,范琦,刘静,徐翠莲. 基于多项式求根的双厚度透射率模型确定透明固体光学常数. 红外技术. 2023(09): 969-973 . 本站查看
其他类型引用(0)