Infrared and Visible Images Fusion Method Based on Multi-Scale Features and Multi-head Attention
-
摘要:
针对红外与可见光图像融合容易出现细节丢失,且现有的融合策略难以平衡视觉细节特征和红外目标特征等问题,提出一种基于多尺度特征融合与高效多头自注意力相结合的红外与可见光图像融合方法。首先,为提高目标与场景的描述能力,采用了多尺度编码网络提取源图像不同尺度的特征;其次,提出了基于Transformer的多头转置注意力结合残差密集块的融合策略以平衡融合细节与整体结构;最后,将多尺度特征融合图输入基于巢式连接的解码网络,重建具有显著红外目标和丰富细节信息的融合图像。基于TNO与M3FD公开数据集与7种经典融合方法进行实验,结果表明,本文方法在视觉效果与量化评价指标上表现更佳,生成的融合图像在目标检测任务上取得更好的效果。
-
关键词:
- 图像融合 /
- 红外与可见光图像 /
- 多尺度特征 /
- 多头自注意力 /
- Transformer
Abstract:To address the challenges of detail loss and the imbalance between visual detail features and infrared (IR) target features in fused infrared and visible images, this study proposes a fusion method combining multiscale feature fusion and efficient multi-head self-attention (EMSA). The method includes several key steps. 1) Multiscale coding network: It utilizes a multiscale coding network to extract multilevel features, enhancing the descriptive capability of the scene. 2) Fusion strategy: It combines transformer-based EMSA with dense residual blocks to address the imbalance between local details and overall structure in the fusion process. 3) Nested-connection based decoding network: It takes the multilevel fusion map and feeds it into a nested-connection based decoding network to reconstruct the fused result, emphasizing prominent IR targets and rich scene details. Extensive experiments on the TNO and M3FD public datasets demonstrate the efficacy of the proposed method. It achieves superior results in both quantitative metrics and visual comparisons. Specifically, the proposed method excels in targeted detection tasks, demonstrating state-of-the-art performance. This approach not only enhances the fusion quality by effectively preserving detailed information and balancing visual and IR features but also establishes a benchmark in the field of infrared and visible image fusion.
-
0. 引言
常规望远镜热设计为一体化设计,热设计满足整机的热控指标即可。在轨组装望远镜热设计为分体式设计。每个模块都需要进行单独的热设计保证模块可以独立工作,且模块之间存在耦合关系,在轨安装之后通过热接口相互传递热量,完成整机的热控工作。在轨组装望远镜CMOS组件(下文简称为CMOS组件)热设计是在轨组装望远镜热设计中的关键节点。
为解决CMOS组件选取热设计参数数值的难点问题,需对热设计参数进行灵敏度分析。灵敏度分析是一种分析系统的输入对输出响应影响程度的方法,适应于解决复杂的多输入系统的优化设计问题。为了实现望远镜关键部件CMOS组件的控温目标,需要对影响CMOS温度的参数优化调整,但是待优化参数多,遍历每个参数进行优化的工程量大,耗时长,而且参数之间存在耦合关系,这更加大了优化难度。考虑到每个参数对CMOS温度的影响程度不同,对待优化参数进行灵敏度分析确定影响程度较大的参数并对其着重优化,可一定程度上减少参数优化的难度,节省设计成本,提高热设计的可靠性。
在望远镜在轨组装和航天器热设计领域中,国内外学者进行了大量研究。国外方面,詹姆斯韦伯望远镜(James Webb Space Telescope,JWST)由阿丽亚娜5号发射,并在反太阳地球-太阳拉格朗日点的轨道上展开在轨部署[1]。Franck R. A.和Shaughnessy B. M.[2-3]等学者分别针对JWST的尾部光学系统和中红外仪器进行了相关热设计。国内方面也对其进行了大量研究,王洪亮[4-5]等学者针对在轨组装大口径红外望远镜进行热设计并通过灵敏度优化热设计参数。杨雨霆[6-7]等学者针对高空气球平台地-月成像光谱仪载荷系统热设计参数进行了灵敏度分析,提出了热设计的简便思路。郭亮[8-9]等学者运用控制变量灵敏度分析手段,得到太阳吸收系数、红外半球发射率、内部热源及传导换热系数对于空间光谱成像仪温度的影响。Y. Xiong[10-11]等学者提出了改进的思维进化算法的径向基函数(radial basis function neural network,RBF)等神经网络应用于航天器热物理模型的方法,并基于此方法开展热设计参数灵敏度优化。
有限元仿真计算工作中,为了得到大量的温度数据,需要输入不同的热设计参数,单纯的人工输入会带来大量的重复劳动,本文通过对有限元软件二次开发,实现输入数据由文本文件提取,自动计算的功能。在以往工作中,针对热设计参数的灵敏度分析,往往采用单一方法,会导致灵敏度分析结果的不确定性和误差,本文提出了一种基于MIV算法[12-13]并结合传统回归分析Pearson和Spearman算法[14-15]相互对比验证的混合灵敏度分析方法,此方法对于CMOS组件方法对在轨组装望远镜CMOS热设计参数优化提供了方向并对在轨组装望远镜整机热设计具有一定的指导意义。
1. 在轨组装望远镜概述及CMOS组件热控指标
1.1 在轨组装望远镜概述
在轨组装望远镜载荷布局如图 1所示。主反射镜由5个拼接镜拼接而成,分别安装在六足促动器与主体框架相接。次反射镜安装在折叠式次镜支撑与主体相接。CMOS组件安装在主体结构内部。其中,+Z方向为望远镜光轴方向、由主镜指向次镜,+X方向为望远镜前进方向,+Y方向由右手螺旋定则确定。
1.2 CMOS组件热控指标
在轨组装望远镜搭载CMOS组件为可见光成像,CMOS组件应满足的热设计指标如表 1所示。由表 1可知,指标提出在工作工况下CMOS温度控制在15℃~30℃,在存储工况下CMOS温度控制在0℃~40℃。
表 1 CMOS组件主要热设计参数Table 1. Main thermal design parameters for CMOS componentsSymbol Parameter significance ε1 Infrared emissivity of the outer surface of the cooling plate α2 Solar absorption rate on the outer surface of the cooling plate T3 Thickness of cooling plate K4 Thermal conductivity of copper bar K5 Thermal conductivity of heat pipe R6 Thermal resistance between CMOS and CMOS mounting surface R7 Thermal resistance between CMOS and aluminum blocks R8 Thermal resistance between aluminum block and copper bar R9 Thermal resistance between copper bar and heat pipe R10 Thermal resistance between heat pipe and cooling plate 结合以上指标,CMOS组件热设计主要有以下难点:
① 在轨组装望远镜外流热变化频繁,无稳定阳照区、阴影区,散热设计困难。
② 在轨组装望远镜各部件单独热控,相互之间通过接口耦合。CMOS组件和主体框架、辐射冷板相互耦合,耦合关系复杂。
2. CMOS组件热设计
2.1 热设计参数灵敏度分析
热设计参数的灵敏度分析主要有全局灵敏度分析和局部灵敏度分析。局部灵敏度只能分析单个输入对输出的影响,计算效率高。全局灵敏度分析不受模型的限制,能够较为全面地反映多个设计参数之间相互产生的耦合作用对系统响应的影响。本文提出混合灵敏度分析方法对CMOS散热路径上的参数进行灵敏度分析,在混合灵敏度分析方法中,Pearson、Spearman方法为局部灵敏度分析,MIV方法为全局灵敏度分析。
由图 2可知,本模型CMOS组件散热路径包括CMOS、CMOS安装面、导热铝块、导热铜条、热管和辐射冷板。选取CMOS散热路径上的10个热设计参数进行灵敏度分析,热设计参数的详细信息见表 1。
依据参数的取值范围,对参数应用拉丁超立方抽样生成300组参数样本。拉丁超立方抽样相对于随机抽样,具有变量范围全覆盖,均匀性更好的优点。将参数样本代入有限元软件划分的有限元网络模型中计算,得出CMOS中心点温度数据作为输出数据。
2.1.1 Pearson方法
Pearson方法反映两个变量X和Y的线性相关程度。Pearson公式如下:
$$ {\rho _{{X_i}, Y}} = {\rm corr}({X_{ij}}, Y) = \frac{{{\rm Cov}({X_{ij}}, Y)}}{{{S_{{X_{ij}}}}{S_Y}}} $$ (1) 式中:Xi表示第i个X序列。记Xi的第j次采样数据为Xij,j=1, 2, …, 300。利用每组10个采样数据可以得到300个温度值Yi,j=1, 2, …, 300。通过式(1)计算,得出10输入参数和输出温度之间的Pearson相关系数。
2.1.2 Spearman方法
Spearman方法反应秩相关系数,Spearman公式如下:
$$\rho=\frac{\sum_j\left(x_{i j}-\overline{x_i}\right)\left(y_j-\bar{y}\right)}{\sqrt{\sum_j\left(x_{i j}-\overline{x_i}\right)^2 \sum_j\left(y_j-\bar{y}\right)^2}}$$ (2) 式中:xij表示第j个xi数据秩次;yi表示第i个y数据秩次。代入数据计算出Spearman相关系数。
2.1.3 MIV
平均影响值(MIV)方法衡量神经网络输入参数对输出参数影响大小,符号代表影响的方向,大小代表影响的重要性。首先通过300组输入和输出数据拟合神经网络,取80%数据用来训练,10%数据用来验证,10%数据用来测试,构建神经网络模型。基于贝叶斯优化训练BP神经网络,隐含层选取10层。神经网络原理图如图 3所示。
经过神经网络训练,回归R值为0.99,训练均方误差量级在e-4以下,测试均方误差量级在e-3以下,满足工程要求。将输入参数数值分别增加10%、减少10%,分别带入到训练好的神经网络中,得出预测的输出值,求得两组输出值的差值,即为MIV值。计算出基于MIV方法的热设计参数灵敏度。
3种方法计算出灵敏度如图 4所示。
由图 4可知,散热路径热设计参数中,CMOS温度对于ε1、α2、T3、K4、R7、R8、R9参数较为敏感。得到影响CMOS温度的主要热设计参数:ε1为散热面白漆发射率;α2为散热面白漆吸收率;T3为辐射冷板厚度;K4为导热铜索的导热率;R7为CMOS安装面与铝基导热板间热阻;R8为铝基导热板与导热铜索间热阻;R9为导热铜索与热管间热阻。在热设计中,主要优化以上参数,其余参数在设计有余地时也应该适当考虑。
Pearson方法中CMOS温度对ε1、α2、R9、T3参数较为敏感。Spearman方法中CMOS温度对ε1、α2、R9、R7参数较为敏感。MIV方法中CMOS温度对ε1、α2、R8、K4参数较为敏感。比较3种方法,ε1、α2为最重要的灵敏度参数,在热设计中应着重考虑。T3、K4、R7、R8、R9参数也对CMOS温度有一定的影响。在设计中,参数数值增大,CMOS温度随之升高的热设计参数定义为正影响参数,反之定义为负影响参数。其中,α2、R7、R8、R9为正影响参数,ε1、T3、K4为负响应参数。为提高CMOS组件的散热能力,在热设计过程中应增大ε1、T3、K4参数数值,减小α2、R7、R8、R9参数数值。
2.2 热设计方案
依据本文混合灵敏度分析方法结果,制定CMOS组件相关热设计如下。
2.2.1 主动热控手段
1)在CMOS组件上布置控温回路,保证CMOS组件存储工况下温度满足热控指标。
2)辐射冷板背部布置控温回路,防止辐射冷板背部热管在存储工况下过冷导致失效。
2.2.2 被动热控手段
1)在辐射冷板表面上喷涂白漆以获得优良的散热性能,选用S781白漆,太阳吸收率为0.17~0.23,红外发射率为0.85~0.86;
2)导热索材料选择紫铜,导热率为390 W/(m2·K);
3)导热铝块与主体框架隔热安装,增大导热铝块与主体框架间热阻,R为20℃/W;
4)散热路径上零件导热安装,打磨接触面使其光滑,导热系数取1000 W/(m2·K),CMOS安装面与导热铝块间热阻为0.4℃/W,导热铝块与导热索间热阻为0.2℃/W,导热索与热管间热阻为0.04℃/W。
3. 仿真验证
通过有限元软件对在轨组装望远镜进行建模,共划分了16898个壳单元,建立122个热耦合。其中CMOS组件有限元模型如图 5所示。
为验证CMOS组件能否满足温度指标要求,定义高低温两种工况。在高温工况下,外热流选最大值取冬至时刻,白漆属性选择末期属性,红外发射率取0.85,太阳吸收率取0.23。在低温工况下,外热流选最小值取夏至时刻,白漆属性选择初期属性,红外发射率取0.86,太阳吸收率取0.17。两种工况下望远镜整体保留主动热控措施。CMOS整轨运行期间以满功率状态运行10 min,其余时间处于待机状态。
通过有限元软件仿真计算出CMOS温度,得到低温工况下CMOS温度T1和高温工况下CMOS温度T2时间变化曲线如图 6所示。
从图 6可知,在高低温极端工况下CMOS组件温度波动1.6℃~25.4℃,在工作期间满足指标15℃~30℃,在待机期间满足指标0℃~40℃。证明了本文提出的混合灵敏度分析方法的热设计方法可行性。
4. 结语
本文提出了一种混合灵敏度分析方法,该方法基于MIV算法并结合传统回归分析Pearson和Spearman算法相互对比验证。较单一灵敏度方法减少了不确定性和误差。较传统遍历选取热设计参数方法,该方法能够快速准确找出重要热设计参数,为在轨组装望远镜CMOS组件的热设计参数选取提供了依据。
通过仿真分析,在高低温极端工况下CMOS组件温度波动1.6℃~25.4℃,满足工作温度,验证了基于混合灵敏度分析方法在CMOS热设计中可行性,该方法后续可扩展应用到在轨组装望远镜整机热设计中。
-
表 1 编码网络(E)和解码网络(D)的设置
Table 1 Settings of encoding network (E) and decoding network (D)
E Layer Size Stride Ch_i Ch_o ECB1 - - 16 64 ECB2 - - 64 112 ECB3 - - 112 160 ECB4 - - 160 208 D DCB31 - - 368 160 DCB22 - - 384 112 DCB21 - - 272 112 DCB13 - - 304 64 DCB12 - - 240 64 DCB11 - - 176 64 ECB Conv 3 1 Nin 16 Conv 1 1 16 Nout DCB Conv 3 1 Nin 16 Conv 1 1 16 Nout 表 2 不同融合方法在TNO与M3FD数据集上各指标均值
Table 2 Mean values of indicators on TNO and M3FD datasets with different fusion methods
Dataset Methods EN SD MI SCD MS-SSIM VIF TNO CBF 6.890 34.010 2.115 1.326 0.665 0.285 DCHWT 6.626 29.402 1.993 1.542 0.759 0.369 FusionGAN 6.548 30.699 2.593 1.382 0.755 0.425 DenseFuse 6.347 24.707 2.423 1.595 0.918 0.529 U2Fusion 6.511 31.186 2.411 1.654 0.923 0.490 RFN_Nest 6.997 37.42 2.484 1.799 0.967 0.555 IFT 6.981 36.301 2.357 1.745 0.962 0.566 Ours 7.015 38.559 2.683 1.805 0.957 0.614 Average 6.739 32.785 2.382 1.606 0.863 0.479 M3FD CBF 6.920 33.339 2.427 1.217 0.566 0.583 DCHWT 6.668 27.781 2.003 1.493 0.699 0.621 FusionGAN 6.551 29.344 2.909 1.307 0.668 0.406 DenseFuse 6.307 23.722 2.969 1.582 0.975 0.587 U2Fusion 6.496 26.606 2.834 1.643 0.989 0.562 RFN_Nest 6.795 32.995 2.919 1.799 0.993 0.581 IFT 6.950 36.943 2.677 1.776 0.866 0.413 Ours 6.947 35.550 3.181 1.829 1.020 0.665 Average 6.704 30.785 2.739 1.565 0.847 0.552 表 3 融合效果目标检测实验结果评价
Table 3 Evaluation of experimental results of fusion effect target detection
Models AP mAP Bus People Car Truck Motorcycle Lamp Visible 0.839 0.639 0.877 0.794 0517 0.681 72.45% Infrared 0.826 0.763 0.835 0.740 0.452 0.351 66.17% DenseFuse 0.827 0.776 0.898 0.830 0.636 0.569 75.62% FusionGan 0.831 0.687 0.883 0.763 0.550 0.425 69.02% RFN_Nest 0.834 0.683 0.895 0.814 0.592 0.650 74.50% IFT 0.844 0.765 0.891 0.824 0.589 0.580 74.94% U2Fusion 0.836 0.754 0.900 0.818 0.612 0.587 75.16% Ours 0.837 0.739 0.889 0.831 0.665 0.607 76.18% 表 4 消融实验结果评价
Table 4 Evaluation of ablation experiment results
Dataset Methods EN SD MI SCD MS_SSIM VIF TNO Exclude Transformer 6.948 38.159 2.675 1.787 0.948 0.606 Exclude RDB 6.941 38.036 2.705 1.780 0.944 0.608 Ours 7.015 38.559 2.683 1.805 0.957 0.614 M3FD Exclude Transformer 6.745 33.325 3.108 1.783 1.007 0.643 Exclude RDB 6.74 33.365 3.16 1.774 1.005 0.635 Ours 6.947 35.550 3.181 1.829 1.020 0.665 -
[1] 王天元, 罗晓清, 张战成. 自注意力引导的红外与可见光图像融合算法[J]. 红外技术, 2023, 45(2): 171-177. http://hwjs.nvir.cn/cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe WANG T Y, LUO X Q, ZHANG Z C. Self-attention guided fusion algorithm for infrared and visible images[J]. Infrared Technology, 2023, 45(2): 171-177. http://hwjs.nvir.cn/cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe
[2] KUMAR B K S. Multifocus multispectral image fusion based on pixel significance using disrcret cosin harmonic wavelet transform[J]. Signal Image & . Video Processing, 2013, 7(6): 1125-1143.
[3] KUMAR B K S. Image fusion based on pixel significance using cross-bilateral filter[J]. Signal Image & Video Processing, 2015, 9(5): 1193-1204.
[4] LI H, QIU H, YU Z, et al. Infrared and visible image fusion scheme based on NSCT and low-level visual features[J]. Infrared Physics & Technology, 2016, 76: 174-184.
[5] HOU J L, ZHANG D Z, WEI W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[6] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural net-works[J]. Science, 2006, 313(5786): 504-507. DOI: 10.1126/science.1127647
[7] LI H, WU X J. DenseFuse: A fusiona pproach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[8] HUANG G, LIU Z, LAURENSVD M, et al. Densely connected convolutional networks[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2261-2269.
[9] LI H, WU X J, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023
[10] Vibashan V S, Valanarasu J, Oza P, et al, et al. Image fusion transformer [J/OL]. arXiv preprint arXiv: 2107.09011. 2021. https://ieeexplore.ieee.org/document/9897280.
[11] LI H, WU X J, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230
[12] 黄玲琳, 李强, 路锦正, 等. 基于多尺度和注意力模型的红外与可见光图像融合[J]. 红外技术, 2023, 45(2): 143-149. http://hwjs.nvir.cn/cn/article/id/10e9d4ea-fb05-43a5-817a-bcad09f693b8 HUANG L L, LI Q, LU J Z, et al. Infrared and visible image fusion based on multi-scale and attention modeling[J]. Infrared Technology, 2023, 45(2): 143-149. http://hwjs.nvir.cn/cn/article/id/10e9d4ea-fb05-43a5-817a-bcad09f693b8
[13] Zamir S W, Arora A, Khan S, et al. Restormer: efficient transformer for high-resolution image restoration[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 5718-5729.
[14] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11531-11539.
[15] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//Computer Vision-ECCV, 2014: 740-755.
[16] WANG S H, Park J, Kim N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1037-1045.
[17] TOET A. The TNO multi band image data collection[J]. Data in Brief, 2017, 15: 249-251. DOI: 10.1016/j.dib.2017.09.038
[18] LIU J, FAN X, HUANG Z B, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 5792-5801.
[19] XU H, MA J Y, JIANG J J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans. Pattern Anal. Mach. Intell., 2022, 44(1): 502-518. DOI: 10.1109/TPAMI.2020.3012548
[20] WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 7464-7475, DOI: 10.1109/CVPR52729.2023.00721.