Infrared and Visible Images Fusion Method Based on Multi-Scale Features and Multi-head Attention
-
摘要:
针对红外与可见光图像融合容易出现细节丢失,且现有的融合策略难以平衡视觉细节特征和红外目标特征等问题,提出一种基于多尺度特征融合与高效多头自注意力相结合的红外与可见光图像融合方法。首先,为提高目标与场景的描述能力,采用了多尺度编码网络提取源图像不同尺度的特征;其次,提出了基于Transformer的多头转置注意力结合残差密集块的融合策略以平衡融合细节与整体结构;最后,将多尺度特征融合图输入基于巢式连接的解码网络,重建具有显著红外目标和丰富细节信息的融合图像。基于TNO与M3FD公开数据集与7种经典融合方法进行实验,结果表明,本文方法在视觉效果与量化评价指标上表现更佳,生成的融合图像在目标检测任务上取得更好的效果。
-
关键词:
- 图像融合 /
- 红外与可见光图像 /
- 多尺度特征 /
- 多头自注意力 /
- Transformer
Abstract:To address the challenges of detail loss and the imbalance between visual detail features and infrared (IR) target features in fused infrared and visible images, this study proposes a fusion method combining multiscale feature fusion and efficient multi-head self-attention (EMSA). The method includes several key steps. 1) Multiscale coding network: It utilizes a multiscale coding network to extract multilevel features, enhancing the descriptive capability of the scene. 2) Fusion strategy: It combines transformer-based EMSA with dense residual blocks to address the imbalance between local details and overall structure in the fusion process. 3) Nested-connection based decoding network: It takes the multilevel fusion map and feeds it into a nested-connection based decoding network to reconstruct the fused result, emphasizing prominent IR targets and rich scene details. Extensive experiments on the TNO and M3FD public datasets demonstrate the efficacy of the proposed method. It achieves superior results in both quantitative metrics and visual comparisons. Specifically, the proposed method excels in targeted detection tasks, demonstrating state-of-the-art performance. This approach not only enhances the fusion quality by effectively preserving detailed information and balancing visual and IR features but also establishes a benchmark in the field of infrared and visible image fusion.
-
0. 引言
碲镉汞(Hg1-xCdxTe或MCT)红外焦平面探测器因其优异的光电性能在制冷型红外探测器领域一直占据着主导地位[1-3]。碲镉汞红外焦平面阵列主要基于p-n结光电二极管,器件性能受限于耗尽区SRH(Shockley-Read-Hall)产生-复合电流、吸收层扩散电流、表面漏电流、带-带直接隧穿和陷阱辅助隧穿电流在内的暗电流。如何抑制器件的暗电流从而提高红外探测器的性能和工作温度是国内外研究的重点[4-5]。基于nBn势垒阻挡结构的碲镉汞器件能够有效地抑制器件的SRH产生-复合电流、隧穿电流,降低表面漏电对器件性能的限制,理论上nBn型器件性能只受到扩散电流的限制[6-7]。nBn结构碲镉汞器件可以摒弃p型As掺杂,仅采用n型掺杂即可实现光电器件的制备,器件制备工艺相对简洁,是当前红外器件研究的重要方向之一[8-10]。
本文针对nBn结构长波红外碲镉汞器件开启电压高的问题,研究了势垒层组分和掺杂浓度对器件能带带阶的影响,分析了吸收层掺杂浓度对器件暗电流的影响。在此基础上,优化了nBn碲镉汞长波红外器件结构设计以降低器件的开启电压,对器件的能带结构进行了仿真并计算了器件的理论暗电流水平。
1. nBn结构碲镉汞器件能带特征
2006年,美国罗切斯特大学的Maimon等首次提出了nBn结构器件并研制成功InAs基短波红探测器[6]。2007年,新墨西哥大学的Rodriguez等将nBn结构器件引入二类超晶格红外探测器的研制并取得了成功[7]。2011年,密歇根大学的Itsuno等人与EPIR合作,首次将nBn结构器件引入碲镉汞红外探测器的研制中并取得成功[8-10]。nBn结构器件中B层为宽带隙势垒层,当外加工作偏压时,耗尽区主要集中在势垒层,从而抑制了器件的SRH产生-复合电流。宽带隙势垒层对导带电子(多子)起到阻挡作用,但允许价带空穴(少子)的输运,从而实现器件光生电子和空穴的空间分离,如图 1所示[6]。
由于碲镉汞异质结Type-Ⅰ型能带排列特征,使得nBn结构碲镉汞器件的势垒层与吸收层之间存在一个价带带阶∆EV(空穴势垒),对光生少子(空穴)的收集起到阻挡作用,器件需要外加较大的反向偏压(开启电压)以提高光生少子的收集效率[11-13]。图 2所示为零偏压时常规nBn碲镉汞长波红外器件的能带结构。
图 3所示为0.5 V反向偏压下nBn碲镉汞长波红外器件的能带结构。
根据图 3可知,在0.5 V反向偏压时器件的价带带阶∆EV仍高达86.5 meV,远大于载流子的热激发能;同时吸收层出现了较宽的耗尽区,靠近势垒层界面处价带已经远高于吸收层导带。由于∆EV远大于载流子热激发能,需要进一步增大外加偏压才能实现对光生载流子的有效收集。而外加偏压的进一步增大,吸收层耗尽区的宽度会进一步增大,能带向上弯曲程度加剧,将会导致耗尽区直接隧穿电流、陷阱辅助隧穿电流及SRH产生-复合电流迅速增大,降低器件性能。因此,降低nBn结构碲镉汞器件的价带带阶从而降低器件的工作偏压是实现器件高性能的基础。
目前,降低碲镉汞nBn器件价带带阶的主要方法包括两类:1)通过势垒层P型As掺杂来降低价带带阶;2)采用HgTe/CdTe三类超晶格作为势垒层来降低价带带阶[13-14]。掺杂调控方法存在As杂质的浓度控制、杂质的高温激活及高温下Cd组分扩散等问题;超晶格势垒层存在生长技术难度大且高温下超晶格的热稳定性差等问题。
2. 器件仿真计算
本文在常规nBn结构长波红外碲镉汞器件的基础上,通过优化吸收层掺杂浓度来降低器件的暗电流,通过在势垒层-吸收层界面引入一定厚度的组分梯度过渡层来实现价带平滑过渡,降低器件工作所需的开启偏压。建立了不同势垒层组分、不同势垒层-吸收层之间组分过渡层厚度、不同势垒层与吸收层掺杂浓度等参数的器件仿真模型,采用Silvaco软件模拟了器件在不同偏压下的能带结构。器件模型参数如表 1所示。
表 1 nBn结构碲镉汞长波红外器件仿真参数Table 1. Simulation parameters of nBn HgCdTe LWIR deviceContact Barrier Gradient Absorber Comp(x) 0.275 0.55 0.55-0.225 0.225 d/μm 1.0 0.1 0.1-1.0 7.0 ND/cm-3 5E15 (1-1000)E14 (0.2-1)E15 (0.5-50)E14 图 4所示为势垒层-吸收层之间组分梯度过渡层厚度约0.5 μm时,nBn结构长波红外碲镉汞器件的仿真模型。在此基础上,计算了结构参数优化后的nBn结构长波红外碲镉汞器件在不同工作温度下的暗电流。
3. 结果与讨论
3.1 势垒层组分与掺杂浓度
对于nBn结构碲镉汞器件,调节势垒层组分、掺杂浓度等参数可以有效调控势垒的高度,从而调控器件工作所需阈值偏压。图 5所示为势垒层厚度100 nm的常规nBn结构碲镉汞长波器件能带带阶∆EV、∆EC与势垒层组分之间的关系。
根据计算结果分析可知,∆EV、∆EC随势垒层组分的增大而增大。增大势垒层的组分能够有效抑制接触层热电子激发和SRH产生-复合电流,但同时价带∆EV的增大使得器件需要外加更大的反向偏压来提高光生少子(空穴)的收集。此外,势垒层组分过大,材料的最佳生长温度会出现较大偏离,影响外延薄膜的晶体质量。
图 6所示为计算得到的常规nBn碲镉汞长波器件能带带阶与势垒层掺杂浓度之间的关系。
随着势垒层掺杂浓度的增大,费米能级向导带偏移,电子势垒∆EC值减小、空穴势垒∆EV值增大。但当势垒层的掺杂浓度降低到5×1014 cm-3以下时,掺杂浓度的变化对势垒层价带带阶的影响可以忽略。
基于上述分析,本文中nBn结构长波红外碲镉汞器件的势垒层组分设定为x=0.55、厚度设定为100 nm、掺杂浓度设定为(1~2)×1014 cm-3。
3.2 吸收层掺杂浓度
理论上nBn结构碲镉汞器件的暗电流受限于吸收层扩散电流,如式(1)所示:
$$ {J_{{\text{diff}}}} = \frac{{qn_i^2d}}{{{N_{{\text{maj}}}}\tau }} = \frac{{qn_i^2d}}{{{N_{{\text{maj}}}}}}\left( {\frac{1}{{{\tau _{{\text{A1}}}}}} + \frac{1}{{{\tau _{\text{R}}}}} + \frac{1}{{{\tau _{{\text{SRH}}}}}}} \right) $$ (1) 式中:ni为本征载流子浓度;d为吸收层厚度;Nmaj为掺杂浓度;τA1为Auger-1复合寿命,τR为辐射复合寿命,τSRH为SRH复合寿命。τA1如式(2)所示[17]:
$$ {\tau _{{\text{A1}}}} = \frac{{2{\tau _{{\text{Ai1}}}}n_i^2}}{{N(N + P)}} $$ (2) 式中:τAi1为本征俄歇寿命。
$$ {\tau _{{\text{Ai1}}}} = \frac{{3.8 \times {{10}^{ - 18}}{\varepsilon ^2}{{(1 + \mu )}^{\frac{1}{2}}}(1 + 2\mu ) \cdot \exp \left( {\frac{{ - q(1 + 2\mu ){E_{\text{g}}}}}{{(1 + \mu )kT}}} \right)}}{{\left( {\frac{{{m_{\text{e}}}}}{{{m_0}}}} \right) \cdot {{\left| {{F_1}{F_2}} \right|}^2} \cdot {{\left( {\frac{{kT}}{{q{E_{\text{g}}}}}} \right)}^{\frac{3}{2}}}}} $$ (3) 式中:ε为介电函数;μ=me/mh;F1F2值0.25。
由于光子循环吸收效应,辐射复合对少子寿命的影响降低[15-16]。因此,长波N型碲镉汞材料少子寿命主要受限于Auger-1复合与SRH复合过程。此时,扩散电流如式(4)所示:
$$ {J_{{\text{diff}}}} = \frac{{qn_i^2d}}{{{N_{{\text{maj}}}}\tau }} = \frac{{qn_i^2d}}{{{N_{{\text{maj}}}}}}\left( {\frac{1}{{{\tau _{{\text{A1}}}}}} + \frac{1}{{{\tau _{{\text{SRH}}}}}}} \right) $$ (4) DRS报道其N型长波碲镉汞材料的τSRH值约在0.1~1 ms范围,TIS报道其长波碲镉汞τSRH值大于0.5 ms[16-18]。设定τSRH=0.5 ms,计算不同掺杂浓度下与Auger复合和SRH复合相关的长波碲镉汞器件扩散电流成分随工作温度的变化,如图 7所示。
根据计算结果可知,对于高质量的N型长波碲镉汞材料,扩散电流主要受限于Auger-1复合过程,此时器件的扩散电流如式(5)所示:
$$ {J_{{\text{diff}}}} = \frac{{qn_i^2d}}{{{N_{{\text{maj}}}}{\tau _{{\text{A1}}}}}} $$ (5) 式(5)表明NmajτA1的乘积决定了扩散电流的大小。图 8所示为计算的不同工作温度下长波碲镉汞NmajτA1乘积与掺杂浓度之间的关系。
根据计算结果可知,长波器件在不同工作温度下的NmajτA1最大值随掺杂浓度会发生变化。工作温度110 K时,吸收层掺杂浓度(1~2)×1014 cm-3范围NmajτA1的值达到最大,器件具有最低的扩散电流。同时,受限于背景杂质浓度,分子束外延碲镉汞难以实现ND<1×1014 cm-3的稳定掺杂。因此,nBn结构碲镉汞长波器件吸收层掺杂浓度设定为(1~2)×1014 cm-3。
3.3 势垒层-吸收层界面能带调控
本文在常规nBn结构长波碲镉汞器件的基础上,在势垒层与吸收层之间插入一定厚度的组分梯度过渡层来降低反向偏压下器件的价带带阶,以实现器件工作偏压的降低。同时,计算了不同组分梯度过渡层厚度时在相同偏压下价带带阶的变化情况。工作温度110 K,器件结构的具体参数设为组分梯度过渡层组分从0.55线性降低到0.225,势垒层与吸收层掺杂浓度2×1014 cm-3,上接触层组分0.275,掺杂浓度为5×1015 cm-3。图 9所示为过渡层厚度为0.6 μm、反向偏压为0.3 V时长波红外nBn碲镉汞器件的能带结构。
图 10所示为nBn碲镉汞长波器件在0.3 V反向偏压下时价带带阶与组分梯度过渡层厚度之间的计算关系。
根据0.3 V反向偏压下nBn碲镉汞长波红外器件的能带计算结果可知,组分梯度过渡层的厚度在约0.6 μm时价带带阶∆EV值最小(12 meV),远低于常规nBn结构长波碲镉汞器件,同时吸收层内未出现明显的能带弯曲。
本文中,通过调节长波红外nBn结构碲镉汞器件组分及掺杂浓度,实现了较低工作偏压下器件吸收层与势垒层之间价带带阶的有效降低,器件具有较低的工作阈值偏压。同时,该器件的吸收层内几乎未有耗尽区的形成,从而使得与耗尽区相关的SRH产生-复合电流及隧穿电流得到有效抑制。理论上,该器件的性能只受限于吸收层内的扩散电流。
3.4 器件暗电流水平计算
根据nBn器件能带结构仿真结果分析,在吸收层与势垒层之间引入约0.6 μm厚的组分梯度过渡层,优化器件掺杂浓度,器件的开启偏压约为0.3 V且吸收层内未出现较大的能带弯曲,此时器件暗电流主要受限于吸收层内的扩散电流。对该器件在不同工作温度下的暗电流水平进行了计算,并与“Rule07”预测暗电流水平[19-20]及293 K黑体下的光电流(F#=2,η=60%)进行了对比,计算结果如图 11所示。根据计算结果可知,当工作温度低于117 K时器件暗电流低于“Rule07”预测值,且当工作温度在100 K以内时比“Rule07”预测值低了接近一个数量级,表明理论上该器件具备较低的暗电流水平。
4. 结论
本文在对nBn结构器件基本原理分析的基础上,对碲镉汞nBn器件Type-Ⅰ型能带结构的特点进行了详细分析。优化了nBn型长波碲镉汞器件结构设计,建立了二维器件模型并模拟计算了器件的能带结构,研究了该器件的理论暗电流水平。结果表明,通过优化nBn器件结构参数来调控器件的能带结构,能够有效降低器件的工作偏压,降低器件的暗电流,获得了优化结构的nBn型长波红外碲镉汞器件。理论上该器件的工作温度可达到110 K以上,且器件的暗电流水平低于“Rule07”预测暗电流值,预示着该器件具备较好的高工作温度特性。同时,优化设计后的器件结构为全N型结构,完全摒弃了As掺杂势垒或超晶格势垒,器件制备工艺难度相对较低,具有更高的技术可行性和发展前景。
-
表 1 编码网络(E)和解码网络(D)的设置
Table 1 Settings of encoding network (E) and decoding network (D)
E Layer Size Stride Ch_i Ch_o ECB1 - - 16 64 ECB2 - - 64 112 ECB3 - - 112 160 ECB4 - - 160 208 D DCB31 - - 368 160 DCB22 - - 384 112 DCB21 - - 272 112 DCB13 - - 304 64 DCB12 - - 240 64 DCB11 - - 176 64 ECB Conv 3 1 Nin 16 Conv 1 1 16 Nout DCB Conv 3 1 Nin 16 Conv 1 1 16 Nout 表 2 不同融合方法在TNO与M3FD数据集上各指标均值
Table 2 Mean values of indicators on TNO and M3FD datasets with different fusion methods
Dataset Methods EN SD MI SCD MS-SSIM VIF TNO CBF 6.890 34.010 2.115 1.326 0.665 0.285 DCHWT 6.626 29.402 1.993 1.542 0.759 0.369 FusionGAN 6.548 30.699 2.593 1.382 0.755 0.425 DenseFuse 6.347 24.707 2.423 1.595 0.918 0.529 U2Fusion 6.511 31.186 2.411 1.654 0.923 0.490 RFN_Nest 6.997 37.42 2.484 1.799 0.967 0.555 IFT 6.981 36.301 2.357 1.745 0.962 0.566 Ours 7.015 38.559 2.683 1.805 0.957 0.614 Average 6.739 32.785 2.382 1.606 0.863 0.479 M3FD CBF 6.920 33.339 2.427 1.217 0.566 0.583 DCHWT 6.668 27.781 2.003 1.493 0.699 0.621 FusionGAN 6.551 29.344 2.909 1.307 0.668 0.406 DenseFuse 6.307 23.722 2.969 1.582 0.975 0.587 U2Fusion 6.496 26.606 2.834 1.643 0.989 0.562 RFN_Nest 6.795 32.995 2.919 1.799 0.993 0.581 IFT 6.950 36.943 2.677 1.776 0.866 0.413 Ours 6.947 35.550 3.181 1.829 1.020 0.665 Average 6.704 30.785 2.739 1.565 0.847 0.552 表 3 融合效果目标检测实验结果评价
Table 3 Evaluation of experimental results of fusion effect target detection
Models AP mAP Bus People Car Truck Motorcycle Lamp Visible 0.839 0.639 0.877 0.794 0517 0.681 72.45% Infrared 0.826 0.763 0.835 0.740 0.452 0.351 66.17% DenseFuse 0.827 0.776 0.898 0.830 0.636 0.569 75.62% FusionGan 0.831 0.687 0.883 0.763 0.550 0.425 69.02% RFN_Nest 0.834 0.683 0.895 0.814 0.592 0.650 74.50% IFT 0.844 0.765 0.891 0.824 0.589 0.580 74.94% U2Fusion 0.836 0.754 0.900 0.818 0.612 0.587 75.16% Ours 0.837 0.739 0.889 0.831 0.665 0.607 76.18% 表 4 消融实验结果评价
Table 4 Evaluation of ablation experiment results
Dataset Methods EN SD MI SCD MS_SSIM VIF TNO Exclude Transformer 6.948 38.159 2.675 1.787 0.948 0.606 Exclude RDB 6.941 38.036 2.705 1.780 0.944 0.608 Ours 7.015 38.559 2.683 1.805 0.957 0.614 M3FD Exclude Transformer 6.745 33.325 3.108 1.783 1.007 0.643 Exclude RDB 6.74 33.365 3.16 1.774 1.005 0.635 Ours 6.947 35.550 3.181 1.829 1.020 0.665 -
[1] 王天元, 罗晓清, 张战成. 自注意力引导的红外与可见光图像融合算法[J]. 红外技术, 2023, 45(2): 171-177. http://hwjs.nvir.cn/cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe WANG T Y, LUO X Q, ZHANG Z C. Self-attention guided fusion algorithm for infrared and visible images[J]. Infrared Technology, 2023, 45(2): 171-177. http://hwjs.nvir.cn/cn/article/id/09b45ee5-6ebc-4222-a4ec-11b5142482fe
[2] KUMAR B K S. Multifocus multispectral image fusion based on pixel significance using disrcret cosin harmonic wavelet transform[J]. Signal Image & . Video Processing, 2013, 7(6): 1125-1143.
[3] KUMAR B K S. Image fusion based on pixel significance using cross-bilateral filter[J]. Signal Image & Video Processing, 2015, 9(5): 1193-1204.
[4] LI H, QIU H, YU Z, et al. Infrared and visible image fusion scheme based on NSCT and low-level visual features[J]. Infrared Physics & Technology, 2016, 76: 174-184.
[5] HOU J L, ZHANG D Z, WEI W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004
[6] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural net-works[J]. Science, 2006, 313(5786): 504-507. DOI: 10.1126/science.1127647
[7] LI H, WU X J. DenseFuse: A fusiona pproach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[8] HUANG G, LIU Z, LAURENSVD M, et al. Densely connected convolutional networks[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2261-2269.
[9] LI H, WU X J, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023
[10] Vibashan V S, Valanarasu J, Oza P, et al, et al. Image fusion transformer [J/OL]. arXiv preprint arXiv: 2107.09011. 2021. https://ieeexplore.ieee.org/document/9897280.
[11] LI H, WU X J, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230
[12] 黄玲琳, 李强, 路锦正, 等. 基于多尺度和注意力模型的红外与可见光图像融合[J]. 红外技术, 2023, 45(2): 143-149. http://hwjs.nvir.cn/cn/article/id/10e9d4ea-fb05-43a5-817a-bcad09f693b8 HUANG L L, LI Q, LU J Z, et al. Infrared and visible image fusion based on multi-scale and attention modeling[J]. Infrared Technology, 2023, 45(2): 143-149. http://hwjs.nvir.cn/cn/article/id/10e9d4ea-fb05-43a5-817a-bcad09f693b8
[13] Zamir S W, Arora A, Khan S, et al. Restormer: efficient transformer for high-resolution image restoration[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 5718-5729.
[14] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11531-11539.
[15] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//Computer Vision-ECCV, 2014: 740-755.
[16] WANG S H, Park J, Kim N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1037-1045.
[17] TOET A. The TNO multi band image data collection[J]. Data in Brief, 2017, 15: 249-251. DOI: 10.1016/j.dib.2017.09.038
[18] LIU J, FAN X, HUANG Z B, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 5792-5801.
[19] XU H, MA J Y, JIANG J J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans. Pattern Anal. Mach. Intell., 2022, 44(1): 502-518. DOI: 10.1109/TPAMI.2020.3012548
[20] WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 7464-7475, DOI: 10.1109/CVPR52729.2023.00721.