基于红外可见光特征增强与融合的目标检测算法

李明禄, 王肖霞, 侯茂新, 杨风暴

李明禄, 王肖霞, 侯茂新, 杨风暴. 基于红外可见光特征增强与融合的目标检测算法[J]. 红外技术, 2025, 47(3): 385-394.
引用本文: 李明禄, 王肖霞, 侯茂新, 杨风暴. 基于红外可见光特征增强与融合的目标检测算法[J]. 红外技术, 2025, 47(3): 385-394.
LI Minglu, WANG Xiaoxia, HOU Maoxin, YANG Fengbao. An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion[J]. Infrared Technology , 2025, 47(3): 385-394.
Citation: LI Minglu, WANG Xiaoxia, HOU Maoxin, YANG Fengbao. An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion[J]. Infrared Technology , 2025, 47(3): 385-394.

基于红外可见光特征增强与融合的目标检测算法

详细信息
    作者简介:

    李明禄(2000-),男,硕士研究生,主要研究方向为多模图像处理与识别。E-mail: lml20010402@foxmail.com

    通讯作者:

    王肖霞(1980-),女,博士,副教授,主要研究方向为不确定性信息处理、关联成像等。E-mail: wangxiaoxia@nuc.edu.cn

  • 中图分类号: TP391

An Object Detection Algorithm Based on Infrared-Visible Feature Enhancement and Fusion

  • 摘要:

    为了应对复杂动态环境下红外与可见光双模态目标检测的挑战,特别是目标特征表达不足以及红外可见光特征在双模态融合中无法充分利用互补特征导致漏检和误检的问题,提出了一种用于目标检测的双分支特征增强与融合网络(Dual-Branch Feature Enhancement and Fusion,DBEF-Net)。针对模型对红外和可见光特征关注度不足的问题,设计了一种特征交互增强模块,该模块能够有效地关注并增强双模态特征中的有用信息。同时,为了更有效地利用双模态的互补特征,采用基于Transformer的双模态融合网络,并引入交叉注意力机制,以实现模态间的深度融合。实验结果表明,在SYUGV数据集上,与现有双模态目标检测算法相比,本文方法的平均检测精度更高,处理速度也能满足实时检测的需求。

    Abstract:

    A dual-branch feature enhancement and fusion backbone network (DBEF-Net) is proposed for object detection to address the challenges of infrared and visible bimodal object detection in complex dynamic environments. Specifically, DBEF-Net addresses issues such as insufficient object feature expression and the inability of infrared and visible features to fully utilize the complementary features in bimodal fusion leading to omission and misdetection. To further address the insufficient attention of the model to infrared and visible light features, a feature interaction enhancement module is designed to effectively focus on and enhance the useful information in bimodal features. A transformer-based bimodal fusion network is further adopted. To utilize the complementary features of bimodal modalities more effectively, a cross-attention mechanism is introduced to achieve deep fusion between the modalities. Experimental results show that the proposed method has higher average detection accuracy than existing bimodal object detection algorithms on the SYUGV dataset, meeting the processing speed for real-time detection.

  • 有机电致发光器件(Organic Light Emitting Device,OLED)具有发光亮度高、响应时间短、可视范围大和可柔性化等优点,被称为“梦幻般的显示器”,被视为液晶显示后的下一代主流显示器,并初步应用于装饰和室内照明[1-6]。近年来,高性能顶发射器件逐渐成为研究热点,诸多科研工作者投身于实现高性能器件的研究中,目前主要从两个方面入手:一是新材料的研发,如新型有机发光分子材料[7];二是新结构的开发,如超薄结构[8]、量子阱结构[9]和和微腔结构[10]等。在微腔结构方面,主要是通过理论计算改变有机结构层厚度,进而调节器件的微腔长度,获得不同模数的微腔,使器件处于不同微腔加强区,从而提升器件性能。

    光学微腔是一种光学微型谐振腔,尺寸在光波长量级。有机微腔电致发光器件最早是日本九州大学在1993年完成的[11]。当前关于有机微腔发光的大部分研究致力于提升器件效率[12-14],而对具有微腔效应顶发射器件的色纯度及稳定性的研究存在不足。因此,本文在现有器件研究的基础上,通过引入二阶微腔结构[15-16],制备了一系列顶发射微型器件,验证二阶微腔长度范围内器件的光电性能,最终获得优化后的稳定绿光顶发射器件,实现标准绿光显示。

    本文所制备的顶发射器件,微腔结构为简单的FP(Fabry-Perot)微腔结构[17-19],底部全反射电极采用Ag,顶部光出射端采用半透明的金属阴极Mg/Ag作为半反射镜。器件各膜层通过蒸镀设备依次完成,主要膜层及所用材料见表 1,其中阳极为ITO,空穴注入层(Hole Injection Layer, HIL)为有机材料F16CuPc和NPB,F16CuPc为掺杂料;空穴传输层(Hole Transport Layer, HTL)为有机材料NPB;电子阻挡层(Electron Blocking Layer, EBL)为有机材料TCTA;有机发光层(Emitting Layer, EML)为有机材料mCP和Ir(ppy)3,mCP为绿色发光基质,Ir(ppy)3掺杂料;电子传输层(Electron Transport Layer, ETL)为有机材料Bphen和Liq,Liq为掺杂料;光输出耦合层(Capping Layer, CPL)为有机材料Alq3。器件中涉及的有机材料分子结构如图 1所示。

    表  1  器件主要膜层及所用材料
    Table  1.  Layers and materials of device
    Layer Material
    anode ITO
    HIL Copper(II)1, 2, 3, 4, 8, 9, 10, 11, 15, 16, 17, 18, 22, 23, 24, 25-hexadecafluoro-29H, 31H-phthalocyanine(F16CuPc)
    N, N'-Di-[(1-naphthyl)-N, N'-diphenyl]-1, 1'-biphenyl)-4, 4'-diamine (NPB)
    HTL N, N'-Di-[(1-naphthyl)-N, N'-diphenyl]-1, 1'-biphenyl)-4, 4'-diamine (NPB)
    EBL 4, 4', 4''-tris(carbazol-9-yl)-triphenylamine (TCTA)
    EML 1, 3-bis(9-carbazolyl)benzene(mCP)
    Iridium, tris[2-(2-pyridinyl-kN)phenyl-kC](Ir(ppy)3
    ETL 4, 7-Diphenyl-1, 10-phenanthroline(Bphen)
    8-hydroxyquinoline lithium(Liq)
    cathode Mg/Ag
    CPL 8-Hydroxyquinoline aluminum salt(Alq3
    下载: 导出CSV 
    | 显示表格
    图  1  器件中涉及的有机材料分子结构
    Figure  1.  Molecular structures of the materials in the OLED devices

    该器件采用云南北方奥雷德光电股份有限公司开发的硅基CMOS基板作为器件衬底,依次蒸镀各层有机材料,蒸发速率保持在0.1 nm/s,真空度保持在2×10-4 Pa。器件的亮度及光谱通过PR-655测量,电流和电压采用搭载Keithley 2400测试仪的测试系统进行测量。

    一般来说,顶发射器件都存在微腔效应,器件发出的光谱强度I(λ)如式(1)[20]

    $$ I\left( \lambda \right) = \frac{{\left( {1 + {R_{\text{h}}}} \right)\left[ {1 + {R_{\text{f}}} + 2\sqrt {{R_{\text{f}}}} \cos \left( {\frac{{4{\rm{ \mathsf{ π} }}Z}}{\lambda }} \right)} \right]}}{{1 + {R_{\text{f}}}{R_{\text{h}}} - 2\sqrt {{R_{\text{f}}}{R_{\text{h}}}} \cos \left( {\frac{{4{\rm{ \mathsf{ π} }}L}}{\lambda }} \right)}}{I_0}\left( \lambda \right) $$ (1)

    式中:Rf为全反射镜的反射率;Rh为半透明反射镜的反射率;I0(λ)为自由空间的光谱强度;L为器件微腔光学长度;Z为全反射镜与有机发光层之间的距离。其中,微腔的光学长度L计算式为:

    $$ L = \sum {{n_{\text{m}}}{d_{\text{m}}}} + {n_{{\text{ITO}}}}{d_{{\text{ITO}}}} + \left| {\frac{{{\lambda _q}}}{{4{\rm{ \mathsf{ π} }}}}\sum\limits_i {{\phi _i}\left( \lambda \right)} } \right| = q\frac{{{\lambda _q}}}{2} $$ (2)

    式中:nmdm分别为有机材料的折射率和厚度;nITOdITO分别为ITO的折射率和厚度;q(1, 2, 3, 4, …)是发射模的模(阶)数;λq是模(阶)数为q的共振发射波长;ϕt(λ)为光在有机界面/金属镜面之间的相移,i为阳极/有机界面或阴极/有机界面。由式(1)、(2)可知,通过调节有机材料膜层厚度,可以改变器件微腔长度,使腔模q的位置产生移动,从而改变微腔器件的出射光波长。为了使器件微腔的谐振波长与发光层电致发光谱的峰值波长相匹配以实现增益,利用公式(2)计算得到一阶腔长对应的有机层总厚度约为100 nm,二阶腔长对应的有机层总厚度约为250 nm。

    通过调整空穴传输层和电子阻挡层厚度,实验中制作了5种不同微腔长度的器件A~E,如图 2所示。其结构为:Si Substrate/Ag/ITO/ NPB: F16CuPc(10 nm, 3%)/NPB(x nm)/TCTA(y nm)/ mCP: Ir(ppy)3(40 nm, 6%)/ Bphen: Liq(30 nm, 40%)/ Mg/Ag(12 nm)/Alq3(35 nm),x表示空穴传输层(NPB)的膜层厚度,y表示电子阻挡层(TCTA)的膜层厚度。其中x分别为30、30、60、20、120,y分别为20、15、20、15、40,器件有机层厚度依次为130 nm、125 nm、160 nm、115 nm、240 nm。

    图  2  5种不同微腔长度器件结构图
    Figure  2.  Schematics of device structure with five microcavity lengths

    图 3为不同腔长器件EL光谱。器件A、B、C、D在524 nm处有一强峰,556 nm、552 nm、560 nm、560 nm处出现一弱峰,器件E为520 nm处唯一单峰。从图中可以看出,器件C→A→B→D→E长波一侧出现明显的窄化趋势,向短波一侧移动,出现蓝移,560 nm处的肩峰逐渐减弱至消失。这一现象是器件微腔效应导致的,根据腔量子电动力学效应,腔内光场的模式密度受到调制,在谐振波长处得到增强,而在其他波长处的受到抑制,光谱得到窄化[21]。微腔效应的强弱常通过半高宽(FWHM, full width at half maximum)来衡量,计算得到器件C→A→B→D→E半高宽从84 nm减小到33 nm,微腔效应逐渐增强。

    图  3  不同腔长器件EL光谱
    Figure  3.  EL spectrum of device with different cavity lengths

    不同腔长器件的发光性能如表 2所示。在A~E中,D在亮度、电流效率与外量子效率等方面表现较佳,B次之,C表现最差,而E色坐标偏移最小。这主要是因为,D位于一阶加强区,E位于二阶加强区,C远离加强区。可以看出,当器件腔长位于一阶加强区时,器件的光电效率会得到加强;当位于二阶加强区时,器件效率会低于一阶加强区[22-23],但器件色纯度明显高于一阶加强区,说明处于二阶加强区对器件的色纯度有显著的提升作用。

    表  2  不同腔长器件的光电特性
    Table  2.  Optoectronic performance of device with different cavity lengths
    Device Luminance/(cd/m2) Current efficiency/(cd/A) Peak wavelength/nm FWHM/nm External quantum efficiency/% CIEx, y Color shift[CIE 1931]
    A 6330 33.80 524 73 9.19% (0.3713, 0.6019) (0.1613, 0.1081)
    B 7439 39.73 524 70 10.59% (0.3601, 0.6110) (0.1501, 0.0990)
    C 2198 11.74 524 84 3.39% (0.3959, 0.5821) (0.1859, 0.1279)
    D 9123 48.72 524 66 12.75% (0.3436, 0.6243) (0.1336, 0.0857)
    E 5477 29.25 520 33 7.67% (0.2092, 0.7167) (0.0008, 0.0067)
    下载: 导出CSV 
    | 显示表格

    通过进一步的测试发现,制作得到的器件色坐标都具有很好的稳定性,如图 4所示。A~E色坐标CIEx,CIEy在低电压阶段经过短暂上升,电压达到2.8 V后,色坐标保持平稳。从整个变化情况来看,器件E色坐标出现了明显的突变,CIEx骤降到0.2左右,CIEy骤升到0.71左右,出现该现象的原因是器件A~D分别在556 nm、552 nm、560 nm、560 nm处存在一弱峰,导致色坐标产生偏离,发光时表现出黄绿光,而器件E为唯一单峰,在器件正常启亮后就表现出近乎接近标准绿光(0.21, 0.71)显示,如图 4(c)所示。这一结果也再次表明微腔长度处于二阶加强区,对器件发光色纯度有明显的提升作用。

    图  4  不同腔长器件色坐标变化
    Figure  4.  Color coordinate variation of device with different cavity lengths

    前述结果表明,当器件微腔长度位于二阶加强区时,器件的色纯度会得到明显提升。为了验证器件处于二阶加强区时,空穴传输层和电子阻挡层厚度是否对微腔长度改变起同等作用,制作了器件E1。在其他条件保持不变的情况下,空穴传输层厚度为40 nm,电子阻挡层厚度为120 nm。从表 3可以看出,E、E1在亮度、电流效率、外量子效率等性能方面表现相当,差异很小。通过光谱图(图 5)和色坐标(图 6)也可以看出,两者EL光谱基本重合,且CIEx、CIEy未发生较大改变。这一结果表明,空穴传输层与电子传输层厚度在微腔长度改变中作用相同,均能有效调节色纯度。

    表  3  不同HTL & EBL厚度器件的光电特性
    Table  3.  Optoectronic performance of device with different HTL & EBL thickness
    Device Luminance/(cd/m2) Current efficiency/(cd/A) Peak wavelength/nm FWHM/nm External quantum efficiency/% CIEx, y Color shift[CIE 1931]
    E 5477 29.25 520 33 7.67 (0.2092, 0.7167) (0.0008, 0.0067)
    E1 5261 28.09 520 32 7.58 (0.2079, 0.7173) (0.0021, 0.0073)
    下载: 导出CSV 
    | 显示表格
    图  5  不同HTL&EBL厚度器件EL光谱
    Figure  5.  EL spectra of device with different HTL&EBL thickness
    图  6  HTL&EBL厚度对色坐标影响
    Figure  6.  Color coordinate variation of device with different HTL&EBL thickness

    研究发现器件结构为Si Substrate/Ag/ITO/ NPB: F16CuPc(10 nm, 3%)/NPB(x nm)/TCTA(y nm)/ mCP: Ir(ppy)3(40 nm, 6%)/Bphen: Liq(30 nm, 40%)/ Mg/ Ag(12 nm)/Alq3(35 nm)的顶发射绿光器件,通过调节器件空穴传输层和电子阻挡层的厚度使器件处于第二阶微腔加强区,可以使光谱明显窄化,器件色纯度得到极大提升,进一步研究发现,空穴传输层与电子阻挡层在微腔长度改变中作用相同,均能有效调节色纯度。器件在腔长为240 nm时,能实现稳定的高色纯度绿光显示,正向出射绿光的色坐标达到了(0.2092,0.7167),接近标准绿光(0.21, 0.71),该结果对二阶腔长绿光器件的应用有较好的参考意义。

  • 图  1   红外-可见光目标检测整体架构

    Figure  1.   Overall framework of infrared-visible light object detection

    图  2   双分支编码器结构

    Figure  2.   Dual-branch encoder structure

    图  3   特征交互增强模块结构

    Figure  3.   Feature interaction and enhancement structure

    图  4   交叉注意力融合结构

    Figure  4.   Cross attention fusion structure

    图  5   SYUGV数据集

    Figure  5.   SYUGV Datasets

    图  6   不同模态输入的P-R曲线

    Figure  6.   P-R curves of different modal inputs

    图  7   双分支模型的Grad-CAM热图

    Figure  7.   Grad-CAM heatmap of dual branch model

    图  8   消融实验平均检测精度曲线

    Figure  8.   Average precision curves of ablation experiment

    图  9   不同模型的特征关注可视化

    Figure  9.   Visualization of feature attention for different models

    图  10   模型训练对比

    Figure  10.   Comparison of model training

    图  11   不同模型在SYUGV数据集上的检测效果对比

    Figure  11.   Comparison of detection effects of different models on the SYUGV dataset

    表  1   不同模态输入的模型检测性能

    Table  1   Model detection performance of different modal inputs

    Method Input P/% R/% mAP@0.5/% mAP@0.5-0.95/% GFlops Params/M FPS
    YOLOv8s VI 89.1 78.2 86.7 54.1 28.6 11.1 150
    YOLOv8s IR 91.9 86.3 91.8 65.3 28.6 11.1 150
    Dual-YOLOv8s VI+IR 93.2 88.0 94.2 68.9 22.8 8.8 163
    下载: 导出CSV

    表  2   双分支检测模型的消融实验结果

    Table  2   Ablation experimental results of the dual branch detection model

    Method Input P/% R/% mAP@0.5/% mAP@0.5-0.95/% Params/M FPS
    Baseline VI+IR 93.2 88.0 94.2 68.9 8.8 163
    Baseline+DBE VI+IR 93.9 89.2 95.2 69.3 9.7 135
    Baseline+CBAM VI+IR 93.4 87.6 93.6 67.7 9.2 161
    Baseline+ECA VI+IR 93.3 89.0 94.5 68.7 17.6 98
    Baseline+CTF VI+IR 93.8 88.9 95.0 69.0 11.5 128
    Baseline+DBE+TF VI+IR 95.3 89.5 94.9 69.1 11.0 115
    Baseline+DBE+CTF VI+IR 95.2 90.4 95.6 69.6 12.3 117
    下载: 导出CSV

    表  3   不同模型的对比实验结果

    Table  3   Comparative experimental results of different models

    Method P/% R/% mAP@0.5/% mAP@0.5-0.95/% Params/M FPS
    MAF-YOLO 93.5 85.4 92.8 64.4 6.1 63
    SLBAF-Net 88.5 87.3 93.1 61.8 1.1 71
    ICAFusion 94.0 90.6 95.0 64.9 23.2 26
    Ours 95.2 90.4 95.6 69.6 12.3 117
    下载: 导出CSV
  • [1]

    Ramachandran A, Sangaiah A K. A review on object detection in unmanned aerial vehicle surveillance[J]. International Journal of Cognitive Computing in Engineering, 2021, 2: 215-228.

    [2]

    HU Y, SHI L, YAO L, et al. Dual attention feature fusion for visible-infrared object detection[C]//International Conference on Artificial Neural Networks, 2023: 53-65.

    [3] 宁大海, 郑晟. 可见光和红外图像决策级融合目标检测算法[J]. 红外技术, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    NING Dahai, ZHENG Sheng. An object detection algorithm based on decision-level fusion of visible and infrared images[J]. Infrared Technology, 2023, 45(3): 282-291. http://hwjs.nvir.cn/article/id/5340b616-c317-4372-9776-a7c81ca2c729

    [4]

    Bustos N, Mashhadi M, Lai-Yuen S K, et al. A systematic literature review on object detection using near infrared and thermal images[J]. Neurocomputing, 2023, 560: 126804.

    [5]

    YUE G, LI Z, TAO Y, et al. Low-illumination traffic object detection using the saliency region of infrared image masking on infrared-visible fusion image[J]. Journal of Electronic Imaging, 2022, 31(3): 033029-033029.

    [6]

    LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.

    [7]

    TANG Cong, LING Yongshun, YANG Hua, et al. Decision-level fusion detection for infrared and visible spectra based on deep learning[J]. Infrared and Laser Engineering, 2019, 48(6): 626001-0626001(15).

    [8]

    SUN Y M, CAO B, ZHU P F, et al. Drone-based RGB-Infrared cross-modality vehicle detection via uncertainty-aware learning[J]. IEEE Transactions on Circuitsand Systems for Video Technology, 2022, 32: 6700-6713.

    [9]

    GENG K K, ZOU W, YIN G D, et al. Low-observable targets detection for autonomous vehicles based on dual-modal sensor fusion with deep learning approach[J]. Journal of Automobile Engineering, 2019, 233(9): 2270-2283.

    [10]

    XUE Y, JU Z, LI Y, et al. MAF-YOLO: Multi-modal attention fusion based YOLO for pedestrian detection[J]. Infrared Physics & Technology, 2021, 118: 103906.

    [11]

    CHENG X, GENG K, WANG Z, et al. SLBAF-Net: Super-Lightweight bimodal adaptive fusion network for UAV detection in low recognition environment[J]. Multimedia Tools and Applications, 2023, 82(30): 47773-47792.

    [12]

    SHEN J, CHEN Y, LIU Y, et al. ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection[J]. Pattern Recognition, 2024, 145: 109913.

    [13]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020.

    [14]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

    [15]

    Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

    [16]

    CHEN Z, HE Z, LU Z M. DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention[J]. IEEE Transactions on Image Processing, 2024, 33: 1002-1015.

    [17]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Neural Information Processing Systems, Neural Information Processing Systems, 2017, 30: 6000-6010.

    [18]

    FANG Qingyun, HAN Dapeng, WANG Zhaokui. Cross-modality fusion transformer for multispectral object detection[J]. arXiv preprint arXiv: 2111.00273, 2021.

    [19]

    Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.

    [20]

    WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11534-11542.

  • 期刊类型引用(4)

    1. 吕伽奇,丁帅,庞静珠,许小进. 基于改进LeNet-5网络的堆芯燃料组件编码识别. 东华大学学报(自然科学版). 2024(02): 121-128 . 百度学术
    2. 毛羽,郑怀华,李隆,张傲. 基于热红外图像的光伏板热斑检测方法研究. 自动化仪表. 2024(05): 25-29+34 . 百度学术
    3. 王晓君,孙梓林,王雁. 基于AMP架构的青霉素结晶与发酵检测系统设计. 仪表技术与传感器. 2024(05): 66-73 . 百度学术
    4. 赵兴文. 机器学习在信用贷款评分中的应用. 福建电脑. 2023(02): 31-34 . 百度学术

    其他类型引用(15)

图(11)  /  表(3)
计量
  • 文章访问数:  19
  • HTML全文浏览量:  1
  • PDF下载量:  8
  • 被引次数: 19
出版历程
  • 收稿日期:  2024-05-13
  • 修回日期:  2024-06-24
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日