基于多注意力机制的红外与可见光图像夜间目标检测

黎瑞虹, 付志涛, 张韶琛, 张健, 王雷光

黎瑞虹, 付志涛, 张韶琛, 张健, 王雷光. 基于多注意力机制的红外与可见光图像夜间目标检测[J]. 红外技术, 2024, 46(12): 1371-1379.
引用本文: 黎瑞虹, 付志涛, 张韶琛, 张健, 王雷光. 基于多注意力机制的红外与可见光图像夜间目标检测[J]. 红外技术, 2024, 46(12): 1371-1379.
LI Ruihong, FU Zhitao, ZHANG Shaochen, ZHANG Jian, WANG Leiguang. Nighttime Object Detection in Infrared and Visible Images Based on Multi-Attention Mechanism[J]. Infrared Technology , 2024, 46(12): 1371-1379.
Citation: LI Ruihong, FU Zhitao, ZHANG Shaochen, ZHANG Jian, WANG Leiguang. Nighttime Object Detection in Infrared and Visible Images Based on Multi-Attention Mechanism[J]. Infrared Technology , 2024, 46(12): 1371-1379.

基于多注意力机制的红外与可见光图像夜间目标检测

基金项目: 

国家自然科学重点基金项目 41961053

云南省重大科技专项 202202AD080010

云南省科技厅基础研究计划面上项目 202301AT070463

云南省科技厅基础研究计划面上项目 202201AT070164

森林生态大数据国家林业和草原局重点实验室开放基金重点项目 2022-BDK-01

“兴滇英才支持计划”项目 KKRD202221041

详细信息
    作者简介:

    黎瑞虹(1998-),女,硕士研究生,主要从事目标检测、图像融合方面研究。 E-mail: july_lrh@163.com

    通讯作者:

    付志涛(1982-),男,副教授,博士,主要从事多源遥感图像处理与大数据分析研究。E-mail:zhitaofu@126.com

  • 中图分类号: TP391.4

Nighttime Object Detection in Infrared and Visible Images Based on Multi-Attention Mechanism

  • 摘要:

    目标检测一直是计算机视觉领域的研究热点,YOLO系列目标检测模型已广泛应用于多个领域。然而,目前关于目标检测的图像数据大多是基于单一类型传感器,难以完整地表征成像场景,且检测到的目标所包含有用信息具有局限性,尤其是在低照度、夜晚、雨雾等条件下,目标检测更加困难。为了更好地检测夜间目标,本文提出了一种结合CBAM注意力机制与Transformer的多注意力机制的红外与可见光图像夜间目标检测方法,通过添加Transformer来获取丰富的局部和上下文信息,通过添加CBAM注意力机制来减少误检。为了验证方法的有效性,本文选取了5种当前主流的目标检测算法在公开红外目标检测数据集上进行测试,本文方法与原始YOLO v7相比,mAP从62.6%提升至71.5%。本文还制作了一个用于夜间目标检测红外-可见光融合目标检测数据集。在该数据集上与原始YOLOv7相比,mAP从79.90%提升至94.80%,效果非常显著。

    Abstract:

    Object detection has long been a research hotspot in the field of computer vision, and the YOLO series of object detection models is widely used in numerous fields. However, most current image data for object detection are based on a single type of sensor, which makes it difficult to fully characterize the imaging scene. The detected objects contain limited useful information, especially under conditions of low illumination, night, rain, and fog. To improve nighttime object detection, our study proposed a multi-attention mechanism for infrared and visible images. This mechanism combines the CBAM attention mechanism with a Transformer to obtain rich local and contextual information and reduce false detections. To verify the effectiveness of the method, five current mainstream object detection algorithms were selected and tested on a public infrared object detection dataset. The mAP of the proposed method improved from 62.6% to 71.5% compared to the original YOLOv7. This study also produced an infrared–visible fusion dataset for nighttime object detection. On this dataset, the mAP improved significantly from 79.90% to 94.80% compared to the original YOLOv7.

  • 由两条金属线通过溅射的方式形成了一组窄缝,这组窄缝的距离小于入射光的波长,这就形成了亚波长金属光栅偏振器,它的体积属于纳米级别,但其偏振性能却非常好且容易集成,因此它被广泛应用于光通讯及液晶显示屏的制造中。其中双层金属纳米光栅偏振器属于纳米光栅偏振器件中的一种,由于其偏振效果更好得到人们的青睐。

    纳米压印光刻技术在1995年首次由美国人提出[1],是近20年才发展起来的新型的微细加工工艺,它是利用高分辨率的模板来复制加工微纳结构的一种新工艺,所以可以说这种技术首先建立在光刻技术上。第一个提出亚波长金属光栅具有检偏的偏振特性的是Hertz教授[2-3],随后才相继出现了有关亚波长金属光栅相关理论及其制造方法。2005年,韩国LG电子研究院利用周期140 nm的硅基亚波长光栅作为压印模板制作了单层金属偏振光栅。2006年瑞士保罗谢尔研究所[4-5]在石英板上通过极紫外干涉光刻技术制备了周期为100 nm的亚波长光栅。随后几年,美国密歇根大学[6-7]开发一种可以连续制备周期为200 nm的亚波长结构的亚波长光栅,利用电子束在光栅上方沉积一层金属铝,经过测量其消光比为1000。这种压印技术在当时被认为是未来制备亚波长金属光栅的有效方法[8]。但是随着社会的快速发展,越来越多的曲面屏及可折叠屏成为了人们生活的主流[9-10],这就让人不得不往柔性偏振器上思考。但是,目前对柔性纳米光栅偏振器的研究甚少。所以,通过对柔性纳米光栅偏振器在结构和制作工艺方面的研究,以制作出成本低、产出高的偏振器,这对柔性电子器件的工艺推进起到了很大的支撑作用。

    基于以上分析,本文在严格耦合波理论[11]的基础上以复眼结构中的偏振敏感单元为模仿对象,利用微加工工艺制备了一种可用于仿生的偏振光光电传感器的偏振器。该偏振器是以柔性材料PC(Polycarbonate)作为基底利用纳米压印和磁控溅射技术制作而成的柔性双层金属光栅偏振器,并对制作的偏振器利用光谱测试系统进行偏振特性测试。

    图 1为PC上制作的偏振器的模型图,将入射光中垂直和平行与于电场方向的光分别称为TM偏振光和TE偏振光。当TM偏振光照射在偏振器上时,由于电子振荡通过栅线方向时会受到阻碍,此时的光栅层就如同介质层可使TM光透过。电子会在TE光入射时以自由振荡的形式出现,导致TE光反射。

    图  1  金属光栅偏振示意图
    Figure  1.  Schematic of metal grating

    模板对于纳米压印相当重要,因此选择上海纳腾公司提供的模板,模板的周期是278 nm,线宽是139 nm,高度100 nm,模板的扫描电子显微镜图如图 2所示。模板防粘使用了来自Sigma-Aldrich公司的Trichloro (1H,1H,2H,2H-heptadecafluorodecyl) silane[12-13]。这种硅烷可以很好地与Si或SiO2表面的OH键结合形成含有C-F功能基单分子层,这种分子层在衬底表面表现出了很好的抗粘性能。做过表面处理的Si模版接触角从30°增大为110°,如图 3所示,表现出较好的疏水性能,将有利于压印时脱模。

    图  2  模板的SEM图
    Figure  2.  Scanning electron microscope (SEM) image of nanoimprint template
    图  3  模板防粘
    Figure  3.  Anti sticking of Si template

    在介质光栅的顶端和底端都沉积一层金属层的光栅称之为双层金属光栅。包含双层金属光栅的偏振器的制作只需在光栅上镀一次铝膜,比单层或包裹型金属光栅不仅降低了制作工艺难度,而且偏振和滤波效果更佳。①选择铝作为偏振器的金属层,是因为铝可以实现可见光波段的最优偏振特性;②0.5的占空比在同一波段具有最大的透射率和最大的消光比,由于透射率与金属的厚度成正比关系,但是,随着金属高度的增加,偏振器的消光比呈指数倍增大。但是,金属线栅高度的增加又会增大加工难度。因此,综合考虑,溅射金属铝的厚度为70 nm;③偏振器的消光比会因为金属光栅层之间距离的逐渐增大呈周期性震荡,根据文献[14]中的仿真本文选择金属光栅层的距离是50 nm;④光栅的周期和PC光栅高度是由模板决定的,目前的模板参数是周期278 nm,高度为100 nm[14]

    使用纳米压印的热压过程在柔性材料PC(聚碳酸酯)上压印纳米光栅。纳米压印技术最早由周郁教授提出的,它的优点在于可完成纳米结构的制作[15-16]。将模板与含有压印胶的基底紧密结合,等压印结束后小心地将模板和基底分开,这样就会在基底上形成模板上的图案。图 4所示为压印,脱模,和铝沉积的双层金属线栅偏振器的制造过程的示意图。本文使用的PC基底材料的厚度为0.2 mm。PC具备非常优异的性能,包括高透光率、高折射率、高抗冲性、尺寸稳定性及易加工成型等,因此PC被广泛应用于光学器件的制备中。另外,其热稳定性好,成型温度范围宽,是作为压印基底的一种理想材料。所使用的纳米压印仪(型号为NIL-150)是从中国上海纳腾仪器有限公司引进的最新微纳结构加工设备。

    图  4  柔性双层金属光栅偏振器的制作工艺流程图
    Figure  4.  Manufacturing process flow chart of flexible double layer metal grating polarizer

    实验前需要将去掉保护膜的PC基底材料裁剪为20 mm×20 mm的正方形备用。但是剪切下来的PC片表面并不是很平整,会使其在压印过程中不能和模板完全接触,这就会影响应力的分布在加压和保压的过程中不能使结构完全地转移到基底上。为了解决这个问题,如图 5所示在压印的过程中在PC基底下面又增加了一片1 mm厚的聚二甲基硅氧烷(Polydimethylsiloxane:PDMS)柔性薄膜,因为PDMS具有很好的柔韧性和高温稳定性,在高温施压的过程中可以很好地分散加载在硬质模板上的应力,同时对模板起到一个保护作用。

    图  5  在PC基底压印亚波长光栅
    Figure  5.  Printing subwavelength grating on PC substrate

    压印参数为:真空度为0.07 MPa,压力为0.65 MPa,压印温度为160℃,压印时间设定为5 min。等压印时间一到立马开启冷却水进行腔室的降温,直到操作面板上的温度显示40℃时关闭压力阀往里面充氮气,待室门自动开启后用镊子取出样品然后小心地将两者分开,就可得到光栅结构,实物图和SEM图如图 6所示。

    图  6  PC光栅结构的实物图和SEM图
    Figure  6.  Physical and SEM pictures of PC grating structure

    最后,利用真空度为7×106 Mbar的磁控溅射在光栅结构上表面溅射一层厚度为70 nm的Al,加工参数如表 1所示。

    表  1  柔性双层金属光栅偏振器的参数
    Table  1.  Parameters of subwavelength metal grating polarizer
    Materials and structures Materials and parameters
    Substrate materials PC
    Metallic materials Al
    Period/nm 278
    Duty cycle 0.5
    Aluminum thickness/nm 70
    Distance between two metal grating layers/nm 50
    PC grating height/nm 100
    下载: 导出CSV 
    | 显示表格

    偏振器的性能由透过率和消光比决定,因此利用搭建的光谱测试系统对制造的金属光栅偏振器进行了透过率和消光比的测量[17],光谱测试系统如图 7所示。

    图  7  光栅偏振特性测试装置示意图
    Figure  7.  Schematic of laboratory measurement setup

    利用氙气灯发出的白光作为检测光源,经透镜聚光后再经过小孔光阑后作为点光源,非线偏光透过偏振片后形成线偏光。透过的偏振光直接垂直照射在光栅上,光栅后面放置爱万提斯光纤光谱仪,利用光纤探头测试透射光光谱。旋转偏振片的相应位置分别得到TE和TM偏振光的最大与最小透射强度。然后利用公式:

    $$ {\rm{ER}}={T_{{\rm{TM}}}}/{T_{{\rm{TE}}}} $$

    计算得到消光比,式中TTMTTE分别表示TM和TE偏振光的透射率。

    应用严格耦合波理论对制造的柔性双层金属光栅偏振器进行了TM透射率及消光比的计算,由于一般只有TM偏振光才能透过偏振器,而且计算消光比也已用到TE偏振光的信息,所以文中不单独对TE偏振光进行分析。如图 8所示为本文制造的柔性双层金属光栅偏振器的性能测试图,从图上可以看出本文制造的偏振器在入射光波长范围为350~800 nm时的透过率可达48%,消光比可达100000,具有非常好的偏振效果,达到了用于偏振导航的需求。

    图  8  柔性双层金属光栅偏振器的性能测试图
    Figure  8.  Performance test chart of flexible double layer metal grating polarizer

    利用纳米压印技术和磁控溅射在柔性材料上通过简单的方法制作出了柔性双层金属光栅偏振器,并进行了透过率和消光比的测试。实验结果显示,当入射光的波长在350~800 nm之间,加工的偏振器性能优良,透过率和消光比分别高达48%和100000,具有较好的偏振效果,达到了用于偏振导航的要求。制作的柔性双层金属光栅偏振器只涉及纳米压印和磁控溅射两个工艺,并且不包括任何抗蚀剂旋涂、剥离和刻蚀工艺,制作过程是非常简单的,适合大批量生产。本文制造的柔性双层金属光栅偏振器有望应用到光学系统中,特别是在液晶显示器领域。

  • 图  1   红外与融合图像目标检测对比

    Figure  1.   Comparison of infrared and fused image object detection

    图  2   YOLOv7网络结构

    Figure  2.   YOLOv7 network structure diagram

    图  3   结合CBAM注意力机制与Transformer多注意力机制目标检测网络

    Figure  3.   Object detection network combining CBAM attention mechanism and Transformer multi-attention mechanism

    图  4   CBAM注意力机制模块

    Figure  4.   CBAM attention mechanism block

    图  5   Transformer encoder结构

    Figure  5.   Transformer encoder structure

    图  6   数据集制作

    Figure  6.   Self-annotated dataset making

    图  7   融合算法对比实验

    Figure  7.   Fusion algorithm comparison test

    图  8   数据集标注场景实例

    Figure  8.   Example of dataset annotation scenario

    图  9   PR曲线对比

    Figure  9.   Comparison of PR curves

    图  10   本文网络在FLIR数据集上预测结果图(左图为GT,右图为预测结果图)

    Figure  10.   Prediction result graph of our network on FLIR dataset(GT(left), Prediction result(right))

    图  11   本文网络在自制数据集上预测结果(左图为GT,右图为预测结果图)

    Figure  11.   Prediction results of our network on the self-made dataset(GT(left), Prediction result(right))

    图  12   可视化结果对比

    Figure  12.   Comparison of visualization results

    表  1   本文网络消融实验

    Table  1   Ablation experiment of our network

    Method P R mAP@0.5 Car
    (mAP)
    Person
    (mAP)
    Bicycle
    (mAP)
    A YOLOv7 96.30% 89.00% 79.90% 91.40% 90.10% 58.30%
    B YOLOv7+CBAM 95.80% 92.00% 81.30% 92.60% 88.60% 63.50%
    C YOLOv7+TE(1) 87.60% 89.00% 67.40% 85.20% 84.90% 32.22%
    D YOLOv7+TE(2) 95.00% 99.00% 90.40% 98.30% 91.90% 81.00%
    E Ours 96.50% 98.00% 94.80% 99.50% 96.10% 88.80%
    下载: 导出CSV

    表  2   不同检测算法在FLIR数据集上的对比实验

    Table  2   Comparative experiment of different detection algorithms on FLIR dataset

    P R mAP@0.5 Car
    (mAP)
    Person
    (mAP)
    Bicycle
    (mAP)
    Faster-RCNN 34.01% 79.58% 63.99% 70.14% 44.10% 77.73%
    SSD 82.91% 23.04% 43.93% 50.05% 21.85% 59.88%
    YOLOv5s 89.30% 90.00% 68.10% 79.00% 76.60% 48.70%
    YOLOv7 95.60% 75.00% 62.60% 74.80% 75.10% 37.80%
    tph-YOLOv5 96.40% 91.00% 68.60% 78.40% 75.00% 52.60%
    Ours 96.40% 90.00% 71.50% 82.00% 80.90% 51.60%
    下载: 导出CSV

    表  3   不同检测算法在自制数据集上的对比实验

    Table  3   Comparative experiment of different detection algorithms the on self-made dataset

    P R mAP@0.5 Car
    (mAP)
    Person
    (mAP)
    Bicycle
    (mAP)
    faster-RCNN 72.00% 91.51% 89.72% 96.97% 87.12% 85.08%
    SSD 90.92% 69.91% 82.77% 96.11% 78.08% 74.11%
    YOLOv5s 89.30% 90.00% 68.10% 79.00% 76.60% 48.70%
    tph-YOLOv5 95.20% 98.00% 94.30% 98.70% 95.80% 88.40%
    YOLOv7x 98.70% 91.00% 81.30% 93.20% 89.80% 60.90%
    Ours 96.50% 98.00% 94.80% 99.50% 96.10% 88.80%
    下载: 导出CSV
  • [1]

    Hafiz A M, Bhat G M. A survey on instance segmentation: state of the art[J]. International Journal of Multimedia Information Retrieval, 2020, 9(3): 171-189. DOI: 10.1007/s13735-020-00195-x

    [2]

    ZHANG D, Islam M M, LU G. A review on automatic image annotation techniques[J]. Pattern Recognition, 2012, 45(1): 346-362. DOI: 10.1016/j.patcog.2011.05.013

    [3]

    Souza É L, Nakamura E F, Pazzi R W. Object tracking for sensor networks: a survey[J]. ACM Computing Surveys (CSUR), 2016, 49(2): 1-31.

    [4]

    YAO H, ZHANG Y, JIAN H, et al. Nighttime pedestrian detection based on fore-background contrast learning[J]. Knowledge-Based Systems, 2023, 275: 110719. DOI: 10.1016/j.knosys.2023.110719

    [5]

    Polukhin A, Gordienko Y, Jervan G, et al. Object detection for rescue operations by high-altitude infrared thermal imaging collected by unmanned aerial vehicles[C]//Iberian Conference on Pattern Recognition and Image Analysis. Cham: Springer Nature Switzerland, 2023: 490-504.

    [6]

    MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019, 45: 153-178. DOI: 10.1016/j.inffus.2018.02.004

    [7]

    MA J, TANG L, XU M, et al. STDFusionNet: An infrared and visible image fusion network based on salient object detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13.

    [8]

    CHEN J, XU X, ZHANG J, et al. Ship target detection algorithm based on decision-level fusion of visible and SAR images[J]. IEEE Journal on Miniaturization for Air and Space Systems, 2023, 4(3): 242-249. DOI: 10.1109/JMASS.2023.3269434

    [9]

    WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464-7475.

    [10]

    WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

    [11]

    Woo S, Park J, Lee J Y, et al. Cbam: Convolutional lock attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

    [12]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998-6008.

    [13]

    MA J, YU W, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004

    [14]

    MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109. DOI: 10.1016/j.inffus.2016.02.001

    [15]

    XU H, MA J, JIAGN J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(1): 502-518.

    [16]

    LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.

    [17]

    REN S, HE K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.

    [18]

    LIU W, Anguelov D, Erhan D, et al. Ssd: single shot multibox detector[C]//Computer VisionECCV 2016: 14th European Conference, Proceedings, Part Ⅰ 14. Springer International Publishing, 2016: 21-37.

    [19]

    ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.

  • 期刊类型引用(2)

    1. 汪会达,张栋,肖焰辉,张潇云,刘宇,陈德明. 改进SSD算法的光伏板污损检测. 上海电机学院学报. 2025(01): 52-57 . 百度学术
    2. 李春亚,王建华,尹土兵,卢建飞,邹晓波,叶儒桦. 个人防护装备穿戴安全检测技术的进展与应用. 武汉理工大学学报. 2024(10): 149-155+162 . 百度学术

    其他类型引用(2)

图(12)  /  表(3)
计量
  • 文章访问数:  93
  • HTML全文浏览量:  8
  • PDF下载量:  43
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-07-22
  • 修回日期:  2023-08-15
  • 刊出日期:  2024-12-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日