Infrared Object Detection Algorithm Based on Feature Enhancement and Fusion
-
摘要:
针对红外图像中目标对比度、信噪比以及分辨率都较低等特点,将传统图像处理方法与深度学习技术结合,提出了一种基于特征增强与融合的红外目标检测网络。网络首先利用图像滤波、锐化以及均衡化等方法突出红外图像中的目标特征,丰富网络输入信息;其次,针对单个维度以及不同维度间的特征,设计多层次信息聚合的特征提取结构,充分提取并融合目标空间语义信息;同时,为提升特征提取结构中关键特征权重,引入混合注意力机制,以多种方式捕获目标全局上下文信息后增强对应空间及通道信息;最后,针对不同尺度目标,采用自适应加权方式来综合相邻维度特征,实现各尺度红外目标准确高效的检测。通过在KAIST、FLIR以及RGBT数据集上的实验结果表明,所提方法与现有基于神经网络的红外目标检测方法相比有效提升了红外目标检测性能,并且在复杂场景下,该方法也比其他同类算法具有更高的适应性。
Abstract:To address the challenges of low contrast, low signal-to-noise ratio, and low resolution in infrared images, this study proposes an infrared object detection network that combines traditional image processing methods with deep learning technology for feature enhancement and fusion. The main steps in this approach are as follows. 1) Preprocessing: The network employs image filtering, sharpening, and equalization methods to highlight object features in the infrared image and enrich the input information. 2) Feature Extraction: A multi-level information aggregation feature extraction structure has been designed to fully extract and integrate the spatial and semantic information of objects, addressing both single-dimension and multi-dimension features. 3) Attention mechanism: To improve the weighting of key features in the extraction structure, a hybrid attention mechanism is introduced. This captures global context information in multiple ways, enhancing both spatial and channel information. 4) Feature fusion: An adaptive weighting method is applied to fuse features from adjacent dimensions, ensuring accurate and efficient detection of infrared objects. Experimental results on the KAIST, FLIR, and RGBT datasets show that the proposed method significantly improves the performance of infrared object detection compared to existing neural network-based methods. Additionally, this method demonstrates higher adaptability in complex scenes compared to other similar algorithms.
-
Keywords:
- infrared image /
- object detection /
- feature enhancement /
- information fusion /
- multiscale detection
-
0. 引言
在红外热成像设备的设计和应用中,经常针对不同厂家或者不同型号的红外探测器定制非标的红外图像处理算法,以及标定不同的算法参数。由于算法模型或者算法参数经常变化,导致设计算法、仿真、在硬件上调试算法的时间很多,开发周期很长,开发效率低下等问题。而常规的红外图像处理算法,包括数据采集、时域滤波、非均匀性校正、空域滤波、锐化增强、坏点校正以及调光映射等。设计的初期,需要从算法原理设计、算法模型的建立、数学过程的计算,转化成可实现的编程语言,然后实现和显示。
随着小型化、低功耗、低成本的红外热成像设备应用的普及和民用。FPGA处理器非常适合于该种应用需求,FPGA是高速并行的处理器,适合于图像阵列的算法处理和加速,并且功耗低,可反复编程设计,所以常应用于红外热成像设备中。
1. 传统的红外图像仿真方法
基于FPGA的红外图像处理算法,仿真流程示意图如图 1所示。
从图 1中可知,利用FPGA处理器进行图像处理,需要两步的仿真结果。
第一步:根据算法需求,设计算法原理,在Matlab软件上编程实现算法过程,先用浮点数进行设计和计算,代码设计和编写完成后,导入测试图像,进行仿真和显示,在显示窗口中显示出来[1-4]。对显示出来的图像效果进行评估,看看图像效果有没有达到算法原理期望的结果,如果没有,调整算法参数和实现过程,反复迭代调整直至图像效果达到期望的结果。达到期望结果后,进行定点化设计,将算法实现过程中的浮点数,全部转化成定点化数,比如INT8、INT16、INT32等,并且转化完成后,保证算法实现的结果仍然达到期望值,不损失精度,不丢失细节。然后再更换测试图像,测试数据设计成依次递增或者递减的特征数据,再进行仿真。
第二步:文献[5]、[6]提出定点化之后的算法原理和实现过程,编写FPGA的硬件描述语言,设计FPGA的逻辑,将第一步过程中的算法原理实现出来,再进行ModelSim仿真,仿真测试的输入激励是第一步中同样依次递增或者递减的特征数据,得到仿真结果,与第一步中每个关键节点(关键步骤)的结果进行比对,保证每一步的结果都与Matlab仿真的结果相同,才能确保算法效果的达到。
传统的红外图像仿真方法,分成上述两个步骤,先要进行Matlab仿真,显示评判效果达到之后,再启动定点化,将定点化之后的算法过程转化成FPGA中可以实现的过程,并用FPGA的硬件描述语言实现相关的逻辑,再进行ModelSim仿真,由于ModelSim不能像Matlab工具一样方便导入一张图像(图片数据)进行仿真,仿真结果不能直观地可视化显示。所以在第一步、第二步过程中,输入激励的时候制作一些递增、递减的相同特征数据进行仿真。对每一步关键步骤和最后结果的仿真比对,保证数据正确,才能保证算法原理的实现和算法效果的达到。
2. 基于ModelSim可视化的红外图像仿真方法
从上述传统的红外图像仿真过程看,既要实现Matlab代码编写、仿真、还要做定点化设计。等FPGA代码编写完成后,在ModelSim仿真的时候还要进行每一步过程的计算结果比对,并且不能直接可视化的方式看到算法运行的结果。存在实现过程复杂、开发效率低下,开发周期长等问题。针对这些问题,本文提出了一种新的基于ModelSim可视化仿真的红外图像仿真方法。如图 2所示为本文的实现框图。
从图 2中可知,基于ModelSim可视化的红外图像仿真方法相比传统的红外图像仿真方法,仿真过程简单很多,开发效率也会提高很多。在算法原理设计完成后,直接编写FPGA的硬件描述语言实现算法计算过程,再进行ModelSim仿真,仿真的时候,不再用特定的递增数据或者递减的特征数据做输入激励,而是用之前原始采集到的红外图像,如果算法原理是针对16 bit的原始红外图像处理,可以是Y16数据,针对8 bit的调光之后红外图像处理可以是Y8数据,之前采集到的红外图像Y16或者Y8数据,存放在RAW文件中。而RAW文件中的图像数据是可以用ImageJ查看的,ImageJ工具可以直接显示16位或者8位的RAW图像。
对于红外图像算法所用到的数据文件——RAW文件,是不能直接导入ModelSim进行仿真的,需要经过binary工具将raw文件转换成txt文件,在ModelSim中通过系统调用$readmemb/ readmemh函数读入TXT文件的方式读入到内存中,然后进行图像算法处理,算法处理完成,调用$writememb/ $writememh函数将算法处理之后的图像写入txt文件中,通过txt2bin工具,将txt格式的数据转换成bin文件,再通过直接改后缀名,将.bin改成.raw文件。这样输入输出都是raw格式的数据文件,导入ImageJ工具中显示,以可视化的方式显示出了图像。
所以,这样红外图像算法处理的输入是图像数据,输出是处理之后的图像数据,可以直观地在ImageJ工具中显示出来对比,分析红外图像算法的处理过程是否正确。并且每一步的计算过程和关键步骤的结果也可以通过如图 3内存查看的方式、图 4内存读写过程仿真的方式查看数据在内存中存储、写入和读出是否异常。并通过如图 5红外图像算法处理仿真过程来查看数据计算过程正确与否。
这样数据输入,写入内存,然后从内存中读出,再进行红外图像算法处理,每一步数据的处理都是可以查询和追溯的,所以既方便又快捷。如图 6所示为本文进行红外图像滤波降噪算法处理过程中的输入源图和处理完成之后输出结果对比图Image显示,图 7为本文中基于ModelSim仿真过程中输入输出文件结构示意图。
在反复调整算法过程,以及算法参数的情况下,能够很快得到想要的算法结果,比如图 6中右边是降噪之后的效果图,降噪之后,图像噪声能消除了,但是图像变得模糊了,说明降噪算法参数设置不合适,通过调整滤波器的系数和阈值之后,降噪效果有明显的改善,如图 8所示。
上述图 6与图 8中的红外图像滤波降噪算法为非局部平均滤波降噪算法,算法流程如图 9所示。这种降噪算法是一种利用图像自相似性的空域滤波算法,相比传统高斯平滑、双边滤波等方法,保护更多的图像细节。图像各点之间可以同时进行运算,非常适合于在FPGA并行处理器上运算。根据相似性计算权重的时候,如果相似性阈值选择太大,算法滤波出来的效果如图 6所示,过度平滑了,图像变模糊了,而选择合适的相似性阈值,得到滤波出来的效果如图 8所示,既能滤除噪声,又能保留图像细节。在该种红外图像仿真方法中能很快得到一组适合的算法参数。
基于该种ModelSim可视化的红外图像仿真方法,能够快速地修改算法参数和调整算法计算过程,运行之后得到图像算法的仿真结果,并且输入、算法计算、输出等环节里的每一步数据都是可以通过内存或者波形查看的方式追溯数据处理过程,保证数据向着期望的方向计算和处理。
3. 分析讨论
本文提出两种红外图像的仿真方法,传统的红外图像仿真方法,需要进行Matlab仿真,仿真结束后,再进行定点化设计,才能指导FPGA进行编程和实现,最后启动ModelSim的仿真,并且传统的ModelSim仿真并不能直接对图像数据的输入进行仿真并且可视化,而是制作相关的递增或者递减的特征数据作为输入,并且Matlab仿真同样以该特征数据作为输入,进行仿真,最后对2组仿真数据结果进行比对,比对结果一致代表该算法在FPGA中运行正常,能达到期望的算法效果。该过程复杂、繁琐、开发效率低下、开发周期长等问题不可忽视。所以本文在传统的红外图像仿真方法上进行了改进和优化,提出了一种新的基于ModelSim可视化的红外图像仿真方法与系统。该种方法在传统方法上省去了Matlab仿真的过程和环节,同时也省去了定点化的设计过程。在算法原理设计完成后,启动FPGA硬件描述语言的编写和仿真,只是在仿真的时候,输入图像可以用之前采集好的红外图像或者用PS工具生成一张图片,保存为.raw文件,在仿真输入的时候用binary工具将raw格式文件转换成txt文件,就可以启动仿真过程了,仿真结束后,生成的结果TXT,再通过txt2bin工具,将txt格式的数据转换成bin文件,再通过直接改后缀名的方式,将.bin改成.raw文件。用ImageJ工具打开source.raw和result.raw文件就可以直观地对比显示在图像窗口上了。并且对于算法参数、计算过程的调整,也是很快得到相应的输出结果。该过程相对传统的Matlab仿真和ModelSim联合仿真要方便很多,尤其是在算法调整和参数的调整的情况下,又要重复一遍Matlab仿真,再去ModelSim仿真的过程。但是该种方法对于红外图像算法原理的理解和FPGA逻辑实现图像算法的能力要求比较高。并且本文针对红外图像的仿真方法与传统的红外图像仿真方法,在适用范围上是一样的,对象都是红外图像的算法仿真。针对具体的算法模型,需要将算法分解成各计算步骤,然后针对各计算步骤进行数据仿真,所以对于其他文献[7]中不同的算法,比如弱小目标的背景的抑制,突出目标的增强算法等都是一样的仿真过程。
4. 结论
对于红外图像处理算法在FPGA的实现过程中,本文阐述了传统的仿真方法,先进行Matlab仿真,仿真效果达到的前提下,再进行定点化设计,指导FPGA进行逻辑设计,完成算法原理的实现,最后启动ModelSim仿真,而且仿真结果的正确评判标准是与Matlab仿真结果比对一致,不一致的话,要优化定点化过程,再进行仿真,重复直至结果一致。而本文的仿真方法基于ModelSim的可视化仿真,省去了上述繁琐的开发过程,直接将图像源文件转化后导入ModelSim仿真,算法处理完成后,转成图像结果文件进行比对,用可视化的方式评判图像经过算法处理之后是否达到算法原理期望达到的算法效果。同时如果算法未到达期望效果,通过调整参数、算法实现过程,以及追溯输入图像、写入、读出内存过程,判断图像算法计算过程中数据的正确与否。所以该方法与传统的红外图像仿真方法相比,评估算法效果以可视化显示输入、输出对比图差异性来达到。评估算法计算过程的正确性,同样可以追溯数据处理过程的每一步的正确性来达到。所以该仿真方法的仿真效果是与传统的方法一致的。但是开发过程缩减了和效率上大大提升了,开发周期短。尤其是在反复调参和优化过程中,显得更为明显和方便便捷。
-
表 1 数据集构建
Table 1 Dataset construction
KAIST FLIR RGBT Number of images 3613 14452 5105 Image size 640×480 512×512 640×480 Number of categories 2 5 7 Training validation test Ratio 7:1:2 表 2 实验环境及超参数设置
Table 2 Experimental environment and hyperparameter setting
Hyperparameter Values Batch size 4 Learning rate 0.01 Momentum 0.95 Weight attenuation 0.0005 Weight strategy Gaussian Learning strategy SequentialLR Optimization strategy Adam Position loss CIou Loss Category loss Cross Entropy Loss 表 3 图像增强结构测试结果
Table 3 Image enhancement structure test results
Origin HE MF AF Canny Sobel FPS mAP √ 58 82.3 √ √ 57 82.6 √ √ 57 82.5 √ √ 57 82.3 √ √ 56 82.2 √ √ 57 82.5 √ √ √ √ 56 83.0 表 4 不同图像增强方法对比
Table 4 Comparison of different image enhancement methods
Network FPS Precision /(%) mAP mAPs mAPm mAPl Traditional 58 82.5 60.4 79.4 90.2 Ours 56 83.0 61.3 80.1 91.4 Traditional+Ours 56 83.1 61.1 80.6 91.7 表 5 特征提取结构测试结果
Table 5 Feature extraction structure test results
Network FPS Precision /(%) mAP mAPs mAPm mAPl YOLO 56 83.0 61.3 80.1 91.4 Multi-level features 61 83.1 61.5 80.2 91.3 Multi-layered network 52 83.6 61.8 80.9 91.8 Features+Network 57 83.9 62.1 81.3 92.1 表 6 注意力机制对比
Table 6 Comparison of attention mechanism
Network FPS Precision /(%) mAP mAPs mAPm mAPl No attention 57 83.9 62.1 81.3 92.1 SE 56 84.2 62.2 81.5 92.5 CBAM 54 84.6 62.6 82.0 92.9 Ours 56 84.5 62.5 81.9 92.8 表 7 多尺度结构对比
Table 7 Multiscale structure comparison
Network FPS Precision /(%) mAP mAPs mAPm mAPl FPN 56 84.5 62.5 81.9 92.8 ASFF 53 84.9 62.9 82.5 93.2 Ours 55 84.8 62.8 82.4 93.2 表 8 同类型网络测试对比
Table 8 Comparison of network tests of the same type
表 9 FLIR数据集测试对比
Table 9 FLIR dataset testing comparison
-
[1] 邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202310003.htm SHAO Yanhua, ZHANG Duo, CHU Hongyu, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics and Information Science, 2022, 44(10): 3697-3708. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202310003.htm
[2] 刘洪江, 王懋, 刘丽华, 等. 基于深度学习的小目标检测综述[J]. 计算机工程与科学, 2021, 43(8): 1429-1442. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJK202108014.htm LIU Hongjiang, WANG Mao, LIU Lihua, et al. A review of small object detection based on deep learning[J]. Computer Engineering and Science, 2021, 43(8): 1429-1442. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJK202108014.htm
[3] LIU Y, SUN P, Wergeles N, et al. A survey and performance evaluation of deep learning methods for small object detection[J]. Expert Systems with Applications, 2021, 172(4): 114602.1-114602.14.
[4] ZUO Z, TONG X, WEI J, et al. AFFPN: attention fusion feature pyramid network for small infrared target detection[J]. Remote Sensing, 2022, 14(14): 3412. DOI: 10.3390/rs14143412
[5] 张传聪, 李范鸣, 饶俊民. 基于特征显著性融合的红外小目标检测[J]. 半导体光电, 2022, 43(4): 828-834. https://www.cnki.com.cn/Article/CJFDTOTAL-BDTG202204029.htm ZHANG Chuancong, LI Fanming, RAO Junmin. Infrared small target detection based on feature saliency fusion[J]. Semiconductor Optoelectronics, 2022, 43(4): 828-834. https://www.cnki.com.cn/Article/CJFDTOTAL-BDTG202204029.htm
[6] 韩金辉, 魏艳涛, 彭真明, 等. 红外弱小目标检测方法综述[J]. 红外与激光工程, 2022, 51(4): 428-451. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202204050.htm HAN Jinhui, WEI Yantao, PENG Zhenming, et al. Overview of infrared weak target detection methods[J]. Infrared and Laser Engineering, 2022, 51(4): 428-451. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202204050.htm
[7] Viola P, Jones M. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154. DOI: 10.1023/B:VISI.0000013087.49260.fb
[8] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005, 1: 886-893.
[9] Felzenszwalb P, Mcallester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008: 1-8.
[10] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI: 10.1038/nature14539
[11] 蔡杰, 张华驿, 毋靖轩, 等. 基于YOLOv4-tiny的轻量级电力设备红外目标检测网络研究[J]. 中国科技信息, 2022, 11(14): 111-114. https://www.cnki.com.cn/Article/CJFDTOTAL-XXJK202214031.htm CAI Jie, ZHANG Huayi, WU Jingxuan, et al. Research on a lightweight infrared target detection network for power equipment based on YOLOv4 tin[J]. China Science and Technology Information, 2022, 11(14): 111-114. https://www.cnki.com.cn/Article/CJFDTOTAL-XXJK202214031.htm
[12] 李向荣, 孙立辉. 融合注意力机制的多尺度红外目标检测[J]. 红外技术, 2022, 21(4): 4-13. http://hwjs.nvir.cn/cn/article/id/2e1d129d-a77a-4dba-8de5-135fb8b75ee7 LI Xiangrong, SUN Lihui. Multi scale infrared target detection using fusion attention mechanism[J]. Infrared Technology, 2022, 21(4): 4-13. http://hwjs.nvir.cn/cn/article/id/2e1d129d-a77a-4dba-8de5-135fb8b75ee7
[13] Banuls A, Mandow A, Vazquez R, et al. Object detection from thermal infrared and visible light cameras in search and rescue scenes[C]// 2020 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR). IEEE, 2020: 380-386.
[14] 鞠默然, 罗海波, 刘广琦, 等. 采用空间注意力机制的红外弱小目标检测网络[J]. 光学精密工程, 2021, 29(4): 843-853. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJM202104021.htm JU Moran, LUO Haibo, LIU Guangqi, et al. Infrared weak target detection network using spatial attention mechanism[J]. Optical Precision Engineering, 2021, 29(4): 843-853. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJM202104021.htm
[15] LI C, LI L, JIANG H, et al. YOLOv6: A single-stage object detection framework for industrial applications[J]. arXiv preprint arXiv, 2022: 2209.02976.
[16] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[17] LI Y, CHEN Y, WANG N, et al. Scale-aware trident networks for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 6054-6063.
[18] HWANG S, PARK J, KIM N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1037-1045.
[19] LI C, LIANG X, LU Y, et al. RGB-T object tracking: Benchmark and baseline[J]. Pattern Recognition, 2019, 96: 106977. DOI: 10.1016/j.patcog.2019.106977
[20] LIN T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European Conference on Computer Vision, 2014: 740-755.