基于YOLO-MIR算法的多尺度红外目标检测网络

周金杰, 吉莉, 张倩, 张宝辉, 袁茜琳, 刘燕晴, 岳江

周金杰, 吉莉, 张倩, 张宝辉, 袁茜琳, 刘燕晴, 岳江. 基于YOLO-MIR算法的多尺度红外目标检测网络[J]. 红外技术, 2023, 45(5): 506-512.
引用本文: 周金杰, 吉莉, 张倩, 张宝辉, 袁茜琳, 刘燕晴, 岳江. 基于YOLO-MIR算法的多尺度红外目标检测网络[J]. 红外技术, 2023, 45(5): 506-512.
ZHOU Jinjie, JI Li, ZHANG Qian, ZHANG Baohui, YUAN Xilin, LIU Yanqing, YUE Jiang. Multiscale Infrared Object Detection Network Based on YOLO-MIR Algorithm[J]. Infrared Technology , 2023, 45(5): 506-512.
Citation: ZHOU Jinjie, JI Li, ZHANG Qian, ZHANG Baohui, YUAN Xilin, LIU Yanqing, YUE Jiang. Multiscale Infrared Object Detection Network Based on YOLO-MIR Algorithm[J]. Infrared Technology , 2023, 45(5): 506-512.

基于YOLO-MIR算法的多尺度红外目标检测网络

详细信息
    作者简介:

    周金杰(1998-),男,硕士研究生,主要从事红外图像处理方面的研究。E-mail: 1943035411@qq.com

    通讯作者:

    张宝辉(1984-),男,正高级工程师,博士,主要从事红外图像处理方面的研究。E-mail:zbhmatt@163.com

  • 中图分类号: TP391.4

Multiscale Infrared Object Detection Network Based on YOLO-MIR Algorithm

  • 摘要: 针对红外图像相对于可见光检测精度低,鲁棒性差的问题,提出了一种基于YOLO的多尺度红外图目标检测网络YOLO-MIR(YOLO for Multi-scale IR image)。首先,为了提高网络对红外图像的适应能力,改进了特征提取以及融合模块,使其保留更多的红外图像细节。其次,为增强对多尺度目标的检测能力,增大了融合网络的尺度,加强红外图像特征的进一步融合。最后,为增加网络的鲁棒性,设计了针对红外图像的数据增广算法。设置消融实验评估不同方法对网络性能的影响,结果表明在红外数据集下网络性能得到明显提升。与主流算法YOLOv7相比在参数量不变的条件下平均检测精度提升了3%,提高了网络对红外图像的适应能力,实现了对各尺度目标的精确检测。
    Abstract: To address the low detection accuracy and poor robustness of infrared images compared with visible images, a multiscale object detection network YOLO-MIR(YOLO for multiscale IR images) for infrared images is proposed. First, to increase the adaptability of the network to infrared images, the feature extraction and fusion modules were improved to retain more details in the infrared images. Second, the detection ability of multiscale objects is enhanced, the scale of the fusion network is increased, and the fusion of infrared image features is facilitated. Finally, a data augmentation algorithm for infrared images was designed to increase the network robustness. Ablation experiments were conducted to evaluate the impact of different methods on the network performance, and the results show that the network performance was significantly improved using the infrared dataset. Compared with the prevalent algorithm YOLOv7, the average detection accuracy of this algorithm was improved by 3%, the adaptive ability to infrared images was improved, and the accurate detection of targets at various scales was realized.
  • 得益于铝合金的材料特性,铝合金反射镜的优势有如下几点:一是加工周期短、成本低,铝合金反射镜可以通过金刚石直接铣削成型,相较于陶瓷材料的烧结制胚等流程方便快速;二是可以制成一体化的结构,相较于联接件装调简单;三是铝合金密度相对较低,反射镜的整体质量小,发射成本低。铝合金反射镜在光机系统中得到了广泛应用[1-3],国内外对其结构形式进行了研究。图 1为荷兰Astron公司提出的轻量化方法,该结构形式的轻量化率可以达到85%以上[4]图 2为德国Jena Optronik公司委托Fraunhofer实验室设计加工的封闭结构反射镜,在保证镜体整体刚度的同时,减重可以达到50%以上[5]。在国内,范磊等人对316 mm口径的铝反射镜进行了设计分析,RMS可以达到41 nm左右,符合其系统指标[6];谭双龙等人设计的126 mm口径的可见光级铝反射镜自重状态下RMS可以达到6.1 nm[7];翟岩等人对铍铝合金反射镜组件进行了针对性研究,使得750 mm大口径反射镜组件RMS能够满足λ/20(λ=632.8 nm)[8]

    图  1  Astron公司的轻量化结构形式
    Figure  1.  Astron's lightweight structure
    图  2  Fraunhofer实验室的封闭结构形式
    Figure  2.  Fraunhofer's closed structure

    目前,国内对于铝反射镜的结构特征及支撑特性分析较少。在此基础上,本文针对某一体化反射镜的支撑结构进行了设计与详细的特性分析。其口径为300 mm,材料为AL6061,工作于可见光波段,要求面形精度RMS值小于λ/50(λ=632.8 nm)。在一定经验基础上,拟采用内圈作为主要支撑结构,外圈利用辅助筋板均匀面形,背部三点支撑的形式。先通过拓扑优化的方法建立了初始模型,再进行参数化优化,分析其支撑特性。

    由于结构的多样性,在设计优化时往往需要设计人员大量的经验作为基础并进行试验。而拓扑优化的优势在于,给定载荷、边界条件等必要约束后,计算机通过算法能够给出设计域中相对最优的空间布局。这不仅降低了设计经验的门槛,减少了工作量,还能够得到约束条件下更为合理的结构形式或思路。因此,变密度法实现连续结构体拓扑在光机系统的结构设计中被广泛应用[9-12]。计算机通过引入可变密度的假定材料单元,将设计变量变为单元密度,建立单元密度与材料弹性模量的关系,最终通过插值模型实现优化过程。具体过程为假设单元内均为各向同性的材料,但其相对密度为0~1之间,通过插入惩罚因子对单元密度进行判定保留或者去除,得到一定材料总量下,结构柔性最小的最佳材料分布形式。其静力状态下的数学模型为:

    $$ \begin{array}{l} {V_{\min }}(x) = \sum\nolimits_{i = 1}^n {{x_i}{v_i}(i = 1,2, \cdots ,n)} \hfill \\ {\text{s}}{\text{.t}}{\text{.:}} \hfill \\ \left\{ {\begin{array}{*{20}{c}} {C(x) = {\boldsymbol{U}^{\text{T}}}\boldsymbol{KU} \leqslant {C^ * }} \\ {\boldsymbol{KU} = \boldsymbol{F}} \\ {{\text{0}} < {x_{\min }} \leqslant {x_i} \leqslant 1} \end{array}} \right. \hfill \\ \end{array} $$

    式中:V为结构总体积;vi为单元体积;xi为单元变量;n为变量单元总数;C(x)为结构整体柔度;K表示总体刚度;U为位移列阵;F为作用力;xmin为单元变量下限。

    图 3为反射镜的有限元模型,浅色部分为待优化的设计区域,深色部分包括支撑点和镜体表面,为非设计区域。AL6061的材料属性以及反射镜结构参数分别如表 1表 2所示。由于影响径向自重条件下面形的最主要因素为质心与支撑点间的位置差距导致的倾覆力矩,所以支撑位置选用距离上表面8 mm位置处。在一定经验基础上,拟采用背部三点支撑的形式,内圈作为主要支撑结构,外圈利用辅助筋板均匀面形。在更难满足面形精度的轴向重力工况下,以镜面节点总位移量代替结构柔度作为约束,以体积最小作为优化目标进行计算。

    图  3  反射镜有限元模型
    Figure  3.  Finite element model of reflector
    表  1  Al6061的材料属性
    Table  1.  Material properties of Al6061
    Material Density/(g·cm-3) Young's modulus/GPa Thermal conductivity/
    (W·m-3·K-1)
    Coefficient of thermal
    expansion/10-6K-1
    Poisson's ratio
    Al6061 2.7 71 154.3 22.4 0.25
    下载: 导出CSV 
    | 显示表格
    表  2  反射镜结构参数
    Table  2.  Structural parameters of reflector
    External diameter/mm Internal diameter/mm Radius of curvature/mm Height/mm
    300 80 610 45
    下载: 导出CSV 
    | 显示表格

    经过迭代,拓扑优化的结果如图 4所示,图 5为设计区域的底部。总结拓扑结构特征为中心六边形支撑结构与半封闭结构。建立初始模型如图 6。采用有限元分析的方法和面形拟合,得到初始模型其轴向与径向重力下的RMS分别为7.136 nm和5.779 nm。以轴向重力工况为例,图 7图 8分别为初始模型的有限元仿真结果和面形拟合结果。

    图  4  拓扑优化的结果
    Figure  4.  Result of topology optimization
    图  5  设计区域底部
    Figure  5.  Bottom of design area
    图  6  初始模型
    Figure  6.  Initial model
    图  7  轴向自重仿真结果
    Figure  7.  Simulation results of axial self-weight
    图  8  轴向自重RMS值
    Figure  8.  RMS value of axial self-weight

    反射镜的各主要特征参数如图 9所示,其中镜高对反射镜的整体质量影响最大。针对本文中的反射镜参数,镜体高度范围定在40~55 mm之间。根据图 10中的优化数据可以得知,随镜高与质量的增加,轴向重力工况下的面形变优明显,但是到达一定高度后,自重因素影响成为主导,面形下降,在镜高为52.5 mm时综合面形达到最优,RMS为7.015 nm,PV(Peak to Valley)值为35.625 nm。

    图  9  反射镜主要特征参数
    Figure  9.  Main characteristic parameters of reflector
    图  10  镜体高度对面形的影响
    Figure  10.  The influence of the height of the mirror body on the surface shape

    针对基础模型的形式,中心六边形的筋板是主要的支撑结构,对六边形结构的大小进行了参数优化。如图 11,当六边形结构的高度在75~90 mm之间变化时,轴向重力下RMS值变化量最大可达1.9 nm。综合不同方向重力条件,六边形高度为80 mm时在面形最优,RMS为6.370 nm,此时六边形高度与直径比值在0.26左右,即为最佳支撑位置。

    图  11  中心六边形大小对面形的影响
    Figure  11.  The influence of the size of the central hexagon on the surface shape

    其他特征参数包括辅助筋板位置、圆孔大小及翻边的相关参数,具体范围与优化步长如表 3所示。综合考虑两个方向自重条件下的RMS,最终得到了最佳参数。在优化过程中,辅助筋板位置、筋板厚度与翻边大小对面形影响效果明显,圆孔大小与翻边厚度决定了整体结构刚度强弱,对径向重力方向下面形提升有明显贡献。

    表  3  其他特征参数的优化
    Table  3.  Optimization of other characteristic parameters
    Features Auxiliary rib plate position
    Lf/mm
    Round hole size
    D/mm
    Flanging size
    L1/mm
    Flanging thickness
    H1/mm
    Rib plate thickness
    Tj/mm
    Range 60-70 20-30 2-6 1-8 3-7
    Step 1 2 1 1 0.5
    Optimum 66 30 6 3 6
    下载: 导出CSV 
    | 显示表格

    参数优化的结果如图 12所示,总质量为2.08 kg、轴向重力与径向重力下的RMS分别为5.888 nm和5.884 nm、轻量化率达到70%。

    图  12  优化结果
    Figure  12.  Optimization results

    为了更好地体现半封闭结构与六边形支撑结构特征的优势,建立了中心圆形支撑、开放圆孔、开放三角形筋板等结构并进行了相关参数的优化(图 13~15),对比结果如表 4所示。

    图  13  中心圆形支撑结构
    Figure  13.  Center circular support structure
    图  14  无翻边开放圆孔结构
    Figure  14.  Structure of open circular hole without flanging
    图  15  内圈三角形筋板结构
    Figure  15.  Structure of triangular rib plate in inner ring
    表  4  对比结果
    Table  4.  Comparison results
    Z: RMS/nm Z: PV/nm Y: RMS/nm Y: PV/nm
    Optimization results 5.888 26.039 5.884 32.884
    Center circular support structure 9.235 40.451 4.454 22.964
    Structure of open circular hole without flanging 6.232 27.737 7.203 39.019
    Structure of triangular rib plate in inner ring 8.297 35.722 5.042 27.561
    下载: 导出CSV 
    | 显示表格

    拓扑结构的优化过程及几种不同结构的对比结果表明,相较于轴向重力工况,径向重力工况下的面形精度在设计中更容易满足要求。调整中心六边形结构大小与翻边相关参数的过程表明,在尽量减小支撑点与质心有差距而导致的倾覆力矩后,反射镜的背部支撑结构刚度对径向重力下面形精度起到决定性作用。对比结构中,中心圆形与内圈三角筋板两种结构的筋板厚度更大,分布更密集,提升了整体刚度,故其径向重力下面形精度表现更优异。

    在轴向重力工况下,比较不同的对比结构结果,可见中心六边形与半封闭的翻边结构对降低RMS值有极大贡献。由于3个支撑点与圆形反射镜的搭配本身存在着不均匀性,六边形结构能够更好地均匀面形。与开放式筋板结构相比较,半封闭的翻边结构能够有效地减少支撑点位置的应力集中,形成双层的承力结构,提升一体化反射镜的稳定性。

    本文针对一体化铝合金反射镜进行了设计与特性分析。通过拓扑优化得到了基本特征并依此建立了初始结构。对初始结构中镜高、中心六边形高度等在内的不同特征参数进行了优化,最终得到自重下的RMS为5.9 nm、轻量化率为70%的反射镜优化模型。从优化过程分析铝合金反射镜的支撑特性,在对面形影响更大的轴向重力条件下,随自身质量增加,反射镜刚度增强可以提高面形精度,但超过一定范围,自重影响变为主导,使得RMS增大。中心六边形结构存在最佳位置,即正六边形高度与直径比值为0.26左右时,面形精度最高。在此基础上,与其他3种对比结构进行比较,得出了中心六边形与半封闭结构在自重条件下提高面型精度的独特优势,对铝合金反射镜的轻量化设计提供了重要参考。

  • 图  1   YOLO-MIR网络结构,Backbone负责特征提取,Neck负责特征融合,Head负责分类预测

    Figure  1.   YOLO-MIR network structure, Backbone is responsible for feature extraction, Neck is responsible for feature fusion, and Head is responsible for classification prediction.

    图  2   单通道红外图像的池化操作

    Figure  2.   Pooling operation for single channel IR images

    图  3   多尺度特征金字塔结构

    Figure  3.   Multi-scale feature pyramid structure

    图  4   CIOU原理图

    Figure  4.   CIOU schematic

    图  5   可见光预处理算法

    Figure  5.   Visible image preprocessing algorithm

    图  6   灰度反转算法

    Figure  6.   Grayscale inversion algorithm

    图  7   网络训练时的loss下降曲线;红色曲线(a)表示使用了本文提出的红外数据增广算法,蓝色曲线(b)表示使用传统数据处理方法

    Figure  7.   Loss descent curve in network training; The red curve (a) indicates the use of the infrared data augmentation algorithm proposed in this paper, and the blue curve (b) indicates the use of traditional methods

    图  8   各网络预测结果对比

    Figure  8.   Comparison of prediction results of each network

    表  1   YOLOv7数据扩充方法在不同数据集上的对比

    Table  1   Comparison of YOLOv7 data expansion methods on different data sets

    Category Dataset mAP50 / %
    YOLOv7
    (clip, rotating, overturn)
    YOLOv7
    (inverse only)
    Visible Voc[16] 84.0 84.2 0.2↑
    CoCo 69.7 67.9 1.8↓
    Terminal KAIST[17] 94.6 97.1 2.5↑
    FLIR 89.4 90.9 1.5↑
    下载: 导出CSV

    表  2   YOLO-MIR在FLIR数据集上的消融实验

    Table  2   YOLO-MIR ablation experiments on FLIR dataset

    YOLOv7 Avg pooling Data argument Multi-scale integration mAP50/%
    90.0
    90.5
    90.9
    91.6
    92.7
    下载: 导出CSV

    表  3   YOLO-MIR与其他网络在FLIR数据集上的对比实验

    Table  3   Experiments comparing YOLO-MIR with other networks on FLIR dataset

    Methods mAP/% Person/% Bicycle/% Car/% Parameters FLOPs/B
    Faster R-CNN 79.2 76.4 72.5 88.4 41.2M 156.1
    YOLOv4 79.3 76.2 75.1 87.3 63.9M 128.3
    YOLOv5m 81.6 78.0 78.1 89.2 35.7M 50.2
    SMG-Y[19] 77.0 78.5 65.8 86.6 43.8M 54.7
    PMBW[20] 77.3 81.2 64.0 86.5 36.0M 120.0
    RGBT[21] 82.9 80.1 76.7 91.8 82.7M 130.0
    YOLO-ACN 82.1 79.1 57.9 85.1 34.5M 111.5
    YOLOv7 89.7 88.6 87.2 92.8 36.9M 104.7
    YOLO-MIR 92.7 91.1 91.0 97.2 37.0M 104.8
    下载: 导出CSV
  • [1]

    Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 580-587.

    [2]

    Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 779-788.

    [3]

    LI Z, ZHOU F. FSSD: feature fusion single shot multibox detector[J/OL]. arXiv preprint arXiv, 2017, https://arxiv.org/abs/1712.00960.

    [4]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv, 2018, https://arxiv.org/abs/1804.02767.

    [5]

    Jocher G, Chaurasia A, Stoken A, et al. ultralytics/yolov5: v6.1 - TensorRT, TensorFlow Edge TPU and OpenVINO Export and Inference[Z/OL]. 2022, https://doi.org/10.5281/ZENODO.6222936.

    [6]

    Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL]. arXiv preprint arXiv, 2020, https://arxiv.org/abs/2004.10934#:~:text=%EE%80%80YOLOv4%3A%20Optimal%20Speed%20and%20Accuracy%20of%20Object%20Detection%EE%80%81.,features%20operate%20on%20certain%20models%20exclusively%20and%20.

    [7]

    WANG C Y, Bochkovskiy A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J]. arXiv preprint arXiv, 2022, https://arxiv.org/abs/2207.02696.

    [8]

    LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018: 8759-8768.

    [9]

    Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]// Conference on Computer Vision & Pattern Recognition. IEEE, 2017: 6517-6525.

    [10]

    REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. http://pubmed.ncbi.nlm.nih.gov/27295650/

    [11]

    He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

    [12]

    ZHENG Z, WANG P, REN D, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE Transactions on Cybernetics, 2021, 52(8): 8574-8586. http://www.xueshufan.com/publication/3194790201

    [13]

    Veit A, Matera T, Neumann L, et al. Coco-text: Dataset and benchmark for text detection and recognition in natural images[J]. arXiv preprint arXiv, 2016, https://arxiv.org/abs/1601.07140.

    [14]

    Smith A R. Color gamut transform pairs[J]. ACM Siggraph Computer Graphics, 1978, 12(3): 12-19. DOI: 10.1145/965139.807361

    [15]

    Zhou Z, Cao J, Wang H, et al. Image denoising algorithm via doubly bilateral filtering[C]// International Conference on Information Engineering and Computer Science. IEEE, 2009: 1-4.

    [16]

    Hoiem D, Divvala S K, Hays J H. Pascal VOC 2008 challenge[J]. Computer Science, 2009 https://www.semanticscholar.org/paper/Pascal-VOC-2008-Challenge-Hoiem-Divvala/9c327cf1bb8435a8fba27b6ace50bb907078d8d1.

    [17]

    ZHAO W Y. Discriminant component analysis for face recognition[C]//Proceedings 15th International Conference on Pattern Recognition, IEEE, 2000, 2: 818-821.

    [18]

    Venkataraman V, FAN G, FAN X. Target tracking with online feature selection in FLIR imagery[C]// IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2007: 1-8.

    [19]

    CHEN R, LIU S, MU J, et al. Borrow from source models: efficient infrared object detection with limited examples[J]. Applied Sciences, 2022, 12(4): 1896. DOI: 10.3390/app12041896

    [20]

    Kera S B, Tadepalli A, Ranjani J J. A paced multi-stage block-wise approach for object detection in thermal images[J]. The Visual Computer, 2022, https://doi.org/10.1007/s00371-022-02445-x.

    [21]

    Vadidar M, Kariminezhad A, Mayr C, et al. Robust Environment Perception for Automated Driving: A Unified Learning Pipeline for Visual-Infrared Object Detection[C]// IEEE Intelligent Vehicles Symposium (Ⅳ). IEEE, 2022: 367-374.

  • 期刊类型引用(4)

    1. 陈材,韩潇,杨三强,邓浩,蒋疆,祁俊峰. 空间反射镜选区激光熔化成形工艺研究. 航天制造技术. 2025(01): 72-78 . 百度学术
    2. 王连强,刘洋,王灵杰,曾雪锋,周頔,张德浩. 可快速、大批量研制的金属基铍铝反射镜分级设计方法. 军民两用技术与产品. 2025(02): 43-49 . 百度学术
    3. 张楚鹏,杨贤昭,陈肖. 轻量化铝反射镜拓扑优化与加工试验研究. 应用光学. 2024(05): 1034-1041 . 百度学术
    4. 张成成,何斌,吕阳,聂婷,贺玉坤. 小卫星空间跟踪遥感相机二维摆镜组件优化设计. 仪器仪表学报. 2022(07): 54-62 . 百度学术

    其他类型引用(3)

图(8)  /  表(3)
计量
  • 文章访问数:  243
  • HTML全文浏览量:  73
  • PDF下载量:  57
  • 被引次数: 7
出版历程
  • 收稿日期:  2023-02-05
  • 修回日期:  2023-03-30
  • 刊出日期:  2023-05-19

目录

/

返回文章
返回