针对多尺度目标的轻量级红外目标检测算法

郑璐, 彭月平, 周彤彤

郑璐, 彭月平, 周彤彤. 针对多尺度目标的轻量级红外目标检测算法[J]. 红外技术, 2023, 45(5): 474-481.
引用本文: 郑璐, 彭月平, 周彤彤. 针对多尺度目标的轻量级红外目标检测算法[J]. 红外技术, 2023, 45(5): 474-481.
ZHENG Lu, PENG Yueping, ZHOU Tongtong. A Lightweight Infrared Target Detection Algorithm for Multi-scale Targets[J]. Infrared Technology , 2023, 45(5): 474-481.
Citation: ZHENG Lu, PENG Yueping, ZHOU Tongtong. A Lightweight Infrared Target Detection Algorithm for Multi-scale Targets[J]. Infrared Technology , 2023, 45(5): 474-481.

针对多尺度目标的轻量级红外目标检测算法

基金项目: 

装备综合研究项目 WJ20211A030131

科研单位自主选题研究项目 ZZKY20223105

详细信息
    作者简介:

    郑璐(1998-),女,汉族,浙江金华人,硕士研究生。研究方向:深度学习与目标检测。E-mail:1095496345@163.com

    通讯作者:

    彭月平(1974-),男,汉族,湖北人,工学博士后,教授。研究方向:战场环境建模与仿真。E-mail:1095496345@qq.com

  • 中图分类号: TP391.41

A Lightweight Infrared Target Detection Algorithm for Multi-scale Targets

  • 摘要: 针对现有基于深度学习的红外目标检测算法参数量大、复杂度较高、对多尺度目标检测性能较差等问题,提出了一种针对多尺度目标的轻量级红外目标检测算法。算法以YOLOv3为基础,采用MobileNet V2轻量级骨干网络、设计改进的简化空间金字塔结构(simSPP)、Anchor Free机制、解耦头和简化正负样本分配策略(SimOTA)分别对Backbone、Neck和Head进行优化,最终得到模型大小为6.25 M,浮点运算量2.14 GFLOPs的LMD-YOLOv3轻量级检测算法。在构建的MTS-UAV数据集上mAP达到90.5%,在RTX2080Ti显卡上FPS达到99,与YOLOv3相比mAP提升了2.60%,模型大小为YOLOv3的1/10。
    Abstract: To solve the problems of large parameters, high complexity, and poor detection performance of multiscale targets in the existing infrared target detection algorithms based on deep learning, a lightweight infrared target detection algorithm for multiscale targets is proposed. Based on YOLOv3, the algorithm uses the MobileNet V2 backbone network, simplified spatial pyramid structure (simSPP), anchor-free mechanism, decoupling head, and simplified positive and negative sample allocation strategies (SimOTA) to optimize the backbone, neck, and head, respectively. Finally, LMD-YOLOv3 with the model size of 6.25 M and floating-point computation of 2.14 GFLOPs was obtained. Based on the MTS-UAV data set, the mAP reached 90.5%, and on the RTX2080Ti dataset, the FPS reached 99. Compared with YOLOv3, mAP increased by 11.7%, and the model size was only 1/10 of YOLOv3.
  • 近年来,太赫兹时域光谱技术在药物检测方面展现出无与伦比的优势。Zhang等[1]获取了不同比例混合的金胺O粉末与蒲黄太赫兹光谱数据,并采用2DCOS-PLSR模型预测样品中金胺O粉末含量。逯美红等[2]以盐酸罂粟碱为研究对象,利用密度泛函理论计算其振动频率,并在此基础上讨论其分子构象和振动模式。周永军等[3]验证了太赫兹光谱在中药材鉴别中的可行性。刘晓庆等人[4]利用太赫兹时域光谱系统获得纯青霉素钠以及来自3个不同厂商的阿莫西林胶囊在0.2~1.4 THz波段的吸收光谱,分析了样品质量与吸收峰的关系。Wang等[5]建立了一种绿色、无损的基于太赫兹指纹峰的膳食补充剂中L-组氨酸和α-乳糖的快速原位分析方法。刘丽萍等[6]将THz-TDS技术与量子化学计算软件Materials Studio相结合,检测并分析了天麻胶囊和天麻素,并对天麻素的吸收峰进行了振动模式分析。Chen[7]的研究结果提示甘草酸是潜在的抗COVID-19的化合物。申美伦等[8]归纳了甘草中甘草酸、甘草次酸的提取和分离纯化方法。丁玲等[9]证实了HPLC(high performance liquid chromatography)法测得甘草中甘草酸、甘草苷含量与利用可见-短波红外技术结合PLS(partial least-square)回归模型预测得到的数据相关性较高。

    本文实验测得甘草酸、甘草次酸与甘草苷单质的太赫兹光谱,运用Gaussian09计算甘草酸单分子的太赫兹吸收谱,最后采用一元线性回归模型预测甘草酸浓度。

    本实验所用仪器为北京市工业波谱成像工程技术研究中心的透射式THz-TDS平台[10]实验前将干燥的氮气充入密闭的太赫兹光路中,将湿度降低至7%以下才开始实验数据采集,并保证实验进行中样品室及密闭光路系统的湿度始终小于7%,温度保持在约20℃。

    甘草酸、甘草苷与甘草次酸性状相似,均为白色粉末。本文实验中均选取纯度大于98%高纯度粉末状样品,其中甘草酸、甘草次酸购买于北京百灵威科技有限公司,甘草苷购置于南京秋实生物科技有限公司,聚乙烯购于Sigma-Aldridge。

    根据表 1样品配比,将适量的样品粉末和聚乙烯粉末倒入玛瑙研钵,并混合均匀。然后,将混合后的粉末送入内径13 mm的压片模具,由压片机以6 MPa的压强压制3 min制备成直径约13 mm,厚度约1 mm的圆柱形样片,取出后送入样品干燥柜中备用。按照上述方法,每种样品配置5组,将5组样品的测量数据取平均值,得到最终的太赫兹吸收光谱。

    表  1  样品配比信息
    Table  1.  Sample Mixing Information
    Sample Sample number Powder/mg Pill weight/mg Thickness/mm Sample proportion/%
    Glycyrrhizic acid (gcs) gcs1 152.7 144.3 1.3 40
    gcs2 157.4 152.7 1.4 40
    gcs3 162.9 153.2 1.42 40
    gcs4 159.6 154.2 1.4 40
    gcs5 143.5 122.8 1.1 40
    Liquiritin (gcg) gcg1 157.8 152.3 1.3 45
    gcg2 159.5 152.8 1.32 45
    gcg3 162.6 154.8 1.3 45
    gcg4 157.4 149.2 1.28 45
    gcg5 134.7 126.6 1.1 45
    Glycyrrhetnic acid (gccs) gccs1 155.9 150.6 1.3 45
    gccs2 160.0 143.4 1.32 45
    gccs3 163.2 157.4 1.4 45
    gccs4 160.4 151.8 1.4 45
    gccs5 158.9 151.3 1.44 45
    下载: 导出CSV 
    | 显示表格

    首先,分别记录太赫兹光路中的样品信号Esam(t)与参考信号Eref(t)。然后进行傅里叶变换得到对应的频域信号Esam(ω)与Eref(ω),代入吸收系数计算公式(1)、(2),得到样品的太赫兹吸收光谱[11-12]

    $$ {n_{\rm{s}}}(\omega ) = 1 + \frac{c}{{\omega d}}\varphi \left( \omega \right) $$ (1)
    $$ \alpha \left( \omega \right) = - \frac{2}{d}\ln \left\{ {\frac{{\left| {{E_{{\rm{sam}}}}\left( \omega \right)} \right|}}{{\left| {{E_{{\rm{ref}}}}\left( \omega \right)} \right|}}\frac{{{{\left[ {{n_{\rm{s}}}\left( \omega \right) + 1} \right]}^2}}}{{4{n_{\rm{s}}}\left( \omega \right)}}} \right\} $$ (2)

    式中:ω是角频率;c为真空中光速;d为样品厚度;Φ(ω)参考信号与样品信号的相位差,|Esam|、|Eref|分别为样品信号和参考信号的频域幅值。ns(ω)为样品折射率,a(ω)为样品吸收系数。

    图 1中3种样品的吸收谱线均随频率增加呈不断上升的趋势,且甘草酸、甘草苷及甘草次酸的吸收谱线形状相似,但吸收峰位与强度有明显差别。3种单质的太赫兹吸收峰位参见表 2

    图  1  三种单质的太赫兹吸收谱
    Figure  1.  THz absorption spectrum of three simple substances
    表  2  三种样品吸收峰位
    Table  2.  Peak absorption of three samples  THz
    No. 1 2 3 4 5 6 7 8 9
    Glycyrrhizic acid (gcs) 1.131 1.440 1.561 1.610 1.655 1.704 - - -
    Liquiritin (gcg) 0.349 0.433 1.437 1.518 1.564 1.606 1.662 1.714 -
    Glycyrrhetnic acid (gccs) 0.342 0.427 1.004 1.131 1.44 1.574 1.613 1.662 1.714
    下载: 导出CSV 
    | 显示表格

    观察图 1虚线框内局部放大的吸收特性可知,在0.3~1 THz内甘草酸并无吸收峰,而甘草苷与甘草次酸均存在接近的吸收峰位。1~1.6 THz频段内,可以根据1.004、1.131两个峰位区别甘草苷与甘草次酸。另外,甘草酸、甘草苷及甘草次酸3种物质在多个位置的吸收峰较为接近甚至相同,这是因为三者在化学结构与化学性质上有着很大的相似性。

    图 2所示将甘草酸单分子分为含氧碳环块、碳环块。

    图  2  甘草酸的分子构型
    Figure  2.  Glycyrrhizic acid molecular configuration

    首先,采用PM3算法对上述单分子构型进行结构优化与频率计算,得到甘草酸分子的太赫兹吸收计算谱,如图 3黑色虚线所示。观察黑色虚线,甘草酸分子在0.3~1.7 THz范围内3个理论吸收峰分别位于0.869 THz、1.176 THz、1.565 THz处。PM3算法吸收计算谱波形与实验谱波形相差较大,需要改善理论方法,获取更为精确的吸收谱。

    图  3  甘草酸实验光谱与PM3、DFT计算谱对比
    Figure  3.  Comparison of glycyrrhizic acid experimental spectrum with PM3, DFT calculated spectrum

    密度泛函(Density functional theory)理论中的B3LYP泛函适用于较大体系的单分子结构计算,基组选择6-31G(d),引入色散校正项DFT-D3。另外采用谐振频率校正因子校正分子理论构型与计算方法选择引起的计算频率与实验数据之间的偏差。在CCCBDB查得6-31G(d)基组的校正因子为0.96。最终计算谱如图 3蓝色点划线所示。观察蓝色点划线发现,PM3理论计算值1.565THz与实验值1.561 THz吻合,但是1.561 THz吸收强度的实验值相对较弱。计算谱中1.176 THz的理论计算值接近实验光谱中1.131 THz的峰值位置。基于DFT计算的吸收光谱的峰值位于1.279 THz和1.661 THz,并且波形与实验谱更加一致,而理论计算值1.661 THz与实验值1.655 THz符合,证明理论方法的选择是合理的。

    朗伯比尔定律是光吸收基本定律,其表达形式为:

    $$ A = \varepsilon *d*c $$ (3)

    式中:A为样片吸收系数;ε为单位摩尔吸收系数;d为样片厚度;c为样片浓度。本节制备不同质量分数的甘草酸样片,样片信息如表 3所示,利用太赫兹时域光谱系统获取太赫兹吸收光谱。观察图 4发现3种甘草酸太赫兹吸收谱的基线斜率会随浓度的增大而上升。为了验证甘草酸太赫兹吸收系数与浓度之间的线性关系,选取特征吸收峰1.655 THz及其附近6个数值点的太赫兹吸收系数如表 4所示,取其平均值与浓度进行一元线性回归拟合。结果如图 5所示。从图中可以看出甘草酸太赫兹吸收光谱符合朗伯比尔定律。一元线性回归模型为:y=93.74173x-18.56105,相关系数R2=0.99824。利用一元线性回归模型预测样品的浓度,结果见表 5

    表  3  不同浓度甘草酸样品的配比信息
    Table  3.  Proportion information of glycyrrhizic acid samples with different concentrations
    Sample number Powder/mg Pill weight/mg Thickness/mm Sample proportion/% Concentration/(mol/L)
    gcs01 158.4 155.7 1.28 20 0.312
    gcs02 161.2 158.7 1.43 30 0.426
    gcs03 159.6 154.2 1.4 40 0.574
    下载: 导出CSV 
    | 显示表格
    图  4  不同浓度的甘草酸太赫兹吸收谱
    Figure  4.  THz absorption spectrum of glycyrrhizinate with different contents
    表  4  1.655 THz及其附近6个频率点的吸收系数值
    Table  4.  Absorption coefficient values at 1.655 THz and 6 frequency points around it
    Frequency/THz Absorption/(gcs01) Absorption/ (gcs02) Absorption/ (gcs03)
    1.646 10.935 19.566 34.327
    1.649 11.026 20.573 35.255
    1.652 11.074 21.274 36.572
    1.655 11.083 21.473 38.239
    1.659 11.061 21.276 36.482
    1.662 11.017 20.876 34.127
    1.665 10.962 20.404 33.539
    Average absorption 11.023 20.777 35.506
    下载: 导出CSV 
    | 显示表格
    图  5  一元线性回归预测模型
    Figure  5.  Univariate linear regression prediction model
    表  5  浓度预测值及相对误差
    Table  5.  Concentration prediction values and relative errors
    Sample number gcs01 gcs02 gcs03
    Prediction/(mol/L) 0.316 0.420 0.577
    Real/(mol/L) 0.312 0.426 0.574
    Relative error/% 1.28 1.41 0.52
    下载: 导出CSV 
    | 显示表格

    本文首先制备了甘草酸、甘草次酸以及甘草苷样片,利用透射式太赫兹时域光谱系统测得上述样片的太赫兹光谱,发现它们的谱线相似。其次,构建甘草酸单分子构型,并利用Gaussian09软件对其进行了结构优化与频率计算,获得了太赫兹计算谱。对比发现,随着理论方法的改进,甘草酸的太赫兹吸收计算谱和实验谱不仅在峰位上对应,且太赫兹吸收谱波形也趋于一致。最后制备含量分别为20%,30%,40%的甘草酸样品,通过一元线性回归模型拟合了甘草酸太赫兹光谱吸收系数与浓度的关系,验证了甘草酸的太赫兹吸收光谱符合朗伯比尔定律。

    致谢:感谢北京市工业波谱成像工程技术研究中心提供的太赫兹时域光谱实验平台,感谢北京科技大学自动化学院的于洋博士在实验方面给予的帮助和有益讨论。

  • 图  1   YOLOv3网络结构

    Figure  1.   YOLOv3 network structure

    图  2   LMD-YOLOv3网络结构

    Figure  2.   LMD-YOLOv3 network structure

    图  3   SPP模块结构

    Figure  3.   The structure of SPP

    图  4   MTS-UAV数据集部分图片

    Figure  4.   Part of data set MTS-UAV

    图  5   损失函数曲线图

    Figure  5.   Loss function graph

    图  6   P-R曲线图

    Figure  6.   P-R graph

    图  7   检测结果可视化

    Figure  7.   Visualization of test results

    表  1   SimSPP模块在YOLOv3算法上实验结果对比

    Table  1   Comparison of experimental results of SimSPP module on YOLOv3 algorithm

    Model Recall mAP FPS FLOPs Params
    YOLOV3 90.70% 87.90% 74 12.41G 61.52M
    YOLOV3+
    SPP
    90.90% 88.60% 71 12.57G 64.15M
    YOLOV3+
    SPPA
    90.20% 88.00% 73 12.51G 63.10M
    YOLOV3+
    SPPB
    90.60% 88.50% 72 12.51G 63.10M
    YOLOV3+
    SPPC
    90.90% 88.30% 72 12.51G 63.10M
    下载: 导出CSV

    表  2   SimSPP模块在YOLOX-s算法上实验结果对比

    Table  2   Comparison of experimental results of SimSPP module on YOLOX-s algorithm

    YOLOX-S YOLOX-SA YOLOX-SB YOLOX-SC
    mAP 80.90% 80.70% 80.90% 80.60%
    FPS 84 90 91 91
    下载: 导出CSV

    表  3   LMD-YOLOv3消融实验结果对比

    Table  3   LMD-YOLOv3 comparison of ablation experiment results

    Recall mAP FPS FLOPs Params
    Experiment 1 90.70% 87.90% 74 12.41G 61.52M
    Experiment 2 90.60% 88.50% 72 12.51G 63.10M
    Experiment 3 91.20% 90.40% 74 11.19G 46.20M
    Experiment 4 91.20% 90.50% 99 2.14G 6.25M
    下载: 导出CSV

    表  4   横向实验结果对比

    Table  4   Comparison of horizontal experimental results

    Recall/% mAP/% FPS FLOPs/G Params/M
    YOLOv3 90.70 87.90 74 12.41 61.52
    YOLOv4 85.57 86.99 70 11.30 63.9
    YOLOX-s 88.20 80.90 84 2.13 8.94
    Faster-RCNN 81.60 81.30 49 26.24 41.12
    LMD-YOLOv3 (Ours) 91.20 90.50 99 2.14 6.25
    下载: 导出CSV
  • [1]

    Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

    [2]

    Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

    [3]

    Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in neural Information Processing Systems, 2015, 28: 91-99.

    [4]

    LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European conference on computer vision., 2016: 21-37.

    [5]

    Bochkovskiy A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL]. arXiv preprint arXiv, 2020, https://arxiv.org/abs/2004.10934

    [6]

    WANG C Y, Yeh I H, LIAO H Y M. You Only Learn One Representation: Unified Network for Multiple Tasks[J/OL]. arXiv pre-print arXiv, 2021, https://arxiv.org/abs/2105.04206.

    [7]

    GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J/OL]. arXiv preprint arXiv, 2021, https://arxiv.org/abs/2107.08430.

    [8]

    LIU M, DU H, ZHAO Y, et al. Image small target detection based on deep learning with SNR controlled sample generation[M]//Current Trends in Computer Science and Mechanical Automation, 2018: 211-220.

    [9]

    LIN Liangkui, WANG Shaoyou, TANG Zhongxing. Using deep learning to detect small targets in infrared oversampling images[J]. Journal of Systems Engineering and Electronics, 2018, 29(5): 947-952. DOI: 10.21629/JSEE.2018.05.07

    [10]

    ZHAO D, ZHOU H, RANG S, et al. An adaptation of CNN for small target detection in the infrared[C]//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium, 2018: 669-672.

    [11] 谢江荣. 基于深度学习的空中红外目标检测关键技术研究[D]. 上海: 中国科学院大学(中国科学院上海技术物理研究所), 2019.

    XIE Jiangrong. Research on Key Technologies of Air Infrared Target Detection Based on Deep Learning[D] Shanghai: University of Chinese Academy of Sciences (Shanghai Institute of Technical Physics, Chinese Academy of Sciences), 2019.

    [12]

    FAN M, TIAN S, LIU K, et al. Infrared small target detection based on region proposal and CNN classifier[J]. Signal, Image and Video Processing, 2021, 15: 1927-1936. DOI: 10.1007/s11760-021-01936-z

    [13] 张凯, 刘昊, 杨曦, 等. 基于关键点检测网络的空中红外目标要害部位识别算法[J]. 西北工业大学学报, 2020, 38(6): 1154-1162. DOI: 10.3969/j.issn.1000-2758.2020.06.003

    ZHANG K, LIU H, YANG X, et al. Key position recognition algorithm of aerial infrared target based on key point detection net-work [J]. Journal of Northwest University of Technology, 2020, 38(6): 1154-1162 DOI: 10.3969/j.issn.1000-2758.2020.06.003

    [14]

    Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv, 2018, https://arxiv.org/abs/1804.02767.

    [15]

    Howard A, Zhmoginov A, CHEN L C, et al. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation[J/OL]. Computer Science, 2018, https://arxiv.org/abs/1801.04381v2.

    [16]

    Howard A G, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J/OL]. arXiv preprint arXiv, 2017, https://arxiv.org/abs/1704.04861.

    [17]

    HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916. DOI: 10.1109/TPAMI.2015.2389824

  • 期刊类型引用(1)

    1. 高依然,刘森,魏威,王冠,方志浩,韩健睿,刘亚泽. 金丝楔形键合强度的影响规律分析. 红外. 2023(11): 13-22 . 百度学术

    其他类型引用(0)

图(7)  /  表(4)
计量
  • 文章访问数:  172
  • HTML全文浏览量:  52
  • PDF下载量:  44
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-06-04
  • 修回日期:  2022-06-22
  • 刊出日期:  2023-05-19

目录

/

返回文章
返回