Spatially Adaptive and Content-Aware Infrared Small Target Detection
-
摘要:
由于红外街道图像中小目标像素较少、颜色特征不丰富,容易导致模型漏检、误检以及检测效果不佳等问题,因此提出了一种基于空间自适应和内容感知的红外小目标检测算法。首先,通过堆叠局部注意力与可变形注意力设计一种基于空间自适应的转换器,以增强对长距离依赖特征的建模能力,捕获到更多空间位置信息。其次,采用内容感知特征重组算子进行特征上采样,实现在大感受野内聚合上下文信息以及利用浅层特征信息来自适应地重组特征。最后增加160×160的高分辨率预测头,将输入特征的像素点映射到更细小的检测区域,进一步改善小目标的检测效果。在FILR数据集上的实验结果表明,改进算法的平均精度均值达到85.6%,相较于YOLOX-s算法提高了3.9%,验证了所提算法在红外小目标检测上的优越性。
Abstract:Owing to the scarcity of pixel values and limited color features in infrared street images, issues such as missed detections, false detections, and poor detection performance are common. To address these problems, a spatially adaptive and content-aware infrared small object detection algorithm is proposed. The key components of this algorithm are as follows. 1) Spatially adaptive transformer: This transformer is designed by stacking local attention and deformable attention mechanisms to enhance the modeling capability of long-range dependency features and capture more spatial positional information. 2) Content-aware reassembly of features (CARAFE) operator: This operator is used for feature upsampling, aggregating contextual information within a large receptive field, and adaptively recombining features using shallow-level information. 3) High-resolution prediction head: A high-resolution prediction head of size 160x160 is added to map the pixels of input features to finer detection regions, further improving the detection performance of small objects. Experimental results on the FLIR dataset demonstrate that the proposed algorithm achieves an average precision mean of 85.6%, representing a 3.9% improvement over the YOLOX-s algorithm. These results validate the superiority of the proposed algorithm in detecting small objects in infrared images.
-
0. 引言
近些年来,随着人工智能的普及,目标检测方法逐渐地应用于各个领域。现有的目标检测方法更多的是对可见光图像进行单目标或者多目标的检测。然而对比可见光图像,红外图像无需外部光源,可以进行全天候工作,并且在恶劣天气下有着良好的成像效果。目前红外图像被广泛应用于无人驾驶[1]、军事侦察、矿藏勘探等各个领域。比如在无人驾驶领域,需要对街道红外图像中的目标进行检测,而街道红外图像具有背景复杂、小目标众多且颜色特征信息弱等特点,因此研究适用于街道红外图像的检测算法是一项具有挑战性的任务。
目前传统红外目标检测方法主要分为3部分:区域选择、特征提取和分类器。首先通过滑窗操作进行区域选择,然后人工设置特征提取器从候选区域中提取特征,比如Scale-invariant Feature Transform(SIFT)[2]、Haar Feature[3]等,最后使用SVM分类器[4]或者AdaBoost方法对提取的特征进行分类。然而基于手工操作、固定超参数的传统方法缺乏可学习性、针对性且冗余计算过多,不具有很好的鲁棒性能和检测精度。近些年来,科学技术的快速发展使得深度学习技术广泛应用于目标检测[5-7]、图像分割[8-9]等方面,其具有强大的特征提取和学习能力,能够从复杂图像中提取特征并进行多尺度表示,因此许多学者尝试将深度学习技术应用到红外目标检测。基于深度学习的目标检测方法主要分为二阶段检测方法与一阶段检测方法。前者首先生成检测的候选框,然后对候选框进行分类与位置回归以得到更精确的检测框,代表方法有R-CNN系列[10-12];后者被称为基于回归的目标检测,其直接对输入图像进行类别和位置回归来生成目标检测框,代表方法有YOLO[13-15]、SSD[16]、RetinaNet[17]等。
相比于目标检测研究中的普通图像如Pascal VOC,红外街道图像具有背景复杂、小目标较多且像素较少、颜色特征不丰富等特点,因此现有的基于深度学习的目标检测方法难以适用于红外目标检测。针对红外图像背景复杂、包含细节信息少等问题,Li[18]等人设计混合池化模块改进快速空间池化金字塔,使用条形池化替代传统池化方法以及基于注意力添加水平和垂直方向的全局池化操作,实现精准定位目标和减少背景干扰。同时红外图像中存在较多弱小目标,容易导致检测性能下降,为此Jiang[19]等人提出了一种轻量化的红外目标检测模型YOLO-IDSTD,通过优化主干网络以及添加改进的感受野增强模块,实现了较为准确且快速的红外弱小目标检测。Cai[20]等人基于YOLOv3检测网络,通过将跨阶段局部模块、Focus结构和空间金字塔池化等结构组合以进行特征提取,并且采用多路径聚合思想来优化融合网络,提高特征利用效率。
上述研究工作通过不同的方法提升了红外弱小目标的检测效果,但是对比目前的先进算法,其采用的基线模型和改进模块并没有明显的优势,在检测精度和速度上仍有较大的提升空间。随着Transformer[21]网络的提出,因其强大的全局感知能力和网络性能被引入到计算机视觉领域,相继提出Vision Transformer、Swin Transformer[22]等模型,并取得了优异的成绩。传统的Transformer网络对全局信息较为敏感,但是对弱小目标的局部特征提取以及多尺度表示能力相对较弱。针对以上问题,基于YOLOX-s算法,本文提出了一种空间自适应和内容感知的红外小目标检测算法。
1. YOLOX-s介绍
YOLOX-s网络由Ge Zheng等人[23]提出,是YOLOX系列的一个变体,拥有更少的参数量和更低的复杂度。YOLOX-s网络主要由输入端、骨干网络、颈部网络以及预测头等4部分组成。与YOLOv5-s相比,YOLOX-s网络在多个方面进行了优化。其中输入端采用MixUp和Mosaic方法对图像进行预处理,较大地增强模型的鲁棒性;骨干网络采用YOLO系列中经典的CSPDarkNet结构;颈部网络采用FPN+PAN的级联结构,其中FPN结构以自上而下的方式将浅层信息和深层信息进行融合,传递特征的语义信息,而PAN结构以自下而上的方式将深层信息传递到浅层部分进行融合,传递特征的位置信息;在预测头部分,采用Decoupled Head解耦头,在加快推理速度的同时提高模型的检测精度。因此本文采用YOLOX-s作为基准模型进行针对性的改进,以提高红外小目标的检测精度。
2. 改进YOLOX-s算法
本文在YOLOX-s的基础上,提出了一种空间自适应和内容感知的红外小目标检测算法。首先将局部注意力和可变形注意力进行堆叠,设计一种基于空间自适应的转换器(Transformer based on spatial adaptation,SAT),通过局部注意对特征映射进行局部聚合,然后通过可变形注意力块对局部增强标记之间的全局关系进行建模,达到增强对全局特征提取的目的。然后将颈部网络的上采样方法替换为内容感知特征重组算子(Content-Aware Reassembly of Features,CARAFE)[24],在较大的接受域内聚集上下文信息,动态生成自适应内核并进行特征重组。最后在输出端增加一个160×160大小的高分辨特征输出端,从而增强模型对红外小目标的检测效果。改进后的网络结构如图 1所示。
2.1 基于空间自适应的转换器
目前在目标检测领域,一般采用的网络架构仍是YOLO系列。YOLO系列的主干网络以局部卷积为主要结构,关注的是局部信息,缺乏对全局信息的提取和利用,因此在研究背景复杂、小目标占比较高且特征不明显的红外街道图像时,检测准确率较低。随着Transformer的提出,展现了其强大的全局信息提取能力和出色的网络性能,并且在自然语言处理领域取得了优异的成绩,因此越来越多的学者开始将其引入到计算机视觉领域,陆续提出了Vision Transformer、Swin Transformer、Pyramid Vision Transformer[25]等模型。Vision Transformer网络采用完全基于自注意力机制的Transformer架构,对图像中的全局结构进行建模,但其计算量和内存消耗较大。Swin Transformer网络通过引入分层的窗口注意力机制,将图像分解为窗口并进行多层级处理。而Xia等人基于Swin Transformer进行改进,提出了一种可变形注意力的转换器(Deformable Attention Transformer,DAT)[26],通过引入可变形注意力机制,更好地捕获图像中的局部细节和结构信息,在减少计算量的情况下提升模型性能,其在图像分类、目标检测、语义分割等任务中与Vision Transformer相比均取得更好的效果。
针对上述研究,本文设计一种基于空间自适应的转换器,主要由局部注意力与可变形注意力构成。SAT结构如图 2所示。
其中局部注意力模块通过采用类似于滑动窗口的策略,计算每个窗口位置的自注意力权重,使模型更加关注图像的局部区域,捕获局部特征信息,实现局部特征建模。而可变形注意力模块通过计算窗口内每个位置的相对偏移和位置权重,以实现局部增强标记之间的全局关系建模。可变形注意力模块分为两部分:偏移网络和主干网络,其整体结构如图 3所示。
图 3右半部分为偏移网络的结构图,其作用是生成每个相关点的偏移量offsets。首先将特征q∈RH×W×C输入到一个大小为k×k、步长为r的深度可分离卷积中,得到特征图q′∈RH/r×W/r×C。然后采用GELU激活函数和一个1×1卷积输出二维偏移量offsets∈RH/r×W/r×2。
图 3左半部分为主干网络的结构图。首先将输入特征x进行线性投影到query标记上,即q=xWq。然后输入到偏移网络θoffset(·),得到每个相关点的偏移量Δp=θoffset(q),输出每个相关点变换后的位置。最终对变化后的点进行特征采样,作为Key和Value,其计算公式如(1)和(2)所示:
$$ q = x{W_q}, \tilde k = \tilde x{W_k}, \tilde v = \tilde x{W_v}, $$ (1) $$ {\text{with}}\quad \Delta p = {\theta _{{\text{offset}}}}(q), \tilde x = \phi (x;p + \Delta p) $$ (2) 式中:$\tilde k$和$\tilde v$分别表示变化后的key和value的嵌入。具体来说,将采样函数φ(·, ·)设置为双线性插值,并且使其可微,如式(3)所示:
$$ \phi (z;({p_x}, {p_y})) = \sum\limits_{({r_x}, {r_y})} {g({p_x}, {r_x})g({p_y}, {r_y})z[{r_y}, {r_x}, :]} $$ (3) 式中:(px, py)是图像中像素的位置信息;g(a, b)=max(0, 1-|a-b|),(rx, ry)索引z∈RH×W×C的所有位置信息。与现有的方法类似,对q、k、v进行多头注意力,并采用相对位置偏移R。多头注意力头的计算公式如(4)所示:
$$ {z^{(m)}} = \sigma (\frac{{{q^{(m)}}{{\tilde k}^{(m){\rm T}}}}}{{\sqrt d }} + \phi (\hat B;R)){\tilde v^{(m)}} $$ (4) 式中:$(\hat B;R) \in {R^{HW \times {H_{\text{G}}}{W_{\text{G}}}}}$对应于位置嵌入,HG=H/r, WG=W/r,r与偏移网络卷积步长相同,HGWG为偏移网络的采样点个数,m为注意力头部编号。
每个注意力头部的特征进行连接后,通过Wo投影后得到输出特征z。
综上所述,SAT模块通过基于窗口的局部注意力处理特征图,以在局部聚合特征信息,然后采用可变形注意力对局部增强标记之间的全局关系进行建模,实现局部和全局感受野的交替设计,增强模型的表征能力。本文将SAT模块添加至骨干网络的特征输出端,使得后续的融合特征包含更多的空间位置信息。经过消融实验证明,该方法有助于提高红外小目标的检测精度。
2.2 CARAFE
大多数目标检测模型的上采样方式一般采用如双线性插值或者反卷积等方法,缺乏对目标细节信息的准确重建,容易导致小目标部分信息丢失,导致检测精度的降低。然而Wang等人[24]提出的CARAFE算子通过重新组合基于内容感知的特征,以实现上采样核与特征图的语义相关,提高上采样后的特征质量,更好地保留和恢复特征信息细节。因此本文选择使用CARAFE算子进行上采样,利用特征图的语义信息增加区域敏感,最后生成更准确的高分辨率特征图。
如图 4所示,CARAFE算子分为核预测模块(Kernel prediction module)以及内容感知重组模块(Content-aware Reassembly Module)两个部分。
2.2.1 核预测模块
如图 4上半部分所示,核预测模块是由通道压缩器(Channel Compressor)、内容编码器(Content Encoder)和核归一化器(Kernel Normalizer)3个子模块构成。首先将特征图χ∈RH×W×C使用通道压缩器进行处理得到$F \in {R^{H \times W \times {C_{\text{m}}}}}$。通道压缩器是指采用1×1的卷积将输入特征的通道数从C压缩到Cm,从而减少后续步骤的计算量。然后使压缩特征F通过内容编码器得到特征图$F' \in {R^{H \times W \times ({\sigma ^2} \times {k^2})}}$。内容编码器是基于输入特征内容使用大小为kencoder×kencoder的卷积核,将通道数从Cm变为σ2kup2,σ表示上采样倍数,实验中此参数设置为2。增加kencoder的大小可以扩大编码器的感受野,使其在更大区域内利用上下文信息,但是模型计算量会随着内核大小的平方而增加。kup×kup即重组核大小,其与模型在解码器中可获得的感受野呈正相关。紧接着将特征图F′在通道维度上进行展平操作,得到$F'' \in {R^{\sigma H \times \sigma W \times {k^2}}}$。最终将特征图F″输入到核归一化器中得到$F''' \in {R^{\sigma H \times \sigma W \times {k^2}}}$。核归一化器在应用于输入特征的映射之前,每个重组核在空间上使用SoftMax函数进行归一化。
2.2.2 内容感知重组模块
内容感知重组模块(Content-aware Reassembly Module)如图 4下半部分所示,首先将输出特征$F'''$中的每个位置与输入特征图χ进行映射,比如输入特征图χ中坐标为(i, j)的位置,其对应输出特征$F'''$的坐标为(i′, j′),其中$ i = \left\lfloor {i'/\sigma } \right\rfloor , j = \left\lfloor {j'/\sigma } \right\rfloor $。然后将坐标(i′, j′)的特征进行通道展平,与以坐标(i, j)为中心、大小为kup×kup的特征区域进行点乘操作,最终输出特征图为$\chi ' \in {R^{\sigma H \times \sigma W \times {k^2}}}$,其具体计算如公式(5)所示:
$$ {\chi '_{l'}} = \sum\limits_{n = - r}^r {\sum\limits_{m = - r}^r {{W_{l'(n, m)}}} \cdot {\chi _{(i + n, j + m)}}} $$ (5) 式中:${\chi '_{l'}}$表示在位置(i′, j′)的输出特征;${W_{l'}}$为$F'''$对应位置(i′, j′)的通道展开模板;χ(i, j)为输入特征对应位置(i, j)的特征,$r = \left\lfloor {{k_{{\text{up}}}}/2} \right\rfloor $。
由于${W_{l'}}$是单通道的,所以对于相同位置的不同通道,则采用相同的上采样模板。
3. 实验结果与分析
3.1 数据集
本文采用的是FLIR公司提供的红外场景数据集FLIR_ADAS_1_3,该数据集于2018年7月发行,包含了2017年11月~2018年5月美国加利福尼亚州的圣塔芭芭拉市的街道等场景一天内不同时间的红外图片。在这个数据集中共有红外图像10288张,并且含有多种类别,分别为行人(person)、汽车(car)、自行车(bicycle)、狗(dog)等。在本文数据集中狗以及其他类别的数量过于少,所以本文只对其余3个类别做验证。本文训练集内使用COCO数据集标注的红外场景图像5144张,测试集内使用COCO数据集标注的红外场景图像5144张。图 5是训练集中所有标签的分布图,横坐标表示标签的宽度,纵坐标表示标签的高度。由此可以看出,左下角部分聚类后的标签框比较多,因此说明本实验数据集中的小目标较多,符合红外街道图像的实际情况。
3.2 评价指标
本文采用平均精度均值(mean Average Precision, mAP)和个别类别的平均精度(Average Precison, AP)来评价本算法的精度。平均精度指的是以召回率R为x轴,查准率P为y轴所绘制的曲线围成的面积,如公式(6)所示:
$$ {\text{AP}} = \int_0^1 {P(R){\text{d}}R} $$ (6) 一般来说,一个模型对一个类别的检测率越高,那么AP值就越大。但是对于整个数据集进行多分类时,则采用平均精度均值来进行评价,平均精度指的是数据集中所有类别的AP进行叠加后再求其平均值,用来评估模型在整个数据集上检测的性能好坏,其计算如式(7)所示:
$$ {\text{mAP}} = \frac{1}{m}\sum\limits_{i = 1}^m {{\text{A}}{{\text{P}}_i}} $$ (7) 式中:APi指的是不同类别的检测准确率;m表示检测总类别数。
本文使用标准PASCAL-VOC评价指标,即预测框与真实框的IoU大于等于0.5时的预测概率对FLIR红外图像进行评估。
3.3 实验参数
实验中使用的CPU型号为AMD EPYC 7543,GPU的型号为NVIDIA A40,GPU显存大小为48 GB,操作系统为Ubuntu18.04。编程语言为Python、深度学习框架为Pytorch1.9.0、CUDA版本为10.1、cuDNN版本为7.6.6。在训练的过程中,对网络结构采用SGD优化器进行优化,采用余弦退火方法进行学习率的调整。在所有的检测模型中,本文采用测试集占总数据的50%、训练集占总数据的40%、验证集占总数的10%的比例进行训练。在训练时输入图片大小为640×640,采用迁移学习的同时设置冻结训练,前50轮冻结模型,基本不对特征提取网络进行修改,50轮以后再对特征提取网络进行修改。模型训练的超参数如表 1所示。
表 1 模型训练的超参数Table 1. Hyperparameters for model trainingTraining hyperparameters Parameter values Maximum learning rate 1e-2 Minimum learning rate (1e-2)*0.01 Weight attenuation value 5e-4 Epochs 300 Batch-size 4 Freeze training 50 3.4 不同检测算法的对比实验
本文使用改进后的模型与其他检测模型在FLIR数据集上进行比较,其结果如表 2所示。从表中数据不难看出,改进后的模型在检测精度上有所提高,相对于未改进的YOLOX-s提高了3.9%,相较于Li提出的模型精度提升了4.9%,相较于LRAF-Net模型的精度提高了5.1%。
表 2 各实验结果对比Table 2. Comparison of experimental resultsModels Backbone AP50/% mAP50/% Params/M FPS Person Bicycle Car FCOS ResNet50 67.7 52.4 73.6 64.6% 32.1 71 Qin[27] EfficientNet - - - 70.8% - 22 YOLOv5s CSPDarknet-53 79.2 66.1 89.6 78.3% 7.1 109 YOLOv5m CSPDarknet-53 83.2 78.3 86.6 82.7% 21.1 64 Li[18] CSPDarknet-53 84.8 67.1 90.5 80.7% 8.1 - LRAF-Net[28] CSPDarknet-53 - - - 80.5% 18.8 - YOLOX-s CSPDarknet-53 78.8 75.6 90.7 81.7% 8.9 104 Improved model SAT-CSPDarknet 86.6 80.1 90.3 85.6% 11.6 95 由此表明,本文提出的改进后的模型对于各类目标的检测精度都有所提升。
3.5 消融实验
本文通过消融实验来验证每个模块对本文模型的贡献度。通过分别添加空间自适应的转换器、CARAFE算子、新增检测头到原始模型YOLOX-s中,其得到的结果如表 3所示。从表 3我们可以看到,从基线模型开始,每增加一个本文所提模块,检测精度都有所上升,表明了本文所提出模块的有效性。从表 2中我们不难看出,就平均精度而言,YOLOX-s的mAP值为81.7%。与YOLOX-s相比,本文加入空间自适应的转换器、引入CARAFE算子以及增加输出检测头使得模型的检测精度有所提升。检测结果如图 6所示,从图中可以看出,YOLOv5s与YOLOX难以检测到的目标,本文方法可以进行更加准确的定位,明显减少了错检漏检的情况。
表 3 消融实验结果Table 3. The results of ablation experimentModels SAT CARAFE Head Person/% Bicycle/% Car/% mAP0.5/% YOLOX-s 78.8 75.6 90.7 81.7 √ 78.6 77.2 91.2 82.3 √ √ 82.1 78.6 91.3 84.0 √ √ √ 86.6 80.1 90.3 85.6 综上所述,本文的算法对于红外目标的检测性能更好,更充分说明了本文添加模块的有效性。
4. 结语
为了提高对红外图像目标的检测精度,基于YOLOX-s算法,本文提出了一种空间自适应和内容感知的红外小目标检测算法。通过设计一种空间自适应转换器,以增强特征的全局相关性。同时,采用CARAFE作为上采样算子,实现了上采样核与特征图的语义相关。在此基础上,增加目标检测头,使用更大尺度的特征图,加强对红外小目标特征的学习与检测。在FLIR数据集上的实验结果表明,本文算法对于红外小目标拥有较好的检测性能。在未来的工作中,将针对更小的红外点目标进行算法优化,构建检测性更强并且鲁棒性更强的高精度红外目标检测算法。
-
表 1 模型训练的超参数
Table 1 Hyperparameters for model training
Training hyperparameters Parameter values Maximum learning rate 1e-2 Minimum learning rate (1e-2)*0.01 Weight attenuation value 5e-4 Epochs 300 Batch-size 4 Freeze training 50 表 2 各实验结果对比
Table 2 Comparison of experimental results
Models Backbone AP50/% mAP50/% Params/M FPS Person Bicycle Car FCOS ResNet50 67.7 52.4 73.6 64.6% 32.1 71 Qin[27] EfficientNet - - - 70.8% - 22 YOLOv5s CSPDarknet-53 79.2 66.1 89.6 78.3% 7.1 109 YOLOv5m CSPDarknet-53 83.2 78.3 86.6 82.7% 21.1 64 Li[18] CSPDarknet-53 84.8 67.1 90.5 80.7% 8.1 - LRAF-Net[28] CSPDarknet-53 - - - 80.5% 18.8 - YOLOX-s CSPDarknet-53 78.8 75.6 90.7 81.7% 8.9 104 Improved model SAT-CSPDarknet 86.6 80.1 90.3 85.6% 11.6 95 表 3 消融实验结果
Table 3 The results of ablation experiment
Models SAT CARAFE Head Person/% Bicycle/% Car/% mAP0.5/% YOLOX-s 78.8 75.6 90.7 81.7 √ 78.6 77.2 91.2 82.3 √ √ 82.1 78.6 91.3 84.0 √ √ √ 86.6 80.1 90.3 85.6 -
[1] 楼哲航, 罗素云. 基于YOLOX和Swin Transformer的车载红外目标检测[J]. 红外技术, 2022, 44(11): 1167-1175. http://hwjs.nvir.cn/cn/article/id/3d31e429-9365-4797-ab65-60e06a4414d8 LOU Zhehang, LUO Suyun. Vehicle infrared target detection based on YOLOX and swin transformer[J]. Infrared Technology, 2022, 44(11): 1167-1175. http://hwjs.nvir.cn/cn/article/id/3d31e429-9365-4797-ab65-60e06a4414d8
[2] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60: 91-110. DOI: 10.1023/B:VISI.0000029664.99615.94
[3] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001, 1: I-I. DOI: 10.1109/CVPR.2001.990517.
[4] Pal M, Foody G M. Feature selection for classification of hyperspectral data by SVM[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(5): 2297-2307. DOI: 10.1109/TGRS.2009.2039484
[5] 杜妮妮, 单凯东, 卫莎莎. LPformer: 基于拉普拉斯金字塔多级Transformer的红外小目标检测[J]. 红外技术, 2023, 45(6): 630-638. http://hwjs.nvir.cn/cn/article/id/ad309416-52b1-456f-b972-42f94c2aa3e1 DU Nini, SHAN Kaidong, WEI Shasha. LPformer: aplacian pyramid multi-level transformer or infrared small target detection[J]. Infrared Technology, 2023, 45(6): 630-638. http://hwjs.nvir.cn/cn/article/id/ad309416-52b1-456f-b972-42f94c2aa3e1
[6] 武连全, 楚宪腾, 杨海涛, 等. 基于改进YOLOX的X射线违禁物品检测[J]. 红外技术, 2023, 45(4): 427-435. http://hwjs.nvir.cn/cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de WU Lianquan, CHU Xianteng, YANG Haitao, et al. X-ray detection of prohibited items based on improved YOLOX[J]. Infrared Technology, 2023, 45(4): 427-435. http://hwjs.nvir.cn/cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de
[7] 苏海锋, 赵岩, 武泽君, 等. 基于改进RetinaNet的电力设备红外目标精细化检测模型[J]. 红外技术, 2021, 43(11): 1104-1111. http://hwjs.nvir.cn/cn/article/id/3233a6a1-cbf0-4110-baa5-2a56e551f092 SU Haifeng, ZHAO Yan, WU Zejun, et al. Refined infrared object detection model for power equipment based on improved RetinaNet[J]. Infrared Technology, 2021, 43(11): 1104-1111. http://hwjs.nvir.cn/cn/article/id/3233a6a1-cbf0-4110-baa5-2a56e551f092
[8] 徐微, 汤俊伟, 张驰. 基于RA-UNet++的肝癌图像分割方法[J/OL]. 软件导刊: 1-6, [2023-06-28]. http://kns.cnki.net/kcms/detail/42.1671.TP.20230625.2233.048.html. XU Wei, TANG Junwei, ZHANG Chi. Image segmentation method of liver cancer based on RA-UNet++ Network[J/OL]. Software Guide: 1-6, [2023-06-28]. http://kns.cnki.net/kcms/detail/42.1671.TP.20230625.2233.048.html
[9] 刘伟光, 孔令军. 一种基于TransUnet的臂丛神经超声图像分割网络[J/OL]. 无线电通信技术: 1-8. [2023-06-28]. http://kns.cnki.net/kcms/detail/13.1099.TN.20230625.1719.020.html. LIU Weiguang, KONG Lingjun. A brachial plexus nerve ultrasonography segmentation network based on TransUnet[J/OL]. Radio Communications Technology: 1-8. [2023-06-28]. http://kns.cnki.net/kcms/detail/13.1099.TN.20230625.1719.020.html
[10] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[11] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[12] REN S Q, HE K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[13] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[14] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517-6525.
[15] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv: 1804.02767, https://arxiv.org/abs/1804.02767.
[16] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer Vision-ECCV Proceedings, 2016: 21-37.
[17] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[18] 李强龙, 周新文, 位梦恩, 等. 基于条形池化和注意力机制的街道场景红外目标检测算法[J/OL]. 计算机工程: 1-13, [2023-05-20]. DOI: 10.19678/j.issn.1000-3428.0065481. LI Qianglong, ZHOU Xinwen, WEI Meng'en, et al. Infrared target detection algorithm based on strip pooling and attention mechanism in street scene[J/OL]. Computer Engineering: 1-13, [2023-05-20]. DOI: 10.19678/j.issn.1000-3428.0065481.
[19] 蒋昕昊, 蔡伟, 杨志勇, 等. 基于YOLO-IDSTD算法的红外弱小目标检测[J]. 红外与激光工程, 2022, 51(3): 502-511. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203045.htm JIANG Xinhao, CAI Wei, YANG Zhiyong, et al. Infrared dim and small target detection based on YOLO-IDSTD algorithm[J]. Infrared and Laser Engineering, 2022, 51(3): 502-511. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203045.htm
[20] 蔡伟, 徐佩伟, 杨志勇, 等. 复杂背景下红外图像弱小目标检测[J]. 应用光学, 2021, 42(4): 643-650. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202104012.htm CAI Wei, XU Peiwei, YANG Zhiyong, et al. Dim-small targets detection of infrared images in complex backgrounds[J]. Journal of Applied Optics, 2021, 42(4): 643-650. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202104012.htm
[21] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J/OL]. Advances in Neural Information Processing Systems, 2017, https://arxiv.org/abs/1706.03762.
[22] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.
[23] GE Zheng, LIU Songtao, WANG Feng, et al. Yolox: exceeding YOLO series in 2021[EB/OL]. (2021-07-06) [2023-09-27]. https://arxiv.org/abs/2107.08430.
[24] WANG J, CHEN K, XU R, et al. Carafe: Content-aware reassembly of features[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 3007-3016.
[25] WANG W, XIE E, LI X, et al. Pyramid vision transformer: a versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 568-578.
[26] XIA Z, PAN X, SONG S, et al. Vision transformer with deformable attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 4794-4803.
[27] 秦鹏, 唐川明, 刘云峰, 等. 基于改进YOLOv3的红外目标检测方法[J]. 计算机工程, 2022, 48(3): 211-219. DOI: 10.19678/j.issn.1000-3428.0060518. QIN Peng, TANG Chuanming, LIU Yunfeng, et al. Infrared target detection method based on improved YOLOv3[J]. Computer Engineering, 2022, 48(3): 211-219. DOI: 10.19678/j.issn.1000-3428.0060518.
[28] FU H, WANG S, DUAN P, et al. LRAF-Net: long-range attention fusion network for visible-infrared object detection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023: 1-14. DOI: 10.1109/TNNLS.2023.3266452.