Spatially Adaptive and Content-Aware Infrared Small Target Detection
-
摘要:
由于红外街道图像中小目标像素较少、颜色特征不丰富,容易导致模型漏检、误检以及检测效果不佳等问题,因此提出了一种基于空间自适应和内容感知的红外小目标检测算法。首先,通过堆叠局部注意力与可变形注意力设计一种基于空间自适应的转换器,以增强对长距离依赖特征的建模能力,捕获到更多空间位置信息。其次,采用内容感知特征重组算子进行特征上采样,实现在大感受野内聚合上下文信息以及利用浅层特征信息来自适应地重组特征。最后增加160×160的高分辨率预测头,将输入特征的像素点映射到更细小的检测区域,进一步改善小目标的检测效果。在FILR数据集上的实验结果表明,改进算法的平均精度均值达到85.6%,相较于YOLOX-s算法提高了3.9%,验证了所提算法在红外小目标检测上的优越性。
Abstract:Owing to the scarcity of pixel values and limited color features in infrared street images, issues such as missed detections, false detections, and poor detection performance are common. To address these problems, a spatially adaptive and content-aware infrared small object detection algorithm is proposed. The key components of this algorithm are as follows. 1) Spatially adaptive transformer: This transformer is designed by stacking local attention and deformable attention mechanisms to enhance the modeling capability of long-range dependency features and capture more spatial positional information. 2) Content-aware reassembly of features (CARAFE) operator: This operator is used for feature upsampling, aggregating contextual information within a large receptive field, and adaptively recombining features using shallow-level information. 3) High-resolution prediction head: A high-resolution prediction head of size 160x160 is added to map the pixels of input features to finer detection regions, further improving the detection performance of small objects. Experimental results on the FLIR dataset demonstrate that the proposed algorithm achieves an average precision mean of 85.6%, representing a 3.9% improvement over the YOLOX-s algorithm. These results validate the superiority of the proposed algorithm in detecting small objects in infrared images.
-
0. 引言
长期工作在恶劣环境下的起重机械,由于服役时间长且长期承受交变载荷,其金属构件极有可能会产生不同程度的损伤[1]。因此,为了确保起重机械服役过程的实用性和安全性,对金属结构早期裂纹的判断和识别是非常必要的。但是在复杂又多变的环境中对金属构件裂纹缺陷接触检测难以实现且检测结果并不准确,而常规无损检测技术检测又存在速度慢、便携度差和检测精度差的缺点,已经无法满足常规试件便携、快速、准确的检测需求,因此对具有非接触、检测速度快的红外热成像检测技术[2]的应用和研究具有重大意义。
关于红外热成像检测技术,Avdelidis N P[3-4]等采用红外热成像技术实现了对航空设备涡轮叶片缺陷的检测,并取得了不错的检测效果。Zou H[5]等将红外热成像检测技术应用于检测电气设备故障,检测结果显示该检测方法的准确率达到了97%以上。哈尔滨工业大学的秦雷等人[6]运用超声热成像检测技术和锁相热成像检测技术,对金属材料表面缺陷进行检测,实现了金属材料试件表面缺陷的检测。沈阳理工大学的胡海林等人[7]基于红外热成像无损检测技术,对金属构件内部缺陷进行检测,结果表明红外热成像无损检测实现了金属构件内部缺陷的定量识别。
脉冲红外热成像技术相比于红外热成像技术具有检测过程不易受噪声干扰的优点[8]。本文结合脉冲红外热成像技术的检测原理,选择了合适的热激励源设备,设计了脉冲红外热成像检测系统并搭建了实验平台;对定制的含有裂纹缺陷的金属试件进行实验,完成了红外图像的采集,对采集的红外图像进行图像处理,并针对传统图像处理算法处理后的图像存在缺陷轮廓边缘模糊的问题,提出一种基于巴特沃斯低通滤波算法的改进算法,即巴特沃斯带通滤波算法,有效地滤除了图像噪声;然后通过阈值分割和边缘检测算子等图像处理算法,实现了金属裂纹缺陷的快速、准确地识别;最后根据平板试件的实际尺寸和轮廓特征图像像素之间的换算关系,得到缺陷面积、长度和宽度的计算数值,实现了裂纹缺陷的定量识别。
1. 脉冲红外热成像技术检测原理
脉冲红外热成像检测是通过施加方波形式的热流主动加热被检试件[9],由传热学理论可知,当被检试件内部或表面存在不连续缺陷时,热量在被检试件内部传递受到阻碍,在缺陷区域产生热量堆积,形成“热区”和“冷区”造成被检试件表面温度分布差异,利用红外热像仪实时捕捉并采集该温度场分布差异[10-11],通过图像预处理、图像滤波、阈值分割和边缘检测等图像处理算法,对采集的红外图像进行处理,实现被检试件内部缺陷可视化。脉冲红外热成像的检测原理如图 1所示。
2. 红外热成像检测系统与试验平台
根据脉冲红外热成像检测原理可知,脉冲红外热成像检测系统应含热源系统、热成像系统和图像采集分析系统。搭建了脉冲红外热成像检测系统如图 2所示。计算机通过数据端口连接热源系统和红外热像仪,控制整个试验进程。热源系统由两个高能卤素灯、时间继电器、可控电源及灯罩组成,其中时间继电器和可控电源用于控制检测系统的加热时间和脉冲能量;灯罩的作用是使高能卤素灯聚光,保护检测人员的眼睛。热成像系统主要由红外热像仪组成,它的作用是实时观测并采集红外图像[12],为后续图像处理算法的研究提供数据。图像采集分析系统主要包括图像预处理,缺陷边缘轮廓提取算法。红外图像的处理是实现缺陷定性分析和定量识别的前提。
根据图 2脉冲红外热成像检测系统的设计思路,选取检测系统中所需要的关键设备搭建了如图 3所示的脉冲红外热成像检测系统的实验平台。
式(1)为任意时刻材料表面的温度表达式:
$$ T\left( {0,\tau } \right) = \frac{q}{{\sqrt {\pi \rho c\mu \tau } }} $$ (1) 式中:T为物体表面温度,℃;q为脉冲强度,W/m2;τ为时间,s;ρ为材料密度,kg/m3;c为比热容,J/(kg⋅℃);μ为导热系数。
分别采用脉冲能量为q=105 W⋅m-2、q=205 W⋅m-2、q=305 W⋅m-2、q=405 W⋅m-2加热被检试件,通过式(1)得出的被检试件表面温度的变化情况如图 4所示。由图 4可知:室温下加热被检试件,当加热时间相同时,脉冲强度越大,被检试件表面温度增加的幅度也越高。因此脉冲能量越高,脉冲热成像检测的成像效果越好。但是考虑到实验室的试验条件,以及随着脉冲能量的增加会导致被检试件表面被烧伤的危险,需根据材料属性选择合适的脉冲能量,达到最佳的检测效果,同时不烧伤被检试件的表面。
根据图 4所示的不同脉冲强度下被检试件表面温度变化情况,在该脉冲红外热成像检测系统实验平台中,热激励源选择了额定电压为220 V、最大额定功率为2000 W的红外镀金管,时间控制器选择了型号为JSS48A、额定电压为220~380 V的正泰数显时间继电器并设置通电时间为60 s,红外热像仪选择了Fluke Ti480型号,该款热像仪具有MultiSharpTM多点对焦功能,可以实现自动对焦,降低错误识温的概率,它的工作波段从7.5~14 μm,图像捕捉频率为60 Hz,生成的红外图像像素为640×480。
本文选择材料被广泛应用于工程机械领域的Q235钢材作为红外热成像检测试验的试验对象,设计试件的尺寸为100 mm×50 mm×5 mm,预制长宽为20 mm×1 mm的微小裂纹,在试验开始前,对被检试件进行表面清洁和喷漆处理来提高被检试件表面的光谱吸收率以及红外发射率。图 5所示为含有裂纹缺陷的Q235钢板试件。
图 6为脉冲红外热成像试验采集的红外图像及三维显示图。由图 6可知,采集的红外图像存在裂纹缺陷边缘轮廓模糊、无端噪点多、灰度范围窄且集中、明暗对比度低、图像分辨率低的问题。为了改善图像的显示效果,需要采用合适的图像处理算法对采集的红外图像进行处理,便于后续裂纹缺陷轮廓的提取和缺陷特征的定量识别[13]。
3. 红外图像处理算法的研究
为了在高噪声的图像中辨别出裂纹缺陷微弱的温度变化信息,需要对采集的红外图像进行图像处理,降低图像噪声,增大图像的明暗对比度,达到改善红外图像视觉效果的目的[14]。因此采用了巴特沃斯带通滤波算法,并和中值滤波、巴特沃斯低通滤波算法对比分析,发现巴特沃斯带通滤波算法的滤波处理效果较好。
3.1 灰度转换
对采集的原始红外图像进行灰度转换,可以有效地减小红外图像占用的内存,进而加快图像的处理速度。如图 7所示为经过灰度变化后的灰度图像、图像直方图,其中灰度直方图表示某一灰度级在整幅图像像素中出现的频率,代表某一灰度级占总像素的比例。由图 7(a)可知经过灰度转换后,裂纹缺陷的形状更清晰和直观,一些无关的噪声信息被弱化了。由图 7(b)可知,灰度图像的灰度级[15]分布在中段,灰度范围窄。灰度变换虽然可以提高图像处理速度,但是裂纹缺陷边缘轮廓模糊的现象依然存在,不利于后续裂纹缺陷边缘轮廓的提取,因此需要引入直方图均衡化使得灰度图像的灰度范围分布均匀。
3.2 直方图均衡化
图 8所示为直方图均衡化后的图像和图像直方图,由图 8(a)所示,均衡化后,图像的背景区域与裂纹区域的对比度被强化,突出了缺陷的边缘轮廓。对比灰度直方图 8(b)和图 7(b)可知,经过直方图均衡化处理后的灰度图像,灰度范围扩展至整个灰度级,有较大的灰度范围。显示效果得到了优化。
3.3 中值滤波
为了能够有效提取裂纹缺陷的轮廓特征和温度信息,需要对图像进行滤波降噪处理。图 9所示为经过中值滤波处理后的图像和图像直方图。由图 9可知,中值滤波不仅扩展了原始灰度图像的灰度级分布范围,解决了图像边缘轮廓模糊的问题;而且还对原始的图像数据进行了压缩,提高了计算机运算处理图像的速度。
3.4 巴特沃斯低通滤波
巴特沃斯低通滤波[16]是一种基于频率域的图像处理算法。其实现过程如图 10所示。
由图 10可知,实现频率域处理的第一步是读取外部输入图像f(x, y),将原始红外图像f(x, y)通过傅里叶变换为F(u, v);第二步将F(u, v)与传递函数H(u, v)卷积,其卷积表达式如式(2)所示;最后通过傅里叶反变换,将频率域的图像变换为空间域的图像即可得到滤波处理之后的图像g(x, y)。
$$ G(u, v)=F(u, v)^{*} H(u, v) $$ (2) 式中:G(u, v)为卷积结果;F(u, v)为输入图像傅里叶变换后的频率谱;H(u, v)为滤波器的传递函数。
由式(2)可知,滤波器传递函数的选择,关乎基于频率域图像滤波算法图像降噪的效果,巴特沃斯低通滤波的传递函数如式(3)所示:
$$ H\left( {u,v} \right) = \frac{1}{{1 + {{\left[ {\frac{{D\left( {u,v} \right)}}{{{D_0}}}} \right]}^{2n}}}} $$ (3) 式中:$ D\left( {u,v} \right) = \sqrt {{u^2} + {v^2}} $;H(u, v)为滤波器的传递函数;D0为截止频率;2n为阶数。
如图 11所示为经过巴特沃斯低通滤波处理后的图像、图像直方图及三维显图。由图 11(a)和图 11(b)可知,巴特沃斯低通滤波可以有效滤除高频噪声,降噪效果较好。由图 11(c)可知,虽然巴特沃斯低通滤波可以有效滤除图像噪声点,但是也造成了缺陷边缘轮廓模糊,不利于后续裂纹缺陷边缘轮廓的提取。针对巴特沃斯低通滤波处理后缺陷边缘轮廓模糊的问题,本文提出一种改进的算法——巴特沃斯带通滤波算法。
3.5 巴特沃斯带通滤波
巴特沃斯带通滤波算法是通过将不同截止频率的巴特沃兹低通滤波和巴特沃兹高通滤波进行串联,综合低通滤波有效滤除图像噪声,高通滤波强化图像边缘轮廓的优点[17],保证有用信号通过,同时滤除图像噪声及其他干扰信息的一种改进算法。巴特沃斯带通滤波算法的实现过程与巴特沃斯低通滤波相似,它们的主要区别在于传递函数的选择不同,巴特沃兹带通滤波算法传递函数的表达式如式(4)所示:
$$ H\left( {u,v} \right) = \frac{1}{{1\left| { + \frac{{D\left( {u,v} \right)}}{{{D_{\text{H}}}}} \wedge \left( {2*n} \right)} \right.}} \times \frac{1}{{1\left| { + \frac{{{D_{\text{L}}}}}{{D\left( {u,v} \right)}} \wedge \left( {2*n} \right)} \right.}} $$ (4) 式中:$ D\left( {u,v} \right) = \sqrt {{u^2} + {v^2}} $;H(u, v)为传递函数;DL为低通滤波的截至频率;DH为高通滤波的截止频率,其中(DL<DH);n为阶数;*为卷积符号。
如图 12所示为经过巴特沃斯带通滤波后的图像、图像直方图及三维显示图。由图 12(a)可知,经过改进过巴特沃兹带通滤波算法处理的图像实现了缺陷区域和背景区域的有效分离。由图 12(b)和12(c)可知,改进的巴特沃兹带通滤波算法可以有效地滤除图像噪声,同时完整保留了裂纹缺陷的边缘轮廓。由以上分析可知,改进的巴特沃兹带通滤波算法可以有效滤除图像噪声、同时增强图像亮区和暗区的对比度,实现了金属裂纹缺陷的快速、准确识别,为后续裂纹缺陷边缘轮廓的提取和缺陷定量识别奠定基础。
3.6 图像预处理结果量化分析
通过图片判断缺陷特征,属于定性分析;为了客观评价图像预处理算法的处理效果,可以采用峰值信噪比进行比较。峰值信噪比是基于对应像素点间的误差,峰值信噪比越大表示失真越小。峰值信噪比(Peak Signal-To-Noise Ratio,PSNR)的定义如式(5)所示:
$$ {\text{PSNR}} = 10 \times \lg \frac{{255 \times 255}}{{{\text{RMS}}{{\text{E}}^2}}} $$ (5) 式中:RMSE为均方根误差:
$$ {\text{RMSE}} = \sqrt {\frac{{\sum\limits_{i = 1}^N {\sum\limits_{j = 2}^M {{{\left[ {R\left( {i,j} \right) - F\left( {i,j} \right)} \right]}^2}} } }}{{M \times N}}} $$ 表 1为4种滤波器的峰值信噪比,由表 1可知,巴特沃斯带通滤波算法的PSNR最大,与定性分析基本吻合。试验结果表明:采用巴特沃斯带通滤波算法对红外图像进行滤波处理,在突出高频分量的同时,仍能保留低频部分,对比度得到明显增强,峰值信噪比变大,图像缺陷判断变得更加容易。
表 1 各种滤波后图像的峰值信噪比Table 1. Peak signal-to-noise ratio of various filtered imagesTest subject Median Filter SNR Butterworth Low Pass Filtering Algorithm SNR Butterworth Bandpass Filtering Algorithm SNR Metal specimens with crack defects 43.3848 38.9708 68.9181 4. 裂纹缺陷特征识别
4.1 Otsu阈值分割
采用最大类间方差法(Otsu)[18]求取的最优阈值,可以减少缺陷区域和背景区域像素点的模糊的现象。如图 13所示为最大类间方差处理的二值图。由图 13可知,裂纹缺陷位于试件正中,形状为细长的矩形条。由此可知最大类间方差法,可以有效地分离图像的缺陷区域和背景区域,实现了快速判断缺陷形状、大小、位置的目的,完成了裂纹缺陷的定性分析,为后续裂纹缺陷边缘轮廓的提取提供奠定基础。
4.2 图像边缘检测
图像边缘检测为裂纹缺陷轮廓的提取和定位做准备,是实现边缘信息可视化最重要的一步[19]。图 14为裂纹缺陷边缘轮廓特征提取的效果图。由图 14可知经过边缘检测算子Canny算子[20]处理后的裂纹缺陷边缘连续且清晰,得到了完整裂纹缺陷的边缘轮廓。
4.3 裂纹缺陷面积定量识别
采用像素法计算裂纹缺陷特征,像素法的公式为:
$$ {S_{\text{d}}}{\text{ = }}\frac{{{S_{\text{a}}}}}{{{S_i}}} \cdot {\text{PI}}{{\text{X}}_{\text{S}}} $$ (6) $$ {L_{\text{d}}}{\text{ = }}\frac{{{L_{\text{a}}}}}{{{L_{\text{i}}}}} \cdot {\text{PI}}{{\text{X}}_{\text{L}}} $$ (7) $$ {D_{\text{d}}}{\text{ = }}\frac{{{D_{\text{a}}}}}{{{D_{\text{i}}}}} \cdot {\text{PI}}{{\text{X}}_{\text{D}}} $$ (8) 式中:Sa、La和Da分别为实际试件的面积、长和宽;Sd、Ld和Dd分别为预埋裂纹缺陷轮廓的面积、长和宽的计算值;Si、Li和Di分别为对应行、列像素求出的相应像素面积、实际试件的长和宽在红外热图像对应的行、列最大像素值;PIXS、PIXL、PIXD分别为预埋裂纹缺陷轮廓特征图像的像素面积、长和宽。
本节选取的红外热图像的图像像素(长×宽)为640 pixel×480 pixel,对应上表面尺寸(长×宽)为55 mm×41.25 mm的Q235钢板试件,预埋长度为20 mm,宽度为1 mm的裂纹缺陷。根据式(6)、(7)和(8),计算得到Q235钢板试件中裂纹缺陷的特征识别参数及其精度计算结果,如表 2所示。
表 2 裂纹缺陷的特征识别参数及其精度Table 2. Identification parameters and accuracy of rack defects featuresParameter category Parameters Parameter value Attributes PIXS/pixel 2692 PIXL/pixel 192 PIXD/pixel 18 Actual parameters of crack defect Actual area/mm2 20 Actual length/mm 20 Actual width/mm 1 Crack defect calculation parameters Area-calculation/mm2 19.88 Length-calculation/mm 16.50 Width-calculation/mm 1.55 Crack defect calculation error Area-calculation error/% 0.60 % Length-calculation error/% 17.50 % Width-calculation error/% 55.00 % 由表 2可知,裂纹缺陷的长度计算误差为17.50%,宽度计算误差为55.00%,而面积测量误差仅为0.6%。其中,裂纹缺陷的长度和宽度误差较大,但裂纹缺陷整体的识别结果较好,与采用中值滤波处理,缺陷面积误差为9.85%相比[21],本文计算缺陷的面积误差为0.6%,表明本文采用的算法处理效果较好,可以实现对大型起重机械结构裂纹的检测需求。
5. 结语
通过搭建的脉冲红外热成像检测系统的试验平台,完成了对定制的含有裂纹缺陷的金属试件的红外图像的采集。针对采集的红外图像含有图像噪声以及其他干扰信息的特点,采用灰度转换和直方图均衡化对试验采集的红外图像进行预处理,使用了中值滤波和巴特沃斯低通滤波算法进行降噪,并提出了一种基于巴特沃斯低通滤波的改进算法——巴特沃斯带通滤波算法,对比发现巴特沃斯带通滤波算法使图像对比度得到明显增强,峰值信噪比变大,图像缺陷判断变得更加容易;采用最大类间方差阈值分割,实现了裂纹缺陷区域和背景区域的分离;采用Canny算子对裂纹缺陷边缘轮廓进行提取,得到了完整的裂纹缺陷的边缘轮廓;最后采用像素法求解裂纹缺陷面积、长度和宽度的数值。计算结果显示,计算面积与实际裂纹缺陷的面积误差仅为0.6%,证明本文采用的算法,实现了对大型起重机械结构裂纹的定性分析和定量检测。
-
表 1 模型训练的超参数
Table 1 Hyperparameters for model training
Training hyperparameters Parameter values Maximum learning rate 1e-2 Minimum learning rate (1e-2)*0.01 Weight attenuation value 5e-4 Epochs 300 Batch-size 4 Freeze training 50 表 2 各实验结果对比
Table 2 Comparison of experimental results
Models Backbone AP50/% mAP50/% Params/M FPS Person Bicycle Car FCOS ResNet50 67.7 52.4 73.6 64.6% 32.1 71 Qin[27] EfficientNet - - - 70.8% - 22 YOLOv5s CSPDarknet-53 79.2 66.1 89.6 78.3% 7.1 109 YOLOv5m CSPDarknet-53 83.2 78.3 86.6 82.7% 21.1 64 Li[18] CSPDarknet-53 84.8 67.1 90.5 80.7% 8.1 - LRAF-Net[28] CSPDarknet-53 - - - 80.5% 18.8 - YOLOX-s CSPDarknet-53 78.8 75.6 90.7 81.7% 8.9 104 Improved model SAT-CSPDarknet 86.6 80.1 90.3 85.6% 11.6 95 表 3 消融实验结果
Table 3 The results of ablation experiment
Models SAT CARAFE Head Person/% Bicycle/% Car/% mAP0.5/% YOLOX-s 78.8 75.6 90.7 81.7 √ 78.6 77.2 91.2 82.3 √ √ 82.1 78.6 91.3 84.0 √ √ √ 86.6 80.1 90.3 85.6 -
[1] 楼哲航, 罗素云. 基于YOLOX和Swin Transformer的车载红外目标检测[J]. 红外技术, 2022, 44(11): 1167-1175. http://hwjs.nvir.cn/cn/article/id/3d31e429-9365-4797-ab65-60e06a4414d8 LOU Zhehang, LUO Suyun. Vehicle infrared target detection based on YOLOX and swin transformer[J]. Infrared Technology, 2022, 44(11): 1167-1175. http://hwjs.nvir.cn/cn/article/id/3d31e429-9365-4797-ab65-60e06a4414d8
[2] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60: 91-110. DOI: 10.1023/B:VISI.0000029664.99615.94
[3] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001, 1: I-I. DOI: 10.1109/CVPR.2001.990517.
[4] Pal M, Foody G M. Feature selection for classification of hyperspectral data by SVM[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(5): 2297-2307. DOI: 10.1109/TGRS.2009.2039484
[5] 杜妮妮, 单凯东, 卫莎莎. LPformer: 基于拉普拉斯金字塔多级Transformer的红外小目标检测[J]. 红外技术, 2023, 45(6): 630-638. http://hwjs.nvir.cn/cn/article/id/ad309416-52b1-456f-b972-42f94c2aa3e1 DU Nini, SHAN Kaidong, WEI Shasha. LPformer: aplacian pyramid multi-level transformer or infrared small target detection[J]. Infrared Technology, 2023, 45(6): 630-638. http://hwjs.nvir.cn/cn/article/id/ad309416-52b1-456f-b972-42f94c2aa3e1
[6] 武连全, 楚宪腾, 杨海涛, 等. 基于改进YOLOX的X射线违禁物品检测[J]. 红外技术, 2023, 45(4): 427-435. http://hwjs.nvir.cn/cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de WU Lianquan, CHU Xianteng, YANG Haitao, et al. X-ray detection of prohibited items based on improved YOLOX[J]. Infrared Technology, 2023, 45(4): 427-435. http://hwjs.nvir.cn/cn/article/id/7e45bcc9-aca9-49c9-8f88-0d8c22e5c7de
[7] 苏海锋, 赵岩, 武泽君, 等. 基于改进RetinaNet的电力设备红外目标精细化检测模型[J]. 红外技术, 2021, 43(11): 1104-1111. http://hwjs.nvir.cn/cn/article/id/3233a6a1-cbf0-4110-baa5-2a56e551f092 SU Haifeng, ZHAO Yan, WU Zejun, et al. Refined infrared object detection model for power equipment based on improved RetinaNet[J]. Infrared Technology, 2021, 43(11): 1104-1111. http://hwjs.nvir.cn/cn/article/id/3233a6a1-cbf0-4110-baa5-2a56e551f092
[8] 徐微, 汤俊伟, 张驰. 基于RA-UNet++的肝癌图像分割方法[J/OL]. 软件导刊: 1-6, [2023-06-28]. http://kns.cnki.net/kcms/detail/42.1671.TP.20230625.2233.048.html. XU Wei, TANG Junwei, ZHANG Chi. Image segmentation method of liver cancer based on RA-UNet++ Network[J/OL]. Software Guide: 1-6, [2023-06-28]. http://kns.cnki.net/kcms/detail/42.1671.TP.20230625.2233.048.html
[9] 刘伟光, 孔令军. 一种基于TransUnet的臂丛神经超声图像分割网络[J/OL]. 无线电通信技术: 1-8. [2023-06-28]. http://kns.cnki.net/kcms/detail/13.1099.TN.20230625.1719.020.html. LIU Weiguang, KONG Lingjun. A brachial plexus nerve ultrasonography segmentation network based on TransUnet[J/OL]. Radio Communications Technology: 1-8. [2023-06-28]. http://kns.cnki.net/kcms/detail/13.1099.TN.20230625.1719.020.html
[10] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[11] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[12] REN S Q, HE K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[13] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[14] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517-6525.
[15] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv: 1804.02767, https://arxiv.org/abs/1804.02767.
[16] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Computer Vision-ECCV Proceedings, 2016: 21-37.
[17] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[18] 李强龙, 周新文, 位梦恩, 等. 基于条形池化和注意力机制的街道场景红外目标检测算法[J/OL]. 计算机工程: 1-13, [2023-05-20]. DOI: 10.19678/j.issn.1000-3428.0065481. LI Qianglong, ZHOU Xinwen, WEI Meng'en, et al. Infrared target detection algorithm based on strip pooling and attention mechanism in street scene[J/OL]. Computer Engineering: 1-13, [2023-05-20]. DOI: 10.19678/j.issn.1000-3428.0065481.
[19] 蒋昕昊, 蔡伟, 杨志勇, 等. 基于YOLO-IDSTD算法的红外弱小目标检测[J]. 红外与激光工程, 2022, 51(3): 502-511. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203045.htm JIANG Xinhao, CAI Wei, YANG Zhiyong, et al. Infrared dim and small target detection based on YOLO-IDSTD algorithm[J]. Infrared and Laser Engineering, 2022, 51(3): 502-511. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203045.htm
[20] 蔡伟, 徐佩伟, 杨志勇, 等. 复杂背景下红外图像弱小目标检测[J]. 应用光学, 2021, 42(4): 643-650. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202104012.htm CAI Wei, XU Peiwei, YANG Zhiyong, et al. Dim-small targets detection of infrared images in complex backgrounds[J]. Journal of Applied Optics, 2021, 42(4): 643-650. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202104012.htm
[21] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J/OL]. Advances in Neural Information Processing Systems, 2017, https://arxiv.org/abs/1706.03762.
[22] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.
[23] GE Zheng, LIU Songtao, WANG Feng, et al. Yolox: exceeding YOLO series in 2021[EB/OL]. (2021-07-06) [2023-09-27]. https://arxiv.org/abs/2107.08430.
[24] WANG J, CHEN K, XU R, et al. Carafe: Content-aware reassembly of features[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 3007-3016.
[25] WANG W, XIE E, LI X, et al. Pyramid vision transformer: a versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 568-578.
[26] XIA Z, PAN X, SONG S, et al. Vision transformer with deformable attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 4794-4803.
[27] 秦鹏, 唐川明, 刘云峰, 等. 基于改进YOLOv3的红外目标检测方法[J]. 计算机工程, 2022, 48(3): 211-219. DOI: 10.19678/j.issn.1000-3428.0060518. QIN Peng, TANG Chuanming, LIU Yunfeng, et al. Infrared target detection method based on improved YOLOv3[J]. Computer Engineering, 2022, 48(3): 211-219. DOI: 10.19678/j.issn.1000-3428.0060518.
[28] FU H, WANG S, DUAN P, et al. LRAF-Net: long-range attention fusion network for visible-infrared object detection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023: 1-14. DOI: 10.1109/TNNLS.2023.3266452.
-
期刊类型引用(3)
1. 张靖,单长吉,周丽,李鑫,朱豪. 基于图像融合的高压隔离开关分合闸状态识别. 红外技术. 2024(05): 539-547 . 本站查看
2. 王林. 特征标记下的蓄热式连续加热炉炉管安全VR检测技术. 工业加热. 2024(07): 76-80 . 百度学术
3. 张强,陈串,付怀智. 起重机械金属结构振动与故障诊断思考. 中国设备工程. 2023(19): 155-157 . 百度学术
其他类型引用(1)