基于目标增强和视觉跟踪的红外运动点目标半自动标注算法

何敏, 回丙伟, 易梦妮, 胡卫东

何敏, 回丙伟, 易梦妮, 胡卫东. 基于目标增强和视觉跟踪的红外运动点目标半自动标注算法[J]. 红外技术, 2022, 44(10): 1073-1081.
引用本文: 何敏, 回丙伟, 易梦妮, 胡卫东. 基于目标增强和视觉跟踪的红外运动点目标半自动标注算法[J]. 红外技术, 2022, 44(10): 1073-1081.
HE Min, HUI Bingwei, YI Mengni, HU Weidong. Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking[J]. Infrared Technology , 2022, 44(10): 1073-1081.
Citation: HE Min, HUI Bingwei, YI Mengni, HU Weidong. Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking[J]. Infrared Technology , 2022, 44(10): 1073-1081.

基于目标增强和视觉跟踪的红外运动点目标半自动标注算法

基金项目: 

ATR重点实验室基金“面向目标检测跟踪识别应用的多源数据集构建”项目 

详细信息
    作者简介:

    何敏(1997-),女,湖南邵阳人,硕士,主要研究方向为红外目标检测。E-mail:douyc2021@163.com

    通讯作者:

    回丙伟(1985-),男,河北衡水人,博士,讲师,主要研究方向为目标识别数据样本工程。E-mail:huibingwei07@nudt.edu.cn

  • 中图分类号: TP391

Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking

  • 摘要: 本文针对红外视频数据标注效率低、标注质量差等问题,提出了一种基于目标增强和视觉跟踪的红外序列图像中运动点目标半自动标注方法。首先对一段连续时间内的红外序列图像进行配准和背景对消以增强目标特征;然后使用视觉跟踪算法对增强后的特征进行高效自动定位;最后通过相位谱重构得到单帧图像的目标显著图,进而确定目标的准确坐标;在自动标注过程中,利用相邻帧标注结果的差异性选择关键帧,可以让标注人员快速定位可能发生错误的图像帧并对其进行手动标注。实验结果表明该算法可以显著降低标注人员的参与度,有效解决数据标注作业中周期长、质量难以保证的问题。
    Abstract: Infrared video data annotation has the problems of low efficiency and poor quality. In this paper, a semi-automatic labeling method for moving point targets in infrared sequence images is proposed based on target enhancement and visual tracking to solve it. First, infrared sequence images in a continuous period of time were registered and fused to enhance the target features. Second, a visual tracking algorithm was utilized to locate the fused features efficiently and automatically. Lastly, a saliency map was obtained through phase spectrum reconstruction, and the exact coordinates of a target were obtained. During automatic annotation, the difference between the annotation results of adjacent frames was used to select key frames, which enabled the annotators to locate the image frames that had errors and manually annotated them quickly. The results of the experiments showed that the algorithm significantly reduced the participation of annotators and effectively solved the problems of long period and poor quality assurance in data annotation.
  • 红外成像技术根据辐射原理得到红外图像,像素亮度表征了物体表面的温度。由于具有隐蔽性好、可全天候工作、可穿透烟雾等优良特性,红外成像技术在军用和民用领域都得到了广泛应用。受制于红外图像的成像机理、成像系统特性和各种外界噪声的影响,红外图像通常具有分辨率低、对比度差和边缘模糊等特点。

    边缘特征在红外图像处理中极为重要,是目标检测、跟踪和识别的基础。为满足人们对红外图像进一步分析和识别的需求,红外图像边缘检测技术体现出了较大难度和重要意义。相比于可见光图像边缘检测,红外图像边缘检测发展较晚,相关研究也较少,且大多都是根据可见光图像边缘检测方法改进而来,而红外图像与可见光图像的边缘检测任务存在很大不同,相比于可见光图像,红外图像的特点主要有:无立体感、空间分辨率低、对比度低和边缘模糊、非均匀性、信噪比低,等等。

    近十年来,一些研究者针对红外图像边缘检测问题提出了解决方法,如基于边缘检测算子改进的方法[1-4]、基于蚁群算法的方法[5-6]、基于数学形态学的方法[7-8],这些方法的本质都是只考虑红外图像局部的急剧变化,尤其是亮度、梯度的变化,以此来检测边缘,但这些低层次特征难以反映较为复杂的场景。因此,虽然这些算法取得了较大的发展,却始终存在一定限制,而打破这一限制的重要方向就是加入高层次的语义信息。

    近年来,随着深度学习技术的快速发展,大量研究[9-14]表明,卷积神经网络(Convolutional Neural Network,CNN)具有强大的分层特征学习能力,并在自然图像边缘检测中超过了人类视觉水平[11-14]。因此,有研究者开始尝试将深度CNN应用到红外图像边缘检测中。文献[15]将改进的HED(Holistically-Nested Edge Detection)[10]网络与匹配滤波对红外图像处理的结果进行融合以提取边缘,但该方法处理较为复杂,没有发挥出深度CNN端到端的优势,且受限于HED网络的性能,检测效果不太理想。

    将深度学习技术应用于红外图像边缘检测也面临着较大的问题。在自然图像边缘检测任务中,我们可以利用多个公开数据集训练和评估模型[16-21],但目前暂时没有可以用于红外图像边缘检测的公开数据集。

    总的来说,相比于自然图像,红外图像的诸多缺点大大增加了边缘检测任务的难度,无数据集可用的现状使得任务更加艰巨。为此,本文提出了一种基于深度学习的红外图像边缘检测算法,在DexiNed[14]的基础上,缩减了网络规模,并在损失函数中引入了图像级的差异,精心设计了函数参数,进而优化了网络性能。此外,还通过调整可见光图像边缘检测数据集来近似模拟红外图像边缘检测数据集,对改进后的模型进行训练,进一步提高了网络对红外图像中边缘信息的提取能力。

    本文主要涉及红外图像边缘检测方法和基于深度学习的图像边缘检测方法,下面分别对其进行简要介绍。

    作为图像边缘检测领域的一个分支,有关红外图像的边缘检测方法研究较少,绝大多数都是基于传统的可见光图像边缘检测技术改进而来,根据图像的低层次特征提取边缘信息。这些方法主要可分为3类:一是基于边缘检测算子改进的方法[1-4],大多是结合各种去噪技术对图像进行预处理,然后采用边缘检测算子提取边缘,最后结合边缘连接等图像后处理技术优化结果,此类方法结构简单、处理速度快,但处理结果往往不符合人眼视觉,较为生硬;二是基于蚁群算法的方法[5-6],通过蚁群搜索最优路径的方式寻找边缘区域,具有较强的鲁棒性、优良的分布式计算和一定的抗干扰能力,然而,受制于蚁群算法本身计算量大、收敛速度慢、易过早陷入局部最优和参数设置带有明显经验性的特点,此类算法在处理效率和自适应性上还有待于后续研究的不断改进;三是基于数学形态学的方法[7-8],需要针对具体问题,精心设计结构元素和运算方法,以在抑噪和检测精度之间达到良好的平衡。

    近年来,CNN得到了快速发展和广泛应用,得益于其强大的特征提取能力,CNN在图像边缘检测领域表现出了优异的性能。图 1对比展示了传统的和基于深度学习的图像边缘检测算法用于红外图像的边缘提取结果。

    图  1  几种图像边缘检测方法提取红外图像边缘的效果对比:(a)红外图像(来源于FLIR红外数据集);(b)Canny算子的边缘检测结果;(c)BDCN[12]的边缘检测结果;(d)本文方法的边缘检测结果
    Figure  1.  Comparison of several image edge detection methods to extract infrared image edge: (a) is an example infrared image from FLIR Thermal Dataset (www.flir.com); (b) is the result of the Canny edge detector; (c) is the result of BDCN[12]; (d) is the result of our method

    DeepEdge[9]提取边缘候选点周围的多个图像块,并将这些图像块输入多尺度CNN以确定其是否为边缘像素。HED[10],即Holistically-Nested Edge Detection,Holistically表示该算法试图训练一个端到端的网络,Nested则强调在生成的输出过程中通过不断地集成和学习得到更精确的边缘预测图的过程。RCF[11](Richer Convolutional Features)提出了一种基于丰富卷积特征的精确边缘检测算法。BDCN[12](Bi-Directional Cascade Network)提出了一种双向级联网络结构,在该结构中,单个层由其特定尺度上的标记边进行监督,而不是直接对不同的层应用相同的监督。LPCB[13](Learning to Predict Crisp Boundaries)提出了一种新的边缘检测方法,该方法能有效地对不平衡数据进行分类,并使网络能够产生清晰的边界。DexiNed[14]可以生成适于人眼视觉的细化边缘图像,并且无需事先训练或微调,就可以在任意边缘检测任务中使用。以上网络几乎都采用VGG[22](Visual Geometry Group)作为其主干。

    本文采用了基于深度学习的红外图像边缘检测方法,选用了目前自然图像边缘检测领域性能最好的网络模型,并在此基础上进行了相应优化,精心构造了损失函数,并制作了近似的红外图像边缘检测数据集以微调网络,进一步提升了神经网络提取红外图像边缘信息的性能。

    选用DexiNed[14]作为红外图像边缘检测网络结构的基础并加以改进。作为目前最先进的边缘检测网络模型之一,文献[14]声称其不需要事先训练和微调就能直接用于任意边缘检测任务。

    DexiNed的结构如图 2所示,它由6个主块组成,每个主块输出特征映射,使用一个上采样块生成中间边缘映射。所有由上采样块产生的边缘映射被连接起来,以馈送网络末端的学习滤波器堆栈,并产生融合的边缘映射。DexiNed具有优异性能的原因主要在于其具有密集的网络层和层与层之间有效的联接。此外,上采样块也起着重要的作用,它由条件叠加子块组成。每个子块有两层,即卷积层和反卷积层。本文也尝试使用其他更为简单的上采样方法,例如双线性采样和depth-to-space(由Tensorflow提供),发现其效果远不如该上采样块。

    图  2  DexiNed网络结构和精简后的网络(位于虚线框中)
    Figure  2.  Network architecture of DexiNed[14] and simplified one(in dotted box)

    然而,DexiNed在拥有良好的性能的同时也牺牲了模型的容量,它包含了35.2M可训练参数,相较于BDCN为16.3M,RCF为14.8M,其规模显得较为庞大。DexiNed网络具有6个主块,其预测结果为6个主块输出结果的融合或平均。在训练和测试时,总是发现其第五和第六个主块的输出结果非常相似。据此猜想,第六个主块输出的有无对最终融合结果的影响并不是决定性的(验证见3.2节)。因此,为精简网络结构、减小网络容量,只保留了5个主块,将参数减少至30.4M,相比于原网络容量缩减了13.6%,改进后的网络结构如图 2的虚线框中所示。

    在其他条件不变的情况下,网络的精简或多或少都会造成其性能的下降。而在训练过程中,损失函数是最为重要的环节之一,因此,本文对DexiNed[14]原有的损失函数进行了改进。

    DexiNed[14]使用的损失函数为加权交叉熵损失(weighted cross-entropy loss),它是每个对应像素对之间的预测和真值的差异的加权总和,主要显示了像素级的差异。为了获得更好的性能,在损失函数中引入了图像级的差异,与LPCB[13]相同,使用Dice系数来度量预测P和真值G之间的差异。

    Dice系数是一种集合相似度的度量函数,通常用于计算两个样本的相似度。采用Dice系数计算的损失为:

    $${L_{\rm{d}}}\left( {P,G} \right) = \frac{{\sum\limits_i^N {p_i^2} {\rm{ + }}\sum\limits_i^N {g_i^2} }}{{2\sum\limits_i^N {{p_i}{g_i}} }}$$ (1)

    式中:pigi分别表示预测P和真值G中的第i个像素值。

    最终的损失函数为交叉熵损失(cross-entropy loss)和Dice损失的结合:

    $$ \mathit{L}(\mathit{P},\mathit{G}) = \mathit{\alpha }{\mathit{L}_\mathit{d}}(\mathit{P},\mathit{G}) + \mathit{\beta }{\mathit{L}_\mathit{c}}(\mathit{P},\mathit{G}) $$ (2)

    式中:${L_{\rm{c}}}\left( {P,G} \right) = - \sum\limits_j^N {\left( {{g_j}\log {p_j} + \left( {1 - {g_j}} \right)\left( {1 - \log {p_j}} \right)} \right)} $。这里没有采用加权交叉熵损失,因为实验表明采用该损失函数未能改善训练效果。

    另外,有一个细节需要说明:在计算交叉熵损失时,将网络第五个主块输出结果的交叉熵损失乘以2,以近似表示叠加原网络第六个主块的交叉熵损失,这样做有效地改善了精简后网络的训练效果(分别训练1个epoch后,相比于去掉第六个主块而不改变损失函数的网络,仅将损失函数中的第五个主块的损失乘以2,就能将loss降低21.4%、accuracy提升2.5%)。

    在前文中,已对红外图像边缘检测的难点进行了分析,红外图像与自然图像存在的显著区别,意味着红外图像边缘检测任务的难度要远大于自然图像。考虑到目前没有公开的红外图像边缘检测数据集,本文认为有必要建立红外图像边缘检测数据集,进一步地训练网络,提升其对于红外图像的边缘提取能力。

    利用现有的自然图像边缘检测数据集,可以在自然图像的基础上模拟相应的红外图像,以此来建立近似的红外图像边缘检测数据集。要想通过自然图像较为准确的模拟红外图像,则必须在原始景物红外辐射分布的基础上,从时间、空间、光谱和辐射量等方面进行[23],这并非本文研究的重点,且实现起来比较复杂。

    针对红外图像的特点,提出了一种较为简单的方法来近似模拟红外成像的视觉效果:首先将自然图像灰度化,然后降低对比度,接着添加高斯噪声,最后得到近似模拟的红外图像,如图 3所示。结合这种方法,基于BIPED[14]数据集建立了近似的红外图像边缘检测数据集。BIPED[14]数据集包含了250幅分辨率为1280×720的户外图像,通过裁剪、旋转、翻转等操作,得到增强后的数据集,再通过图 3方法进行处理,最终得到的模拟红外图像边缘检测数据集中包含72000个模拟红外图像与边缘真值图像对,称该数据集为IR-BIPED。

    图  3  可见光图像转变为模拟红外图像的过程
    Figure  3.  The process of transforming an optical image into a simulated infrared image

    首先,需要知道本文所做的一系列工作,相比于其基础——DexiNed,是否在提取红外图像边缘的效果上获得了提升。

    前文中提到,文献[14]声称DexiNed不需要事先训练和微调就能直接用于任意边缘检测任务。因此,先将[14]中训练好的DexiNed(在BIPED数据集上训练了24个轮次)直接用于红外图像边缘检测,得到结果1。在本文方法中,将改进后的模型加载训练好的DexiNed部分权重后,在IR-BIPED数据集上继续训练3个轮次,测试得到结果2。公平起见,同样将训练好的DexiNed继续在IR-BIPED数据集上微调3个轮次,测试得到结果3。测试结果1~3对比如图 4所示,其中的红外图像来源于FLIR红外数据集。

    图  4  测试结果对比
    Figure  4.  Comparison of test results
    Infrared image Result 1 Result 2 Result 3

    图 4可见,3个结果比较相似,但结果2提取得到的红外图像边缘最为清晰、细节最为丰富。根据结果2,我们能够清楚地分辨各景物,总体来说其视觉效果最好。这里需要强调,本文方法中使用的网络容量较DexiNed缩减了13.6%,这意味着本文方法较DexiNed使用更少的资源,却取得了更好的红外图像边缘检测效果。

    此外,将结果3与结果1对比,可见经过3个轮次的微调后,DexiNed提取的红外图像边缘明显更细,这也反映出IR-BIPED数据集对提升红外图像边缘检测效果起到了一定的作用,下节将进一步研究该数据集的影响。

    下面通过实验来验证本文方法各组成部分的有效性。

    在3.1节中,已经验证本文方法相对于DexiNed[14]的改进既减小了网络容量,又改善了红外图像的边缘检测效果。在本节中,将分别研究网络容量的缩减、损失函数的设计和模拟红外数据集各带来了怎样的影响。

    网络容量的缩减。通过去除DexiNed[14]网络的最后一个主块来精简网络,将网络容量缩减了13.6%。显然,在此过程中损失了部分边缘信息。为了量化容量缩减给边缘检测性能带来的影响,将基础网络(baseline)和精简后的网络(simplified)在相同条件下各自从头开始训练3个轮次,发现两者的边缘检测准确度变化如表 1所示。由此可见,经过3个轮次的训练后,精简后的网络与原网络准确度差别不大,甚至有轻微程度的提升。

    表  1  网络准确度对比1
    Table  1.  Comparison of network accuracy-1
    Baseline Simplified
    epoch 1 0.8991782 0.8991683
    epoch 2 0.8993612 0.8995107
    epoch 3 0.8993013 0.8994964
    下载: 导出CSV 
    | 显示表格

    精心设计的损失函数。网络结构的精简势必会造成部分信息的损失,自然地,我们想到通过改进损失函数来提升性能。在精简后的网络模型中应用3.2节所述的损失函数后,同样将原网络和精简后的网络在相同条件下各自训练3个轮次,发现两者的准确度变化如表 2所示。由此可见,精心设计的损失函数有效地改善了网络的性能,相比于原网络,精简后网络的准确度提高了约2.6%,利用更少资源达到了更好的效果。

    表  2  网络准确度对比2
    Table  2.  Comparison of network accuracy-2
    Baseline Simplified+designed loss
    epoch 1 0.8991875 0.9012373
    epoch 2 0.8991702 0.9105164
    epoch 3 0.8992519 0.9097796
    下载: 导出CSV 
    | 显示表格

    模拟红外图像边缘检测数据集。为了检验模拟红外图像边缘检测数据集——IR-BIPED是否对提升网络提取红外图像边缘的性能有所助益,测试了在IR-BIPED数据集上训练前后的改进网络,图 5展示了测试结果。其中的红外图像来源于OSU红外数据集[24]。该数据集中的红外图像背景对比度低、边缘模糊,选用这些图像进行测试,能够让结果对比更鲜明。由图 5可见,训练后网络的边缘提取结果明显更加清晰,显然,IR-BIPED数据集提升了模型的抗噪性能和对红外图像的适应性。

    图  5  在IR-BIPED数据集上训练前后的网络测试结果对比
    Figure  5.  Network test before and after training on IR-BIPED dataset

    我们选择了文献[3]、[5]、[11]、[12]中的方法与本文方法进行对比,并进行了定性和定量评价。

    前述几种算法的红外图像边缘检测结果如图 6所示,测试红外图像来源于Terravic Motion红外数据集,FLIR红外数据集和OSU红外数据集[24]。由图可见,文献[3]检测出的边缘较细、定位较准确,但受噪声影响较大,整体观感较生硬;文献[5]受噪声影响较小,但检测出的边缘不连续、定位精度低;文献[11]和文献[12]提取的边缘连续、细节较为丰富,但边缘较粗、观感较差,文献[12]的效果优于文献[11];本文方法定位精度高,检出的边缘较细,且具有较好的连续性,细节丰富、清晰,人眼观感良好。总体来说,本文方法的边缘检测效果最好。

    图  6  不同边缘检测方法的结果对比
    Figure  6.  Results of different methods
    Image-1 Image-2 Image-3 Image-4 Infrared image Enhanced Canny[3] Improved ant colony [5] RCF[11] BDCN[12] Our method

    由于缺少用于评价红外图像边缘检测效果的标准数据集,这里采用了SSIM[25]和FSIM[26]两个指标来定量评价红外图像的边缘检测效果。

    SSIM是一种符合人眼视觉系统特性的图像质量客观评判标准,其具体形式为:

    $${\rm{SSIM}}\left( {x,y} \right) = \frac{{\left( {2{\mu _x}{\mu _y} + {C_1}} \right)\left( {2{\sigma _{xy}} + {C_2}} \right)}}{{\left( {\mu _x^2 + \mu _y^2 + {C_1}} \right)\left( {\sigma _x^2 + \sigma _y^2 + {C_2}} \right)}}$$ (3)

    式中:x表示原图;y表示边缘图像;μxμy分别表示对应图像的均值;σxσy分别表示对应图像的方差;σxy表示xy的协方差。SSIM衡量了两幅图像的相似度,其取值范围为[0, 1],其值越大表示边缘检测效果越好。

    FSIM映射特征并测量两个图像之间的相似性。因为人类视觉系统(human visual system,HVS)是基于一些低层次特征来感知图像的,而相位一致性特征(phase congruency, PC)可以很好地刻画局部结构。同时由于PC对于图像的变化具有相对不变性,这有利于提取图像中稳定的特征,但是有时图像的变化确实会影响观感,所以需要使用梯度幅值(gradient magnitude,GM)来弥补。FSIM中使用了PC和GM两个特征互为补充。FSIM的计算较为繁琐,这里不再列出。FSIM值越大表示边缘检测效果越好。

    图 7~10展示了图像1~4边缘检测效果的定量结果。由图可见,仅在图 7中,本文方法的SSIM和FSIM值略低于文献[5]的方法,其余表现均明显优于其他方法。此外,综合来看,文献[11]和文献[12]的表现优于文献[3]和文献[5],这也在一定程度上表明了基于深度学习的方法相对于传统方法的优越性。

    图  7  不同方法在图像1上测试后的定量结果对比
    Figure  7.  Comparison of quantitative results of different methods on image1
    图  8  不同方法在图像2上测试后的定量结果对比
    Figure  8.  Comparison of quantitative results of different methods on image2
    图  9  不同方法在图像3上测试后的定量结果对比
    Figure  9.  Comparison of quantitative results of different methods on image3
    图  10  不同方法在图像4上测试后的定量结果对比
    Figure  10.  Comparison of quantitative results of different methods on image4

    本文研究了现有的各类红外图像边缘检测方法,并分析了红外图像边缘检测的难点和挑战,提出了一种基于深度学习的红外图像边缘检测方法,在DexiNed的基础上,对网络结构和损失函数进行改进,缩减了网络规模、优化了网络性能;此外,还通过调整自然图像边缘检测数据集来近似模拟红外图像边缘检测数据集进行训练,进一步提高了网络对红外图像中边缘信息的提取能力。通过实验,我们验证了本文对于DexiNed所做的一系列改进的有效性,并证明了本文方法相比于其他方法的优越性。

    为将本文方法应用到实际生产和生活中,后续将研究算法的嵌入式实现,提升计算效率,以实现实时的红外图像边缘检测。

  • 图  1   半自动标注流程

    Figure  1.   Semi-automatic annotation flow chart

    图  2   序列图像配准

    Figure  2.   Sequential image registration

    图  3   增强效果对比:(a) 原图;(b) 增强图

    Figure  3.   Contrast between original image and target enhanced image: (a) Original image; (b) Target enhanced image

    图  4   红外点目标的精确定位

    Figure  4.   Precise positioning of infrared point targets

    图  5   典型错误分析:(a)(b)(c)目标运动不连续;(d)(e)(f)强背景噪声干扰

    Figure  5.   Typical error analysis: (a)(b)(c)Discontinuous motion of target; (d)(e)(f) Strong background noise

    图  6   不同场景下的目标增强算法:(a)(d)(g)(j)原图;(b)(e)(h)(k)原图的三维灰度图;(c)(f)(i)(l)增强图的三维灰度图

    Figure  6.   Target enhancement algorithm in different scenarios: (a)(d)(g)(j) original images; (b)(e)(h)(k)3D grayscale image of the original images; (c)(f)(i)(l) 3D grayscale image of target enhanced images

    图  7   跟踪结果对比

    Figure  7.   Comparison of tracking results

    图  8   标注精度与误差对比

    Figure  8.   Annotation accuracy and error comparison

    表  1   数据集的基本信息

    Table  1   General information of dataset

    Data segment Number of frames Average signal-to-noise ratio Scenario description
    Data5 3000 5.45 Remote detection
    Data6 399 5.11 Target from near to far
    Data8 399 6.07 Target from near to far
    Data11 745 2.88 Target from near to far
    Data12 1500 5.20 Target midway maneuver
    Data13 763 1.98 Target from far to near, dim target
    Data15 751 3.42 Target midway maneuver, dim target
    Data17 500 3.32 Target midway maneuver
    Data19 1000 3.84 Target midway maneuver
    Data21 500 0.42 Remote detection
    Data22 500 2.20 Target from near to far
    下载: 导出CSV

    表  2   给出首帧标注信息的标注结果

    Table  2   Annotation results with initialization information

    Data segment Data5 Data6 Data8 Data11 Data12 Data13 Data15 Data17 Data19 Data21 Data22
    NE 3000 399 399 745 1500 763 751 500 1000 500 500
    NMA 1 1 1 1 1 1 1 1 1 1 1
    Accuracy 98.3% 97.8% 97.4% 97.3% 98.2% 94.5% 92.3% 99.2% 99% 97.4% 100%
    下载: 导出CSV

    表  3   半自动标注结果

    Table  3   Semi-automatic annotation results

    Data segment Data5 Data6 Data8 Data11 Data12 Data13 Data15 Data17 Data19 Data21 Data22
    NE 48 8 11 20 27 42 56 4 10 13 0
    NK 64 14 11 17 37 37 78 10 10 13 2
    NCK 39 5 8 7 19 24 51 2 6 8 0
    Accuracy 99.6% 99.2% 99.2% 98.2% 99.5% 97.6% 99.3% 99.6% 99.6% 99% 100%
    下载: 导出CSV
  • [1]

    Yuen J, Russell B, Liu C, et al. Labelme video: building a video database with human annotations[C]// 12th International Conference on Computer Vision(ICCV), IEEE, 2009: 1451-1458.

    [2]

    Lee J H, Lee K S, Jo G S. Representation method of the moving object trajectories by interpolation with dynamic sampling[C]//2013 International Conference on Information Science and Applications (ICISA), IEEE, 2013: 1-4.

    [3]

    Gil-Jiménez P, Gómez-Moreno H, López-Sastre R, et al. Geometric bounding box interpolation: an alternative for efficient video annotation[J]. EURASIP Journal on Image and Video Processing, 2016, 2016(1): 1-13. DOI: 10.1186/s13640-015-0097-y

    [4]

    Vondrick C, Patterson D, Ramanan D. Efficiently scaling up crowdsourced video annotation[J]. International Journal of Computer Vision, 2013, 101(1): 184-204. DOI: 10.1007/s11263-012-0564-1

    [5]

    Vondrick C, Ramanan D. Video annotation and tracking with active learning[J]. Advances in Neural Information Processing Systems, 2011, 24: 28-36.

    [6]

    Buchanan A, Fitzgibbon A. Interactive feature tracking using K-D trees and dynamic programming[C]// IEEE Conference on Computer Vision & Pattern Recognition (CVPR), IEEE, 2006: 626-633.

    [7]

    Agarwala A, Hertzmann A, Salesin D H, et al. Key frame-based tracking for rotoscoping and animation[J]. ACM Transactions on Graphics, 2004, 23(3): 584-591. DOI: 10.1145/1015706.1015764

    [8]

    Biresaw T A, Nawaz T, Ferryman J, et al. Vitbat: video tracking and behavior annotation tool[C]//13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), IEEE, 2016: 295-301.

    [9]

    Bakliwal P, Hegde G M, Jawahar C V. Collaborative Contributions for Better Annotations[C]//The International Conference on Computer Vision Theory and Applications(VISAPP), Scite Press, 2017: 353-360.

    [10]

    CHEN B, LING H, ZENG X, et al. Scribblebox: interactive annotation framework for video object segmentation[C]//European Conference on Computer Vision (ECCV), Berlin Springer, 2020: 293-310.

    [11]

    Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI: 10.1023/B:VISI.0000029664.99615.94

    [12]

    Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(3): 583-596.

    [13]

    WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//The IEEE Conference on Computer Vision and Pattern Recognition(CVPR), New York: IEEE, 2017: 4021-4029.

    [14] 回丙伟, 宋志勇, 范红旗, 等. 地/空背景下红外图像弱小飞机目标检测跟踪数据集[J]. 中国科学数据, 2020, 5(3): 286-297. https://www.cnki.com.cn/Article/CJFDTOTAL-KXGZ202003030.htm

    HUI Bingwei, SONG Zhiyong, FAN Hongqi, et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]. China Sci. Data, 2020, 5(3): 286-297. https://www.cnki.com.cn/Article/CJFDTOTAL-KXGZ202003030.htm

  • 期刊类型引用(9)

    1. 田文豪,汪繁荣,乔一航. 基于VMF-UNet的液基细胞制染机缺陷图像分割. 现代电子技术. 2025(05): 36-42 . 百度学术
    2. 郑铁华,王飞,赵格兰,杜春晖. 基于单分类支持向量机的煤矿防爆电气设备振动故障自动检测. 工矿自动化. 2025(02): 106-112 . 百度学术
    3. 刘慧慧,裴庆庆. 改进U-Net网络的多视觉图像特征张量分割仿真. 计算机仿真. 2024(03): 237-241 . 百度学术
    4. 于晓,姜晨慧. 基于深度学习的重叠红外刑侦目标提取算法研究. 黑龙江工业学院学报(综合版). 2024(02): 85-93 . 百度学术
    5. 林颖,张峰达,李壮壮,郑文杰,戈宁. 基于大模型的红外图像电力设备交互式分割. 网络新媒体技术. 2024(02): 53-60+67 . 百度学术
    6. 张宇,袁小翠,许志浩,康兵. 复杂背景下断路器红外图形精确分割方法. 江西电力. 2024(03): 1-7 . 百度学术
    7. 严如强,周峥,杨远贵,李亚松,胡晨烨,陶治宇,赵志斌,王诗彬,陈雪峰. 可解释人工智能在工业智能诊断中的挑战和机遇:归因解释. 机械工程学报. 2024(12): 21-40 . 百度学术
    8. 龚律凯,彭伊丽,陈绪兵,韩桂荣,李慧怡. 基于改进U-Net算法的焊缝特征识别研究. 现代制造工程. 2024(11): 18-25 . 百度学术
    9. 林颖,张峰达,李壮壮,孙艺玮,于文牮. 基于交互式分割的电力设备红外图像自动标注方法. 山东电力技术. 2023(12): 20-25+44 . 百度学术

    其他类型引用(10)

图(8)  /  表(3)
计量
  • 文章访问数:  128
  • HTML全文浏览量:  40
  • PDF下载量:  33
  • 被引次数: 19
出版历程
  • 收稿日期:  2021-10-10
  • 修回日期:  2021-12-07
  • 刊出日期:  2022-10-19

目录

/

返回文章
返回