Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking
-
摘要: 本文针对红外视频数据标注效率低、标注质量差等问题,提出了一种基于目标增强和视觉跟踪的红外序列图像中运动点目标半自动标注方法。首先对一段连续时间内的红外序列图像进行配准和背景对消以增强目标特征;然后使用视觉跟踪算法对增强后的特征进行高效自动定位;最后通过相位谱重构得到单帧图像的目标显著图,进而确定目标的准确坐标;在自动标注过程中,利用相邻帧标注结果的差异性选择关键帧,可以让标注人员快速定位可能发生错误的图像帧并对其进行手动标注。实验结果表明该算法可以显著降低标注人员的参与度,有效解决数据标注作业中周期长、质量难以保证的问题。Abstract: Infrared video data annotation has the problems of low efficiency and poor quality. In this paper, a semi-automatic labeling method for moving point targets in infrared sequence images is proposed based on target enhancement and visual tracking to solve it. First, infrared sequence images in a continuous period of time were registered and fused to enhance the target features. Second, a visual tracking algorithm was utilized to locate the fused features efficiently and automatically. Lastly, a saliency map was obtained through phase spectrum reconstruction, and the exact coordinates of a target were obtained. During automatic annotation, the difference between the annotation results of adjacent frames was used to select key frames, which enabled the annotators to locate the image frames that had errors and manually annotated them quickly. The results of the experiments showed that the algorithm significantly reduced the participation of annotators and effectively solved the problems of long period and poor quality assurance in data annotation.
-
0. 引言
直液式走珠笔是一种借鉴了钢笔结构的走珠笔,与传统的走珠笔相比,墨水流动性更好,其墨水的性质与钢笔相似,比中性笔的墨水更稀,目前成为了市场上主流书写工具。因此建立直液式走珠笔的油墨种类鉴别方法对于司法鉴定工作具有重大意义。书写墨水的种属鉴定一直是法庭科学领域的研究重点,不仅可以为文件真伪鉴定提供依据[1],还能缩小侦查范围[2],成为认定案件事实的证据。目前国内法庭科学领域区分直液式走珠笔这种新型笔种墨水的文献较少[3],而传统检验笔墨水成分的方法有光学检验法、色谱法、质谱法[4]、光谱法等方法[5]。其中质谱法[6]、色谱法、溶解法均属于有损检验,不符合当今无损检验的主流,破坏了检材案发时的完整性,而光谱法具有快速、无损检验的特点,广泛应用于墨水检验中[3]。
国内外学者针对墨水检验展开了许多实验研究,证实了傅里叶变换红外光谱法结合主成分分析可以检验墨水[7-9],也有学者尝试将化学计量学[10-14]等技术应用于墨水、纸张等物证的检验,然而这些检验方法较为依赖样本标签,大多根据人为预设标签构建模型对样品进行大致分类,且缺少了评估分类变量对模型的贡献程度,难以做到客观、准确地检验墨水。目前K-均值聚类与组均值均等检验具有较好的稳定性,已被用于药物、细菌的检验,并且得到了较好的结果[15-16]。因此本文尝试结合光谱数据与K-均值聚类预先得出分类标签,采集市面上常见的20个直液式走珠笔样品,利用傅里叶变换红外光谱仪对样品进行检验并获得红外光谱谱图[8],采取自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑3种方法对谱图做预处理后,通过误差平方和指标(sum of the squares errors,SSE)确定最优K取值,对样品进行K-均值聚类得到样品的初步聚类结果,将聚类结果作为分类标签,采用主成分分析[10]对原始数据降维,对样品进行分类,利用组均值均等检验考察主成分降维后的变量对Fisher判别模型的贡献程度,根据考察结果选取判别函数建立Fisher判别模型,从而为直液式走珠笔油墨的快速鉴定提供一种新的方式。
1. 理论基础
1.1 傅里叶变换红外光谱
傅里叶变换红外光谱(Fourier transform infrared spectroscopy, FTIR)是一种通过数学处理将傅里叶变换,结合计算机与红外光谱技术的分析方法。傅里叶红外光谱法首先测量目标干涉图,通过对该图进行傅里叶变换获得对应的红外光谱数据,是一种无损、快速检验样品成分的方法[17]。
1.2 组内误差平方和
组内误差平方和代表数据误差大小的偏差平方和。随着聚类的类别K值增加,样品会被归类到更加精细的簇中,SSE会随之减少,期间SSE的下降幅度会骤减形成一个拐点,然后随着K值的继续增大而趋于平缓,该拐点就是聚类类别K值的最优取值。
1.3 K-均值聚类
K-均值聚类是一种划分样本为K个集合的聚类算法,是无监督学习类型的算法,通过迭代找到最佳聚类个数的一种划分方案,使得用K个聚类的均值来表示相应各类样本时所得到的总体误差最小,所以K均值聚类是以最小误差平方和为划分集合依据的聚类算法。其原理是根据预先设定的K值,将K个样本作为聚类的K个聚类中心,计算所得其余样品和每个聚类中心的欧几里距离,将其余样品分配给距离最近的聚类中心,通过多次迭代达到最优结果。
1.4 主成分分析
主成分分析(principal components analysis, PCA)是一种降低光谱数据特征维度的方法,通过线性变换把原始数据从原始坐标系统变换到一个新坐标系统中,从而达到降低原始数据特征维度,同时获得对原始数据信息方差贡献最大的特征。可通过主成分分析提取样品光谱数据的最大主成分,进一步构建2维主成分得分图,验证K-均值聚类结果的准确性。
1.5 组均值均等检验
组均值均等检验的目的是评价分组变量对分组模型贡献程度,将分组变量作为因子得出每个自变量的单因素ANOVA(analysis of variance)分析结果,根据分析结果得出对分组模型贡献程度较高的变量,之后用该变量构建Fisher判别模型。
1.6 判别分析
判别分析是在样本分类确定的前提下,按照未知样品特征所反映的信息判别其类别归属的一种统计分析法。按照相应的规则,构建一至多个判别函数,根据已有样品的大量数据信息计算待定系数从而确定判别函数,计算判别指标,进而推断未知样品的归属[18]。
2. 实验部分
2.1 实验仪器及条件
实验仪器为NICOLET5700傅里叶变换红外光谱仪,分辨率4 cm-1,扫描次数16次,扫描面积为100 μm×100 μm,扫描范围4000~400 cm-1。
2.2 实验样品
从各地收集不同品牌、不同型号样本共20个,均为黑色墨水,其中样品1~样品10为白雪品牌,样品11~样品13为晨光品牌,样品14~样品20为百乐品牌。
2.3 实验方法
用收集到的直液式走珠笔油墨样品制作检材,在上述实验条件下进行检测,为了保证数据的可复现性,每份检测均检测3次,以确保实验结果的可靠性[19]。光谱数据中存在大量冗余信息,会影响后续化学计量学方法的使用,因此采用The Unscrambler X 10.4(挪威CAMO公司)对光谱信号进行自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑处理[20]。下面将通过化学计量学对样品光谱数据进行分析[21]。
3. 结果与分析
3.1 K-均值聚类
K的取值很大程度上决定了K-均值聚类的准确性,故引入手肘法(elbow method)确定K的最优取值,手肘法的核心指标是SSE,如式(1)所示:
$$ SSE = {\sum\nolimits_{i = 1}^k {\sum\nolimits_{p \in {C_i}} {\left| {p - {m_i}} \right|} } ^2} $$ (1) 式中:Ci是第i个簇;p是Ci中的样本点;mi是Ci的质心(Ci中所有样本的均值);SSE是所有样本的聚类误差,SSE值越小代表聚类效果越好。
聚类数K值的增大会使得样本相应簇的划分更加精准,SSE会逐渐变小。因此K从小到大逐渐增加的过程中,SSE会逐渐变小,期间K会存在一个真实聚类数的临界点,当K值从临界点左侧增加到真实聚类数时,SSE会发生迅速地下降,然后随着K逐渐增大趋于平缓。SSE和K关系图会有一个拐点,该拐点对应的K值就是数据的真实聚类数。从图 1可知,K从1~3时下降得很快,当K取值≥3后,曲线下降逐渐趋于平缓,所以最佳聚类个数为3。
当K=3时,对样品进行K-均值聚类,聚类结果图如图 2所示。
由图 2可得,当K=3时,所有样品在二维平面被显著地分为了3类,且各类样品在红外谱图中存在明显的区别,表现为:第一类样品(7#)中存在CS伸缩振动,CH面内弯曲振动以及C=C伸缩振动,出峰位置分别为1172 cm-1,1388 cm-1以及1577 cm-1;第二类样品(13#)中存在972 cm-1的CH的变形振动,以及1353 cm-1和1470 cm-1的CH的面内弯曲振动;第三类样品(18#)中存在1461 cm-1的CH的面内弯曲振动,结果如表 1和图 3所示。为了验证K-均值聚类这一无监督学习的准确性,根据聚类结果划分样品的类别,采用主成分分析将各个类别的样品投影到二维平面进行验证。
表 1 样品聚类结果Table 1. Clustering results of samplesClassification Sample number 1
21#、2#、3#、4#、5#、6#、7#、8#、9#、10#
11#、12#、13#3 14#、15#、16#、17#、18#、19#、20# 3.2 主成分分析
主成分分析是一种无监督学习的方法,通过将原始多维数据投影到新坐标系统重新组合成一组新的线性无关数据来代替原始数据,同时尽可能地反映原始数据特征信息[21]。PCA共提取了6个PC,图 4显示了不同PC的方差贡献率及累计贡献率,其中PC1方差贡献率最大,为80.466%,前6个PC的累计方差贡献率为98.556%,包含了原始数据的绝大多数信息。以PC1、PC2和PC3绘制PCA的2维主成分得分图,如图 5所示,样本基于其在PC1、PC2、PC3上的得分被分为了3类,组内距离较小,组间距离较大,验证了K-均值聚类的聚类结果。考虑到实际中需要预测未知样本,本文采用Fisher判别分别建立3类样品的预测模型。
3.3 组均值均等检验
为了实现对未知样品的预测,构建Fisher判别模型前,使用组均值均等检验考察分组变量对分组模型贡献程度。组间均方与组内均方的比值为F统计量,两个自由度分别为自由度1(df1)和自由度2(df2),分别表示残差平方和自由度和回归平方和自由度,自由度1为分子,自由度2为分母,两个自由度用来得到观测显著性(Sig值)。显著性(Sig)和Wilks’lambda是评价分组变量的标准。Sig值表示区分不同组别的能力,如果Sig值较小(Sig < 0.10)则表明组间差异较为显著,如果Sig值较大(Sig>0.10)则表示组间差异不显著。PC1的Sig值为0.000,表面PC1在各组间的差异不显著。组内平方和与总平方和的比值为Wilks’lambda,值的范围在0~1之间,值越小表示组内有很大差异,值接近1表示没有组内差异。根据K-均值聚类结果划分样品类别,用组均值均等性检验,结果如表 2所示,PC3~PC6的Wilks’Lambda均大于0.97,表明这4个变量组内差异很小,对模型影响不显著,且sig值均大于0.10,表明这四者不能充分解释各样本的分类情况。PC1和PC2的Wilks’Lambda均接近0,表明这两个变量对判别模型影响的显著性极高,且Sig值均为0,可表明这两个变量可以很好地解释各样本的分组信息。因此选取前两个变量构建Fisher判别模型。
表 2 各组平均值的均等性检验Table 2. Equality verification of the average value of each groupVariable Wilks Lambda F df1 df2 Sig PC1 0.108 69.946 2 17 0.000 PC2 0.061 131.335 2 17 0.000 PC3 0.974 0.223 2 17 0.802 PC4 0.975 0.217 2 17 0.807 PC5 0.988 0.106 2 17 0.900 PC6 0.998 0.021 2 17 0.980 3.4 Fisher判别模型
在构建Fisher判别模型中使用前两个典则判别函数F1和F2,其中F1=-0.028PC1-24.94PC2-10.932,F2=34.764PC1-39.654PC2-48.976。表 3为Fisher判别函数摘要,判别函数1(F1)的方差贡献率为81.0%,判别函数2(F2)的方差贡献率为19.0%,两者累计方差贡献率达到了100%,表明这两个函数能完全反映样品光谱特征中的信息。F1和F2的相关性大于0.95,表明不同样本类别与F1和F2的相关性很强。观察到F1和F2在函数检验(Function test)中的Wilks’Lambda数值分别为0.002和0.083,均接近0,表明这两个判别函数对模型影响的显著性很高,Sig值均为0,表明这两个判别函数对变量的可解释度很高,具有充分解释样本分类的能力,综上选用F1和F2这两个函数作为判别函数,构建Fisher判别模型进行分类,用留一法(Leave-One-Out Cross Validation)作为验证模型的方法。选择函数1(F1)和函数2(F2)绘制判别函数联合分布图,如图 6所示。由图 6和表 4的结果可得,该判别模型对3类样本实现了正确率100%的分类,同时经过留一法验证后模型正确率仍为100%。如果需要区分未知样品,只需将该样品相应的红外光谱数据输入模型,判别函数联合分布图中就会显示出该未知样品位置及与其相距最近的分组质心,从而推断出未知样品属于哪一类别。
表 3 Fisher判别函数摘要Table 3. Summary of Fisher's discriminant functionsFunction Variance contribution% Cumulative contribution% Correlation Function test Wilks’Lambda Sig F1 81.0 81.0 0.990 1 to 2 0.002 0.000 F2 19.0 100.0 0.958 2 0.083 0.000 表 4 分类结果Table 4. Classification resultsCategories Predicted 1 2 3
Observed1 10(10) 0 0 2 0 3(3) 0 3 0 0 7(7) 4. 结论
本文借助了傅里叶变换红外光谱仪对20种直液式走珠笔墨水成分及含量进行了快速无损检验,建立了一种鉴别直液式走珠笔墨水类别的方法。首先对样品的傅里叶变换红外光谱数据进行自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑3种预处理方法。采取组内误差平方和指标得出K-均值聚类的最优K取值,对样品进行K-均值聚类,实现了对直液式走珠笔墨水样品初步分类。对各类样品K-均值聚类结果进行主成分分析,绘制主成分二维得分图使各类样品之间的关系更加明确,同时验证了K-均值聚类结果的准确性。使用组均值均等检验评价PCA降维后的分组变量对FDA模型的贡献程度,得到两个具有较高贡献程度的判别函数,用该判别函数构建Fisher判别模型对3类样本进行分类识别,3类样品均被正确地分类为实际对应的3种品牌,分类正确率达到100%,交叉验证后预测正确率为100%。可通过该模型对案件涉及的未知直液式走珠笔墨水物证进行快速分类,为司法检验鉴定提供帮助。
-
表 1 数据集的基本信息
Table 1 General information of dataset
Data segment Number of frames Average signal-to-noise ratio Scenario description Data5 3000 5.45 Remote detection Data6 399 5.11 Target from near to far Data8 399 6.07 Target from near to far Data11 745 2.88 Target from near to far Data12 1500 5.20 Target midway maneuver Data13 763 1.98 Target from far to near, dim target Data15 751 3.42 Target midway maneuver, dim target Data17 500 3.32 Target midway maneuver Data19 1000 3.84 Target midway maneuver Data21 500 0.42 Remote detection Data22 500 2.20 Target from near to far 表 2 给出首帧标注信息的标注结果
Table 2 Annotation results with initialization information
Data segment Data5 Data6 Data8 Data11 Data12 Data13 Data15 Data17 Data19 Data21 Data22 NE 3000 399 399 745 1500 763 751 500 1000 500 500 NMA 1 1 1 1 1 1 1 1 1 1 1 Accuracy 98.3% 97.8% 97.4% 97.3% 98.2% 94.5% 92.3% 99.2% 99% 97.4% 100% 表 3 半自动标注结果
Table 3 Semi-automatic annotation results
Data segment Data5 Data6 Data8 Data11 Data12 Data13 Data15 Data17 Data19 Data21 Data22 NE 48 8 11 20 27 42 56 4 10 13 0 NK 64 14 11 17 37 37 78 10 10 13 2 NCK 39 5 8 7 19 24 51 2 6 8 0 Accuracy 99.6% 99.2% 99.2% 98.2% 99.5% 97.6% 99.3% 99.6% 99.6% 99% 100% -
[1] Yuen J, Russell B, Liu C, et al. Labelme video: building a video database with human annotations[C]// 12th International Conference on Computer Vision(ICCV), IEEE, 2009: 1451-1458.
[2] Lee J H, Lee K S, Jo G S. Representation method of the moving object trajectories by interpolation with dynamic sampling[C]//2013 International Conference on Information Science and Applications (ICISA), IEEE, 2013: 1-4.
[3] Gil-Jiménez P, Gómez-Moreno H, López-Sastre R, et al. Geometric bounding box interpolation: an alternative for efficient video annotation[J]. EURASIP Journal on Image and Video Processing, 2016, 2016(1): 1-13. DOI: 10.1186/s13640-015-0097-y
[4] Vondrick C, Patterson D, Ramanan D. Efficiently scaling up crowdsourced video annotation[J]. International Journal of Computer Vision, 2013, 101(1): 184-204. DOI: 10.1007/s11263-012-0564-1
[5] Vondrick C, Ramanan D. Video annotation and tracking with active learning[J]. Advances in Neural Information Processing Systems, 2011, 24: 28-36.
[6] Buchanan A, Fitzgibbon A. Interactive feature tracking using K-D trees and dynamic programming[C]// IEEE Conference on Computer Vision & Pattern Recognition (CVPR), IEEE, 2006: 626-633.
[7] Agarwala A, Hertzmann A, Salesin D H, et al. Key frame-based tracking for rotoscoping and animation[J]. ACM Transactions on Graphics, 2004, 23(3): 584-591. DOI: 10.1145/1015706.1015764
[8] Biresaw T A, Nawaz T, Ferryman J, et al. Vitbat: video tracking and behavior annotation tool[C]//13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), IEEE, 2016: 295-301.
[9] Bakliwal P, Hegde G M, Jawahar C V. Collaborative Contributions for Better Annotations[C]//The International Conference on Computer Vision Theory and Applications(VISAPP), Scite Press, 2017: 353-360.
[10] CHEN B, LING H, ZENG X, et al. Scribblebox: interactive annotation framework for video object segmentation[C]//European Conference on Computer Vision (ECCV), Berlin Springer, 2020: 293-310.
[11] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI: 10.1023/B:VISI.0000029664.99615.94
[12] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(3): 583-596.
[13] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//The IEEE Conference on Computer Vision and Pattern Recognition(CVPR), New York: IEEE, 2017: 4021-4029.
[14] 回丙伟, 宋志勇, 范红旗, 等. 地/空背景下红外图像弱小飞机目标检测跟踪数据集[J]. 中国科学数据, 2020, 5(3): 286-297. https://www.cnki.com.cn/Article/CJFDTOTAL-KXGZ202003030.htm HUI Bingwei, SONG Zhiyong, FAN Hongqi, et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]. China Sci. Data, 2020, 5(3): 286-297. https://www.cnki.com.cn/Article/CJFDTOTAL-KXGZ202003030.htm
-
期刊类型引用(1)
1. 焦晓杰. 基于时空域滤波的雾天舰船图像视觉传达方法. 舰船科学技术. 2023(03): 173-176 . 百度学术
其他类型引用(2)