Anti-Occlusion Infrared Target Tracking AlgorithmBased on Fusion of Discriminant and Fine-Grained Features
-
摘要: 针对现有热红外目标跟踪算法难以处理相似物干扰和目标遮挡的问题,引入MMNet(Multi-task Matching Network)算法中的多任务框架获取热红外目标特定的判别性特征和细粒度特征,并将这两种特征相互融合,用于在类间和类内识别热红外对象。此外,利用峰值旁瓣比动态设置模型更新参数以更高效地获取目标变化信息并对跟踪结果进行评估。对于不可靠跟踪结果利用卡尔曼滤波对目标位置进行预测。在LSOTB-TIR(Large-Scale Thermal Infrared Object Tracking Benchmark)红外数据集上的实验结果表明,提出的改进算法性能较好,相比MMNet跟踪精确度和成功率分别提高了5.7%和4.2%,且能有效应对遮挡、变形等挑战,可以应用于红外目标跟踪领域。Abstract: Considering the problem in which the existing thermal infrared target tracking algorithms have difficulty dealing with similar object interference and target occlusion, the multi-task framework in the MMNet algorithm is introduced to obtain the specific discriminant features and fine-grained features of thermal infrared targets, which are fused to identify thermal infrared objects between and within classes. In addition, the peak side-lobe ratio is adopted to dynamically set the model update parameters and obtain the target change information more efficiently, in addition to evaluating the tracking results. For unreliable tracking results, a Kalman filter was unutilized to predict the target. The experimental results on the LSOTB-TIR dataset demonstrated that the performance of the improved algorithm was optimal. Compared with MMNet, the tracking accuracy and success rate were improved by 5.7% and 4.2%, respectively. It can effectively address the challenges of occlusion and deformation and can also be applied to the field of infrared target tracking.
-
0. 引言
热红外(Thermal Infrared,TIR)目标跟踪技术是人工智能领域的一项关键技术,它可以在黑暗环境中跟踪目标,因此被广泛应用于海上救援、视频监控和军事侦察等领域[1]。尽管热红外目标跟踪技术取得了很大进展,但仍面临一些挑战性问题,如背景干扰、遮挡和热交叉等。卷积神经网络(Convolutional Neural Networks, CNN)在视觉跟踪方面取得了巨大成功,受此启发,不少学者尝试使用CNN来提高红外跟踪器的性能。按照利用深度特征的方式主要分为基于预训练深度特征的热红外跟踪与基于离线训练特征的匹配式热红外目标跟踪。近年来出现的如DSST-TIR(Discriminative Scale Space Tracker for Thermal Infrared Tracking)[2]、MCFTS(Multi-Layer Convolutional Features for Thermal Infrared Tracking)[3]和LMSCO(Large Margin Structured Convolution Operator)[4]等跟踪算法都属于第一类,它们均使用预先训练的分类网络来提取深度特征,然后将其集成到传统跟踪器中进行跟踪。尽管该类算法取得了不错的跟踪结果,但它们的性能受到预先训练的深度特征的限制,而这些深度特征是从可见光图像集中学习到的,在表示红外对象时效率较低。基于匹配的红外跟踪方法,如HSSNet(Hierarchical Spatial-Aware Siamese Network)[5]和MLSSNet(Multi-Level Similarity Network)[6]及李畅[7]等人提出的红外目标跟踪算法,通过训练与目标跟踪任务相匹配的特征进行在线跟踪。这类方法因其高效、简单的特点而受到广泛关注。然而,它们也存在一些问题。首先,它们不学习如何分离属于不同类别的样本,即学习到的特征对所有语义对象都很敏感。其次,在存在相似干扰物的红外场景中,缺少分辨目标和背景的细粒度的信息。
为了解决上述问题,Liu[8]等人提出了一个包含热红外判别特征和细粒度关联特征的热红外对象表示特征模型MMNet。MMNet包含一个分类网络和一个细粒度感知网络,分别生成热红外对象特有的判别性特征和细粒度关联特征。此外,还设计了一个多任务匹配框架来有效地集成这两个特征。
然而MMNet以固定系数在线更新目标模型,并且没有遮挡处理机制,在一些挑战性环境下跟踪成功率不高。本文提出以峰值旁瓣比为基准动态设置目标模型更新系数,在跟踪可靠性较高时可以更快学习,在受到遮挡等挑战时可以有效避免模型被污染,同时利用卡尔曼滤波对目标位置进行预测,有效解决了上述问题,进一步提高了红外目标跟踪的准确性。
1. 相关工作
1.1 MMNet跟踪框架
Liu等人在AAAI2020会议上提出了一个多任务框架MMNet,利用该框架可以学习热红外目标的判别性和细粒度关联特征[8]。图 1为MMNet框架图,该框架包括样本分类分支,判别性匹配分支和细粒度匹配分支3种类别的分支。其中样本分类分支与判别性匹配分支共同区分不同类别的目标,而细粒度匹配分支用于区分相似目标。
图 1中Conv(Convolution)、GAP(Global Average Pooling)、CF(Correlation Filter)、Corr(Correlation)和FANet(Fine-grained Aware Network)分别表示卷积、全局平均池、相关滤波器、互相关和细粒度感知网络。细粒度感知网络是细粒度匹配分支的核心,用于学习热红外图像的细粒度关联特征,在1.3节将给出细粒度感知网络的体系结构及相关模块介绍。
1.2 判别性匹配与细粒度匹配
为了区分不同类别的目标,MMNet采用CFNet(Correlation Filter Network)[9]作为基础框架来实现判别性匹配。相比于浅层特征,深层特征更适合用作类间判别因为其包含更多的语义信息。因此,MMNet采用AlexNet网络的最后一个卷积层来实现判别性匹配。假设给定一个目标模板图像Z∈R255×255×3和对应的搜索区域图像Y∈R255×255×3,则判别性匹配可以表示为:
$$f_{\text {disk }}(Z, Y)=g\left(\sigma\left(\phi_{\text {conv5 }}(Z)\right), \quad \phi_{\text {conv5 }}(Y)\right) $$ (1) 式中:φconv5(⋅)表示提取的AlexNet网络的最后一个卷积层特征;g(⋅, ⋅)表示互相关操作符;σ(⋅)表示一个可微的相关滤波层。
区分同类目标是红外目标跟踪的难点,MMNet通过获取细粒度关联特征进行细粒度匹配来解决此问题。因为浅层特征分辨率较高,包含更多的细粒度特征信息,所以MMNet通过采用浅层的卷积层特征学习提出的细粒度关联特征。与判别性匹配类似,细粒度匹配可通过如下公式描述:
$$ \left.f_{\text {fin }}(Z, Y)=g\left(\omega\left(\phi_{\text {conr3 }}(Z)\right)\right), \omega\left(\phi_{\text {con'3 }}(Y)\right)\right) $$ (2) 式中:φconv3(⋅)表示提取的AlexNet网络的第三层卷积特征;ω(⋅)表示提出的细粒度感知网络。
1.3 细粒度感知网络
为了有效获取上节中提到的细粒度关联特征,MMNet设计了一个由整体相关模块和像素级相关模块组成的细粒度感知网络FANet。图 2描述了该网络体系结构。给定一个浅层的卷积层特征X∈RH×W×C,则细粒度感知网络可以表示为:
$$ \omega(X)=f_{\mathrm{c}}\left(\varphi_{\mathrm{h}}(X), \varphi_{\mathrm{p}}(X)\right)$$ (3) 式中:ϕh(⋅)表示整体相关模块;ϕp(⋅)表示像素级相关模块;fc(⋅,⋅)用来融合上述两种关联性特征。
在图 2中,⊙表示广播元素的乘法;⊗表示批量矩阵乘法;⊕表示广播元素的加法。
2. 本文改进算法
2.1 动态模型更新策略
为了更好地适应目标的外观变化,当前主流的目标跟踪算法普遍采用模型更新技术。
MMNet跟踪器以固定系数θ(文中为0.005)线性融合前一帧模型与当前帧模型,具体方法如下:
$$ \text { update }=(1-\theta) * \text { curr }+\theta^*\text{next } $$ (4) 但在实际跟踪过程中,采用固定系数融合往往无法获得最优的跟踪结果。而且在跟踪过程中目标可能会面临遮挡等挑战性因素,目标模型容易被污染造成跟踪失败。
针对这个问题,本文基于峰值旁瓣比(Peak Side Lobe Ratio,PSR)[10]动态更新权重系数θ的值,可以提高模型更新效率。
PSR的定义如下:
$$ P_t=\frac{\max \left(f_t\right)-\mu_t}{\sigma_t} $$ (5) 式中:ft表示第t帧的特征响应图;μt、σt分别为特征响应图的均值和方差。一般来讲,当某一帧跟踪准确时,峰值旁瓣比较大,反之峰值旁瓣比很小。
本文将权重系数θ设置为:
$$ \theta=\left(P_t / 3.5\right)^2 * 0.005 $$ (6) 利用本文的模型更新策略,当跟踪可靠性较高时可以加快模型学习速度,当跟踪可靠性较低时可以减慢模型学习速度。
2.2 目标遮挡处理
如何处理遮挡是目标跟踪的难点问题之一,无论是相对滤波类算法还是基于孪生网络的算法都无法有效解决完全遮挡的问题。部分学者结合目标检测算法在丢失跟踪目标后进行全局检测以重新获取目标,时间复杂性较高,性能提升有限。
在目标跟踪中,由于相邻两帧间的时间间隔非常短,因此,可以在目标被遮挡时使用卡尔曼滤波估计目标运动状态[11]。
卡尔曼滤波工作原理如下:
假设目标在t时刻至t+Δt时刻内进行匀速运动,则目标在第t帧的状态向量为:
$$ X_t=\boldsymbol{A} X_{t-1}+W_{t-1} $$ (7) 相应的观测向量为:
$$ Z_t=\boldsymbol{H} X_t+V_t $$ (8) 式中:Xt-1表示第t-1帧目标的状态向量;Wt-1表示过程噪声;A为t-1帧与t帧相关联的状态矩阵,可定义为:
$$ \boldsymbol{A}=\left[\begin{array}{cccc} 1 & 0 & \Delta t & 0 \\ 0 & 1 & 0 & \Delta t \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]$$ 式中:Vt表示观测噪声;H为增益矩阵,表示目标状态值和观察值之间的对应关系,即:
$$\boldsymbol{H}=\left[\begin{array}{llll} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \end{array}\right] $$ 利用2.1节中PSR的计算方法,本文对跟踪结果进行评估并使用卡尔曼(Kalman)滤波对不可靠跟踪结果进行修正。本文算法设定阈值λ,对每帧跟踪结果的PSR值进行判断,当PSR<λ时,则认为跟踪结果不可靠,利用经典的卡尔曼滤波对目标位置进行预测。同时,为了避免过多的使用卡尔曼滤波造成偏离跟踪目标,本文算法限定连续使用卡尔曼滤波进行目标预测的时长不超过5帧。
3. 实验结果与分析
3.1 实验环境
我们基于MMNet算法框架使用Matlab2016b编程语言实现了所提出的目标跟踪算法。为了验证本文所提算法的有效性,在配备I7-10700 2.9 GHz CPU和GTX-1080 GPU的PC上进行了实验,并与MMNet、HCF(Hierarchical Convolutional Features)[12]、HSSNet、MCCT(Multi-Cue Correlation Filters for Robust Visual Tracking)[13]、MLSSNet、CFNet、SRDCF(Spatially Regularized Discriminative Correlation Filters)[14]等7个先进的跟踪器进行了比较。
3.2 训练集和测试集
本文算法使用随机梯度下降法(Stochastic Gradient Descent,SGD)进行网络训练。训练采用和MMNet相同的混合训练模式,即将热红外图像数据集和可见光图像数据集[15]混合作为最后的训练集。
在测试集选择方面,本文选择使用LSOTB-TIR[16]作为测试数据集。
LSOTB-TIR是2020年提出的一个大规模高多样性的热红外通用目标跟踪数据集,包含手持相机拍摄场景、车载拍摄场景、视频监控拍摄场景以及无人机载拍摄场景4种民用领域中的常见应用场景,涵盖动物、行人、车辆、船只和飞行器5大类目标。和其他红外数据集相比,LSOTB-TIR几乎涵盖了热红外目标跟踪中感兴趣的目标类别。
本文从上述4种民用领域常见应用场景数据集中选择了25个典型红外目标视频序列进行测试,所提算法平均跟踪速度约为19.2 FPS。
3.3 与经典跟踪算法的性能对比
3.3.1 定量分析
图 3为本文算法与7种对比算法在LSOTB-TIR上生成的总精确度图和成功率图,其中精确度是指给定20个像素点的距离阈值,测试算法得到的目标中心位置与真实目标中心位置间的距离在此阈值之内的图像帧数占总帧数的百分比。同理,成功率是指算法运行得到的跟踪框与人工标注的跟踪框真值的重叠率误差在给定阈值之上的图像帧数占总帧数的百分比。可以看出本文提出的算法两项指标均排名第一。与基准算法MMNet相比,跟踪精确度和成功率分别提高了5.7%和4.2%,大幅超过了MLSSNet等红外目标跟踪算法,证明了本文所提算法具有较好的性能。图 4给出了8种算法在遮挡、变形、背景杂斑、运动模糊、尺度变化、快速运动6种复杂场景下的精确度曲线图,本文所提算法均体现了较强的鲁棒性。相比MMNet算法,本文算法的跟踪精确度率分别提高了10%、8.4%、1.6%、1.6%、11.4%和14.9%,这一方面得益于本文算法对模型实施了动态更新策略,另一方面原因在于本文算法利用卡尔曼滤波对不可靠跟踪结果进行了位置修正。
3.3.2 定性分析
为了更直观地对比本文改进算法和MMNet的跟踪性能,图 5给出了本文算法与MMNet在boat_D_001、person_D_009_1、airplane_H_002_1、dog_D_001四个挑战性视频序列的可视化跟踪结果。在图 5中用实线框表示本文算法跟踪结果,虚线框表示MMNet算法跟踪结果。定性分析过程如下:
1)boat_D_001视频序列中红外目标较小并受水面背景干扰。MMNet在第129帧时丢失目标,本文算法采用动态模型更新策略可以保证模型不被污染,因此可以准确定位。
2)person_D_009_1视频序列中第15帧目标受到树木遮挡,MMNet因为没有遮挡处理机制而停留在遮挡物上导致跟踪失败,本文算法自始自终可以准确跟踪。
3)airplane_H_002_1视频序列存在长时遮挡,而dog_D_001视频序列则存在多次遮挡。MMNet均丢失目标,本文算法能正确跟踪,这主要得益于本文算法对跟踪结果进行了可靠性判断,对不可靠跟踪结果利用卡尔曼滤波对目标位置进行了预测。
4. 结论
本文在MMNet框架下提出了一种抗遮挡红外目标跟踪算法。利用MMNet中的多任务框架同时学习热红外目标特定的判别性特征和细粒度特征,以更有效地识别热红外对象。引入峰值旁瓣比对特征模型进行动态更新,并利用卡尔曼滤波对跟踪结果进行了可靠性判断及位置修正。所提改进算法有效解决了现有红外跟踪算法应对低分辨率、遮挡等能力较弱的问题,具有一定的理论与实际应用价值。未来的主要工作在于利用可见光和热红外两个模态之间的互补信息来更好地完成跟踪。
-
-
[1] 张晋, 王元余, 林丹丹, 等. 基于相关滤波的红外目标跟踪抗遮挡处理[J]. 红外技术, 2022, 44(3): 277-285. http://hwjs.nvir.cn/article/id/98939f6c-0de2-4692-9c34-9eabbb68205e ZHANG Jin, WANG Yuanyu, LIN Dandan, et al. Anti-occlusion process of infrared target tracking based on correlation filters[J]. Infrared Technology, 2022, 44(3): 277-285. http://hwjs.nvir.cn/article/id/98939f6c-0de2-4692-9c34-9eabbb68205e
[2] Gundogdu E, Koc A, Solmaz B, et al. Evaluation of feature channels for correlation-filter-based visual object tracking in infrared spectrum[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW), 2016: 290-298.
[3] LIU Q, LU X H, HE Z Y, et al. Deep convolutional neural networks for thermal infrared object tracking[J]. Knowledge-Based Systems, 2017, 134: 189-198. DOI: 10.1016/j.knosys.2017.07.032
[4] GAO P, MA Y, SONG K, et al. Large margin structured convolution operator for thermal infrared object tracking[C]// IEEE International Conference on Pattern Recognition, 2018: 2380-2385.
[5] LI X, LIU Q, FAN Nana, et al. Hierarchical spatial-aware Siamese network for thermal infrared object tracking[J]. Knowledge-Based Systems, 2019, 166: 71-81. DOI: 10.1016/j.knosys.2018.12.011
[6] LIU Q, LI X, HE Z Y, et al. Learning deep multi-level similarity for thermal infrared object tracking[J]. IEEE Transaction on Multimedia, 2021, 23: 2124-2126.
[7] 李畅, 杨德东, 宋鹏, 等. 基于全局感知孪生网络的红外目标跟踪[J]. 光学学报, 2021, 41(6): 0615002-1-0615002-11. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB202106019.htm LI Chang, YANG Dedong, SONG Pen, et al. Global-Aware siamese network for thermal infrared object tracking[J]. Acta Optica Sinica, 2021, 41(6): 0615002-1-0615002-11. https://www.cnki.com.cn/Article/CJFDTOTAL-GXXB202106019.htm
[8] LIU Q, LI X, HE Z Y, et al. Multi-task driven feature models for thermal infrared tracking[C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence, 2020: 11604-11611.
[9] Valmadre J, Bertinetto L, Henriques J, et al. End-to-end representation learning for correlation filter based tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 5000-5008.
[10] 王鹏, 孙梦宇, 王海燕, 等. 一种目标响应自适应的通道可靠性跟踪算法[J]. 电子与信息学报, 2020, 42(8): 1950-1958. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202008018.htm WANG Peng, SUN Mengyu, WANG Haiyan. An object tracking algorithm with channel reliability and target response adaptation[J]. Journal of Electronics & Information Technology, 2020, 42(8): 1950-1958. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202008018.htm
[11] 刘耀胜, 廖育荣, 林存宝. 基于核相关滤波的视频卫星目标跟踪算法[J]. 火力与指挥控制, 2022, 47(2): 49-55. https://www.cnki.com.cn/Article/CJFDTOTAL-HLYZ202202009.htm LIU Yaosheng, LIAO Yurong, LIN Cunbao. Video satellite object tracking algorithm based on kernel correlation filter[J]. Fire Control & Command Control, 2022, 47(2): 49-55. https://www.cnki.com.cn/Article/CJFDTOTAL-HLYZ202202009.htm
[12] MA C, HUANG J-B, YANG X, et al. Hierarchical convolutional features for visual racking[C]//IEEE International Conference on Computer Vision, 2015: 3074-3082.
[13] WANG N, ZHOU W, TIAN Q, et al. Multi-cue correlation filters for robust visual tracking[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4844-4853.
[14] Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for visual tracking[C]//IEEE International Conference on Computer Vision, 2015: 4310-4318.
[15] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal Computer Vision, 2015, 115(3): 211-252. DOI: 10.1007/s11263-015-0816-y
[16] LIU Q, LI X, LI C L. LSOTB-TIR: A large-scale high-diversity thermal infrared object tracking benchmark[C/OL]//Proceedings of the 28th ACM International Conference on Multimedia, 2020, https://arxiv.org/abs/2008.00836.
-
期刊类型引用(0)
其他类型引用(1)