Anti-Occlusion Moving Target Tracking Algorithm Based on Multifeature Self-Adaptive Fusion
-
摘要: 针对目前的目标跟踪算法在目标发生运动模糊或被遮挡等情况下跟踪效果较差,容易出现跟踪失败等情况,本文提出了一种多特征自适应融合的抗遮挡相关滤波跟踪算法。算法首先提取梯度方向直方图特征HOG和颜色直方图特征,以最大化跟踪质量为目标自适应融合两种特征的相关滤波响应;在跟踪的过程中根据响应图的质量存储高质量滤波模板,采用高质量模板和正常更新模板检测响应图的质量差值来检测目标的遮挡情况,当目标遮挡消失的时候,跟踪器的模板回溯到高质量模板来重新跟踪目标。根据在OTB100、UAV123的实验结果,本文算法相对于其他同类型的相关滤波在跟踪精度和成功率方面表现更好,在发生目标遮挡时仍能很好地跟踪。Abstract: In view of the current target tracking algorithm, it is difficult to effectively track the target when it is blurred or occluded; therefore, an anti-occlusion algorithm based on multi feature adaptive fusion is proposed in this study. First, the gradient direction histogram feature HOG and color histogram feature are extracted, and the correlation filtering response of the two features is adaptively fused to maximize the tracking quality. In the tracking process, a high-quality filter template is stored according to the quality of the response map, and the quality difference between the high-quality template and normal update template is used to detect the occlusion of the target. When the target occlusion disappears, the template of the tracker traces back to the high-quality template to retrack the target. According to the experimental results for OTB100 and UAV123, this algorithm has a better performance than other similar correlation filtering algorithms and can still track well in the case of target occlusion.
-
0. 引言
随着人工智能的大力发展,计算机视觉领域也飞速发展,视频跟踪技术应用到了很多的领域、如智能交通、物流仓储、生活服务等[1]。但是由于实际的场景十分复杂,存在光照变化、尺度变化、障碍物遮挡、快速运动等问题。如何在上述因素存在的情况下准确快速地跟踪目标,仍需要继续深入的研究。常见的目标跟踪算法可以分为两类:生成式算法和判别式算法[2]。生成式算法的主要原理是在当前帧的位置进行建模,根据上一帧目标物体建立的模型在下一帧找到最相似的位置作为预测位置。此类型算法原理简单,目标模型的建立不复杂,但是跟踪效果较差,原因是单一的数学模型描述物体具有局限性,在面对光照变化、遮挡等因素时模型的建立受到一定的影响。判别式算法是基于图像特征和机器学习、深度学习的方法在分类好的样本上训练分类器,使用训练好的分类器对被检测的图像进行分类。随着机器学习、深度学习的大力发展,判别式算法表现出了优越的速度和较高的精度,成为近年来专家学者研究的热点[3]。
判别式算法可以分为基于深度学习思想的算法和基于相关滤波思想的算法。深度学习类的代表算法有Bertinetto等人提出了SiamFC算法[4],因其简洁高效的特点作为跟踪算法研究的基础框架。研究人员在此基础提出了SiamRPN[5]、CFNet[6]等算法。基于深度学习的跟踪算法可以表现出优越的性能,但是由于算法往往需要巨大的算力支撑,算法的速度慢、难以移植到机器人平台等缺点。相关滤波来源于信号处理的概念,是比较两个信号相似程度的量,最早将相关滤波引入到视频跟踪计算的是最小平方误差和算法(minimum output sum of squared error, MOSSE)[7],主要是通过快速傅里叶变换进行求解,降低了算法的计算量并且提升了跟踪速度,可以达到每秒几百帧。2012年,Henriques等人提出的循环核滤波算法(circulant structure kernel, CSK)将循环矩阵的概念引入进来增加了训练样本的多样性[8]。2015年,Henriques等人在CSK的基础上将灰度特征替换成方向梯度直方图特征,提出了核相关滤波算法(kernelized correlation filter, KCF)算法[9],取得了非常好的性能。2015年Martin等人对于循环样本存在边界效应问题进行了改进,提出了空间正则项相关滤波(spatially regularized discriminant correlation filter, SRDCF)算法[10]。2016年Bertinetto等人提出的Staple算法[11],该算法利用了HOG特征和CN颜色直方图分别进行训练,两个特征采用固定比例的方式进行融合,跟踪速度和跟踪性能都取得了不错的成绩。2018年,Li等人在SRDCF的基础上加入了时间正则化,提出了基于时空正则项的跟踪器(spatial-temporal regularized correlation filters, STRCF),由于加入时间正则化后采用交替方向乘子法(alternating direction method of multipliers, ADMM)算法来进行迭代求解加快了计算的速度[12]。2020年同济大学团队提出的AutoTrack算法是在STRCF算法的基础上进一步改进,采用自适应的空间正则化和时间正则化来适应更多更复杂的情景[13]。尽管基于相关滤波跟踪器取得较好的发展,但是在包含不同挑战因素的视频场景中跟踪仍存在一些问题,如图像的特征仍然不能够准确反应目标外观变化,缺少对于跟踪响应质量的评估,当发生遮挡的时候目标模板容易被污染等。
针对上述分析问题,本文提出了多特征自适应融合的抗遮挡算法来解决在有遮挡或模糊的情况下移动目标的跟踪问题。算法以最大化检测响应图质量为目标,自适应地融合HOG特征和颜色直方图CN的检测得到的响应图,增强了跟踪的鲁棒性;针对目标遮挡与运动模糊等都会导致响应图振荡,难以对目标遮挡进行判定的问题,采用高质量模板和正常更新模板检测响应图的质量差值来检测目标的遮挡情况,当目标重新出现时,将滤波器回溯到高质量模板中来实现重新跟踪。
1. 多特征响应自适应融合
首先引入图像特征的滤波模板的训练方法,将训练得到的滤波模板与特征进行快速检测可以得到不同特征的响应,但将响应进行简单的线性融合无法充分发挥特征的优势,因此采用了自适应融合不同特征响应的方式来增强算法的鲁棒性。
1.1 特征模板训练
近年来,多通道相关滤波器在视觉跟踪领域的发展非常的迅速。设在一个通道数为N的图像中特征为f={f1, f2, …, fN},滤波模板设为H={h1, h2, …, hN},每个通道上的特征和滤波模板都是C×D大小,将图像特征和滤波模板进行循环相关得到了相关滤波响应g,目标位置出现在响应g的最大值的位置。表达式为:
$$ g = \sum\limits_{d = 1}^N {{f_d}} *{h_d} $$ (1) 式中:∗表示循环相关,fd表示第d个通道的图像特征;hd表示第d个通道的滤波模板;其中关于滤波器h的求解方法,则是通过最小化损失函数ε(h)来求解:
$$ \varepsilon (h) = {\left\| {g - {g_h}} \right\|^2} + \lambda {\left\| h \right\|^2} $$ (2) 式中:gh为期望输出,为二维高斯函数;λ为正则化参数,可以防止过拟合,‖$ \bullet $‖2为L2范数的平方。
循环相关操作转换到傅里叶域中可以提升计算效率,所以将损失函数转换到傅里叶域中进行计算:
$$ \varepsilon \left( {{{\hat h}_d}} \right) = {\left\| {\sum\limits_{d = 1}^N {{\mathop{\rm diag}\nolimits} } \left( {{{\hat f}_d}} \right){{\bar {\hat h}}_d} - {{\hat g}_h}} \right\|^2} + \lambda \sum\limits_{d = 1}^N {{{\left\| {{{\hat h}_d}} \right\|}^2}} $$ (3) 式中:$\hat \bullet $表示$ \bullet $的傅里叶变换形式;${\mathop{\rm diag}\nolimits} \left( {{{\hat f}_d}} \right)$为由${{{\hat f}_d}}$构成的对角矩阵;$\bar \bullet $表示$ \bullet $的复共轭变换形式;d表示通道数;可以解出h的闭式解的傅里叶形式:
$$ {\hat h_d} = \frac{{{\mathop{\rm diag}\nolimits} \left( {{{\hat f}_d}} \right) \odot {{\bar {\hat g}}_h}}}{{\sum\limits_{d = 1}^N {{\mathop{\rm diag}\nolimits} } \left( {{{\hat f}_d}} \right) \odot {{\bar {\hat f}}_d} + \lambda I}} $$ (4) 式中:$ \odot $表示点积运算;I为C×D×1大小,且元素全为1的列向量;${\hat h_d}$进行傅里叶逆变换可以得到多通道的滤波器模板H,将滤波模板代入到式(1)中可以得到最终的响应图。
本文算法用的特征是HOG特征和颜色直方图特征,将图片的两种特征和滤波模板H代入到式(1)中可以得到两个响应:gHOG和gCN,将两个响应进行融合可以发挥HOG特征对于目标的形状变化的鲁棒性,CN特征对于目标的颜色变化的鲁棒性,两者响应可以采用线性的方式进行融合如下:
$$ g(α, β)=αg_{\rm{HOG}}+βg_{\rm{CN}} $$ (5) 式中:α和β分别代表的是HOG特征响应和颜色直方图特征响应的融合系数,融合后的响应图中最高点的位置即为目标所在的位置。
为了避免跟踪器模型变化过快,将由式(4)求解出的第N帧滤波器模板Hn与N-1帧算出来的模板Hn-1′进行线性结合,得到最终的滤波器模型更新公式:
$$ H_{n}′=(1-η)H_{n-1}′+ηH_{n} $$ (6) 式中:η代表跟踪器的学习率,描述了跟踪器学习新图像特征的快慢程度。
公式(5)中将响应进行线性融合的方式简单有效,但在复杂多变的视频中,固定的融合比例难以满足跟踪器高精度需要,因此根据不同视频的特点自适应地调节融合系数可以充分发挥不同特征的优势,提高跟踪器的准确率。因此本文算法中的融合系数采取自适应的方式更新。
1.2 特征响应自适应融合
颜色特征和HOG特征对于不同类型的图像具有不同的表征能力,为了充分利用他们的互补性,需要将两者的响应进行自适应融合。首先介绍提出的评价响应图质量的指标,然后再基于所提出的响应图质量指标函数来实现自适应融合响应得到最终的响应。
1.2.1 跟踪质量评价指标
自适应融合多个特征的目的就是提高跟踪的准确性。准确性体现在跟踪的准确度非常高,对应到响应图上就是响应图的形状接近单峰值情况。但实际图像响应图的形状复杂多变,不容易判断质量的好坏,因此提出一个可以准确评价响应质量好坏的质量评价指标非常必要。Goutam Bhat在UPDT(unveiling the power of deep tracking)算法中指出,跟踪算法的准确性体现为峰值的尖锐程度,鲁棒性体现为目标峰值和干扰区域峰值的高度差距,峰值高度相差越大,证明结果越鲁棒[14]。
我们设计跟踪质量指标DIS(distance)来评价不同质量的跟踪结果,主要考虑从响应图振荡程度和最高峰值的尖锐程度来度量响应图的跟踪质量,DIS定义如下:
$$ {{\mathop{\rm DIS}\nolimits} _{{z^*}}}\{ f\} = \frac{\gamma }{{\sum\limits_{i = 1}^n {\left| {{z_i}(f) - {z^*}(f)} \right|} *{{{\mathop{\rm gap}\nolimits} }_i} + \gamma }} $$ (7) $$ {{\mathop{\rm gap}\nolimits} _i} = \frac{{{F_i}}}{{{F_{\max }}}} $$ (8) 式中:f表示融合后得到的响应图;z表示响应图中峰值的位置,峰值的形状类似于二维高斯函数。如图 1所示,图中z∗表示的是最高峰值的位置坐标,峰值大小用Fmax表示;z1, z2, …, zn表示峰值高度低于Fmax的次高峰的位置坐标,次峰值大小用Fi表示。gapi表示第i次峰值与最高响应值之间的高度比。gapi越大说明峰值的差距较小,图像更加振荡,质量评价的数值越小;反之gapi越小质量评价数值越大。γ表示最高峰值附近的斜率,斜率越大代表峰值越尖锐,质量评价数值越大。峰值高度较低的次峰值,表示跟踪器对于当前位置是目标位置的确信度是较低的,对于跟踪结果的影响非常小,为了提高计算的效率,我们不考虑峰值高度较低的次峰值对于DIS指标的影响。DIS指标可以有效评估响应图的质量好坏,比较两个不同响应图的质量,较好的情况是没有次峰,或者次峰值都较为低,此时$\sum _{i = 1}^n {\left| {{z_i}(f) - {z^*}(f)} \right|} $取值接近于0,因此DIS最大取值是1,当响应图剧烈振荡时,DIS取值接近0。
DIS性能指标主要考虑了响应图中的次峰值对于响应图振荡性的影响,还有峰值的尖锐程度。常见响应质量评价指标如平均峰值相关能量(average peak to correlation energy, APCE)[15]、峰值旁瓣比(peak to sidelobe ratio, PSR)[7]等在评价时均没有考虑峰值的尖锐程度对于响应图质量的影响;其次只考虑响应图中的最高值和最低值,忽略了众多次峰值对于响应图的质量的影响,因此不能很好地反应跟踪质量。
1.2.2 特征响应图自适应融合方式
在视频跟踪的过程中,由于图像存在很多光照变化、跟踪目标形状发生变化等很多情况,这样会影响跟踪的质量,影响响应图的DIS值。HOG特征对于形状特征具有很强的鲁棒性,能够很好地表达出目标的形状特征;颜色直方图对于目标的颜色特征具有很强的鲁棒性。充分发挥两个不同特征在不同情况下的优势,自适应调整特征的融合参数可以提高跟踪的稳定性。本文算法主要是设计响应图质量评价指标DIS,以最大化DIS为目标规划多个特征的融合系数α和β,算法的思想简洁高效,公式如下:
$$ \begin{array}{c} {\mathop{\rm Max}\nolimits} :{{\mathop{\rm DIS}\nolimits} _{{z^*}}}(\alpha , \beta ) = \frac{\gamma }{{\sum\limits_{i = 1}^n {\left| {{z_i}(f) - {z^*}(f)} \right|} *{{{\mathop{\rm gap}\nolimits} }_i} + \gamma }}\\ {\rm{ s}}{\rm{.t : }}\left\{ {\begin{array}{*{20}{l}} {\alpha + \beta = 1}\\ {\alpha \ge 0}\\ {\beta \ge 0} \end{array}} \right.\\ f(\alpha , \beta ) = \alpha {g_{{\rm{HOG }}}} + \beta {g_{{\rm{CN}}}} \end{array} $$ (9) 对于规划问题(9)每一帧图像得到的gHOG和gCN都是已知的,问题就是非线性优化问题,优化的目标是最大化DIS值。采用常规求解算法,如基于黄金分割搜索算法和抛物线插值算法结合的迭代求解的方法求解(α, β),具体求解步骤不再展开介绍。如在图 2中(b)、(c)两图的颜色变化明显,颜色特征对于目标的检测具有干扰的因素,会导致响应图遮挡,颜色直方图模板系数α降低0.1;(a)和(d)图片中,目标颜色变化不大,颜色模板对于的系数则相对较高,分别为0.5和0.4。
2. 遮挡检测及目标重新出现处理
遮挡问题一直以来都是目标跟踪领域的非常常见的问题。当目标被完成遮挡的时候,滤波器只能学习到遮挡物的特征,引起了模型识别时的偏差。除此以外,单从响应质量对遮挡进行检测是容易与图像运动模糊等情况进行混淆。本文首先定义高质量模板,是当某一帧的响应图的DIS较高时,储存此时滤波器模板为高质量模板。然后在之后帧的检测中,用高质量模板和正常更新的滤波器模板同时检测目标得到响应图的DIS得分的差值来判断遮挡的发生。为了防止DIS出现个别异常值情况影响遮挡情况的判断,采用邻近的K帧的ϕ作为遮挡判断的依据:
$$ \phi = \left| {{\rm{DIS}} - {\rm{DI}}{{\rm{S}}_{\rm{H}}}} \right| $$ (10) $$ \left\{ {\begin{array}{*{20}{l}} {{\phi _{{\rm{mean }}}} = \frac{{{\phi _n} + {\phi _{n - 1}} + \ldots + {\phi _{n - k + 1}}}}{k}(n \ge k)}\\ {{\phi _{{\rm{mean }}}} = \frac{{{\phi _1} + {\phi _2} + \ldots + {\phi _n}}}{n}(n < k)} \end{array}} \right. $$ (11) 式中:DIS表示采用正常跟踪的滤波器检测当前帧得到的响应图的DIS数值,DISH使用高质量模板检测得到响应图的质量分数。采用邻近K帧的差值ϕmean作为遮挡判断条件可以防止滤波器跟踪的过程中出现因滤波器错误检测导致ϕ突然增大,从而导致滤波器跳出遮挡循环的情况发生,因此跟踪器对于遮挡情况消失的判定会滞后目标出现几帧,但是这样可以提高遮挡判定的准确性。
本文采用一种新的方式对遮挡情况进行判断,同时能够区分遮挡情况和其他挑战因素导致响应图遮挡进行区分,算法原理是:当目标受到遮挡的时候,滤波器采用正常的更新方式,会逐步学习遮挡物的特征信息,因此正常滤波器检测到的响应图DIS值会逐步升高。但是之前存储的高质量模板都是目标物体的特征的描述,因此高质量模板得到响应会比较低。因此当两者的差值达到阈值时,代表物体已经被完全遮挡。当目标处于遮挡状态时,高质量模板hhigh检测得到的当前帧画面的响应图处于较低水平,但当目标重新出现时,DISnhigh会突然增大,此时可以判断出目标已经重新出现,将此时的滤波器模板回溯到之前存储的高质量模板可继续接下来的跟踪。具体的遮挡情况处理子算法A流程如下:
Step 1:设定高质量模板阈值ε,当上一帧的响应质量指标DIS>ε时,定义上一帧滤波模板为高质量模板,并定义为hhigh,并存储下来。
Step 2:用上一帧的滤波模板hn-1和高质量滤波模板hhigh检测第n帧目标,得到目标响应,计算个响应图的DIS差值,记为ϕn。
Step 3:设定遮挡阈值ζ,当ϕmean>ζ时,判定目标发生了遮挡,进入遮挡后检测目标再出现部分,进入Step 4;当ϕmean<ζ时,未发生遮挡,正常更新滤波器位置,跳出遮挡情况处理算法A。
Step 4:采用上一帧模板更新目标位置正常更新滤波器,读取下一帧图像。
Step 5:设定跳出遮挡循环阈值γ,用hhigh检测当前帧的图像特征得到响应图的质量评价值DISnhigh。当ϕmean>γ时,判定目标已经重新出现,进入Step 6;否则跳回Step 4。
Step 6:将目标位置更新为高质量模板检测到的响应图的最高点的位置,同时将高质量模板赋值给当前滤波器模板,读取下一帧图像。
3. 整体的算法流程
本文针对在跟踪器目标遮挡等情况下容易跟踪失败的问题,提出了多特征自适应融合的抗遮挡算法,算法主要有两个重要的部分,一部分是自适应融合,另一部分是判定遮挡及遮挡后重新出现处理。算法的流程如下:首先对第一帧进行初始化,后续每一帧的跟踪结果都进行遮挡的判定,如果判定为不存在遮挡,算法以最大化DIS为目标自适应融合不同特征的响应图;如果判定发生了遮挡,跟踪器进行遮挡循环部分,当判定目标重新出现后,跳出遮挡循环,将滤波器模板回溯到最近一帧的高质量模板,整个算法的流程如图 3所示。
4. 算法实验
4.1 实验配置介绍
算法的实验平台为:处理器是Intel(R) Core(TM) i7-10750H CPU @ 2.60 GHz,内存20 GB,64位操作系统,2016b版MATLAB。实验中的参数如下:HOG特征的cell是4×4,模板的学习率为ηtmpl=0.01,ηhist=0.04。
测评的数据集为OTB100[16]和UAV123数据集[17]。lOTB100中视频分为11种属性,分别是光照变化(illumination variation, IV)、尺度变化(scale variation SV)、遮挡(Occlusion, OCC)、形变(deformation, DEF)、运动模糊(motion blur, MB)、快速移动(fast motion, FM)、平面内旋转(in-plane rotation, IPR)、平面外旋转(out-of-plane rotation, OPR)、离开视野(out-of-view, OV)、相似背景(background clutters, BC)、低分辨率(low resolution, LR)。UAV123主要针对大范围视野下目标的跟踪,包含高度比变化(aspect ratio change, ARC)、背景杂波(background clutter, BC)、摄像机运动(camera motion, CM)、快速运动(fast motion, FM)、完全遮挡(full occlusion, FOC)、光照变化(illumination variation, IV)、低分辨率(low resolution, LR)、视野外(out-of-view, OV)、部分遮挡(partial occlusion, POC)、相似目标(similar object, SOB)、尺度变化(scale variation, SV)、视角变化(viewpoint change, VC)共12种不同的属性。实验的评估指标主要分为成功率和精确度,实验中采用的评价方式是一次成功率(one-pass evaluation, OPE)。
成功率(S)定义公式如下为:
$$ S = \frac{{\left| {{r_t} \cap {r_0}} \right|}}{{\left| {{r_t} \cap {r_0}} \right|}} $$ (12) 式中:rt指候选框;r0指人工标注的跟踪框;|·|表示区域的像素数目。当某一帧的成功率大于设定的阈值时,则该帧被视为成功的。
精确度的定义公式如下:
$$ {\rm{ precision }} = \frac{{{N_t}}}{{{N_{\rm{s}}}}}$$ (13) 式中:Nt、Ns分别指第t帧帧数和总帧数。
4.2 在OTB、UAV123数据集中性能分析
本文算法在OTB100[16]中与当前主流的算法进行对比:包括Staple、SRDCF、SRDCFdecon、LMCF[15]、MCCT-H[18]、AutoTrack[13]。对比的算法都是属于相关滤波算法,并且算法都使用的手工特征作为图像特征。数据集一共100视频序列,每一个视频序列都包含11种挑战中的几种。同时算法在UAV123数据集上进行了测试,UAV123数据集包含12种挑战因素,对比算法将LMCF替换成STRCF算法,其他对比跟踪器算法不变。
图 4、图 5是本文提出的算法在OTB100与UAV123数据集中精度和成功率排名,图表中OUR表示的是本文算法,由图可以看出,本文算法在不同数据集的精度分别为0.769和0.6373,成功率分别为0.692和0.596。两项指标在不同数据集中均排名第一,说明算法的综合性能表现比较突出。
如表 1、2所示,针对11种不同的挑战因素,精度方面算法在OPR、SV、OCC、DEF、IPR、OV中排行第一。成功率方面,算法在SV、OCC、DEF中排行第一,在IV、OPR、MB、IPR中排行第二。
表 1 OTB100的精度Table 1. Accuracy of OTB100OUR SRDCFdecon LMCF SRDCF Staple MCCT-H AutoTrack IV 0.757 0.785 0.765 0.723 0.686 0.717 0.697 OPR 0.765 0.712 0.674 0.666 0.674 0.754 0.697 SV 0.742 0.678 0.664 0.62 0.628 0.693 0.662 OCC 0.782 0.693 0.708 0.689 0.727 0.736 0.739 DEF 0.798 0.744 0.753 0.732 0.768 0.793 0.770 MB 0.719 0.678 0.672 0.708 0.676 0.688 0.731 FM 0.694 0.714 0.665 0.698 0.627 0.651 0.689 IPR 0.706 0.627 0.644 0.559 0.519 0.688 0.633 OV 0.713 0.522 0.614 0.536 0.666 0.632 0.711 BC 0.766 0.805 0.753 0.684 0.604 0.742 0.650 LR 0.595 0.543 0.605 0.557 0.588 0.535 0.708 表 2 OTB100成功率Table 2. Success of OTB100OUR SRDCFdecon LMCF SRDCF Staple MCCT-H AutoTrack IV 0.697 0.721 0.715 0.649 0.627 0.652 0.653 OPR 0.679 0.654 0.634 0.605 0.593 0.691 0.632 SV 0.658 0.655 0.601 0.588 0.554 0.640 0.607 OCC 0.698 0.654 0.649 0.622 0.622 0.664 0.668 DEF 0.763 0.691 0.729 0.666 0.712 0.745 0.726 MB 0.656 0.636 0.611 0.619 0.577 0.621 0.680 FM 0.619 0.704 0.603 0.420 0.555 0.602 0.649 IPR 0.620 0.596 0.578 0.532 0.536 0.646 0.587 OV 0.600 0.522 0.563 0.526 0.505 0.536 0.659 BC 0.717 0.748 0.706 0.579 0.568 0.544 0.684 LR 0.526 0.519 0.503 0.456 0.460 0.479 0.633 表 3、表 4所示,在UAV123数据集上做了实验,实验结果显示,本文算法在多种挑战因素视频中均排行第一,表现出了较好的性能。综合所有的视频挑战因素,本文算法是表现最好的算法。在速度方面,算法在两个数据集共223个视频中平均的处理速度为37.64帧/s,大于30帧/s,能够实现实时跟踪的要求。
表 3 UAV123的精度Table 3. Accuracy of UAV123OUR SRDCFdecon STRCF SRDCF Staple MCCT-H AutoTrack VC 0.594 0.477 0.537 0.474 0.485 0.474 0.588 ARC 0.602 0.476 0.524 0.472 0.459 0.482 0.598 CM 0.645 0.536 0.602 0.527 0.499 0.519 0.647 BC 0.539 0.427 0.477 0.389 0.409 0.443 0.502 FM 0.537 0.403 0.488 0.427 0.356 0.335 0.525 FOC 0.512 0.427 0.426 0.418 0.388 0.397 0.444 IV 0.563 0.423 0.493 0.436 0.438 0.458 0.550 LR 0.535 0.436 0.509 0.431 0.408 0.447 0.532 OV 0.585 0.483 0.523 0.592 0.441 0.459 0.554 POC 0.616 0.514 0.559 0.504 0.507 0.530 0.584 SV 0.632 0.535 0.580 0.531 0.519 0.538 0.629 SOB 0.699 0.621 0.630 0.585 0.612 0.618 0.664 表 4 UAV123成功率Table 4. Success of UAV123OUR SRDCFdecon STRCF SRDCF Staple MCCT-H AutoTrack VC 0.514 0.404 0.438 0.398 0.431 0.398 0.480 ARC 0.505 0.391 0.413 0.387 0.403 0.387 0.476 CM 0.586 0.483 0.526 0.476 0.460 0.471 0.564 BC 0.426 0.352 0.374 0.333 0.351 0.372 0.415 FM 0.443 0.309 0.377 0.354 0.288 0.259 0.407 FOC 0.347 0.273 0.270 0.261 0.259 0.272 0.291 IV 0.482 0.357 0.406 0.403 0.383 0.388 0.472 LR 0.359 0.302 0.334 0.275 0.263 0.299 0.372 OV 0.516 0.429 0.450 0.432 0.404 0.422 0.490 POC 0.513 0.440 0.454 0.453 0.432 0.453 0.496 SV 0.549 0.471 0.494 0.465 0.455 0.470 0.535 SOB 0.627 0.535 0.555 0.509 0.574 0.570 0.569 4.3 消融实验
为了探究滤波器各个模块对于跟踪器的整体影响,设置消融实验。对比的算法为:OUR-S、UPDT-OUR。OUR-S算法是将本文算法目标遮挡处理模块去除,只留下目标的多特征自适应融合模块的跟踪器;UPDT-OUR算法将融合指标公式(7)替换成UPDT提出的公式(14),算法命名为UPDT-OUR,将上述两种算法在OTB100数据集中进行对比,结果如图 6所示。
$$ {\xi _{{z^*}}}\{ F\} = \mathop {\min }\limits_z \frac{{{F_{\max }} - F}}{{\Delta \left( {z - {z^*}} \right)}} $$ (14) $$ \Delta (\tau ) = 1 - {{\rm{e}}^{ - \frac{k}{2}|\tau {|^2}}} $$ (15) 图 6中可以看出,本文算法在精度和准确度方面以0.769和0.692均领先于其他两种跟踪器,说明遮挡处理模块可以有效提高跟踪器性能;同时OUR-S以0.733的精度和0.656的成功率优于UPDT-OUR,说明本文跟踪器的融合不同特征的方式更有效果,UPDT的融合方式可以对不同特征进行自适应的融合,但是由于UPDT没有考虑多个峰值的振荡情况,同时对于响应图最大峰值的尖锐程度没有考虑,因此对于跟踪的性能效果提升没有本文算法的提升效果明显。除此以外,增加遮挡检测处理模块可以提升算法在面对遮挡、运动模糊等因素视频的跟踪效果。
4.4 OTB、UAV123数据集实验测试的特定情况性能分析
如图 7所示,选取具有代表性的6个典型视频序列进行实验定性分析,视频序列Box、Human3、Birld是OTB100数据集的序列,group2、person7、uav1属于UAV123数据集。在Box序列中主要存在很多遮挡的问题,在465帧时,目标完全处于遮挡状态。本文算法的遮挡检测机制检测到了处于遮挡,本文算法进入遮挡环节,将高质量模板的响应恢复到较高水平这一条件作为算法跳出遮挡环节,进行正常跟踪环节。这一机制可以有效地处理遮挡问题;同样存在遮挡问题的还有Human3序列,50帧开始,行人被障碍物遮挡,本文算法检测到并跟踪上目标。在1439帧时,由于周边出现了相似目标,本文算法优化后融合系数最大化地发挥了各个特征的优势,最后本文算法正确跟踪到了结束;Birl序列在121帧之后目标处于完全遮挡的状态,并且遮挡的时间较长。本文算法一直保留着之前存储的高质量模板,当目标重新出现的时候,滤波器可以回溯到之前帧,对目标重新进行跟踪,而其他大多数的算法由于滤波器长时间学习障碍物的特征已经不能再有效跟踪目标;groub视频的跟踪目标是人群中的一个,包含较多的遮挡,相似目标等干扰,本文算法在617帧之后能够正常跟踪目标。在Person7中76帧时,staple和MCCT跟踪器都跟丢了目标,本文算法跟踪器可以一直保持准确跟踪。uav1视频中包含大量的快速移动、目标旋转等挑战因素,最后显示只有本文算法跟踪器可以一直成功跟踪目标,不出现错误跟踪的情况。
5. 结论
本文提出的多特征自适应融合抗遮挡目标跟踪算法,从跟踪结果的鲁棒性和准确性角度设计出合理的响应图质量评价函数DIS,以最大化响应图评价函数DIS为目标规划HOG模板和颜色直方图模板的融合系数,利用不同特征的互补性提高了算法的鲁棒性。在跟踪的过程中存储响应质量较高的模板,以高质量模板和正常更新的模板检测当前图像特征得到的响应图质量的差值作为判别发生遮挡的依据,有效地检测到了目标发生遮挡,当遮挡消失后,跟踪器可以重新跟踪上目标。最后在数据中验证跟踪器的性能,结果显示跟踪器在光照剧烈变化、形状剧烈变化、运动模糊、遮挡等挑战的时候仍能保持较高的准确性和鲁棒性,结果显示算法相较于其他种类的主流跟踪算法具有良好的表现,具有一定的现实意义。下一步考虑如何自适应融合更多的特征信息,增强目标的表达能力,同时考虑将跟踪算法移植到机器人中,实现现实中的目标跟踪。
-
表 1 OTB100的精度
Table 1 Accuracy of OTB100
OUR SRDCFdecon LMCF SRDCF Staple MCCT-H AutoTrack IV 0.757 0.785 0.765 0.723 0.686 0.717 0.697 OPR 0.765 0.712 0.674 0.666 0.674 0.754 0.697 SV 0.742 0.678 0.664 0.62 0.628 0.693 0.662 OCC 0.782 0.693 0.708 0.689 0.727 0.736 0.739 DEF 0.798 0.744 0.753 0.732 0.768 0.793 0.770 MB 0.719 0.678 0.672 0.708 0.676 0.688 0.731 FM 0.694 0.714 0.665 0.698 0.627 0.651 0.689 IPR 0.706 0.627 0.644 0.559 0.519 0.688 0.633 OV 0.713 0.522 0.614 0.536 0.666 0.632 0.711 BC 0.766 0.805 0.753 0.684 0.604 0.742 0.650 LR 0.595 0.543 0.605 0.557 0.588 0.535 0.708 表 2 OTB100成功率
Table 2 Success of OTB100
OUR SRDCFdecon LMCF SRDCF Staple MCCT-H AutoTrack IV 0.697 0.721 0.715 0.649 0.627 0.652 0.653 OPR 0.679 0.654 0.634 0.605 0.593 0.691 0.632 SV 0.658 0.655 0.601 0.588 0.554 0.640 0.607 OCC 0.698 0.654 0.649 0.622 0.622 0.664 0.668 DEF 0.763 0.691 0.729 0.666 0.712 0.745 0.726 MB 0.656 0.636 0.611 0.619 0.577 0.621 0.680 FM 0.619 0.704 0.603 0.420 0.555 0.602 0.649 IPR 0.620 0.596 0.578 0.532 0.536 0.646 0.587 OV 0.600 0.522 0.563 0.526 0.505 0.536 0.659 BC 0.717 0.748 0.706 0.579 0.568 0.544 0.684 LR 0.526 0.519 0.503 0.456 0.460 0.479 0.633 表 3 UAV123的精度
Table 3 Accuracy of UAV123
OUR SRDCFdecon STRCF SRDCF Staple MCCT-H AutoTrack VC 0.594 0.477 0.537 0.474 0.485 0.474 0.588 ARC 0.602 0.476 0.524 0.472 0.459 0.482 0.598 CM 0.645 0.536 0.602 0.527 0.499 0.519 0.647 BC 0.539 0.427 0.477 0.389 0.409 0.443 0.502 FM 0.537 0.403 0.488 0.427 0.356 0.335 0.525 FOC 0.512 0.427 0.426 0.418 0.388 0.397 0.444 IV 0.563 0.423 0.493 0.436 0.438 0.458 0.550 LR 0.535 0.436 0.509 0.431 0.408 0.447 0.532 OV 0.585 0.483 0.523 0.592 0.441 0.459 0.554 POC 0.616 0.514 0.559 0.504 0.507 0.530 0.584 SV 0.632 0.535 0.580 0.531 0.519 0.538 0.629 SOB 0.699 0.621 0.630 0.585 0.612 0.618 0.664 表 4 UAV123成功率
Table 4 Success of UAV123
OUR SRDCFdecon STRCF SRDCF Staple MCCT-H AutoTrack VC 0.514 0.404 0.438 0.398 0.431 0.398 0.480 ARC 0.505 0.391 0.413 0.387 0.403 0.387 0.476 CM 0.586 0.483 0.526 0.476 0.460 0.471 0.564 BC 0.426 0.352 0.374 0.333 0.351 0.372 0.415 FM 0.443 0.309 0.377 0.354 0.288 0.259 0.407 FOC 0.347 0.273 0.270 0.261 0.259 0.272 0.291 IV 0.482 0.357 0.406 0.403 0.383 0.388 0.472 LR 0.359 0.302 0.334 0.275 0.263 0.299 0.372 OV 0.516 0.429 0.450 0.432 0.404 0.422 0.490 POC 0.513 0.440 0.454 0.453 0.432 0.453 0.496 SV 0.549 0.471 0.494 0.465 0.455 0.470 0.535 SOB 0.627 0.535 0.555 0.509 0.574 0.570 0.569 -
[1] 陈万敏, 振宏, 刘辉. 结合时空上下文信息的相关滤波目标跟踪方法[J]. 红外技术, 2019, 41(9): 866-873. http://hwjs.nvir.cn/article/id/hwjs201909011 CHEN Wanmin, ZHEN Hong, LIU Hui. Correlation filtering target tracking method based on spatiotemporal context information[J]. Infrared Technology, 2019, 41(9): 866-873. http://hwjs.nvir.cn/article/id/hwjs201909011
[2] 陈志旺, 王航, 刘旺, 等. 抗遮挡与尺度自适应的改进KCF跟踪算法[J]. 控制与决策, 2021, 36(2): 457-462. https://www.cnki.com.cn/Article/CJFDTOTAL-KZYC202102024.htm CHEN Zhiwang, WANG Hang, LIU Wang, et al. Improved KCF tracking algorithm based on anti-occlusion and scale adaptation[J]. Control and Decision, 2021, 36(2): 457-462 https://www.cnki.com.cn/Article/CJFDTOTAL-KZYC202102024.htm
[3] 陈婧, 孙玉娟, 周万军. 融合运动模型与联合置信度量的改进核相关跟踪算法[J]. 红外技术, 2018, 40(11): 1106-1111. http://hwjs.nvir.cn/article/id/hwjs201811015 CHEN Jing, SUN Yujuan, ZHOU Wangjun. An improved kernel correlation tracking algorithm combining motion model and joint confidence measure[J]. Infrared Technology, 2018, 40(11): 1106-1111. http://hwjs.nvir.cn/article/id/hwjs201811015
[4] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European Conference on Computer Vision, 2016: 850-865.
[5] LI B, YAN J, WU W, et al. High performance visual tracking with siamese region proposal network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.
[6] Valmadre J, Bertinetto L, Henriques J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2805-2813.
[7] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2544-2550.
[8] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision, 2012: 702-715.
[9] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(3): 583-596.
[10] Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 4310-4318.
[11] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1401-1409.
[12] LI F, TIAN C, ZUO W, et al. Learning spatial-temporal regularized correlation filters for visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4904-4913.
[13] LI Y, FU C, DING F, et al. Autotrack: towards high-performance visual tracking for UAV with automatic spatio-temporal regularization [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 11923-11932.
[14] Bhat G, Johnander J, Danelljan M, et al. Unveiling the power of deep tracking[C]//Proceedings of the European Conference on Computer Vision, 2018: 483-498.
[15] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4021-4029.
[16] WU Y, Lim J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9): 1834-1848.
[17] Mueller M, Smith N, Ghanem B. A benchmark and simulator for UAV tracking[C]//European Conference on Computer Vision, 2016: 445-461.
[18] WANG N, ZHOU W, TIAN Q, et al. Multi-cue correlation filters for robust visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4844-4853.
-
期刊类型引用(3)
1. 周艳秋,高宏伟,何婷,辛春花. 电子监控部分遮挡目标单模态自监督信息挖掘技术. 现代电子技术. 2024(10): 47-51 . 百度学术
2. 季善斌,张威,徐嵩,王尔申,于腾丽,张宏轩,杨健. 基于注意力机制改进孪生网络的无人机跟踪算法. 指挥信息系统与技术. 2024(04): 50-55 . 百度学术
3. 耿礼智,周冬明,王长城,刘宜松,孙逸秋. 可逆多分支的双模态自适应融合目标跟踪算法. 激光与红外. 2024(11): 1767-1776 . 百度学术
其他类型引用(1)