检测图像角点自适应确定跟踪模板的方法

王德胜; 吴钟建; 姚秀娟; 金代中; 卢宏超

检测图像角点自适应确定跟踪模板的方法

西南技术物理研究所,四川成都,610041
驻 209 所军代室,四川成都,610041
西南技术物理研究所
西南技术物理研究所(209所)

详细信息

中图分类号: TN911
计量
- 文章访问数: 84
- HTML全文浏览量: 15
- PDF下载量: 10
出版历程

Method for Detecting Image Corners Using Adaptive Determining Tracking Template

摘要

摘要: 基于区域的跟踪方法,其跟踪模板的大小和位置对跟踪结果的影响十分显著,本文通过分析模板视觉显著性特征,提出采用AGAST快速角点检测方法,计算角点间相对距离,分析角点位置分布来自适应确定模板大小和位置,从而提高相关匹配跟踪算法的适应能力.仿真试验结果表明,该方法确定的模板能较好的包含目标显著性视觉特征,并且具有计算速度快,稳健性高,能有效提高采用区域模板匹配方法的跟踪性能.
- 视觉特征 /
- 角点检测 /
- 自适应模板 /
- 图像跟踪

HTML全文

0. 引言

红外探测器具有全天候成像的特点，在军事侦察领域得到了广泛的应用。其中，红外目标检测是军事侦察领域的关键性技术，为提升自身应对风险能力，无人机设备被大量投入用来定位目标信息。而红外图像具有分辨率低，特征信息弱的特点，在物体不同大小、形状、光照等复杂场景下，如何精确地识别多尺度目标成为研究热点。

随着红外成像技术的发展，目标检测技术被广泛应用于人脸识别、智慧交通、工业检测等领域，是计算机视觉领域的核心问题之一。2014年，Girshick等人^[1]提出了一种双阶段目标检测模型R-CNN（Region-Convolutional Neural Network），大大提高了目标检测效果，但是该算法需要重复计算且计算量较大，资源消耗较高，无法满足实时检测的需求。2016~2018年，有研究人员相继提出了YOLO（You Only Look Once）^[2]和单阶段目标检测算法（Single Shot MultiBox Detector，SSD）^[3]，SSD算法为解决小物体定位不精确，检测困难等问题，采用了特征金字塔结构。而YOLO算法可以直接输出不同比例的边界框坐标信息，相对于双阶段目标检测网络，它有更快的检测速度，更小的参数量以及较少的Flops占用，但在小目标或重叠的物体检测中仍有不足。随单阶段目标检测算法的不断改进，在YOLOv3^[4]之后衍生出多个版本，如2021年提出的YOLOv5^[5]，改进了YOLOv4^[6]的一些缺陷如IOU损失的问题，且体积小，检测速度更快，检测精度更高，截至目前，YOLOv5以及YOLOv7系列受到了广泛的认可与关注。

YOLOv5以及YOLOv7系列作为目前主流的检测器，具有收敛速度快、检测精度高、可定制性强的优点。但通过迁移式学习将其应用于红外目标检测时，网络检测精度不高。特别是在红外复杂场景或被测物体特征信息较弱的条件下，网络表现出鲁棒性较差的特性，会出现漏检、错检等现象。本文为解决深度学习算法对红外图像适应能力差的问题，对图像的特征提取，融合以及数据处理方法做出了改进，提出了一种基于YOLO-MIR（YOLO for Multi-scale IR image）的红外多尺度目标检测网络。

本算法在特征提取部分借鉴了YOLOv7^[7]的MP下采样模块，并将其中的最大池化核替换为更适应红外图像特征的平均池化核。在融合模块中，使用基于PANet^[8]的网络结构来增加特征融合的尺度。同时，在数据预处理阶段，设计了针对红外图像的数据增广算法来加速梯度下降以及增加网络的鲁棒性。

1. YOLO-MIR算法分析

1.1 YOLO-MIR网络结构

本文以YOLO系列的基本结构和数据处理方法为基础，针对红外图像做出进一步改进，具体为：特征提取模块的改进，多尺度特征融合，以及新的数据处理方法。基于以上改进提出了一种多尺度红外图目标检测网络YOLO-MIR，其网络的结构如图 1所示，主要分为3个部分：Backbone，Neck以及Head。Backbone作为网络的主干对输入图像进行特征提取，Neck部分将主干特征进一步融合，Head负责目标的分类与位置信息的预测。

图 1 YOLO-MIR网络结构，Backbone负责特征提取，Neck负责特征融合，Head负责分类预测

Figure 1. YOLO-MIR network structure, Backbone is responsible for feature extraction, Neck is responsible for feature fusion, and Head is responsible for classification prediction.

下载: 全尺寸图片幻灯片

1.1.1 特征提取

在卷积神经网络中，主干特征提取网络（Backbone）负责从原始输入数据中提取出有意义的特征的部分。这些特征通常是语义化、抽象化的，用来解决分类、检测、分割等问题。特征提取网络通常是由多层卷积模块（CBS）组成，每层通过一系列的卷积（Convolution）、样本标准化（Batch Normalization）和非线性激活函数（Silu）等操作，将输入数据逐渐转换为更高级别的特征表示。在YOLOV7中，引入了ELAN模块（Efficient Layer Aggregation Networks），它使用跨层链接的方式，增加了梯度信息，可以减少网络的计算量。与此同时MP模块由最大池化层（MaxPooling）和CBS（Convolutional+Batch Normalization+Silu）结构并联而成，在下采样的同时保留了图像的空间细节特征。

在基于可见光的目标检测算法中，通常使用最大池化算法来提取图像的边缘信息，增加图像锐度。而红外图像有着单通道，热成像的特性，许多基于可见光的算法在红外图像上并不适用。如图 2，当环境温度高而被检测物体温度较低时，目标的灰度值较小，对于卷积神经网络其特征信息不明显，此时用最大池化进行处理会造成特征信息的丢失，从而降低检测精度。

图 2 单通道红外图像的池化操作

Figure 2. Pooling operation for single channel IR images

下载: 全尺寸图片幻灯片

本算法基于YOLOv7的主干特征提取网络（Backbone）做出了改进，将MP模块中的最大池化核替换为平均池化，得到AP模块（AvgPooling+CBS），AP-1与AP-2的结构相同，通道数有所差异。在DarkNet^[9]特征提取网络以及Neck层中将AP模块进行应用，相较于主流特征提取方法，改进后的特征提取网络可以有效提取红外图像的低灰度信息，同时保留了更多的图像细节。

1.1.2 特征融合

在卷积神经网络的图像特征中，不同层次的特征代表不同的语义信息。其中，浅特征层的感受野小，空间信息较为丰富，有利于检测小目标的位置信息，而深层特征感受野大，有更多的通道信息，有利于进行特征分类。如何融合不同层次的特征以应对多尺度目标检测是融合网络的首要任务。

相较于双阶段检测网络如Faster R-CNN^[10]，Mask R-CNN^[11]，YOLO系列算法为获得更快的检测速度，没有进行建议框的生成，直接在输出特征上进行边界框（bounding box）的回归，这会造成对小目标检测精度低的问题。针对这一问题，本文参考了双阶段检测网络中FPN特征金字塔的思想，并基于PANet网络结构，在Neck部分增加了特征融合的尺度。如图 3，相较于传统YOLO算法，本算法增加了特征分辨率更大的P1特征，不同特征层之间进行上采样或下采样以进行通道的拼接（cat），使不同空间尺度的特征进一步融合。自底向上和自顶向下结合的信息通路结构融合了多分辨率的特征，有助于网络检测不同尺度的目标。

图 3 多尺度特征金字塔结构

Figure 3. Multi-scale feature pyramid structure

下载: 全尺寸图片幻灯片

1.1.3 分类与检测

YOLO Head负责将Neck送入的加强特征进行分类与预测，它具体分为3个步骤：①正负样本的判断，②特征图的编码，③解码并进行预测。

在正负样本判断的过程中，我们借鉴了YOLOv5损失函数的设计，使用CIOU^[12]作为判断标准。如图 4，CIOU引入预测框和真实框之间的欧氏距离，解决了IOU对尺度不敏感的问题。其公式如下：

图 4 CIOU原理图

Figure 4. CIOU schematic

下载: 全尺寸图片幻灯片

$$ {\text{CIOU}} = {\text{IOU}} - \frac{{{\rho ^2}(b, {b^{{\text{gt}}}})}}{{{c^2}}} - \alpha \upsilon $$

(1)

$$ \alpha = \frac{\upsilon }{{1 - {\text{IOU}} + \upsilon }} $$

(2)

$$ \upsilon = \frac{4}{{{{\text{π}}^2}}}{(\arctan \frac{{{w^{{\text{gt}}}}}}{{{h^{{\text{gt}}}}}} - \arctan \frac{w}{h})^2} $$

(3)

式中：ρ²(b, b^gt)分别代表真实框和预测框中心点间的欧氏距离；c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离；IOU代表预测框和真实框的交并比。

在编解码过程中，首先将输入的加强特征进行通道数的调整。以Microsoft COCO数据集^[13]为例（80种类别），在基于YOLO的3种不同尺度的Anchor设计中，每一种尺度的Anchor都包含了检测框的坐标和长宽信息(d_x, d_y, d_w, d_h)以及物体所属类别（0/1）。为方便进行回归计算，在预测前使用大小为1×1的卷积核进行通道数调整，调整后的通道数为3×(80+4+1)＝255。

随着损失函数的降低，预测框与真实框的相似性进一步提高，在检测过程中由于进行多尺度以及多空间位置检测，会产生一系列的预测框。为保证网络检测的准确性，我们使用NMS非极大抑制算法挑选出置信度最高的预测框作为网络的输出。

1.2 数据处理方法

在图像传入神经网络的过程中，通常使用色域变换（HSV）^[14]，双边模糊（Bilateral Filter）^[15]等算法对输入图像进行预处理，增加了图像数据的可变性，有利于损失值的收敛，增加网络的鲁棒性。与可见光不同，红外图像具有通道单一、对比度低、高位宽的特性。在可见光图像上应用的数据处理算法在红外图像上作用不明显甚至有消极作用。如图 5可以看出，原始红外图像经过这些算法处理之后图像质量会进一步下降，不能很好地达成数据增广的目的。针对这一问题，本节提出了一种针对红外图像的数据扩充方法。

图 5 可见光预处理算法

Figure 5. Visible image preprocessing algorithm

下载: 全尺寸图片幻灯片

红外探测器是根据热辐射的大小进行成像的，其图像灰度有着昼夜翻转的特性。根据这一原理我们将每个像素点的灰度值在一定范围内进行翻转处理，来模拟同一场景下的昼夜成像效果，达到数据增广的目的。其计算如下：

$$ \boldsymbol{F}=\max (\boldsymbol{X})-\boldsymbol{X} $$

(4)

式中：X为输入图像矩阵；max(X)为矩阵中的最大值；F为输出图像矩阵。

经过公式(4)变换前后的图像如图 6所示，(a)表示原始图像，(b)为灰度反转后的图像，经对比可以看出在完成数据扩充的同时图像质量也得到了保证。为验证本方法的有效性，在不同数据集上进行了验证，训练过程中YOLOv7（baseline）采用用随机旋转和镜像翻转作为数据增广方法。结果如表 1所示，在可见光数据集中对每通道的数据进行灰度反转，所提升的精度不明显，在COCO数据集上出现了精度下降的情况，但在红外数据集上使用本算法精度得到了明显提升，在KAIST和FLIR数据集上精度分别上升了2.5%和1.5%。由于可见光与红外图像成像原理不同，所包含的红绿蓝三通道信息不能很好地反应物体与背景间的热度差异，所以使用灰度反转数据扩充方法会导致精度下降的问题，而在红外热图像中，此方法起到了很好的数据扩充作用，对精度的提升也比较明显。

图 6 灰度反转算法

Figure 6. Grayscale inversion algorithm

下载: 全尺寸图片幻灯片

表 1 YOLOv7数据扩充方法在不同数据集上的对比

Table 1. Comparison of YOLOv7 data expansion methods on different data sets

Category	Dataset	mAP₅₀ / %
Category	Dataset	YOLOv7 (clip, rotating, overturn)	YOLOv7 (inverse only)
Visible	Voc^[16]	84.0	84.2	0.2↑
Visible	CoCo	69.7	67.9	1.8↓
Terminal	KAIST^[17]	94.6	97.1	2.5↑
Terminal	FLIR	89.4	90.9	1.5↑

下载: 导出CSV

| 显示表格

2. 实验及结果分析

2.1 实验设置

实验所用到的数据集为FLIR数据集^[18]，FLIR数据集共包含14452幅带标签的红外图像，其中10228幅图像取自短视频，4224幅图像取自144 s的连续视频，其中Car标签46692个，Person类别28151个，Bicycle类别4457个，使用Python程序随机划分80%作为训练集，10%作为验证集，余下10%作为测试集。我们使用PyTorch框架来实现本算法，在所有训练中使用的参数如下：训练周期为400，学习率为0.01。使用SGD优化器，其动量和权重衰减参数分别设置为0.9和0.0005。使用单个A6000 GPU进行训练，批次大小设置为32。采用余弦退火算法，初始学习率为0.05。

2.2 消融实验

为了直观地体现各方法对网络性能的影响，以YOLOv7算法作为对比，在FLIR数据集上设置了消融实验。具体分为三步，首先更改网络下采样模块中池化层的种类，其次引入针对红外图像的数据增广方法，最后增加多尺度特征融合模块。通过单步训练与测试，记录各参数变化，分析这些方法网络整体性能的影响。

经过300个epoch的训练且当loss稳定后，在FLIR测试集上进行测试。通过表 2可以看出使用多尺度融合模块后mAP提升了1.6%，网络的检测能力得到了提升。并且，将Max pooling替换为Avg pooling后网络的精度也得到了相应提升，证实了在红外图像中使用Avg pooling能获取更多特征信息的假设。如图 7所示，在引入针对红外图像的数据扩充方法后可以有效地帮助网络收敛，加快了梯度下降的速率，同时得到更低的loss值，并且如表 2所示，其检测精度也得到了相应的提高。当同时使用这些方法确定的网络模型进行测试时，检测精度得到了进一步的提升。

表 2 YOLO-MIR在FLIR数据集上的消融实验

Table 2. YOLO-MIR ablation experiments on FLIR dataset

YOLOv7	Avg pooling	Data argument	Multi-scale integration	mAP50/%
√				90.0
√	√			90.5
√		√		90.9
√			√	91.6
√	√	√	√	92.7

下载: 导出CSV

| 显示表格

图 7 网络训练时的loss下降曲线；红色曲线(a)表示使用了本文提出的红外数据增广算法，蓝色曲线(b)表示使用传统数据处理方法

Figure 7. Loss descent curve in network training; The red curve (a) indicates the use of the infrared data augmentation algorithm proposed in this paper, and the blue curve (b) indicates the use of traditional methods

下载: 全尺寸图片幻灯片

2.3 对比实验

我们采用平均精度均值（mAP），各类别的平均精度（AP），参数量（Params），权重大小（Weight）等指标对网络性能进行综合评价。通过表 3可以看出与主流的单步检测网络YOLOv4，YOLOv5，SMG-Y和YOLO-ACN相比，YOLO-MIR的性能更高，相对于最新的YOLOv7，在Person，Bicycle，Car各类别的AP上分别高出2.5%，3.8%，4.4%。本算法同时保留了小参数量的优势，可以适应于移动端的部署。相对于硬件要求高，参数量较大的双步检测网络Faster R-CNN和PMBW（A Paced MultiStage BlockWise）相比，本算法体现出明显优势，在参数量远远小于Faster R-CNN和PMBW的条件下Person，Bicycle，Car各类别AP上比Faster R-CNN分别高出14.7%，18.5%，8.8%，比PMBW分别高出9.9%，27%，10.7%，

表 3 YOLO-MIR与其他网络在FLIR数据集上的对比实验

Table 3. Experiments comparing YOLO-MIR with other networks on FLIR dataset

Methods	mAP/%	Person/%	Bicycle/%	Car/%	Parameters	FLOPs/B
Faster R-CNN	79.2	76.4	72.5	88.4	41.2M	156.1
YOLOv4	79.3	76.2	75.1	87.3	63.9M	128.3
YOLOv5m	81.6	78.0	78.1	89.2	35.7M	50.2
SMG-Y^[19]	77.0	78.5	65.8	86.6	43.8M	54.7
PMBW^[20]	77.3	81.2	64.0	86.5	36.0M	120.0
RGBT^[21]	82.9	80.1	76.7	91.8	82.7M	130.0
YOLO-ACN	82.1	79.1	57.9	85.1	34.5M	111.5
YOLOv7	89.7	88.6	87.2	92.8	36.9M	104.7
YOLO-MIR	92.7	91.1	91.0	97.2	37.0M	104.8

下载: 导出CSV

| 显示表格

通过测试结果，我们可以直观地展示网络性能的差异。图 8显示了不同网络的预测结果。通过对比可以看出YOLO-MIR在同一场景下检测到的物体数量更多，且不同尺度目标的置信度明显高于其他网络。通过对比试验可以看出YOLO-MIR具有出色的性能，并且对不同尺度的红外目标都具有更高的检测精度。

图 8 各网络预测结果对比

Figure 8. Comparison of prediction results of each network

下载: 全尺寸图片幻灯片

3. 结论

为解决主流的目标检测算法对红外图像适应性差、检测精度低的问题，本文提出了一种针对多尺度红外目标的检测算法YOLO-MIR。针对红外图像特征难以提取的问题，本文借鉴了YOLOv7的下采样模块并做出了进一步改进，可以有效地提取红外图像特征。为了适应多尺度目标的检测，在网络的特征融合部分引入PANet特征金字塔结构，增加了高特征分辨率的信息。在数据处理方面，提出了一种针对红外图像的数据增广方法，可以有效加快训练速度的同时提升了网络的鲁棒性。消融实验和对比试验的结果表明，YOLO-MIR比最新的YOLOv7算法在平均检测精度上提高了3%，同时保留了小参数量的优势。在测试过程中，本算法无论是检测速度还是检测精度都有着出色的性能，在日常应用和工业生产中都有很大的应用价值。

参考文献(0)

施引文献

资源附件(0)

计量

文章访问数: 84
HTML全文浏览量: 15
PDF下载量: 10
被引次数: 0

0. 引言
1. YOLO-MIR算法分析
1.1 YOLO-MIR网络结构
1.1.1 特征提取
1.1.2 特征融合
1.1.3 分类与检测
1.2 数据处理方法
2. 实验及结果分析
2.1 实验设置
2.2 消融实验
2.3 对比实验
3. 结论

检测图像角点自适应确定跟踪模板的方法

计量

出版历程