一种基于多尺度的目标检测锚点构造方法

邵延华, 黄琦梦, 梅艳莹, 张晓强, 楚红雨, 吴亚东

邵延华, 黄琦梦, 梅艳莹, 张晓强, 楚红雨, 吴亚东. 一种基于多尺度的目标检测锚点构造方法[J]. 红外技术, 2024, 46(2): 162-167.
引用本文: 邵延华, 黄琦梦, 梅艳莹, 张晓强, 楚红雨, 吴亚东. 一种基于多尺度的目标检测锚点构造方法[J]. 红外技术, 2024, 46(2): 162-167.
SHAO Yanhua, HUANG Qimeng, MEI Yanying, ZHANG Xiaoqiang, CHU Hongyu, WU Yadong. Multi-scale Anchor Construction Method for Object Detection[J]. Infrared Technology , 2024, 46(2): 162-167.
Citation: SHAO Yanhua, HUANG Qimeng, MEI Yanying, ZHANG Xiaoqiang, CHU Hongyu, WU Yadong. Multi-scale Anchor Construction Method for Object Detection[J]. Infrared Technology , 2024, 46(2): 162-167.

一种基于多尺度的目标检测锚点构造方法

基金项目: 

国家自然科学基金项目 61601382

国防科工项目 

四川省科技支撑计划项目 2019YJ0325

四川省科技支撑计划项目 2020YFG0148

详细信息
    作者简介:

    邵延华(1982-),男,四川省绵阳市人,博士,讲师,主要研究方向为计算机视觉与图像处理、深度学习。E-mail:syh@alu.cqu.edu.cn

  • 中图分类号: TN911.73

Multi-scale Anchor Construction Method for Object Detection

  • 摘要: 目标检测是计算机视觉领域的研究热点和基础任务,其中基于锚点(Anchor)的目标检测已在众多领域得到广泛应用。当前锚点选取方法主要面临两个问题:基于特定数据集的先验取值尺寸固定、面对不同场景泛化能力弱。计算锚框的无监督K-means算法,受初始值影响较大,对目标尺寸较单一的数据集聚类产生的锚点差异较小,无法充分体现网络多尺度输出的特点。针对上述问题,本文提出一种基于多尺度的目标检测锚点构造方法(multi-scale-anchor, MSA),将聚类产生的锚点根据数据集本身的特性进行尺度的缩放和拉伸,优化的锚点即保留原数据集的特点也体现了模型多尺度的优势。另外,本方法应用在训练的预处理阶段,不增加模型推理时间。最后,选取单阶段主流算法YOLO(You Only Look Once),在多个不同场景的红外或工业场景数据集上进行丰富的实验。结果表明,多尺度锚点优化方法MSA能显著提高小样本场景的检测精度。
    Abstract: Object detection is a popular research topic and fundamental task in computer vision. Anchor-based object detection has been widely used in many fields. Current anchor selection methods face two main problems: a fixed size of a priori values based on a specific dataset and a weak generalization ability in different scenarios. The unsupervised K-means algorithm for calculating anchor frames, which is significantly influenced by initial values, generates less variation in anchor points for clustering datasets with a single object size and cannot reflect the multiscale output of the network. In this study, a multiscale anchor (MSA) method that introduces multiscale optimization was developed to address these issues. This method scales and stretches the anchor points generated by clustering according to the dataset characteristics. The optimized anchor points retain the characteristics of the original dataset and reflect the advantages of the multiple scales of the model. In addition, this method was applied to the preprocessing phase of training without increasing the model inference time. Finally, the single-stage mainstream algorithm, You Only Look Once (YOLO), was selected to perform extensive experiments on different scenes of the infrared and industrial scene datasets. The results show that the MSA method can significantly improve the detection accuracy of small-sample scenes.
  • 根据世界卫生组织的统计,2016年道路交通伤害导致140万人死亡,已经是全球第八大死亡原因[1],道路交通安全已经成为人类不可忽视的安全威胁之一。为减少道路交通对人类造成的伤害,目前已经有多种传感器系统被应用于汽车辅助驾驶,以期在危险情况中及时对驾驶者做出提醒,如雷达、激光测距雷达、超声波和摄像机等技术。其中雷达、激光测距雷达和超声波等属于主动测量方案,在复杂环境下易受干扰;而基于摄像机的测量方案属于被动测量方法,抗干扰能力更强,在辅助驾驶和自动驾驶领域具有广阔的应用前景,已经成为计算机视觉领域的热门研究方向。

    在夜间、雾霾等低可见度天气条件下,由于驾驶员的视线受阻,更易发生交通事故。红外线由于波长较长,具有穿透雾霾的能力,且所有温度高于绝对零度的物体都会产生红外辐射[2],故对红外线成像的红外相机具有全天候工作能力,特别在夜间、雾霾等对可见光相机成像具有严重干扰的天气条件下具有明显优势。因此,利用红外成像设备作为辅助观测手段以提高行车安全性的方法,得到了广大相关研究人员和国内各大汽车制造厂商的关注[3]

    目前,基于红外相机的车载辅助驾驶系统主要利用红外相机的全天候工作特性,帮助驾驶员在恶劣条件下观察路面情况,技术手段主要集中在行人检测与跟踪领域。如文献[3]-[4]介绍了车载夜视技术以及红外行人检测算法的发展现状,文献[5]介绍了一种基于YOLO模型的远红外车载图像快速行人检测方法,文献[6]提出了一种相关滤波框架下的红外图像行人跟踪方法,行人的位置估计需依靠驾驶员的经验判断。文献[7]使用激光雷达成像与红外成像融合的方式获取可视图像及深度信息,但成本较高。

    基于立体视觉原理获取深度信息,仅需两个相机采集双目图像,然后利用双目视差原理计算目标深度,成本较低。但是在红外图像中,由于纹理细节较少,在可见光立体视觉中使用广泛的BM(Block Matching)和SGBM(Semi Global Block Matching)等传统稠密立体匹配算法不能很好地完成红外图像立体匹配。因此,本文结合道路场景的特点,设计了一种基于红外立体视觉的路况行人感知方法,该方法可以生成感兴趣目标处稠密的全局半稠密深度图。经实验验证,该方法在道路环境下可以有效地提供车前行人等目标的深度信息。

    本文双目测距模型如图 1所示,两相机光心O1O2存在xz方向明显位移dx、dz。考虑到实际系统的安装误差因素,两相机坐标系间同时存在y方向位移dy和绕xyz三轴的相对旋转αβγ。dx、dy、dzαβγ共同构成相机的外部参数,可通过双目相机标定获得。

    图  1  双目测量模型
    Figure  1.  Binocular measurement model

    通过标定获得相机内部及外部参数后,本文采用线性三角测量法对空间点进行解算,如图 1,空间点N分别投影到两相机像平面π1π2n1n2点处,投影关系可由式(1)表示,其中n1n2π1π2像面坐标系下的齐次坐标表示,N用世界坐标系下的齐次坐标表示,P1P2分别表示空间点N到像面π1π2的投影关系,为3×4矩阵,由相机内、外部参数计算得到:

    $$ {n_1} = {\mathit{\boldsymbol{P}}_1}N,\quad {n_2} = {\mathit{\boldsymbol{P}}_2}N $$ (1)

    通过π1π2像面上的一对匹配点n1n2,可根据式(2)[8]计算得到N点在世界坐标系下的齐次坐标。其中,xiyi分别表示πi像面上N的像点ni的横、纵坐标,pij表示Pi矩阵的第j行(i=1, 2,j=1, 2, 3)。

    $$\left[ {\begin{array}{*{20}{c}} {{x_1}p_1^3 - p_1^1} \\ {{y_1}p_1^3 - p_1^2} \\ {{x_2}p_2^3 - p_2^1} \\ {{y_2}p_2^3 - p_2^2} \end{array}} \right]N = 0$$ (2)

    极线约束是指双目图像中某一图像上的点必然对应于另一图像上的一条线,如图 1,直线O1N上任一点都成像于π1像面上的n1点处,而其在像面π2上的像位于直线e2n2上,即e2n2n1的对极线,e2为光心O1在像面π2上的投影点,其数学关系可用式(3)表示:

    $${\mathit{\boldsymbol{I}}_{{e_2}{n_2}}} = \mathit{\boldsymbol{I}}{n_1}$$ (3)

    式中:${\mathit{\boldsymbol{I}}_{{e_2}{n_2}}}$表示直线e2n2F为基本矩阵,可通过相机内、外部参数获得。

    由于n2N在像面π2的像点,故n2在直线${I_{{e_2}{n_2}}}$上,即$n_2^{\rm{T}}{I_{{e_2}{n_2}}} = 0$,所以一对匹配点n1n2满足式(4)关系。

    $$n_2^{\rm{T}}\mathit{\boldsymbol{F}}{n_1} = 0$$ (4)

    因此,可利用式(4)对初始匹配结果进行筛选,去除误匹配点。

    驾驶员在驾驶车辆时,一般需要观察车辆正前方和两侧路面情况以确保行车安全。因此,为了满足实际道路应用条件,本文设计了一种大视场红外双目立体视觉环境感知单元,有效视场角约为120°。由于目前红外相机成像单元分辨率普遍不高,以及红外相机镜头视场角等因素的制约,本文提出了一种双红外双目测量方案。方案设计如图 2所示,即使用两对双目相机分别覆盖左右两侧,组成等效120°测量视场。图 2中4只相机分别组成左视、右视双目相机组,两相机组的基线长度均设计为75 cm,两组双目相机测量视场构成120°等效测量视场。该方案将4只红外相机安装在同一直线上,将系统尺寸限制在100 cm×10 cm×10 cm内,有利于在不改变车辆结构的条件下安装使用。

    图  2  系统设计方案
    Figure  2.  System design scheme

    依据2.1节所述方案,搭建实验平台,如图 3所示,该平台由4只长波红外相机及广角镜头、嵌入式处理单元、外围电路、刚性载体和外壳组成。

    图  3  大视场红外立体视觉实验系统
    Figure  3.  Large field of view infrared stereo vision experimental system

    由于三角测量模型需要已知的相机内参和双目相机外参解算匹配点坐标,因此需对相机进行标定。目前应用最广泛的相机标定算法为张正友标定法[9],该方法需要单平面棋盘格作为标定板。由于红外辐射量和物体温度有关,物体温度越高,红外辐射越强,红外图像体现的是物体温度差异。根据红外成像原理,本文设计了一种红外棋盘格标定板(下称标定板),如图 4所示。

    图  4  红外棋盘格标定板
    Figure  4.  Infrared chessboard

    图 4(a)为该标定板的可见光图像,图 4(b)为红外图像。棋盘格白格为良导热材料制成,背层贴有电热片,黑格为隔热材料制成,背层无电热片,通电后白格区域电热片发热使其温度升高,黑格区域的隔热材质使其保持相对较低的温度,从而使棋盘格的红外图像具有与可见光图像相似的图像特征。本文设计的棋盘格可用于红外相机标定,可见光相机标定和红外、可见光相机联合标定。

    本文的路况行人感知问题研究定位于道路使用者中的行人和骑行者等目标。由于人体具有较为明显的温度、边缘特征,因此可以此为依据在双目相机左、右图像中寻找感兴趣区域,并在感兴趣区域中进行特征点提取、配准并最终生成可视化半稠密深度图。

    图像幂次变换是指通过对图像灰度值的k次幂变换,使灰度值较大的位置得到增强,而灰度值较小的位置得到抑制。图像幂次变换可用式(5)表示:

    $${i_{{\rm{new}}}} = M{\left( {\frac{{{i_{{\rm{old}}}}}}{{{i_{\max }}}}} \right)^k}$$ (5)

    式中:ioldinew为图像上任一点转换前、后灰度值;imax为原图像的最大灰度值;M为处理后的图像最大灰度值,指数k越大,图像增强效果越明显,本文应用场景中k值的取值范围为1.6~2.0。

    由于红外图像是对红外热辐射的成像,温度高的物体成像位置灰度值大,温度低的物体成像位置灰度值小。一般红外场景中的人体温度较高,背景温度较低,对应红外图像中,行人目标位置灰度值较大,背景位置灰度值较小,通过图像幂次变换,可有效增强行人目标,抑制背景。如图 5(b),相对原图(图 5(a)),其背景得到明显抑制,行人目标得到增强。

    图  5  感兴趣区域提取
    Figure  5.  Region of interest (ROI) detection

    由于行人、骑行者的竖向边缘较多[10],因此可以使用Sobel边缘检测算法检测图像中的竖向边缘,如图 5(c)(为了便于观察,图像有亮度增强)所示,图中实线框内为行人目标,虚线框内为无效目标,利用目标灰度约束可以剔除大部分无用边缘信息,如图 5(d)所示,图像中剩余的轮廓信息主要集中在行人位置处。由于轮廓位置所占图像面积较小,仅将该位置作为特征提取区域不利于提取到足够多的特征点,因此使用图像膨胀算法对图 5(d)所示基于灰度约束的边缘提取图像进行处理,得到图 5(e)所示感兴趣区域(Region of interest, ROI),通过在左右图像ROI区域内提取和匹配特征点,可有效减少特征点提取和匹配数量,减少误匹配数量,提高算法运行效率。

    由于红外图像缺乏一般可见光图像中丰富的纹理细节特征,仅在目标轮廓边缘等梯度变化较大的地方存在明显图像特征,因此本文采用SURF(Speeded-Up Robust Features)算法[11]在ROI区域对图像进行特征提取。SURF算法基于图像边缘检测特征点,且运行速度快,经实验验证,其在长波红外图像上具有良好的特征点提取效果。利用SURF算法在ROI区域进行特征点检测和匹配的效果如图 6(a)所示,图中线段的端点为特征点位置,其两端为一对初始匹配点,可以看出其中存在明显错误匹配点。利用式(4)对匹配点进行筛选,结果如图 6(b)所示,图中线段连接的匹配点为筛选后的匹配点,可见图 6(a)中的明显错误匹配点被有效剔除。

    图  6  特征点提取及匹配
    Figure  6.  Feature points extraction and match

    获取筛选后匹配点后,利用三角测量模型可以解算匹配点对应的空间点坐标,获取原始稀疏深度图(如图 7(a))。由于原始深度图是稀疏的,因此其直接用于显示效果较差。本文采用种子填充法(Seed-Filling)标记图 5(e)中不同连通域,在各连通域中选取原始深度图对应区域中的所有有效深度值的中值作为该区域的代表深度值,得到半稠密深度图,如图 7(b)

    图  7  深度图(局部)
    Figure  7.  Depth map (local)

    由于ROI图像中不同连通域表示场景中的不同目标,同一目标的不同位置的深度值是相近的,因此使用代表深度值估计整个目标的深度是可行的,且代表深度值的中值选取策略可以有效避免少量错误匹配点产生的异常深度值对目标深度估计的影响。

    为便于观察,本文采用从浅到深的渐变颜色表示0~30 m内的距离远近。距离越远,颜色越深;距离越近,颜色越浅。图 8给出了6组夜间路面测试结果,对照图和显示图依次对应。其中对照图经过幂次变换对背景进行了抑制,显示图在对照图的基础上引入了渐变颜色表示图像中目标的深度信息,并在图像右侧给出了颜色图例。图 8中6组显示图中包含不同距离的行人、跑步者、骑行者等目标。可以看出,行人、跑步者、骑行者等目标均得到较好的颜色标记,参考颜色图例可以判断目标的相对远近,从而为驾驶员在夜间驾驶提供良好的辅助观测信息。

    图  8  路面测试结果
    Figure  8.  Results of road test

    为验证系统测距精度,本文在夜间室外环境下,采用合作目标对左、右视双目相机分别进行精度实验,合作目标为一个2×2红外棋盘格,如图 9所示。以左视双目相机为例,合作目标参考位置如图 10所示,取3个方向,每个方向5~30 m范围内的18个点(图中未全部画出)验证系统测距精度。合作靶标的位置约定真值由精度为2+2 ppm的全站仪间接测得,以左相机为基准点,利用全站仪分别测量左相机和合作靶标的中心角点坐标,通过计算得到合作靶标中心距左相机基准点的距离约定真值。将系统测距结果和约定真值作比较,图 11给出了系统测距误差,系统测距结果在30 m范围内绝对误差均小于1 m,相对误差小于3%;15 m范围内绝对误差小于0.5 m,相对误差小于1.5%。考虑到本文的路况行人感知方法的主要应用场景为向驾驶者提供辅助观测信息,系统的测距精度满足实用需求。

    图  9  2×2红外棋盘格
    Figure  9.  2×2 infrared chessboard
    图  10  左视双目视场目标参考位置
    Figure  10.  Reference position of targets in left binocular field of view
    图  11  测距实验结果
    Figure  11.  Results of distance measurement

    本文设计了一种基于红外立体视觉的路况行人感知方法。针对红外图像纹理细节少,传统稠密双目立体匹配算法效果差的问题。本文首先提取图像ROI,然后在其中提取特征点并匹配以生成原始稀疏深度图,最后结合ROI和原始稀疏深度图估计ROI内稠密的全局半稠密深度图。并设计了实验系统对该方法进行实验验证。实验结果表明,该方法具有良好的行人等目标的检测效果,在系统约120°观测视场角内,目标深度感知相对误差在15 m范围内优于1.5%,30 m范围内优于3%,满足实际应用场景。

  • 图  1   Vox数据集上不同锚点与Ground truth对比

    注:蓝色框为Ground truth;红色框为6个锚点

    Figure  1.   Comparison between Ground truth and different anchors on Vox data sets

    Note: The blue box is Ground truth; The red box shows six anchors

    图  2   IoU值最大的锚点与Ground truth的对比示例

    注:实线为Ground truth;虚线为IoU值最大的锚点

    Figure  2.   Example of comparison between the anchor point with the maximum IoU value and ground truth

    Note: The solid line is Ground truth; Dotted line is the anchor point with the maximum IoU value

    图  3   四类数据集的部分示例图像

    Figure  3.   Partial sample images of four types of datasets

    图  4   TDP数据集中锚点缩放的消融测试

    Figure  4.   Ablative test of anchor point scaling on TDP dataset

    表  1   不同Anchor在四类数据集上的对比结果

    Table  1   Comparison results of different anchors on four data sets

    Anchor ComNet/(%) TDP/(%) Roboflow-mask(%) Vox/(%)
    COCO
    K-means
    MSA
    96.86 90.03 66.20
    66.60(+0.40)
    67.00(+0.80)
    89.36
    97.12(+0.26) 90.90(+0.87) 91.03(+1.67)
    97.24(+0.38) 91.74(+1.77) 91.44(+2.08)
    下载: 导出CSV

    表  2   Vox数据集在不同网络的表现

    Table  2   Performance of different networks on Vox datasets

    Network Anchor MAP@0.5(%)
    YOLOv3-tiny COCO 89.36
    K-means 91.03(+1.67)
    MSA 91.44(+2.08)
    YOLOv4-tiny COCO 90.16
    K-means 90.35(+0.19)
    MSA 91.56(+1.4)
    YOLOv3 COCO 92.69
    K-means 93.32(+0.63)
    MSA 93.59(+0.90)
    YOLOv5s COCO 94.88
    K-means 95.02(+0.14)
    YOLOv5s-Aut 94.82(−0.06)
    MSA 95.63(+0.75)
    下载: 导出CSV
  • [1] 伏轩仪, 张銮景, 梁文科, 等. 锚点机制在目标检测领域的发展综述[J]. 计算机科学与探索, 2022, 16(4): 791-805.

    FU Xuanyi, ZHANG Luanjing, LIANG Wenke, et al. Review on the development of anchor mechanism in object detection[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(4): 791-805.

    [2] 易诗, 周思尧, 沈练, 等. 基于增强型轻量级网络的车载热成像目标检测方法[J]. 红外技术, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f

    YI Shi, ZHOU Siyao, SHEN Lian, et al. Vehicle-based thermal imaging object detection method based on enhanced lightweight network[J]. Infrared Technology, 2021, 43(3): 237-245. http://hwjs.nvir.cn/article/id/e58223a9-7347-4fab-828d-663b93eaa92f

    [3] 顾佼佼, 李炳臻, 刘克, 等. 基于改进Faster R-CNN的红外舰船目标检测算法[J]. 红外技术, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9

    GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship object detection algorithm based on improved faster R-CNN[J]. Infrared Technology, 2021, 43(2): 170-178. http://hwjs.nvir.cn/article/id/6dc47229-7cdb-4d62-ae05-6b6909db45b9

    [4] 邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708.

    SHAO Yanhua, ZHANG Duo, CHU Hongyu, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3697-3708.

    [5]

    ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9759-9768.

    [6]

    LIN T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context[C]//European Conference on Computer Vision, 2014: 740-755.

    [7]

    LAW H, DENG J. Cornernet: detecting objects as paired key-points[C]//Proceedings of the 15th European Conference on Computer Vision, 2018: 765-781.

    [8]

    YUAN C, YANG H. Research on K-value selection method of K-means clustering algorithm[J]. Multidisciplinary Scientific Journal, 2019, 2(2): 226-235. DOI: 10.3390/j2020016

    [9]

    LI M, ZHAO X, LI J, et al. ComNet: combinational neural network for object detection in UAV-Borne thermal images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(8): 6662-6673. DOI: 10.1109/TGRS.2020.3029945

    [10]

    LUO Y, SHAO Y, CHU H, et al. CNN-based blade tip vortex region detection in flow field[C]//Eleventh International Conference on Graphics and Image Processing, 2020, 11373: 113730P.

    [11]

    ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Association for the Advance of Artificial Intelligence(AAAI 2020), 2020: 12993-13000.

    [12]

    FU C Y, LIU W, Ranga A, et al. Dssd: Deconvolutional single shot detector[J/OL]. arXiv preprint arXiv: 1701.06659, 2017.

    [13]

    LIN T, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(2): 318-327.

    [14]

    CAI Z, FAN Q, FE RIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]//Proceedings of the 14th European Conference on Computer Vision, 2016: 354-370.

    [15]

    ZHU C, TAO R, LU K, et al. Seeing small faces from robust anchor's perspective[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 5127-5136.

    [16]

    KE W, ZHANG T, HUANG Z, et al. Multiple anchor learning for visual object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10206-10215.

    [17]

    Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J/OL]. arXiv preprint arXiv: 1710.05941, 2017.

    [18]

    KONG T, SUN F, LIU H, et al. Foveabox: beyond anchor-based object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398. DOI: 10.1109/TIP.2020.3002345

    [19]

    ZOU Zhengxia, SHI Zhenwei, GUO Yuhong, et al. Object detection in 20 years: a survey[J/OL]. arXiv preprint arXiv: 1905.05055, 2019.

    [20]

    Zoph B, Cubuk E D, Ghiasi G, et al. Learning data augmentation strategies for object detection[C]//European Conference on Computer Vision, 2020: 566-583.

图(4)  /  表(2)
计量
  • 文章访问数:  150
  • HTML全文浏览量:  33
  • PDF下载量:  42
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-04-06
  • 修回日期:  2022-05-10
  • 刊出日期:  2024-02-19

目录

/

返回文章
返回