Infrared Pedestrian Detection in Complex Night Scenes
-
摘要: 针对夜间红外图像中行人与背景灰度差异小且存在遮挡等问题,提出了一种夜间复杂场景下的红外行人检测算法。首先利用行人语义融合方法生成对目标全覆盖的显著图,与原图融合得到感兴趣区域,然后构造基于改进的方向梯度直方图特征的两分支分类器,同时提出一种遮挡判别算法,根据分类器模糊分数判断是否遮挡,设计一种头部模板实现最终的行人检测。在LSI远红外行人数据集和自主采集的冬、夏季节夜间行人数据上进行实验,结果表明:在不同环境下,所提出的方法均可快速鲁棒地检测出行人,可较显著地降低漏检率,检测率可达到94.20%。Abstract: An infrared pedestrian detection algorithm is proposed to solve the problem of small differences between pedestrians and backgrounds in gray scale images and the occurrence of occlusion in infrared images at night. First, a significant graph with the full coverage of the target is generated by the pedestrian semantic fusion method, and the region of interest is obtained by combining it with the original graph. Then, a two-branch classifier based on the improved histogram of the gradient feature is constructed. The fuzzy score of the classifier is used to determine the occurrence of occlusion and call the head template for the final detection. Experiments based on the LSI far infrared pedestrian dataset and independent datasets of pedestrians captured at night in winter and summer prove that the proposed method is robust and quick in detecting pedestrians under different environments. It can significantly reduce the rate of missed detection and realize a detection rate of 94.20%.
-
Keywords:
- infrared image /
- pedestrian detection /
- saliency /
- complex censes /
- HOG feature
-
0. 引言
将红外图像应用在枪械瞄准具时,可以实现夜间观察、辅助作战、远距离侦查等,这样的红外瞄准具安装在枪械上,要求图像质量好、体积小巧、重量轻、功耗低,可以长时间稳定工作,例如文献[1-4],基于FPGA(field programmable gate array)的红外图像处理平台是目前首选的工程实现的硬件方案。
在FPGA的嵌入式系统中完成红外图像的采集,降噪滤波、非均匀性校正、锐化增强、AGC(automatic gain control)动态调光等等红外图像处理,最后将处理好的红外图像输出显示在小型OLED(organic light-emitting diode)显示屏幕上。如果未经过零位校准的瞄具,直接从OLED显示屏上观测目标靶标,并进行射击,是很难命中靶标的。因为我们的瞄具是通过支座卡槽连接、固定在枪械上的,所以相对于枪管的平行中心在垂直方向是有偏移的,在对准目标靶标进行瞄准时,瞄具上的OLED显示屏显示的靶标中心并不是枪管对准目标的真正中心,并且由于重力作用,打出去的子弹会经过抛物线落到目标靶面上,随着目标距离越远,抛物线运动越明显。所以红外瞄准具安装在枪械上时,每经过一段距离就需要进行一次系统的零位标定和校准,以保证枪械瞄准的准确度。目前在红外瞄具初次使用时,传统的零位校准方法有激光定标测距方法和图像冻结计算方法,这两种方法要么需要借助其他设备辅助测量,要么校准过程复杂,繁琐,准确度难以保证。而本文提出的零位校准方法,在校准过程中不需要额外的辅助设备,操作简单,一键触发、自动计算,校准准确度高。
1. 传统的校准算法
1.1 激光定标测距法
激光定标测距法需要专用的校准靶标,以及激光测距仪、标尺,协作测量才能完成红外瞄准具的校准,比较费时费力。在空旷训练靶场,用枪械红外瞄具的十字分化线瞄准目标靶标中心进行实弹射击后,子弹打出去在靶标附近留下弹孔,先用激光测距仪测出靶标与红外瞄具之间的距离,然后利用标尺测出靶标中心与弹孔之间的实际距离,并根据红外瞄具所用镜头的焦距,利用如图 1所示倒三角光路映射关系,文献[5-8]中提出该种三角测距法,将弹孔偏移靶标中心的距离映射至红外图像上像素偏移数值。将该偏移数值作为红外瞄准具进行校准调整十字分化线的依据。
该种方法需要的测量工具较多,测量过程复杂,测量时间长导致校枪的效率低下。
1.2 图像冻结计数法
图像冻结计数法需要用枪瞄的十字分划线瞄准靶标射击后,再一次用十字分化线重新瞄准同一靶标,进行准心校准。文献[9-15]中提出了该种零位偏移计数方法。由于在实弹射击过程中,子弹打出的瞬间产生冲击力,导致枪支晃动或者移动,所以在打出子弹后,需要再一次用十字分化线重新瞄准该靶标中心,进行校准。如图 2(a)所示为实弹射击之前瞄具目标靶标中心的画面,图 2(b)所示为实弹射击之后瞄具目标靶标中心的冻结画面。冻结画面即将图像画面定住,不再因为目标场景的变化而变化。在子弹打出后,由于子弹穿透过靶标,子弹与靶标摩擦发热,产生的弹孔在红外图像中显示为一个高亮的点或者块,红外图像中对应的目标越热越亮。随着时间的延长,弹孔处的热量也会消失,冻结图像的目的就是保持该弹孔处热源高亮的状态。
由图 2(b)可知,弹孔在目标靶标中心的右上方(也有可能在左上方、左下方、右下方等情况),表明实际的准心位于瞄准具的十字分化线的中心偏右上的位置。图 2(b)相对于图 2(a)目标靶标相同,距离相同,只是多了一个子弹弹孔高亮的痕迹。并在该冻结画面中,弹孔处高亮的热度不会消失,在该画面下,进行十字分化线偏移数值的调整,即往右上方偏移,让十字分划线的交叉点与弹孔热源的中心重合,并保存该状态,即完成了热瞄准心的校正过程。在该校准过程中,需要两次瞄准目标靶标中心,而且需要手动一个像素一个像素地调整十字分化线的中心,过程相对繁琐,并且在前后两次瞄准该靶标中心的位置是需要完全一样,不能偏移一个像素,否则调整完的十字分化线的中心即准心也是有偏差。这个由于人眼观察误差、瞄准误差,所以较难做到前后两次瞄准的目标中心是完全一致的。
2. 一键自匹配校准算法
为了实现操作简单、校准精度高、校准效率高的要求,本文在传统校准算法的基础上进行了改进和提升。如图 3所示为视频处理基本流程框图。
在FPGA嵌入式系统中,用逻辑部分来进行ISP(image signal processing)图像处理,用软核构建CPU(central processing unit)来做OSD(on-screen display),比如十字分划线的画线、调整、按键处理都可以在OSD中做。在本文中,ISP部分将图像传感器输出的视频图像按视频流形式一帧一帧地进行ISP处理,同时针对各算法模块的需求进行视频图像数据的缓存,存储器为外挂的DDR(double data rate SDRAM)。同时对OSD部分要显示的字符、图片等信息写入外部DDR的特定地址空间,ISP模块将该信息读出并与图像信息进行叠加输出在OLED屏幕上显示。在一键自匹配校准算法中,用到自匹配算法和热点追踪算法以及偏移量自动校正算法。
2.1 自匹配算法
用来解决上述传统的图像冻结计数法过程中,前后两次较难瞄准靶标中心的一致性问题。本文采用SSD(sum of squared differences)误差平方和算法进行模板匹配,考虑模板匹配消耗的硬件资源巨大,并结合一般枪支瞄准具的准心偏移不是特别大的情况,可适当缩小模板的大小,并可在软核构建的CPU中完成模板的采集和匹配过程,为了减少存储容量和计算带宽,在ISP处理完成后的Y8灰度图像上实现计算过程。如图 4所示为模板采集与匹配过程,即用十字分划线完成目标靶标中心的瞄准后,初始的十字分划线的坐标位置通常处于图像区域的中心位置(x1, y1),启动自匹配算法时,以十字分划线中心的周围区域采集一帧模板,模板的大小为M×N,可在CPU的软核开辟一个M×N大小的二维数组用来存储该模板图像。
并在射击完成后,再一次用十字分划线来瞄准目标靶标中心,这里其实不用完全瞄准靶标中心,只需要将目标靶标的中心移入图 4(b)外框中即可,图 4的外框尺寸大小为2M×2N,在该区域内进行模板匹配计算,其中匹配的相似度计算公式如(1)式:
$$ D\left( {i, j} \right) = \sum\limits_{s = 1}^M {\sum\limits_{t = 1}^N {{{\left[ {S\left( {i + s - 1, j + t - 1} \right) - T\left( {s, t} \right)} \right]}^2}} } $$ (1) 式中:T(s, t)是图 4(a)模板中的Y8灰度值,(s, t)是其坐标。S(i, j)为图 4(b)待侧区域的Y8灰度值,并且将模板从该区域内逐次移动,从上到下,从左到右,移动遍历求解对应的相似度。并对相似度进行排序,得到最小的相似度对应坐标所在区域即为匹配成功,并将该坐标位置(x2, y2)记录下来。
2.2 热点追踪算法
热点追踪算法,对于图像冻结后,在冻结图像画面中寻找弹孔热点,在子弹刚刚射击出去那一瞬间,子弹穿透靶标,留下的弹孔温度高,相对于靶标上其他区域,在灰度图像上显示为更亮的点或者斑块,如图 5所示。
在该冻结画面中找出最热的点或者最热的斑块的中心,可以先将该块最热的区域定位出来,然后进行二值化处理,在二值化后的图像上求质心即可得到最热的斑块的中心坐标。具体步骤为:
第一步:先对整幅图像进行初步搜索,找最大灰度值,从左至右,从上至下,依次遍历每个像素点,如果是最大值,将该最大灰度值GRAY1以及对应坐标(i, j)记录下来。
第二步:再对整幅图像进行搜索,并排除第一步得到的坐标的搜索,同理得到最大灰度值GRAY2以及对应坐标(p, q),并对第一步与第二步得到的最大灰度值以及对应坐标判别,如下公式(2)、(3)、(4)所示:
$$ {\rm{Abs(GRAY_{1}-GRAY_{2})<TH_{1}}}$$ (2) $$ {\rm{Abs}}(i-p)<{\rm{TH}}_{2}$$ (3) $$ {\rm{Abs}}(j-q)<{\rm{TH}}_{3}$$ (4) 式中:TH1、TH2、TH3为设定阈值,依据多场景测试经验所得,本文中设计为20、10、10。如果同时满足上述公式,将坐标(i, j)记录下来。该坐标位置只是初步定位出了弹孔斑块处的大概位置,并不是中心位置,为了精准地得到弹孔斑块处的中心位置。
第三步,以坐标(i, j)处为中心,设定一块矩形区域大小为W×H,本文中设计为64×64,在该块矩形区域内,对区域内的像素点进行二值化处理,二值化的阈值为GRAY1×0.7,判断区域内的像素灰度值若大于阈值GRAY1×0.7,则置为0xff,否则置为0x00。
第四步,对二值化后的图像区域进行质心的求解,如式(5)、(6)所示。
$$ {X_0} = \frac{{\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {{X_i}{\text{gra}}{{\text{y}}_{ij}}} } }}{{\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {{\text{gra}}{{\text{y}}_{ij}}} } }} $$ (5) $$ {Y_0} = \frac{{\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {{Y_j}{\text{gra}}{{\text{y}}_{ij}}} } }}{{\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {{\text{gra}}{{\text{y}}_{ij}}} } }} $$ (6) 得到区域内的质心坐标后,将该质心坐标转换映射至全局图像上的坐标(x3, y3)。
2.3 偏移量自动校正算法
上述方法在实弹射击之前,用瞄具十字分化线的中心坐标(x1, y2)瞄准目标靶标中心,射击后,在冻结图像上特定区域进行模板匹配得到匹配坐标(x2, y2),最后经过热点追踪算法,得到热源弹孔高亮斑块的中心坐标为(x3, y3),所以匹配的坐标相对于原十字分化线中心坐标的第一级偏移如下式(7)所示:
$$ {\rm{offset1}}_{x}=x_{2}-x_{1}\qquad {\rm{offset1}}_{y}=y_{2}-y_{1}$$ (7) 热源弹孔处高亮的斑块的中心坐标相对于匹配之后图像的中心坐标的第二级偏移为下式(8)所示:
$$ {\rm{Offset2}}_{x}=x_{3}-x_{2}\qquad{\rm{offset2}}_{y}=y_{3}-y_{2}$$ (8) 所以最后求得弹孔处中心坐标相对原十字分化线中心的偏移量为下式(9)、(10)所示:
$$ {\rm{Δoffset}}_{x}={\rm{offset1}}_{x}+{\rm{offset2}}_{x}$$ (9) $$ {\rm{Δoffset}}_{y}={\rm{offset1}}_{y}+{\rm{offset2}}_{y}$$ (10) 在该算法中经过两级偏移量修正计算后,得到最终的修正偏移量,按最终偏移量去调整十字分划线的位置,可以将瞄具的准心自动地纠正过来。
2.4 一键自匹配校准算法执行流程
红外瞄具安装在枪支上,进行实弹射击校枪,按下触发按键启动一键自匹配校枪流程。因为是一键执行操作,所以在OLED显示屏上会进行人机交互,按照显示屏上出现提示信息进行操作。如图 6所示为执行流程图。
按下按键启动一键开始,OLED显示屏出现检测框和提示信息如图 7所示。第一步:倒计时15 s用十字分化线瞄准目标靶标中心,瞄准完成后保持枪支不动,在15 s结束后,开始冻结图像,并以十字分划线交叉点为中心区域采集模板,模板大小为M×N,可根据实际情况设定,采集模板完成后,解冻图像。第二步:进入下一个倒计时8 s,在该倒计时内,完成单发子弹射击。第三步:进入另一个8 s倒计时,将靶标中心移入检测框内进行检测。第四步:冻结图像,并启动模板匹配算法,找出靶标中心相对射击之前的靶标中心的偏移量。第五步:启动热点追踪算法,在冻结图像上找出弹孔热源处的中心,得到弹孔位置相对于十字分划线中心的偏移量。第六步:启动偏移量自动修正算法,将两级偏移量相加得到最终的偏移量,并以最终偏移量去调整原始的十字分化线的位置,完成准心的校正。
3. 分析讨论
本文针对红外图像应用在枪械的瞄具上,对红外瞄具的零位准心的校准操作进行了说明,针对传统的校准算法、流程和工具进行了介绍,传统的激光定标测距法,需要激光测距仪、校准靶标、标尺、协作测量才能完成,费时费量、成本高、效率低下。而图像冻结计算法,需要前后两次瞄准目标靶标中心,并且在前后两次瞄准该靶标中心的位置是需要完全一致,不能偏移一个像素,否则调整完的十字分化线的中心即准心也是有偏差,在实际操作过程中难以保证,而且十字分划线位置的调整,需要手动一个像素一个像素地调节,操作过程繁琐、效率低。最后基于单键触发的自匹配校准算法,是一键触发,按提示操作,自动计算,计算完成后,自动修正准心偏移量的过程,非常方便、快捷、高效,非常适合于工程应用。并且在模板尺寸大小、检测框尺寸大小以及弹孔斑块矩形区域尺寸大小都可以根据子弹大小、射程距离、以及靶标上留下弹孔的大小来适配修改的。可适应于不同的枪支、不同距离、不同靶标的零位准心校准。
4. 算法验证
基于红外瞄具的一键自动校枪方法与系统算法的验证过程是将红外瞄具固定安装在光轴一致性校准平台底座上如图 8所示,瞄准前方圆形支架上的十字靶标,该圆形支架在平台上可前后移动,模拟距离的变化。
固定安装好红外瞄具后,开机观测目标,发现红外瞄具的十字分化中心与前方圆形支架上的十字靶标中心其实不重合的,如图 9所示,单键按下启动一键校枪匹配算法,经过上述2.4节算法计算后,红外瞄具的十字分化中心自动进行修正了,修正后的十字分化中心几乎与十字靶标中心重合,如图 10所示,经过放大后观测、并测量修正后的十字分化中心与实际十字靶标中心误差在1个像素以内。其次我们移动圆形支架距离红外瞄具安装点位距离3 m、10 m、20 m、50 m等位置,同时将红外瞄具的十字分化中心调整为与十字靶标中心不重合。再启动算法,观测进行算法修正后的十字分化中心与十字靶标中心的重合度,经过多次调整与测量,发现修正后的十字分化中心与实际十字靶标中心误差都在1个像素以内。所以整体来看,该算法校正精度是很高的,完全满足国军标GJB5815-2006射效矫正的精度要求。
5. 结论
本文对红外瞄具安装在枪支上的准心校准方法进行了介绍,对传统的零位校准方法以及本文提出的新的校准方法的原理、算法、计算过程进行了详细的介绍和对比,本文提出的一键自匹配校准算法解决了传统激光测距定标法的校准过程复杂、校准成本高、效率低的问题,同时也解决了传统图像冻结计数法的前后两次瞄准一致性难的问题。在FPGA的红外图像处理平台上添加了自匹配校准算法,既能完成红外图像的夜视、远距离观测目标,同时又能安装在枪支、枪械等精确瞄准的应用场景,一键自动零位校准,辅助精确打击,具有一定的工程实际应用价值。
-
表 1 两分支的SVM分类器训练参数
Table 1 SVM classifier training parameters of the two branches
Window size Block size Cell size Step Bin Feature dimension Near target 48×96 16×16 8×8 8 9 1980 Distant target 24×48 8×8 4×4 4 9 1980 表 2 测试数据的基本信息
Table 2 Basic information of test data
Dataset Size/frame Date Location Test-L 2000 - - Test-W1 1578 2018/1/2 Street Test-W2 979 2018/1/3 Campus Test-S1 1123 2019/5/29 Street Test-S2 1089 2019/5/30 Campus 表 3 参数混淆矩阵
Table 3 Parameter confusion matrix
Truth Predicted result Positive example Negative example Positive example TP FN Negative example FP TN 表 4 Wm标记结果
Table 4 Wm marking results
Wm Picture number Pedestrian number Pedestrian mark Labeling rate/% Mark time/s 5 500 774 630 81.4 5.94 10 500 774 636 82.2 8.39 50 500 774 671 86.7 12.70 100 500 774 928 94.1 17.83 150 500 774 751 97.0 23.29 200 500 774 752 97.2 29.01 350 500 774 755 97.6 44.00 500 500 774 755 97.6 56.38 表 5 与基本算法检测结果对比
Table 5 Comparison of detection results with the basicalgorithm
Algorithm ACC/% t/ms HOG 89.27 236.4 TBHOG 86.19 122.8 TBHOG+ROI extraction 91.44 159.0 TBHOG+Occlusion handling 93.23 168.4 TBHOG+ ROI extraction + occlusion handling 94.20 181.6 表 6 与其他算法检测效果对比
Table 6 Comparison of detection effect with other algorithms
Algorithm LSI FIR test-W test-S ACC/% t/ms ACC/% t /ms ACC/% t/ms HOG 89.27 236.4 80.59 289.7 62.77 274.1 LBP 85.21 202.3 77.90 304.5 59.25 294.5 HOG-LBP 93.64 333.7 84.03 375.8 68.17 373.8 ACF 94.05 1008 85.54 1469 64.28 1742 RetinaNet 90.13 1364 82.21 1730 63.09 2297 Proposed 94.20 181.6 89.17 264.7 73.64 285.3 -
[1] XU Z, ZHUANG J, LIU Q, et al. Nighttime FIR pedestrian detection benchmark dataset for ADAS[C]// Proceedings of Pattern Recognition and Computer Vision, 2018: 323-333.
[2] TAO Y, FU D, SHU P. Pedestrian tracking for infrared image sequence based on trajectory manifold of spatio-temporal slice[J]. Multimedia Tools and Applications, 2017, 76: 11021-11035. DOI: 10.1007/s11042-016-3461-8
[3] 刘洋. 基于LS-DYNA的汽车正面碰撞计算机模拟仿真[D]. 西安: 西华大学, 2011. LIU Yang. Simulation on the Front Impact of Vehicle Based on LS-DYNA[D]. Xi'an: Xihua University, 2011.
[4] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), 2005, 1(1): 886-893.
[5] Bosch A, Zisserman A, Munoz X. Representing shape with a spatial pyramid kernel[C]//Acm International Conference on Image & Video Retrieval, 2007: 401-408(doi: https://doi.org/10.1145/1282280.1282340).
[6] Sangeetha D, Deepa P. A low-cost and high-performance architecture for robust human detection using histogram of edge oriented gradients[J]. Microprocessors and Microsystems, 2017, 53: 106-119. DOI: 10.1016/j.micpro.2017.07.009
[7] ZHENG C H, PEI W J, YAN Q, et al. Pedestrian detection based on gradient and texture feature integration[J]. Neurocomputing, 2017, 228: 71-78. DOI: 10.1016/j.neucom.2016.09.085
[8] 朱聪聪, 项志宇. 基于梯度方向和强度直方图的红外行人检测[J]. 计算机工程, 2014, 40(12): 195-198, 204. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC201412037.htm ZHU Congcong, XIANG Zhiyu. Infrared pedestrian detection based on histograms of oriented gradients and intensity[J]. Computer Engineering, 2014, 40(12): 195-198, 204. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC201412037.htm
[9] Itti L, Koch E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Trans., 1998, 20(11): 1254-1259 http://dl.acm.org/citation.cfm?id=297870
[10] Radhakrishna A, Sheila H, Francisco E, et al. Frequency-tuned salient region detection[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: (doi: 10.1109/CVPR.2009.5206596).
[11] HOU X D, ZHANG L Q. Saliency detection: a spectral residual approach[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007: (doi: 10.1109/CVPR.2007.383267).
[12] Alexe B, Deselaers T, Ferrari V. Measuring the objectness of image windows[J]. IEEE Transactions on Software Engineering, 2012, 34(11): 2189-2202. http://newmed.wanfangdata.com.cn/Paper/Detail/PeriodicalPaper_PM22248633
[13] WANG X, HAN T X, YAN S. An HOG-LBP human detector with partial occlusion handling[C]//12th International Conference on Computer Vision of IEEE, 2010: (doi: 10.1109/ICCV.2009.5459207).
[14] Javier M N, Vazquez D, Lopez A M, et al. Occlusion handling via random subspace classifiers for human detection[J]. IEEE sTransactions on Cybernetics, 2013, 44(3): V342-354. http://www.ncbi.nlm.nih.gov/pubmed/23757554
[15] Broggi A, Bertozzi M, Fascioli A, et al. Shape-based pedestrian detection[C]//IEEE Intelligent Vehicles Symposium, 2000: (doi: 10.1109/IVS.2000.898344).
[16] Brehar R, Vancea C, Nedevschi S. Pedestrian detection in infrared images using aggregated channel features[C]//IEEE International Conference on Intelligent Computer Communication & Processing, 2014: (doi: 10.1109/ICCP.2014.p6936964).
[17] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 99: 2999-3007. DOI: 10.1109/ICCV.2017.324
[18] 车凯, 向郑涛, 陈宇峰, 等. 基于改进Fast R-CNN的红外图像行人检测研究[J]. 红外技术, 2018, 40(6): 578-584. http://hwjs.nvir.cn/article/id/hwjs201806010 CHE Kai, XIANG Zhengtao, CHEN Yufeng, et al. Research on infrared image pedestrian detection based on improved fast R-CNN[J]. Infrared Technology, 2018, 40(6): 578-584. http://hwjs.nvir.cn/article/id/hwjs201806010