Similar HED-Net for Salient Human Detection in Thermal Infrared Images
-
摘要: 热红外图像中的人体目标易于观察显著性强,应用广泛,但受限于热红外设备的硬件,往往图像中的人体目标边缘模糊,检测效果较差,同时因为热红外的特殊成像原理,人体目标检测时极易受到发热物和遮挡物的干扰,检测的精度也无法得到保证。针对上述问题,本文提出了一种类HED(holistically nested edge detection)的热红外显著性人体检测网络。网络采用类HED网络形式,通过将不同比例的空洞卷积编解码模块进行残差相加形式,完成人体目标的检测任务。实验证明该网络可以有效地检测人体目标,准确地预测边缘结构,同时在发热物及遮挡物等环境下也具有较高的检测精度。Abstract: Human targets in thermal infrared images are easy to observe and have a wide range of applications. However, they are limited by the hardware of thermal infrared devices. The edges of human targets in the images are often blurred and the detection efficiency is poor. Simultaneously, because of the special imaging principle of thermal infrared, human target detection is vulnerable to the interference of heating and occlusion objects and the detection accuracy cannot be guaranteed. In response to the above issues, this study proposes a type of holistically nested edge detection (HED)-thermal infrared saliency human detection network. The network adopted the form of a similar HED network and detected human targets by adding the residuals of different proportions of the hole convolutional codec module. Experiments showed that the network can effectively detect human targets, accurately predict the edge structure, and also have high detection accuracy in an environments with heating objects and obstructions.
-
0. 引言
红外热成像技术因不受昼夜影响、识别性高等优点已被广泛应用于安防监控、智能家居、异常监测等领域[1]。越来越多的系统基于过热目标与异常侵入目标的检测从而实现异常检测与报警的功能,达到预防灾难、规避风险的目的[2-3]。
根据不同的分类方式,热红外异常目标检测可得到不同的分类效果,其中最常见的一种分类方式是根据检测与跟踪的先后顺序进行划分,可分为先检测后跟踪DBT(Detect Before Track)和先跟踪后检测TBD(Track Before Detect)两大类[4-5]。常见的DBT算法包括背景减除法、帧间差分法、光流法、小波变换、形态学滤波、基于神经网络和遗传算法等方法[6-8]。TBD方法主要用于弱小目标检测[9],然而其需要基于多帧图像对潜在目标进行跟踪,算法复杂,实时性无法达到要求。因此,在实时性要求高的系统中最常用的方法为背景减除法与帧间差分法[10]。背景减除法常利用多帧数据构造背景模型,利用当前帧与背景帧的差值图像进行判决处理,确定是否存在目标。帧间差分法原理与背景减除法类似,该方法利用当前帧的前一帧作为背景,克服了背景变化的局限性,但该方法对静止目标检测时会造成空洞等现象。基于单高斯模型的检测算法利用高斯函数建立背景模型,既能自适应的更新背景模型,也能克服帧差法的局限性,使检测效果更好[11-12]。以上方法在进行判决时,阈值通常根据均值与方差或以往经验确定,因此阈值的不确定性会使检测性能受到影响。
本文在单高斯模型基础上,提出一种改进的检测算法。该算法通过单高斯模型初始化背景,再通过奈曼-皮尔逊准则确定初始最佳判决阈值,使判决出错的概率达到最小,从而使检测性能达到最优。最后通过德国HEIMANN公司型号为HTPA80x64dR1L5.0/1.0的热电堆阵列传感器获取数据,从而对本文算法进行性能验证。
1. 算法描述
1.1 单高斯模型
单高斯模型是一种在运动目标检测过程中提取背景和前景的方法[13-14]。单高斯背景模型认为,对于背景图像,各个像素的灰度值分布满足高斯分布,在这一先验知识的基础上,即每个像素点服从正态分布,如下公式:
$$P({x_{ij}}) = \frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}\sigma _{ij}^2} }}\exp ( - \frac{{{{({x_{ij}} - {\mu _{ij}})}^2}}}{{2\sigma _{ij}^2}})$$ (1) 式中:xij表示坐标为(i, j)的像素点的灰度值;μij表示该像素灰度值的均值;σij2表示该像素灰度值的方差;P(xij)表示像素(i, j)灰度值的概率分布。
基于单高斯建模的异常目标检测主要有3个步骤:背景建模、目标检测和模型更新[12]。
背景建模最常见的方法就是利用前N帧的均值和方差作为单高斯模型的参数,每个像素点的参数均不一样。建立好高斯模型后,设定一个概率阈值,将待检测的图像的灰度值代入到对应像素的高斯模型,若概率值大于设定阈值,将其判定为前景像素点,反之即为背景像素点,其中设定的概率阈值一般根据经验获得。随着时间的推移,背景可能会发生一些变化,因此需要自适应更新背景。背景更新的原则为:若像素点为前景像素点,则背景保持不变,若该像素为背景时,则按以下公式进行更新:
$$\mu _{ij}^{n + 1} = (1 - \alpha )\mu _{ij}^n + \alpha x_{ij}^{n + 1}$$ (2) $${(\sigma _{ij}^{n + 1})^2} = (1 - \alpha ){(\sigma _{ij}^n)^2} + \alpha {(\mu _{ij}^{n + 1} - x_{ij}^{n + 1})^2}$$ (3) 式中:μijn+1和(σijn+1)2表示更新后的均值和方差;α表示背景更新参数,取值为0~1之间,当α取值越大,则表示背景变化速度越快,该值也是一个经验值。
在检测判决的时候,概率阈值的选取往往通过经验值获得[15],若选择阈值偏大,则很容易将异常像素点判决为正常,导致漏警率增加。若选择阈值偏小,则容易将正常像素点判决为异常像素点,导致虚警率增加。这两种错误判决概率都会影响系统的性能。
1.2 假设检验理论
在异常检测时,各个像素点只有两种可能状态,一种是前景,一种是背景,该问题即为二元信号检测问题[16-17]。假设正常状态为H0,则异常状态为H1,输出信号经概率转移机构以一定的概率映射到观测空间R中,观测空间R又可划分为两个判决区域R0和R1。在检测判决时,正常状态下的像素点可被系统判决为正常和异常两种状态,因此,对像素点正常和异常的判决结果共有4种可能性,表 1即为二元信号检测判决结果:
表 1 二元信号检测判决结果Table 1. Judgment results of binary signal detectionJudgment Assumption H0 H1 H0 (H0/H0) (H0/H1) H1 (H1/H0) (H1/H1) 表中展示了4种可能判决结果,(Hi/Hj)表示将结果Hj判决为Hi,其中i, j∈[0, 1]。每个判决结果对应相应的判决概率,其中P(Hi/Hj)表示假设Hj为真时,判决假设Hi成立的概率。其中观测值(x/Hj)落在区域Ri时,Hi假设成立,概率表示如下:
$$P({H_i}/{H_j}) = \int\limits_{{R_i}} {P(x/{H_j})} {\rm{d}}x\;\;\;\;\;\;i,j \in [0,1]$$ (4) 在以上4种判决结果中,只有两种是正确的判决概率,另外两种是错误判决概率。其中P(H1/H0)表示将正常的观测值判决为异常,此概率为虚警率,P(H0/H1)表示将异常的观测值判决为正常,此概率为漏警率。
假设H0与H1均服从高斯分布,x为判决门限。图 1为检测判决结果示意图。
图中左边的曲线为H0的分布,从图中可以看出,若判决门限增大,虚警率会降低,但漏警率会增加,虚警率与漏警率无法同时达到最小。因此,如何确定最佳门限使错误概率达到最小,正确概率达到最大是一个研究难点。
1.3 奈曼-皮尔逊准则
为了提高系统检测性能,使漏警率与虚警率达到最小。本文在单高斯模型的基础上,利用奈曼-皮尔逊准则确定检测判决初始阈值。该准则在P(H1/H0)=α的约束条件下,使正确判决概率P(H1/H1)最大,即等价于使漏警率P(H0/H1)最小。利用拉格朗日乘子μ(μ≥0)构建目标函数:
$$ \mathit{J} = \mathit{P}({\mathit{H}_0}/{\mathit{H}_1}) + \mathit{\mu }[\mathit{P}({\mathit{H}_1}/{\mathit{H}_0}) - \mathit{\alpha }] $$ (5) 在P(H1/H0)=α的约束条件下,使错误判决概率P(H0/H1)最小,即求目标函数J的最小值,将公式(5)转化为积分运算得:
$$J = \int\limits_{{R_0}} {P(x/{H_1})} {\rm{d}}x{\rm{ + }}\mu [\int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x - \alpha ]$$ (6) 将:
$$\int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x = 1 - \int\limits_{{R_0}} {P(x/{H_0})} {\rm{d}}x$$ (7) 代入公式(6)可得:
$$ J=\mu (1-\alpha )+{\displaystyle \underset{{R}_{0}}{\int }[P(x/{H}_{1})-\mu P(x/{H}_{0})}]{\rm{d}}x$$ (8) 要使J达到最小,被积函数应该取负值。此时可得到判决表达式如下:
$$\frac{{P(x/{H_1})}}{{P(x/{H_0})}}\mathop \gtrless \limits_{{H_0}}^{{H_1}} \mu $$ (9) 式中,判决门限μ可由约束条件得到:
$$P({H_1}/{H_0}) = \int\limits_{{R_1}} {P(x/{H_0})} {\rm{d}}x = \int_\mu ^{ + \infty } {P(x/{H_0})} {\rm{d}}x = \alpha $$ (10) 该准则通过理论推导确定最佳阈值,很好地解决了依靠经验获取阈值的问题,提高了系统的可移植性与适用性,使正确判决概率P(H1/H1)在虚警率一定的情况下达到最大。
2. 实验与性能分析
本研究采用德国HEIMANN型号为HTPA 80x64dR1L5.0/1.0的热电堆阵列传感器,它是一款64行80列的红外阵列传感器,该传感器的输出经过双线性插值后为目标温度值(℃)。实验时首先需要获取静止场景下的多帧数据,利用公式(1),选择100帧数据获取各个像素点的均值和方差,构建高斯背景模型;然后选择不同的阈值进行判决,验证不同阈值对检测性能的影响;最后通过判决后的二值图像直观地观察检测效果,并通过计算漏警率、虚警率与准确率来客观地评价算法性能。
2.1 二值图像
本文通过模拟视频监控的场景,将传感器置于墙壁上,用传感器获得多组监测数据,再用不同的阈值对其进行判决处理。首先选择常见的判决阈值均值与方差和、均值与两倍方差和进行判决处理,然后在虚警率为0.01的约束下,根据本文算法获得判决阈值,再进行判决,比较判决结果。图 2中(a)和(e)分别为两组数据的原始灰度图像,其他则为二值图像。
从图 2中可以看出,本文所用传感器噪声较大,系统很容易将背景点误判为前景点。(b)、(e)、(f)、(g)中众多背景像素均被判为前景像素,检测效果略差。而本文所选阈值大大降低了这种错误概率,虽然仍存在部分背景点被误判为前景点,但这种错误概率明显降低,从二值图像中能较好地发现目标。
2.2 检测性能
为了进一步客观地描述检测性能,本文先获取图像中前景所占像素个数P与背景像素的个数N。经过判决后,将前景判决为前景的像素个数记为TP,将前景判断为背景的像素个数记为FN,将背景判决为背景的个数记为TN,将背景判断为前景的像素个数记为FP。因此可以通过准确率、漏警概率与虚警概率客观的评判检测性能。
其中准确率表示判决正确的比例,可用A表示,定义如下:
$$A = \frac{{{T_P} + {T_N}}}{{P + N}}$$ (11) 漏警概率表示将前景像素点判决错误的概率,可用MA表示,定义如下:
$${M_A} = \frac{{{F_N}}}{{{T_P} + {F_N}}}$$ (12) 虚警概率表示将背景像素点判决错误的概率,可用FA表示,定义如下:
$${F_A} = \frac{{{F_P}}}{{{T_P} + {F_P}}}$$ (13) 选择图 2中的第一个场景为例,通过分析原始数据的多帧数据均值可得到场景中背景像素点有5025个,前景像素点有95个。利用不同的阈值进行判决并分析检测结果,为了避免结果的随机性,此次实验选择100检测结果的均值作为最终检测结果。表 2为不同阈值的检测判决结果。
表 2 不同阈值的检测判决结果Table 2. Detection and judgment results of different thresholdsThreshold TP TN FP FN A MA FA Threshold1 93 3259 1766 2 0.6547 0.0211 0.9499 Threshold2 88 4511 514 7 0.8982 0.0737 0.8538 Threshold3 75 4959 80 20 0.9805 0.2105 0.5161 表中阈值1表示均值与方差和,阈值2表示均值与两倍方差和,与二值图像的判决阈值一致,由单高斯模型所得,阈值3表示根据奈曼-皮尔逊准则获得的阈值。从表中可以看出,根据阈值3判决后的二值图像,FP从1766降低为80,准确率也从0.6547提升到0.9805,虽然MA增大了一点点,但FA显著降低了,即错误概率整体下降了。因此,在这3个阈值中,阈值3的判决效果最好,即通过本文算法确定的阈值能提高检测概率,使错误判决概率达到最小。
3. 结论
本文在基于单高斯模型的异常目标检测算法的基础上,提出了一种基于奈曼-皮尔逊准则的最佳阈值选取算法。本文首先通过实验对背景进行高斯建模,再利用该准则求出最佳判决阈值,最后通过对比不同的阈值判决结果,根据主观和客观评价得出本文算法所确定的阈值能较好地区分前景与背景的结论。该算法为阈值选取奠定了理论基础,得到的二值图像也利于红外图像的识别与跟踪,为后续的应用做出了贡献。虽然本文所用传感器在实际应用中噪声太大,导致判决错误的概率大大增加,但在本文阈值的判决下,系统仍能够清晰地区分前景和背景。
-
表 1 主干VGG16网络结构
Table 1 Backbone VGG16 network structure table
Operation Input Size Output Size Output Input Data 224×224×3 No Conv_1 (3×3) 224×224×3 224×224×64 No Conv_2 (3×3) 224×224×64 224×224×64 No MaxPool(2×2) 224×224×64 112×112×64 No Conv_3 (3×3) 112×112×64 112×112×128 No Conv_4 (3×3) 112×112×128 112×112×128 Yes MaxPool (2×2) 112×112×128 56×56×128 No Conv_5 (3×3) 56×56×128 56×56×256 No Conv_6 (3×3) 56×56×256 56×56×256 No Conv_7 (3×3) 56×56×256 56×56×256 Yes MaxPool(2×2) 56×56×256 28×28×256 No Conv_8 (3×3) 28×28×256 28×28×512 No Conv_9 (3×3) 28×28×512 28×28×512 No Conv_10(3×3) 28×28×512 28×28×512 Yes MaxPool(2×2) 28×28×512 14×14×512 No Conv_11 (3×3) 14×14×512 14×14×512 No Conv_12 (3×3) 14×14×512 14×14×512 No Conv_13 (3×3) 14×14×512 14×14×512 Yes MaxPool(2×2) 14×14×512 7×7×512 No Conv_add1(3×3) 7×7× 512 7×7×1024 No Conv_add2 (3×3) 7×7×1024 7×7×512 Yes 表 2 单一尺度U型编码网络结构
Table 2 Single-scale U-encoded network structure
Operation Parameters Conv_1 K=3, stride=1, padd=1 Dilation Conv_1 K=3, dilation=2*i, padd=2*(5-i) (i=1, 2, 3, 4) Dilation Conv_2 K=3, dilation=2*i,
padd=2* (5- i) (i =1, 2, 3, 4)Conv_2 K=3, stride=1, padd=1 Conv_3 K=1, stride=1 表 3 编解码网络优化实验对比
Table 3 Comparative experiment of encoder-decoder network optimization
Operation maxFβ MAE Conv 0.8279 0.01052 Dilation Conv
(Dlation=2)0.8526 0.00987 Dilation Conv+Conv
(Dlation=2)0.8884 0.00616 Dilation Conv+Conv
(Dlation=2, 2, 4, 6, 8)0.8934 0.00607 Dilation Conv+Conv
(Dilation=4, 4, 16, 32, 64)0.7891 0.01421 Dilation Conv+Conv
(Dilation =2, 2, 8, 16, 32)0.8491 0.00979 表 4 多层特征融合对比实验
Table 4 Multilayer feature fusion contrast experiment
Fusion operation BCE MFSO 0.85367 MFMO-layer1 0.92691 MFMO-layer2 0.89786 MFMO-layer3 0.87981 MFMO-layer4 0.86286 MFMO-layer5 0.84326 表 5 多算法验证对比
Table 5 Multialgorithm validation comparison
Models Evaluation metrics maxFβ MAE Model size /MB Running time/ms BASNet(ResNet 34) 0.88087 0.01154 348.5 467.3 PICNet(VGG16) 0.88732 0.00633 153.3 178.2 PoolNet(ResNet50) 0.89066 0.00623 273.3 578.7 Ours(VGG16) 0.89146 0.00603 101.2 111.7 Ours(MobileNet-V2) 0.84066 0.01325 19.4 86.1 -
[1] ZHAO Z Q, ZHANG P, XU S T, et al. Object detection with deep learning: a review[J]. IEEE Transactions on Neural Networks and Learning Systems of IEEE, 2018, 30(11): 3212-3232.
[2] ZHANG Y, GUO L, CHENG G. Improved salient objects detection based on salient points[C]//35th Chinese Control Conference (CCC) of IEEE, 2016. DOI. : 10.1109/ChiCC. 2016.7554008.
[3] ZHAN Jin, HU Bo. Salient object contour detection based on boundary similar region[C]//Fourth International Conference on Digital Home IEEE Computer Society, 2012. DOI: 10.1109/ICDH.2012.74.
[4] Yuna Seo, Donghoon Lee, Yoo C D. Salient object detection using bipartite dictionary[C]//IEEE International Conference on Image Processing, 2014. DOI: 10.1109/ICIP.2014.7025228.
[5] Nouri F, Kazemi K, Danyali H. Salient object detection via global contrast graph[C]//2015 Signal Processing and Intelligent Systems Conference (SPIS) Of IEEE, 2016. DOI: 10.1109/SPIS.2015.7422332.
[6] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[7] Simonyan K, Zisserman A. Very deep convolutional networks for large-sale image recognition[J]. Computer Science, 2014. DOI: 10.48550/arXiv.1409.1556.
[8] Sewak M. Practical Convolution Neural Networks[M]. Birmingham: Published by Packt Publishing Ltd. 2018.
[9] LIU Wei, Dragomir Anguelov, Dumitru Erhan, et al. SSD: single shot multiBox detector[C]//IEEE European Conference on Computer Vision (ECCV), 2016, DOI: 10.1007/978-3-319-46448-0_2.
[10] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, DOI: 10.1109/CVPR.2016.90.
[11] HUANG G, LIU Z, Laurens V D M, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017, DOI: 10.1109/CVPR.2017.243.
[12] REN Qinghua, HU Renjie. Densely connected refinement network for salient object detection[C]//International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS), 2018, DOI: 10.1109/ISPACS.2018.8923354.
[13] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//2015 MICCAI, DOI: 10.1109/ACCESS.2021.3053408.
[14] LIU N, HAN J, YANG M H. PiCANet: learning pixel-wise contextual attention for saliency detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) of IEEE, 2018: DOI: 10.48550/arXiv.1708.06433.
[15] FENG M, LU H, DING E. Attentive feedback network for boundary-aware salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, DOI: 10.1109/CVPR.2019.00172.
[16] QIN Xuebin, ZHANG Zichen, HUANG Chenyang. et al. BASNet: boundary-aware salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) of IEEE, 2019, DOI: 10.1109/CVPR.2019.00766.
[17] LIU Jiangjiang, HOU Qibin, et al. A simple pooling-based design for real-time salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition of IEEE, 2019, DOI: 10.1109/CVPR.2019.00404..
[18] XIE S, TU Z. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(5): 3-18.
[19] Mark Sandler, Andrew Howard, et al. MobileNet V2: inverted residuals and linear bottlenecks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520, DOI: 10.1109/CVPR.2018.00474.
[20] Andrew Howard, M Zhu, B Chen, et al. MobileNets: efficient convolution neural networks for mobile vision application[J/OL]//Computer Science, arXiv: 1704.04861, https://arxiv.org/abs/1704.04861.
[21] YU Fisher, Koltun V. Multi-scale context aggregation by dilated convolutions[C]//The International Conference on Learning Representations, 2016, DOI: 10.48550/arXiv.1511.07122.
[22] CHEN L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[C]//Computer Science, 2017. arXiv: 1706.05587, https://arxiv.org/abs/1706.05587.
[23] CHEN Q, XU J, Koltun V. Fast image processing with fully convolutional networks[C]//ICCV of IEEE, 2017, DOI: 10.1109/ICCV.2017.273.
[24] LIN Tsungyi, Piotr Dollar, R Girshick, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) of IEEE, 2017, DOI: 10.1109/CVPR.2017.106.
-
期刊类型引用(4)
1. 崔丽群,李万欣. 改进Cascade R-CNN的X射线图像违禁品检测方法. 计算机仿真. 2025(03): 299-303 . 百度学术
2. 徐叶军. 基于多孔卷积神经网络的图像空间结构信息细节表征. 盐城工学院学报(自然科学版). 2024(01): 20-25 . 百度学术
3. 李立,易诗,刘茜,程兴豪,王铖. 基于密集残差生成对抗网络的红外图像去模糊. 红外技术. 2024(06): 663-671 . 本站查看
4. 张坤. 基于深度神经网络的图像技术在灰度图像彩色化进程中的应用研究. 自动化与仪器仪表. 2023(10): 27-30+35 . 百度学术
其他类型引用(5)