深度迁移学习预训练对红外尾流成像识别的影响

钟睿, 杨立, 杜永成

钟睿, 杨立, 杜永成. 深度迁移学习预训练对红外尾流成像识别的影响[J]. 红外技术, 2021, 43(10): 979-986.
引用本文: 钟睿, 杨立, 杜永成. 深度迁移学习预训练对红外尾流成像识别的影响[J]. 红外技术, 2021, 43(10): 979-986.
ZHONG Rui, YANG Li, DU Yongcheng. The Influence of Deep Transfer Learning Pre-training on Infrared Wake Image Recognition[J]. Infrared Technology , 2021, 43(10): 979-986.
Citation: ZHONG Rui, YANG Li, DU Yongcheng. The Influence of Deep Transfer Learning Pre-training on Infrared Wake Image Recognition[J]. Infrared Technology , 2021, 43(10): 979-986.

深度迁移学习预训练对红外尾流成像识别的影响

基金项目: 

"十三五"海军预研项目 

详细信息
    作者简介:

    钟睿(1996-),男,硕士,主要研究方向:传热、热流体及其应用。E-mail:243225679@qq.com

    通讯作者:

    杨立(1962-),男,教授,主要研究方向:传热、热流体及其应用

  • 中图分类号: TP391.41

The Influence of Deep Transfer Learning Pre-training on Infrared Wake Image Recognition

  • 摘要: 随着水下航行器噪声水平的不断降低,水下航行器形成的尾流红外成像特征就成为其主要可探测的特征源之一,利用水下航行器尾流的水面红外特征来探测水下航行器的踪迹逐渐发展成为一种新的探测方式。由于人工判别尾流特征的效率低,准确性不高,采用人工智能深度学习的方式能够得到较大的改善。本文以水下航行器尾流红外特征识别为研究核心,通过图像分类制作了混合类的样本集,利用迁移学习比较不同预训练网的对尾流的训练效果,讨论预训练网内部参数对尾流训练效果的影响,结合Faster-RCNN算法,最终测试对尾流的识别精度,在45个2类尾流的小样本集下,预训练之后的网络在识别准确度上增加了21.43%,误检率下降了2.14%,带有红外特征的图像在定位精准率上比可见光图像高18.18%。该预训练测试对未来研究尾流探测结合卷积神经网络的识别有一定的应用潜力。
    Abstract: With lower underwater vehicle noise levels, the infrared imaging characteristics of underwater vehicle wake have become one of the main detectable sources. Using the infrared characteristics of underwater vehicle wakes to detect underwater vehicle traces has gradually developed into a popular detection method. Because of the low efficiency and inaccuracy of artificial wake characteristics identification, the adopted artificial intelligence deep learning method can be greatly improved. In this study, the infrared feature recognition of underwater vehicle wake is the primary focus. A sample set of mixed classes was made by image classification. The training effect of different pre-training networks was compared using migration learning. The influence of the internal parameters of the pre-training networks on the training effect of the wake was discussed. Finally, in the small sample set of 45 two kinds of wake, the recognition accuracy of the network after pre-training increased by 21.43%, the false detection rate decreased by 2.14%, and the positioning accuracy of the image with infrared characteristics was 18.18% higher than that of the visible image. This pre-training test has a certain application potential for future research on wake detection combined with convolution neural network recognition.
  • 由于我国老龄化趋势日益加剧以及家庭子女外出工作等原因,空巢老人的数量逐渐增加,对于老年人健康安全监护的需求也日益提升[1]。据世界卫生组织报道,每年全世界有64.6万人因跌倒没有得到及时救治而死亡,其中65岁以上老年人所占比例最大[2]。跌倒是导致老年人,尤其是独居老年人受伤甚至死亡的主要原因。因此,设计一种室内人体跌倒自动检测方法,缩短从跌倒到救治的时间,能够有效减少由跌倒造成的伤害,提高老年人生活品质,同时减少看护的人力成本[3-4],具有重要的理论研究意义和实际应用价值。

    目前,国内外跌倒检测方法的研究可以大致分为穿戴和非穿戴两类。基于可穿戴设备的识别方法通过使用者佩戴的传感器获取人体位置和运动姿态等关键特征,并利用模式识别分类来对人体跌倒情况进行检测。Giuffrida等人[5]提出了一种基于可穿戴传感器和机器学习的跌倒检测系统,通过提取信号部分的特征,利用SVM分类器判决跌倒或日常活动。Kumar等人[6]提出利用加速度计和陀螺仪获取信号,通过SVM分类器判断是否跌倒。Mehmood等人[7]提出了一种使用可穿戴式Shimmer传感器的新型跌倒检测方法,通过实时数据上的马氏距离来识别跌倒事件。Kerdjidj等人[8]提出利用压缩感测方法和穿戴的Shimmer设备进行人体跌倒与活动识别,压缩感测方法可以减小发送数据的大小并最小化能量消耗。上述基于可穿戴设备的检测方法虽然精度较高,但传感器设备必须定期充电或者更换电池,使用不便;此外,长时间穿戴这种设备还会引起身体不适。因此,更为友好的非穿戴检测系统得到了越来越多的研究和应用。

    传统的非穿戴检测系统主要使用光学相机采集视频或图像,并在图像中提取人体特征数据,进而进行跌倒检测。Min等人[9]提出使用快速区域卷积网络检测人体形状的纵横比、质心和运动速度,通过这些特征随时间的变化关系来判断动作行为是否为跌倒。Kong等人[10]提出一种基于计算机视觉的框架,采用背景减法和等级池分别对视频中的空间和时间表示建模,利用卷积神经网络作为事件分类器,通过对事件分类的结果进行投票,进行多摄像机跌倒检测。Qiu等人[11]提出通过对目标检测算法和目标跟踪算法的分析,利用Deep-sort和YOLO v3算法对监控视频进行实时跌倒检测。Fan等人[12]提出了一种基于慢特征分析的框架,用于房屋护理环境中的跌倒检测,实现自动检测视频序列中的跌倒。基于视频或图像的跌倒检测方法具有使用方便、能够同时对多个事件进行检测等优点;然而,这种方法不可避免地侵犯了个人隐私;此外,在光照不足时检测精度会大幅下降。

    针对以上问题,非穿戴,不受光照影响,且不侵犯隐私的热成像阵列传感器逐渐成为当下的研究热点。Shota等人[13]通过运动的连续帧、连续帧中温度变化的最大像素、运动检测过程中温度最大变化范围和运动前后的最高温度像素点距离等4个特征对人体跌倒进行检测。杨任兵等人[14]通过从低分辨率的红外图像中,提取出4种对跌倒敏感的特征,同时使用K近邻算法进行分类来判断是否发生跌倒。王召军等人[15]通过从采集到的温度分布信息中提取特征并采用K近邻算法实现跌倒识别。上述方法通过提取红外图像人体特征,根据图像中人体特征量的变化,利用多特征联合判决人体跌倒,判决算法复杂。同时,红外图像分辨率低、信噪比差,许多行为会互相混淆,检测精度相对较低。Liang等人[16]通过消除固定噪声、二值化、提取连通域以及特征点定位等操作对获取的红外图像进行预处理,利用纵向位移与横向位移联合判断人体跌倒。该算法对跌倒的漏判率较低;然而,当人体快速坐下或蹲下时,常被误判为跌倒,导致其对跌倒的误判率较高。

    综上,为简化判决算法设计,提高人体跌倒检测精度,本文提出一种基于逆向投影算法的室内人体跌倒检测方法。该方法首先使用一个分辨率为80×64像素的热成像阵列传感器获取红外图像,然后借鉴类卡尔曼滤波思想进行人体定位,并通过逆向投影算法获得人体在真实世界的高度,最后依据判决法则对跌倒行为进行检测。

    本文采用HEIMANN Sensor GmbH公司制造的HTPA 80×64 dR1L5.0/1.0热成像阵列传感器,该传感器的分辨率为80×64像素,视场为88°×70°。

    目前,研究者常把传感器摆放在屋顶[13-15]。然而,当传感器摆放于屋顶时,人体身高与体型对成像结果有较大影响。如图 1所示,一位身材较高且健壮的男士在跌倒时的图像与一位身材较矮且苗条的女士在站立时的图像较为接近,这导致难以进行准确的判决。

    图  1  屋顶传感器采集实验结果图
    Figure  1.  Experimental results collected by the sensor on the roof

    为解决上述摆放问题,一些研究者尝试把传感器摆放在墙侧进行实验[16]。该摆放位置虽能解决人体身高和体型对实验结果的影响,但如图 2所示,传感器视场盲区较大。

    图  2  墙侧传感器安装示意图
    Figure  2.  Schematic diagram of sensor installation on the wall

    综上所述,为尽可能减少视场盲区并兼顾图像保真度,本文选择将红外传感器安置于距离地面1.8m的墙角处。如图 3所示,传感器在水平方向的夹角为88°,在垂直方向的夹角为77°。由图 3可知,在88°以下的区域中,除了阴影部分,其余均在视场范围内。

    图  3  墙角传感器安装示意图
    Figure  3.  Schematic diagram of sensor installation in the corner

    本文所提的跌倒检测算法主要包括图像预处理、人体连通域定位、逆向投影、跌倒检测等4个步骤,算法流程如图 4所示。接下来将对上述步骤进行详细论述。

    图  4  跌倒检测算法流程图
    Figure  4.  Flow chart of human fall detection algorithm

    热成像阵列传感器获取的原始图像如图 5(a)所示:图中黄色表示高温区域,紫色表示低温区域。原始图像包含两种类型的噪声:①固定噪声:如图 5(a)中黑色圆圈标记区域所示;这类噪声是获取或标定图像时的系统误差所造成的,它在每帧图像的相同位置反复出现。②随机噪声:如图 5(a)中红色圆圈标记区域所示;这类噪声在部分帧中随机出现于不同位置。本文采用文献[16]的方法,利用一阶滤波器去除固定噪声,去噪后的图像如图 5(b)所示。

    图  5  红外图像及其相关处理
    Figure  5.  Thermal images and processing

    在去除固定噪声后,对图像进行二值化,并使用八连通法提取每帧图像中所有的连通域。从图 5(c)中可以看出,除了人体所在连通域,图像中还存在许多由随机噪声而产生的干扰连通域,如图中红圈所示区域。一般来说,人体所在连通域通常是面积最大或温度和最高的;然而,在某些帧中,干扰连通域的面积或温度和会超过人体所在连通域。为提升人体定位的精度,本文借鉴卡尔曼滤波思想,利用帧与帧之间的关联进行人体连通域预测,步骤如下:

    ① 计算第n帧中第i个连通域温度和Ti(n):

    $${T_i}(n) = \sum\limits_{p \in {S_i}(n)} {{Z_p}(n)} $$ (1)

    式中:p为像素点;Si(n)为第n帧中第i个连通域,Zp(n)为第n帧中像素点p的温度。

    ② 计算第n帧中第i个连通域重心坐标$\left( {{x_{{c_i}}}(n), {\rm{ }}{y_{{c_i}}}(n)} \right)$:

    $$\left( {{x_{{c_i}}}(n), {\rm{ }}{y_{{c_i}}}(n)} \right) = \frac{{\sum\limits_{p \in {S_i}(n)} {{Z_p}(n){\rm{ }}\left( {{x_p}(n), {\rm{ }}{y_p}(n)} \right)} }}{{\sum\limits_{p \in {S_i}(n)} {{Z_p}(n)} }}$$ (2)

    式中:(xp(n), yp(n))为第n帧中像素点p的坐标。

    ③ 如图 6所示,假设第(n-2)和第(n-1)帧中人体所在连通域中心P(n-2)和P(n-1)的坐标分别为(x(n-2), y(n-2))和(x(n-1), y(n-1)),则可以预测第n帧中人体连通域重心P(n)坐标($\hat x(n), \hat y(n)$)为:

    $$(\hat x(n), \hat y(n)) = \left( \begin{gathered} 2x(n - 1) - x(n - 2) \\ 2y(n - 1) - y(n - 2) \\ \end{gathered} \right)$$ (3)
    图  6  人体定位示意图
    Figure  6.  Human body positioning diagram

    在预测出第n帧中人体连通域重心P(n)坐标($\hat x(n), \hat y(n)$)后,人体连通域调整相关步骤如下:

    ① 计算第n帧中第i个连通域的重心与第n帧中预测人体连通域重心的距离di(n):

    $${d_i}(n) = \sqrt {{{\left( {\hat x(n) - {x_{{c_i}}}(n)} \right)}^2} + {{\left( {\hat y(n) - {y_{{c_i}}}(n)} \right)}^2}} $$ (4)

    ② 计算调整后的第n帧中第i个连通域的温度和${\tilde T_i}(n)$:

    $${\tilde T_i}(n) = {T_i}(n) - K{d_i}(n)$$ (5)

    本文选取${\tilde T_i}(n)$最大的连通域作为人体所在连通域。参数K的选取方法为将视场划分为5个区域,令4名实验者在5个区域分别进行跌倒、行走、静坐、站立、平躺和下蹲等6种行为,总计获取120组红外图像序列数据;令K取不同的数值,对其进行测试。实验结果表明,当K=10时,人体定位效果最好。

    传统方法中,通常以图像中人体像素高度的变化来判断跌倒。然而,热成像阵列传感器采集红外图像时具有近大远小的特性,人体处于视场不同位置时,图像中的像素高度会有所差异。如图 7所示,走向远处和跌倒这两个过程中,人体的像素高度都会减小。

    图  7  两种行为过程示意图
    Figure  7.  Diagrams of two behavioral processes

    上述两种行为人体像素高度变化如图 8所示。从图 8中可以看出,跌倒和行走时人体像素高度变化曲线较为类似;因此,如果利用其进行判决,跌倒常会与其他行为相混淆,从而导致识别精度较低。在真实世界中,行走过程中人体高度只会有略微震荡,而跌倒时人体高度会剧烈变化。因此,如果能获得人体在真实世界的高度,并以此高度的变化为依据对人体跌倒进行识别,准确率必将有所提升。

    图  8  两种行为人体像素高度变化
    Figure  8.  Changes in human pixel height under two behaviors

    逆向投影即从二维图像平面向三维真实世界进行投影,其整体示意图如图 9所示。

    图  9  逆向投影整体示意图
    Figure  9.  Overall schematic diagram of back projection

    图 9中,黑色箭头AB表示人体在真实世界的位置,蓝色箭头EF是人体通过投影在图像平面中的成像,红色箭头CD为人体在主光轴所在平面OLMN中的投影。逆向投影即由图像中的人像EF倒推出真实世界中人体AB的长度,其计算步骤如下:

    ① 计算人体和传感器之间的距离,即线段OA的长度。

    本文使用恒温源黑体作为实验对象。测量步骤如下:首先,将红外传感器放置在墙侧距地面1.8m位置,并使黑体与传感器高度一致。其次,在黑体与传感器距离为1500~4500mm的区间内,每200mm设置一个测量距离,每个测量距离设置5个测量点,测量点设置方式如图 10所示。再次,对每个测量距离中5个测量点的温度取平均值,获得16个测量距离各自对应的温度值。最后,对16个温度值进行直线拟合,获得传感器HTPA 80×64 dR1L5.0/1.0采集的物体温度和物体与传感器之间距离的关系如公式(6)所示:

    $$D = - 250 \times {T_{{\rm{image}}}} + 9075$$ (6)
    图  10  测量点位置示意图
    Figure  10.  Schematic diagram of measuring point location

    式中:Timage表示传感器采集到的温度值,℃;D表示物体与传感器之间的距离,mm;即图 9中线段OA的长度。

    ② 图像与真实世界之间的单位转换。

    图像中的长度单位是像素,而真实世界中的长度单位为毫米;因此,需要对图像中的长度单位进行转换,示意图如图 11所示。

    图  11  图像单位转换示意图
    Figure  11.  Schematic diagram of image unit conversion

    图 11中,f为传感器焦距,Rex为传感器在水平方向的分辨率,γ为传感器在水平方向的张角,Rey为传感器在垂直方向的分辨率,φ为传感器在垂直方向的张角。

    图 11(a)可得,图像中每个像素点在水平方向代表的真实长度px(单位:mm/pixel)可由式(7)获得:

    $${p_x} = \frac{{2f \times \tan \frac{\gamma }{2}}}{{{R_{{\rm{ex}}}}}}$$ (7)

    同理,由图 11(b)可得,图像中每个像素在垂直方向代表的真实长度py(单位:mm/pixel)可由式(8)获得:

    $${p_y} = \frac{{2f \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}$$ (8)

    ③ 计算线段GH的长度。

    由于GHEFy轴上的投影,因此GH的长度可由式(9)获得:

    $$GH = {p_y} \times \left| {{y_E} - {y_F}} \right|$$ (9)

    式中:yEyF分别表示点E和点Fy方向的坐标值。

    ④ 计算线段OC的长度。

    图 9中,IOK为主光轴,因此点I为图像平面STUV的中心,OI垂直于平面STUVOI的长度即为传感器的焦距f。因为传感器的分辨率为80×64,所以可以推算出图像中心点I的像素坐标为xI=39.5,yI=31.5。

    在ΔOIG中,因为$OI \bot IG$,所以OG的长度可由式(10)获得:

    $$\begin{gathered} OG = \sqrt {{f^2} + {{\left[ {{p_y} \times \left( {{y_G} - {y_I}} \right)} \right]}^2}} \\ {\rm{ }} = \sqrt {{f^2} + {{\left[ {{p_y} \times \left( {{y_E} - {y_I}} \right)} \right]}^2}} \\ \end{gathered} $$ (10)

    同理,在ΔOIE中,因为$OI \bot IE$,所以OE的长度可由式(11)获得:

    $$OE = \sqrt {{f^2} + {{\left[ {{p_x} \times \left( {{x_E} - {x_I}} \right)} \right]}^2} + {{\left[ {{p_y} \times \left( {{y_E} - {y_I}} \right)} \right]}^2}} $$ (11)

    因此,在ΔOGE中,因为$GE \bot OG$,所以:

    $$\angle EOG = \arccos \frac{{OG}}{{OE}}$$ (12)

    由于$\angle EOG$与$\angle AOC$为对顶角,因此两个角的度数相等。在ΔAOC中,因为$AC \bot OC$,所以线段OC的长度可由式(13)获得:

    $$OC = OA \times \cos \angle AOC = OA \times \cos \angle EOG$$ (13)

    ⑤ 计算真实世界中的人体高度,即线段AB的长度。

    为了更清晰地表达线段CD与线段GH之间的关系,本文将平面HGOCD单独列出,如图 12所示。

    图  12  逆向投影局部示意图
    Figure  12.  Partial schematic diagram of back projection

    图 12中可以看出,因为$OI \bot HI$,所以:

    $$\begin{gathered} \alpha = \arctan \frac{{HI}}{{OI}} = \arctan \frac{{\left| {{y_H} - {y_I}} \right| \times {p_y}}}{f} \\ {\rm{ }} = \arctan \frac{{2 \times \left| {{y_F} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}} \\ \end{gathered} $$ (14)

    同理,因为 $OI \bot GI\$,所以:

    $$\begin{gathered} \beta = \arctan \frac{{GI}}{{OI}} = \arctan \frac{{\left| {{y_G} - {y_I}} \right| \times {p_y}}}{f} \\ {\rm{ }} = \arctan \frac{{2 \times \left| {{y_E} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{ey}}}} \\ \end{gathered} $$ (15)

    图 3中传感器的安装方式可知,在图 9中,$\angle C'OJ$的大小为传感器在垂直方向张角的一半,因此:

    $$\eta = 90^\circ - \frac{\varphi }{2}$$ (16)

    因为η为ΔOJD的外角,因此:

    $$\theta = \eta - \alpha $$ (17)

    同理可得:

    $$\psi = 90^\circ + \alpha $$ (18)

    在ΔCJ'D中,因为$CJ' \bot OJ$,所以线段OJ'的长度可由式(19)获得:

    $$OJ' = OC \times \cos \angle COJ' = OC \times \cos \beta $$ (19)

    因为ΔHOG和ΔD'OC'为相似三角形,所以:

    $$CD' = \frac{{OJ'}}{f} \times GH$$ (20)

    根据正弦定理,可以求出线段CD的长度为:

    $$CD = \frac{{CD' \times \sin \psi }}{{\sin \theta }}{\rm{ }}$$ (21)

    图 9可知,CD为人体在平面OLMN的投影,即ABCD长度相等。将上述所有公式联立后可得:

    $$\begin{array} {l} AB = CD = \frac{{\frac{{OA \times \cos \left( {\arccos \frac{{\sqrt {{f^2} + {{[{p_y} \times ({y_E} - {y_I})]}^2}} }}{{\sqrt {{f^2} + {{[{p_x} \times ({x_E} - {x_I})]}^2}} + {{[{p_y} \times ({y_E} - {y_I})]}^2}}}} \right) \times \cos \left( {\arctan \frac{{2 \times \left| {{y_G} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}}{f}}}{{\sin \left( {90^\circ - \frac{\varphi }{2} - \arctan \frac{{2 \times \left| {{y_H} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}} \times \\ \quad \quad \quad \;\quad \quad \frac{{ \times \frac{{2f \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}} \times \left| {{y_E} - {y_F}} \right| \times \sin \left( {90^\circ + \arctan \frac{{2 \times \left| {{y_H} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}}{{\sin \left( {90^\circ - \frac{\varphi }{2} - \arctan \frac{{2 \times \left| {{y_H} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}} \\ \quad \quad \quad \quad = \frac{{2 \times OA \times \cos \left( {\arccos \frac{{\sqrt {{f^2} + {{[{p_y} \times ({y_E} - {y_I})]}^2}} }}{{\sqrt {{f^2} + {{[{p_x} \times ({x_E} - {x_I})]}^2}} + {{[{p_y} \times ({y_E} - {y_I})]}^2}}}} \right) \times \cos \left( {\arctan \frac{{2 \times \left| {{y_E} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}}{{{R_{{\rm{ey}}}} \times \sin \left( {90^\circ - \frac{\varphi }{2} - \arctan \frac{{2 \times \left| {{y_F} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}} \times \\ \quad \quad \quad \;\quad \, \, \, \frac{{\tan \frac{\varphi }{2} \times \left| {{y_E} - {y_F}} \right| \times \sin \times \sin \left( {90^\circ + \arctan \frac{{2 \times \left| {{y_F} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}}{{{R_{{\rm{ey}}}} \times \sin \left( {90^\circ - \frac{\varphi }{2} - \arctan \frac{{2 \times \left| {{y_F} - {y_I}} \right| \times \tan \frac{\varphi }{2}}}{{{R_{{\rm{ey}}}}}}} \right)}} \\ \end{array} $$ (22)

    根据式(22),可以通过图像中的人体信息计算出真实世界中的人体高度。由图 8可知人体行走和跌倒时,人体像素高度的变化曲线较为类似;而从图 13中可以看出,相同情况下人体真实高度的变化曲线具有较为明显的差异。因此,使用逆向投影算法,可以有效区分跌倒和其他行为。

    图  13  两种行为人体真实高度变化
    Figure  13.  Changes in human real height under two behaviors

    图 13中可以看出,当人体跌倒和行走时,人体真实世界高度数据具有一定程度的波动,不利于设计判决算法。

    为减缓数据波动,本文对其进行平滑处理:首先,把连续N帧的数据作为一个整体;其次,对每个整体中的数据从大到小进行排序;再次,去除最大与最小各N/10帧数据,并将处理后的数据记为h(i);最后,使用式(23)计算平滑后人体高度H(i):

    $$H(i) = \frac{5}{{4N}}\sum\limits_{i = 1}^{\frac{{4N}}{5}} {h(i)} $$ (23)

    N选择过小时,平滑后的数据波动较大,不利于设计判决算法;当N选择过大时,平滑后的数据存在与实际情况不符和延时过长等问题。本文中参数N的选取方法为令4名实验者沿5个不同方向进行行走和跌倒等2种行为,总计获取40组红外图像序列数据;令N取不同的数值,对其进行测试。实验结果表明,当N=20时,平滑效果最好。如图 14所示,平滑后特征量的波动明显降低,且依然保留着跌倒检测所需的变化趋势。

    图  14  平滑后两种行为人体真实高度变化
    Figure  14.  Changes in human pixel height after smoothing under two behaviors

    不同身高的人在跌倒时人体高度变化的绝对值有所差异。因此,使用人体高度的相对变化率作为跌倒的评判标准更为准确。然而,大量实验结果表明,由于人体平躺等状态真实高度较小,且平滑后特征量存在波动,仅使用该判决方法会导致少量非跌倒状态误判为跌倒。为解决上述问题,本文利用高度的相对变化率和其变化的绝对值对跌倒进行判决。设第i帧中人体在真实世界的高度为H(i),第i-M帧中人体在真实世界的高度为H(i-M),阈值分别为Th1Th2。当人体高度的变化满足式(24)与式(25)时,判决人体在第i帧跌倒;否则,将人体状态视为正常。

    $$\frac{{H(i)}}{{H(i - M)}} < {T_{h1}}$$ (24)
    $$H(i - M) - H(i) > {T_{h2}}$$ (25)

    传感器帧率为6帧/s,跌倒过程大约需要3s;为使间隔帧数包含完整的跌倒过程,特在跌倒前、后各多选取1帧数据;因此M取值为20。在确定M取值后,首先,将视场划分为5个区域,令4名实验者在5个区域分别进行跌倒、行走、静坐、站立、平躺和下蹲等6种行为,总计获取120个数据。其次,依次计算当M=20时,跌倒、行走、静坐、站立、平躺和下蹲等6种行为中人体相对高度变化和人体绝对高度变化,并对每种行为中的人体相对高度变化取极小值,人体绝对高度变化取极大值。最后,对4名实验者在5个视场区域跌倒时人体相对高度变化极值中取极大值和人体绝对高度变化极值中取极小值;最终得到Th1取值为0.35,Th2取值为1020。

    为了验证逆向投影算法的效果及人体跌倒检测方法的性能,本文分别针对这两种情况采集不同的实验数据,在64位Windows6系统上使用MATLAB 2018a运行实验。其中,逆向投影算法采集人体行走与跌倒状态,使用人体高度变化作为特征量进行分析;人体跌倒检测方法采集6种常见动作,使用混淆矩阵及3种评估指标进行分析。

    本文邀请4名不同身高、体态的人员在同一初始位置沿5个不同方向行走和跌倒,其中行走路线如图 15所示,跌倒方向如图 16所示。

    图  15  行走路线示意图
    Figure  15.  Schematic diagram of walking routes
    图  16  跌倒方向示意图
    Figure  16.  Schematic diagram of falling directions

    为便于验证逆向投影算法效果,本文依据2.4.2节跌倒判决中确定的20帧作为间隔,分析间隔前后非逆向投影人体图像高度变化及逆向投影人体真实高度变化情况。为便于分析比较,对每条行走路线或每个跌倒方向中4名实验者人体高度变化的最大值和最小值取极值,平均值取均值,行走和跌倒的实验结果分别如表 1表 2所示。

    表  1  行走实验数据
    Table  1.  Walking experiment data
    Route Human body height change by non-back projection algorithm Δw1/pixel Human body height change by back projection algorithm Δw2/mm
    Minimum Maximum Average value Minimum Maximum Average value
    1 6 8 7 43 165 106
    2 9 11 10 48 187 118
    3 12 14 13 52 223 138
    4 8 10 9 45 182 115
    5 5 7 6 41 158 102
    下载: 导出CSV 
    | 显示表格
    表  2  跌倒实验数据
    Table  2.  Fall experiment data
    Route Human body height change by non-back projection algorithm Δf1/pixel Human body height change by back projection algorithm Δf1/mm
    Minimum Maximum Average value Minimum Maximum Average value
    1 17 20 18 991 1475 1233
    2 16 18 17 986 1465 1128
    3 12 15 13 886 1174 1032
    4 15 17 16 975 1253 1114
    5 17 19 18 988 1484 1238
    下载: 导出CSV 
    | 显示表格

    表 1表 2中可以看出,非逆向投影人体图像高度变化在行走与跌倒这两种情况下较为接近,这使得阈值难以设置;尤其是沿3号路线行走时其高度变化的最大值超过沿3号方向跌倒时的最小值,这意味着必然会出现误判的情况。与此相比逆向投影人体真实高度变化在行走与跌倒这两种情下区别度较高,这便于准确设置阈值,降低误判的可能性。综上所述,对比实验结果充分证明了逆向投影算法的优势。

    为丰富样本类型,邀请4名不同身高、体态的人员完成表 3所要求的6种人体常见动作。其中,跌倒为主要识别姿态,因此该动作每人完成20次,其余动作每人完成10次。总计获得280组实验数据,其中跌倒类80组,非跌倒类共200组。

    表  3  动作要求
    Table  3.  Action requirements
    Fall action Fall down
    Non-fall action Walk back and forth
    Sit on the chair
    Standing
    Lying in bed
    Squat fast
    下载: 导出CSV 
    | 显示表格

    本文所提算法的检测情况如表 4所示。

    表  4  检测情况混淆矩阵
    Table  4.  Confusion matrix of detection results
    Real state Predictor state
    Fall Non-fallng
    Fall 79 1
    Walk 0 40
    Sit 0 40
    Stand 0 40
    Lay 0 40
    Squat 3 37
    下载: 导出CSV 
    | 显示表格

    表 4可以看出,“跌倒”的判决准确率高达98.75%。仅当人体头发较为浓密,背对传感器且跌倒后面部向上时,由于跌倒前头发遮挡使温度下降进而使人体与传感器之间距离的计算结果偏小并最终令计算所得人体高度小于真实身高,而跌倒后温度正常使计算所得人体高度等于真实身高,这导致人体高度变化量不满足跌倒阈值,从而将跌倒误判为非跌倒。

    非跌倒动作中,“行走”、“静坐”、“站立”、“平躺”这4种行为均能准确判决为非跌倒状态。当快速蹲下时,人体真实高度的变化情况与跌倒较为近似;加之数据本身即存在一定的波动性,因此算法会将少部分“下蹲”误判为跌倒。即使如此,“下蹲”行为的判决准确率也达到了92.5%的较高精度。

    跌倒检测属于二分类问题,模型只需分辨跌倒和非跌倒运动两种类别即可。二分类模型的判断结果可能存在以下4种情况:

    ① 真阳性(true positive):跌倒的实验中被检测为跌倒的次数。

    ② 假阳性(false positive):非跌倒的实验中被检测为跌倒的次数。

    ③ 真阴性(true negative):非跌倒的实验中被检测为非跌倒的次数。

    ④ 假阴性(false negative):跌倒的实验中被检测为非跌倒的次数。

    根据以上4种情况,可以得到敏感度(sensitivity)、特异度(specificity)和准确率(accuracy)3种模型评估指标:

    $${\rm{Sensitivity}} = \frac{{{\rm{TP}}}}{{{\rm{TP }} + {\rm{ FN}}}}$$ (26)
    $${\rm{Specificity}} = \frac{{{\rm{TN}}}}{{{\rm{TN }} + {\rm{ FP}}}}$$ (27)
    $${\rm{Accuracy}} = \frac{{{\rm{TP }} + {\rm{ TN}}}}{{{\rm{TP + FN + TN + FP}}}}$$ (28)

    敏感度反映了模型识别跌倒的能力,特异度反映了模型识别非跌倒运动的能力,准确率反映了模型的总体精确度。

    为验证跌倒检测方法效果,本文在自己的红外数据集上与目前检测效果较好的Liang等人[16]方法进行对比,对比结果如表 5所示。

    表  5  本文方法与其他方法对比结果
    Table  5.  Results comparison
    Method of this paper Reference [16]
    Sensitivity/(%) 98.75 91.25
    Specificity/(%) 98.50 86.50
    Accuracy/(%) 98.57 87.86
    下载: 导出CSV 
    | 显示表格

    表 5可以看出,本文所提方法在敏感度,特异度及准确率方面均优于文献[16]方法,体现出该方法的优异性能。由于部分情况下人体真实高度计算结果存在误差或波动,使得本文方法存在少量误判情况。在接下来的工作中,将对人体与传感器之间的距离计算方式进行更深入研究,以求进一步提高算法的检测精度。

    本文提出了一种基于红外图像和逆向投影算法的室内人体跌倒检测方法。该方法首先借鉴卡尔曼滤波思想利用帧与帧之间的关联对人体进行精确定位;其次,利用逆向投影算法由图像信息倒推出人体在真实世界的高度,并通过平滑处理降低数据波动;最后,利用平滑后的人体真实高度变化情况进行跌倒检测。

    实验结果表明,与其他基于红外图像的跌倒检测算法相比,本文所提方法具有更高的检测精度,其性能完全可以应用于实际生活中。

  • 图  1   不同类型的尾流特征图像

    Figure  1.   Different types of wake feature images

    图  2   Faster-RCNN在识别红外尾流中的应用

    Figure  2.   Application of faster-RCNN in infrared wake identification

    图  3   Google、VGG19、AlexNet基本网络对比实验图

    Figure  3.   Comparison experiment of Google, VGG 19 and AlexNet

    图  4   Frequency参数对AlexNet网络的影响实验

    Figure  4.   Experiment on the influence of frequency parameters on AlexNet network

    图  5   Patience参数对AlexNet网络影响实验

    Figure  5.   Experiment of influence of patience parameters on AlexNet network

    图  6   成型网络尾流识别与定位测试结果展示

    Figure  6.   Test results display of wake identification and location of formed network

    图  7   两类尾流测试集下不同样本的实时数据记录

    Figure  7.   Real time data recording of different samples under two types of wake test sets

    表  1   3种基本网络对比结果

    Table  1   Comparison results of three basic networks

    Pre-training network Google VGG19 AlexNet
    Accuracy 83.33% 100% 100%
    Time 5min 34s 61min 49s 13min 13s
    Stability Bad Good Good
    下载: 导出CSV

    表  2   Frequency参数对AlexNet网络影响结果

    Table  2   Influence results of frequency parameters on AlexNet network

    Frequency 1 2 3 4 5
    Accuracy 83.33% 100% 100% 100% 100%
    Rounds 3 5 5 5 5
    Time 8min28s 19min21s 13min13s 12min21s 18min34s
    Stability Better Better Better Good Better
    下载: 导出CSV

    表  3   Patience参数对AlexNet网络影响结果

    Table  3   Results of influence of patience parameters on AlexNet network

    Patience 1 3 5 7
    Accuracy 100% 100% 100% 100%
    Rounds 2 5 5 5
    Time 6min 44s 15min 46s 12min 21s 16min 30s
    下载: 导出CSV

    表  4   45个样本集/14个测试集(2类)下的实验结果

    Table  4   Experimental results under 45 sample sets and 14 test sets (Category 2)

    Network type Accuracy Missed rate Error rate Periscope wake as positive
    (infrared image)
    Ship wake as positive
    (visible light image)
    Precise rate Recall rate Precise rate Recall rate
    Untrained 0.5714 35.71% 11.11% 66.67% 100% 100% 85.71%
    Transfer learning 0.7857 7.14% 8.97% 100% 75% 81.82% 100%
    下载: 导出CSV

    表  5   65个样本集/14个测试集下(2类)的实验结果

    Table  5   Experimental results of 65 sample sets and 14 test sets (Category 2)

    Network type Accuracy Missed rate Error rate Periscope wake as positive
    (infrared image)
    Ship wake as positive
    (visible light image)
    Precise rate Recall rate Precise rate Recall rate
    Untrained 0.7143 7.14% 16.67% 55.56% 100% 100% 87.5%
    Transfer learning 0.7857 7.14% 13.63% 71.43% 100% 100% 75%
    下载: 导出CSV

    表  6   85个样本集/14个测试集下(2类)的实验结果

    Table  6   Experimental results of 85 sample sets and 14 test sets (Category 2)

    Network type Accuracy Missed rate Error rate Periscope wake as positive
    (infrared image)
    Ship wake as positive
    (visible light image)
    Precise rate Recall rate Precise rate Recall rate
    Untrained 0.3571 14.29% 63.33% 33.33% 75% 83.33% 62.5%
    Transfer learning 0.6429 14.29% 14.29% 100% 100% 70% 100%
    下载: 导出CSV
  • [1] 王雨农. 基于视觉注意机制的神经网络模型研究及应用[D]. 合肥: 中国科学技术大学, 2017.

    WANG Yunong. Research on Visual Attention Based Neural Network Model and its Application[D]. Hefei: University of Science and Technology of China, 2017.

    [2]

    Rumelhart D, Mcclelland J. Learning internal representations by error propagation[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Massachusetts: MIT Press, 1986: 318-362.

    [3] 尹勰, 闫磊. 基于深度卷积神经网络的图像目标检测[J]. 工业控制计算机, 2017, 30(4): 96-97. https://www.cnki.com.cn/Article/CJFDTOTAL-GYKJ201704040.htm

    YIN Xie, YAN Lei. Image target detection based on deep convolutional neural network [J]. Industrial Control Computer, 2017, 30(4): 96-97. https://www.cnki.com.cn/Article/CJFDTOTAL-GYKJ201704040.htm

    [4]

    Razavian A S, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2014: 512-519.

    [5]

    Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[M]//Computer Vision-ECCV, Springer International Publishing, 2014.

    [6] 胡炎, 单子力, 高峰. 基于Faster-RCNN和多分辨率SAR的海上舰船目标检测[J]. 无线电工程, 2018, 48(2): 96-100. https://www.cnki.com.cn/Article/CJFDTOTAL-WXDG201802005.htm

    HU Yan, SHAN Zili, GAO Feng. Ship target detection based on faster-RCNN and multi-resolution SAR[J]. Radio Engineering, 2018, 48(2): 96-100. https://www.cnki.com.cn/Article/CJFDTOTAL-WXDG201802005.htm

    [7] 李新. 基于红外热像技术连铸板坯裂纹预报方法研究[D]. 唐山: 华北理工大学, 2015.

    LI Xin. Research on Crack Prediction Method of Continuous Casting Slab Based on Infrared Thermography[D]. Tangshan : North China University of Technology, 2015.

    [8] 张健, 杨立, 袁江涛. 水下航行器热尾流试验研究[J]. 实验流体力学, 2008, 22(3): 9-15. https://www.cnki.com.cn/Article/CJFDTOTAL-LTLC200803002.htm

    ZHANG Jian, YANG Li, YUAN Jiangtao. Experimental study on thermal wake of underwater vehicles[J]. Experimental Fluid Mechanics, 2008, 22(3): 9-15. https://www.cnki.com.cn/Article/CJFDTOTAL-LTLC200803002.htm

    [9] 贺林. 水喷淋消声器设计与实验研究[D]. 哈尔滨: 哈尔滨工程大学, 2006.

    HE Lin. Design and Experimental Study of Water Spray Muffler[D]. Harbin : Harbin Engineering University, 2006.

    [10] 伍伟明. 基于Faster R-CNN的目标检测算法的研究[D]. 广州: 华南理工大学, 2018.

    WU Weiming. Research on Target Detection Algorithm Based on Faster R-CNN[D]. Guangzhou : South China University of Technology, 2018.

    [11] 刘万军, 梁雪剑, 曲海成. 自适应增强卷积神经网络图像识别[J]. 中国图象图形学报, 2019, 22(12): 1723-1736. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201712008.htm

    LIU Wanjun, LIANG Xuejian, QU Haicheng. Adaptive enhanced convolutional neural network image recognition[J]. Chinese Journal of Image Graphics, 2019, 22(12): 1723-1736. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201712008.htm

    [12]

    Lecun Y, Boser B, Denker J, et al. Back propagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. DOI: 10.1162/neco.1989.1.4.541

    [13] 王红霞, 周家奇, 辜承昊, 等. 用于图像分类的卷积神经网络中激活函数的设计[J]. 浙江大学学报: 工学版, 2019, 53(7): 1363-1373. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDZC201907016.htm

    WANG Hongxia, ZHOU Jiaqi, GU Chenghao, et al. Design of activation functions in convolutional neural networks for image classification[J]. Journal of Zhejiang University: Engineering Edition, 2019, 53(7): 1363-1373. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDZC201907016.htm

  • 期刊类型引用(2)

    1. 高程,唐超,童安炀,王文剑. 基于CNN和LSTM混合模型的红外人体行为识别. 合肥学院学报(综合版). 2023(05): 77-85 . 百度学术
    2. 赵普,武一. 面向社区医疗的跌倒检测算法. 中国医学物理学杂志. 2023(12): 1486-1493 . 百度学术

    其他类型引用(12)

图(7)  /  表(6)
计量
  • 文章访问数:  132
  • HTML全文浏览量:  62
  • PDF下载量:  27
  • 被引次数: 14
出版历程
  • 收稿日期:  2020-03-07
  • 修回日期:  2020-04-26
  • 刊出日期:  2021-10-19

目录

/

返回文章
返回
x 关闭 永久关闭