基于改进空时双流网络的红外行人动作识别研究

蒋一, 侯丽萍, 张强

蒋一, 侯丽萍, 张强. 基于改进空时双流网络的红外行人动作识别研究[J]. 红外技术, 2021, 43(9): 852-860.
引用本文: 蒋一, 侯丽萍, 张强. 基于改进空时双流网络的红外行人动作识别研究[J]. 红外技术, 2021, 43(9): 852-860.
JIANG Yi, HOU Liping, ZHANG Qiang. Infrared Pedestrian Action Recognition Based on Improved Spatial-temporal Two-stream Convolution Network[J]. Infrared Technology , 2021, 43(9): 852-860.
Citation: JIANG Yi, HOU Liping, ZHANG Qiang. Infrared Pedestrian Action Recognition Based on Improved Spatial-temporal Two-stream Convolution Network[J]. Infrared Technology , 2021, 43(9): 852-860.

基于改进空时双流网络的红外行人动作识别研究

基金项目: 

装备预研基金 

详细信息
    作者简介:

    蒋一(1983-), 男, 汉族, 河南信阳人, 学士, 讲师, 主要研究方向:计算机视觉、红外应用技术。E-mail: 85112285@qq.com

  • 中图分类号: TP391.4

Infrared Pedestrian Action Recognition Based on Improved Spatial-temporal Two-stream Convolution Network

  • 摘要: 为了提升复杂背景下红外序列的行人动作识别精度,本文提出了一种改进的空时双流网络,该网络首先采用深度差分网络代替时间信息网络,提高时空特征的表征能力与提取效率;然后,采用基于决策级特征融合机制的代价函数对模型进行训练,可以更大限度地保留不同网络帧间图像的时空特征,更加真实地反映行人的动作类别。仿真结果表明,本文提出的改进网络在自建的红外视频数据集上获得了81%的识别精度,且计算效率也提升了25%,具有较高的工程应用价值。
    Abstract: This study proposes an improved spatial-temporal two-stream network to improve the pedestrian action recognition accuracy of infrared sequences in complex backgrounds. First, a deep differential network replaces the temporal stream network to improve the representation ability and extraction efficiency of spatio-temporal features. Then, the improved softmax loss function based on the decision-making level feature fusion mechanism is used to train the model, which can retain the spatio-temporal characteristics of images between different network frames to a greater extent and reflect the action category of pedestrians more realistically. Simulation results show that the proposed improved network achieves 87% recognition accuracy on the self-built infrared dataset, and the computational efficiency is improved by 25%, which has a high engineering application value.
  • 人眼由于受到探测阈值的限制,在夜间看不见物体。微光像增强器的作用就是使人眼在夜间也能看见物体[1-2]。其工作原理是利用光电阴极将入射光转换为光电子,再利用微通道板(Microchannel plate,MCP)[3]对光电子进行倍增,之后再提高MCP输出电子的动能,最后使其轰击荧光屏发光,从而获得亮度适合人眼观察的可见光图像。微光像增强器从结构上讲包括输入窗、光电阴极、MCP、荧光屏、输出窗、管壳以及高压电源等。输入窗起输入光学图像和支撑光电阴极的作用,光电阴极起光电转换的作用,MCP起电子数量倍增的作用,荧光屏起电光转换的作用,输出窗起支撑荧光屏并输出光学图像的作用,管壳起真空封装的作用,高压电源起对光电子运动进行加速的作用。

    目前像增强器主要有两种,一种为超二代像增强器,另一种为三代像增强器。超二代像增强器采用Na2KSb光电阴极[4-5],而三代像增强器则采用GaAs光电阴极[6-8]。超二代像增强器是在二代像增强器的基础上,采用新技术、新工艺和新材料而发展起来的。因为性能提高显著,因此将这种性能更高的二代像增强器称为超二代像增强器。超二代像增强器的主要参数包括阴极灵敏度、增益、信噪比、分辨力等。阴极灵敏度定义为单位入射光通量所产生的光电流。增益定义为像增强器输出窗上的亮度与输入窗上的照度之比;分辨力定义为像增强器荧光屏上所能分辨的最高黑白线对数(线密度);信噪比定义为像增强器输出信号平均值与噪声(噪声定义为信号与信号平均值偏差的均方根值)之比。

    超二代像增强器从20世纪80年代中期开始,到20世纪80年代末实现产业化,至今已经发展了近30年。在这30年的发展过程中,其性能得到不断提高,品质因子(Figure of Merit,FOM)从500提高到了1800以上。FOM定义为信噪比与分辨力的乘积[9]。超二代像增强器技术以法国PHOTONIS公司为代表,相关的技术标准和规范也由PHOTONIS公司制定和引领。近年来,随着PHOTONIS公司4G系列像增强器的出现,使超二代像增强器的性能达到了一个新的高度。4G系列像增强器的标志是阴极灵敏度达到1000 μA·lm-1,品质因子达到1800。4G系列像增强器与之前的超二代像增强器一样,仍然采用Na2KSb光电阴极。4G系列像增强器由于性能的提高,应用范围更广,可以在月光星光、沙漠丛林、天空海面、城市乡村等多种环境下使用。以下称4G系列像增强器为高性能超二代像增强器;称之前的超二代像增强器为普通超二代像增强器。本文分析了高性能超二代像增强器的技术特征及性能,并与之前的超二代像增强器进行了比较,提出了进一步提高性能的技术途径,为超二代像增强器的研发以及应用提供参考。

    PHOTONIS公司高性能超二代像增强器与普通超二代像增强器相比,一个重要的区别是所采用的阴极输入窗不同。普通超二代像增强器采用玻璃窗,而高性能超二代像增强器却采用透射式衍射光栅窗。透射式衍射光栅窗(以下简称光栅窗)的结构见图 1。该光栅窗由一个玻璃窗和一个光栅所组成,其中的玻璃窗起支撑的作用,光栅起使输入光发生偏转的作用。如图 1中的输入光线1经过玻璃窗2达到光栅3,由于光栅3的衍射作用,使得输入光1发生偏转,这样进入光电阴极膜层5的光线8就成为斜射光,而斜射光8到达光电阴极的真空界面6时,因为满足全反射的条件[10-11],因此会发生全反射,使光线8再次反射回光电阴极,形成光线9,这样入射光在光电阴极内部的光程增加了一倍,因此增加了入射光的吸收率,从而提高了Na2KSb光电阴极的灵敏度。

    图  1  高性能超二代像增强器的光电阴极结构示意图
    Figure  1.  Schematic diagram of photocathode for super second generation image intensifier with high performance
    Input photon, 2. Glass window, 3. Diffraction grating, 4. Emission electron, 5. Photocathode, 6. Vacuum interface, 7. Photocathode interface, 8. Diffracting photon, 9. Reflection photon

    图 2为光栅窗Na2KSb光电阴极与普通玻璃输入窗(以下简称普通窗)Na2KSb光电阴极的光谱响应曲线,其中曲线“Grating window”表示光栅窗Na2KSb光电阴极的光谱灵敏度,而曲线“Glass window”则表示普通窗Na2KSb光电阴极的光谱灵敏度。从图中可以看出,光栅窗与普通窗的光谱灵敏度相比,在整个光谱响应范围内,光谱灵敏度均有不同程度的提高,并且波长越长,提高的比例越大。原因是Na2KSb材料是一种多晶半导体,相对于单晶半导体(如GaAs半导体),电子的扩散长度较小,因此其厚度不能太厚,否则光电子不能扩散到真空界面,从而不能逸出光电阴极形成光电流。由于Na2KSb光电阴极厚度较薄,因此对入射光吸收不充分,特别是对长波。而采用光栅窗之后,由于吸收系数增加,对入射光的吸收更充分,特别是长波,因此光栅窗光电阴极的光谱灵敏度在长波方向的增加比例较大。长波光谱灵敏度的增加,将进一步提高Na2KSb光电阴极与夜天光的光谱匹配系数,从而改善高性能超二代像增强器在夜天光条件下的使用性能。

    图  2  不同阴极窗的光电阴极光谱分布
    Figure  2.  Spectral distribution of photocathode on different windows

    采用光栅窗之后,同样的Na2KSb光电阴极,由于吸收系数的增加,阴极灵敏度可以提高,所提高的倍数称为增强系数(Enhance coefficient,EC)。EC由式(1)定义:

    $$ {\rm{EC}} = {S_1}/{\mathit{S}_2} $$ (1)

    式中:S1S2分别为相同光电阴极在光栅窗和玻璃窗上的阴极灵敏度。例如对同一组制作的4支超二代像增强器,2支为采用光栅窗的超二代像增强器,另外2支为采用玻璃窗的超二代像增强器。4支像增强器由于是同时制作,因此可以认为4支像增强器的光电阴极是相同的。2支光栅窗像增强器的平均阴极灵敏度为S1,另外2支玻璃窗像增强器的平均阴极灵敏度为S2,这样光栅窗的EC可以根据式(1)计算出来。

    目前采用普通窗的Na2KSb光电阴极灵敏度在750~1000 μA·lm-1之间,而对于4 G系列超二代像增强器,目前阴极灵敏度在1100~1400 μA·lm-1之间[10-11],因此可以推算出4 G系列超二代像增强器所使用光栅窗的EC为1.40~1.45。

    采用普通窗的Na2KSb光电阴极,由于对输入光的吸收不充分,因此透过Na2KSb光电阴极的光线还会被MCP的输入端反射回光电阴极,从而再次激发光电阴极发射光电子,而形成较亮的光晕,原理见图 3。如光束7经过阴极窗1,再经过光电阴极2,一部分被光电阴极所吸收,另一部分透过光电阴极入射到MCP的输入端3上面,经过MCP输入端反射回光电阴极2,使光电阴极发射光电子9,而光电子9再经过MCP的倍增,激发荧光屏5发光,最后从光纤面板输出窗6输出,因此在入射光束所成亮斑10的周围形成了一个光晕11。光晕包括电子光晕和光学光晕,此处所述的光晕是指光学光晕。采用光栅窗的Na2KSb光电阴极,因为吸收系数增加,光吸收更充分,因此形成的光晕较小并且较暗。

    图  3  光晕形成的原理示意图
    Figure  3.  Schematic diagram of halo generation
    1. Input window, 2. Photocathode, 3. Input end of MCP, 4. MCP, 5. Phosphor screen, 6. Fiber optical Plate, 7. Reflection light, 8. Photoelectron, 9. Output electron, 10. Bright spot, 11. Halo

    图 4为高性能超二代像增强器和普通超二代像增强器对圆形亮斑成像的对比。投射在光电阴极上的圆形亮斑的尺寸和照度相同,但经过像增强器成像之后,在荧光屏上所观察到的图像却不一样。亮斑在荧光屏上的图像由两部分组成,中心的亮斑为入射圆形光斑的图像,而在亮斑周围的一圈亮环即为光晕。对于高性能像增强器而言,不仅亮斑的尺寸较小,同时光晕的直径也较小,见图 4(a)。但对于超二代像增强器而言,不仅亮斑图像的尺寸较大,而言光晕的直径也较大,见图 4(b)。高性能超二代像增强器的光晕较小且较暗,因此在城市周边或机场周边使用时,亮光源(如灯泡)对目标图像的干扰较小。

    图  4  不同型号像增强器光晕比较
    Figure  4.  Halo comparison of different image intensifier

    高性能超二代像增强器与普通超二代像增强器相比较,由于性能提高显著,使得其最低探测阈值进一步降低。为了比较两种像增强器探测阈的变化,对低照度条件下的像增强器分辨力进行了测量。测量样品分别为一支高性能超二代以及一支普通超二代像增强器,其中高性能超二代像增强器的阴极灵敏度为1214 μA·lm-1,增益为15000 cd·m-2·lx-1,信噪比为32.2,分辨力为68 lp·mm-1;普通超二代像增强器的阴极灵敏度为874 μA·lm-1,增益为15000 cd·m-2·lx-1,信噪比为28.4,分辨力为68 lp·mm-1。分辨力测量仪的光源为2856 K色温的钨丝灯,靶板规格为USF1951。测量时,先在10-1 lx数量照度(阴极面上)条件下测量两支像增强器的分辨力,然后再在光路中分别加入10倍、100倍或1000倍的中性密度衰减滤光片,再分别测量两支像增强器的分辨力。测量结果表明,随着照度的不断降低,两支像增强器的分辨力均有所降低,但分辨力基本相同。当照度进一步降低到10-4 lx数量级时,普通超二代像增强器分辨力接近于消失,很难分别出分辨力靶板的图像,见图 5(a),但高性能超二代像增强器仍然能分辨出分辨力靶板的图像,并且分辨力仍有17 lp·mm-1,见图 5(b)。这说明高性能超二代像增强器的阴极灵敏度提升以后,较超二代像增强器而言,极限探测能力有了很大的提高。

    图  5  不同型号像增强器分辨力比较
    Figure  5.  Resolution comparison of different image intensifier

    在不改变现有超二代像增强器技术框架的前提下进一步提高超二代像增强器的信噪比和分辨力仍然是超二代像增强器的发展方向。因为像增强器的信噪比[12-13]与阴极灵敏度的平方根成正比,因此提高信噪比的关键就是提高阴极灵敏度。

    Na2KSb光电阴极从结构上讲由两部分组成。一部分为Na2KSb吸收层,另一部分为Cs3Sb表面层,见图 6。Na2KSb吸收层的作用是吸收光子,产生跃迁电子;Cs3Sb表面层的作用是降低光电阴极的逸出功,因此Na2KSb吸收层以及Cs3Sb表面层均对Na2KSb光电阴极的灵敏度高低起作用。由于Cs3Sb表面层较薄,约15 nm,再加上制作工艺相对容易,因此工艺的一致性和重复较好,所以长期以来制作工艺相对固定。而对于Na2KSb基底层而言,由于其厚度较厚,约200 nm,再加上制作工艺较难,因此工艺的一致性和重复性较差,所以制作工艺一直在不断改进或优化。从Na2KSb光电阴极灵敏度提高的过程看,主要是Na2KSb吸收层的制作工艺得到了不断的优化,而Cs3Sb表面层的制作工艺却未发生变化。

    图  6  光电阴极结构示意图
    Figure  6.  Schematic diagram of structure for photocathode
    1. Glass window, 2. Na2KSb layer, 3. Cs3Sb layer

    表 1为4支普通超二代像增强器阴极灵敏度的实测值。从表中看出,4支普通超二代像增强器样品的阴极灵敏度高低不同,最高的为917 μA·lm-1,最低的为582 μA·lm-1。但其长波截止波长变化不大,在950 nm~955 nm之间。长波截止波长基本相同,意味着4支样品的逸出功基本相同,再加上Cs3Sb表面层的制作工艺基本相同,所以可以认为4支普通超二代像增强器样品阴极灵敏度不同的原因在于Na2KSb吸收层的不同。例如0615#和6495#两支样品,长波截止波长相同,均为950 nm,逸出功也相同,均为1.3 eV,但其阴极灵敏度却差别很大,0615#样品的阴极灵敏度仅仅为582 μA·lm-1,而6495#样品的阴极灵敏度却为917 μA·lm-1。又如7650#样品和8550#样品相比较,7650#样品的截止波长为955 nm,比8550#样品的长波截止波长长5 nm,逸出功小0.01 eV,但7650#样品的阴极灵敏度为702 μA·lm-1,比8550#样品的阴极灵敏度低,8550#样品的阴极灵敏度为748 μA·lm-1,这也说明造成Na2KSb光电阴极灵敏度产生差距的主要因素在于Na2KSb吸收层。如果Na2KSb吸收层的性能不好(如晶格质量、吸收系数、掺杂浓度、杂质含量、扩散长度等),那么即使Cs3Sb表面层达到了降低Na2KSb光电阴极逸出功的要求,阴极的灵敏度也不会高。目前Na2KSb光电阴极制作的实践证明,通过改进Na2KSb吸收层的制作工艺能够提高光电阴极的灵敏度,并且阴极灵敏度最高可以超过1000 μA·lm-1,并且接近1100 μA·lm-1。尽管制作工艺改进对Na2KSb吸收层性能影响的机理还不甚清楚,但改进工艺确实是进一步提高光电阴极灵敏度的有效的方法。所以加强对Na2KSb材料的研究,搞清楚机理,并通过理论对实践进行指导,不断改进或优化Na2KSb吸收层的制作工艺是提高Na2KSb阴极灵敏度的途径。可以预计随着Na2KSb制作工艺的进一步改进,普通玻璃窗Na2KSb光电阴极的灵敏度将会达到850~1150 μA·lm-1之间。

    表  1  不同光电阴极灵敏度及逸出功
    Table  1.  Sensitivity and work function of different cathode
    Sample Sensitivity/(μA·lm-1) Threshold/nm Work function/eV
    0615# 582 950 1.30
    6495# 917 950 1.30
    7650# 702 955 1.29
    8550# 748 950 1.30
    下载: 导出CSV 
    | 显示表格

    在通过改进Na2KSb吸收层的制作工艺,进一步提高Na2KSb光电阴极灵敏度的同时,还可以进一步提高光栅窗的EC。根据相关报道[10-11],光栅窗的结构以及制造工艺有多种选择,随着技术的发展,光栅窗的结构将进一步优化,光栅密度和衍射效率将进一步提高,同时EC也将进一步提高。如果光栅窗的EC达到1.6,而普通窗Na2KSb光电阴极的灵敏度达到850~1150 μA·lm-1,那么光栅窗Na2KSb光电阴极的灵敏度可以达到1350~1800 μA·lm-1。如果MCP的噪声因子为1.1,根据理论计算[12-13],超二代像增强器的信噪比将达到35~40。

    提高超二代像增强器分辨力的最直接的技术途径就是采用小丝径的MCP和光纤面板[14-15]。目前实践证明,采用6 μm丝径MCP和4 μm丝径光纤面板的超二代像增强器,分辨力可以达到72 lp·mm-1,根据理论推算[16-17],如果采用4 μm丝径MCP和3 μm丝径光纤面板,那么预计分辨力将可以达到81 lp·mm-1以上,因此FOM将会达到2800~3200之间。

    在颠覆性技术出现之前,超二代像增强器技术仍然是沿着现有的技术路线不断发展,因为无论是在提高Na2KSb光电阴极的灵敏度,还是在提高超二代像增强器的分辨力方面,均有进一步提高的空间。在超二代像增强器技术的发展过程中,PHOTONIS公司平均每5年实现一次技术提升[18],因此可以预计在今后的5~10年时间内,超二代像增强器的性能还会达到一个更高的水平。

    超二代像增强器采用Na2KSb光电阴极,而Na2KSb是一种多晶半导体,生长工艺相对简单,因此生产成本低,具有性价比高的优点,而这一优点与单兵夜视装备要求性价比高的特点相吻合,所以超二代像增强器在未来5~10年时间内,在单兵夜视装备领域仍然具有不可替代性。

    致谢: 本文所有数据来自中国科学院沈阳自动化研究所提供的光电跟踪取证系统;本文研究得到了北京工商大学吴晓波副教授的帮助,在此一并表示感谢。
  • 图  1   双流网络结构

    Figure  1.   Two-stream network

    图  2   LSTM网络结构

    Figure  2.   LSTM structure

    图  3   改进的双流网络

    Figure  3.   Improved two-stream network

    图  4   差分关键帧与对应的光流图

    Figure  4.   Differential keyframe and corresponding optical-flow

    图  5   训练过程中的模型损失值变化趋势

    Figure  5.   Change trend of loss value during training

    图  6   训练过程中的模型识别精度变化趋势

    Figure  6.   Trend of precision variation during training

    表  1   数据集类别及其数量

    Table  1   Classes and quantities of data-sets

    NO Categories Total
    1 Walk 152
    2 Stand 203
    3 climb 186
    4 Jog 265
    5 Jump 174
    5 Punch 128
    7 Lying 295
    8 Wave1 168
    9 Wave2 177
    10 Crouch 312
    11 Sitting 268
    12 Handclapping 208
    13 Push 158
    14 Fight 119
    15 Handshake 134
    16 Hug 168
    下载: 导出CSV

    表  2   不同模块性能分析

    Table  2   Performance analysis of different modules

    DDN IS DF Pr/% FPS
    77.12 13.9
    77.83 18.1
    79.91 13.8
    79.78 12.7
    81.79 17.8
    82.09 18.5
    81.83 11.6
    83.01 17.7
    下载: 导出CSV

    表  3   不同对比算法的性能分析

    Table  3   Performance analysis of different comparison models

    Categories IDT C3D SCNN-3G L-LSTM Ts-3D OFGF Our
    Pr Mr Rr Pr Mr Rr Pr Mr Rr Pr Mr Rr Pr Mr Rr Pr Mr Rr Pr Mr Rr
    Walk 64 27 70 66 21 72 68 23 72 74 19 77 76 27 74 79 16 80 78 10 80
    Stand 72 20 75 76 19 77 76 19 74 82 19 87 84 20 75 84 16 85 85 20 86
    climb 50 36 61 53 31 63 61 34 66 66 25 67 71 36 61 76 24 81 78 16 81
    Jog 66 28 70 68 23 75 70 23 70 67 28 76 71 28 70 76 19 78 86 8 90
    Jump 60 32 65 61 31 68 67 34 67 60 32 74 72 32 65 72 22 77 71 16 80
    Punch 41 50 44 41 40 43 46 51 48 51 40 58 60 50 64 61 30 64 67 22 69
    Lying 56 36 60 57 31 66 59 33 65 56 36 67 70 30 67 66 22 69 67 16 70
    Wave1 65 31 65 68 29 68 68 30 68 65 31 76 72 23 75 75 11 80 82 11 85
    Wave2 68 28 69 70 30 71 71 23 76 68 28 87 78 28 79 81 17 86 88 8 88
    Crouch 41 29 41 43 34 45 44 23 46 41 29 58 53 20 50 60 22 61 68 26 71
    Sitting 70 24 78 73 28 80 72 28 79 71 24 81 78 19 81 80 15 88 82 14 87
    Handclap 37 33 38 38 34 42 38 30 33 37 33 50 45 23 58 67 22 68 72 23 76
    Push 41 46 44 44 47 46 42 42 47 41 46 57 66 30 64 71 23 74 71 16 79
    Fight 53 35 57 58 30 58 56 31 58 53 35 67 67 29 67 63 15 77 80 13 80
    Handshake 62 29 67 65 31 70 66 26 70 62 29 76 71 20 77 75 19 87 76 22 81
    Hug 67 26 69 66 27 72 61 28 74 76 28 74 74 26 78 78 25 79 81 14 85
    Mixed dataset 57 31 60 59 30 63 60 29 63 60 30 70 69 27 69 72 18 77 77 15 80
    下载: 导出CSV
  • [1]

    Karpathy A, Toderici G, Shetty S, et al. Large- scale video classification with convolutional neural networks[C]// CVPR, 2014: 1725-1732.

    [2]

    Tran D, Bourdev L D, Fergus R, et al. Learning spatiotem-poral features with 3d convolutional networks[C]//ICCV, 2015: 4489-4497.

    [3]

    ZHANG B, WANG L, WANG Z, et al. Real-time action recognition with enhanced motion vector CNNs[C]//CVPR, 2016: 2718-2726.

    [4]

    Niebles J C, CHEN C W, LI F F. Modeling temporal structure of decomposable motion segments for activity classification[C]// ECCV, 2010: 392-405.

    [5]

    Tumas P, Nowosielski A, Serackis A. Pedestrian detection in severe weather conditions[J]. IEEE Access, 2020, 8: 62775-62784. DOI: 10.1109/ACCESS.2020.2982539

    [6] 魏丽, 丁萌, 曾丽君. 红外图像中基于似物性与稀疏编码的行人检测[J]. 红外技术, 2016, 38(9): 752-757. http://hwjs.nvir.cn/article/id/hwjs201609007

    WEI Li, DING Meng, ZENG Lijun. Pedestrian Detection Based on Objectness and Sparse Coding in a Single Infrared Image[J]. Infrared Technology, 2016, 38(9): 752-757. http://hwjs.nvir.cn/article/id/hwjs201609007

    [7]

    Fernando B, Gavves E M, Ghodrati J O, et al. Modeling video evolution for action recognition[C]//CVPR, 2015: 5378-5387.

    [8]

    Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 40(6): 1510-1517.

    [9]

    Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term Recurrent Convolutional Networks for Visual Recognition and Description[M]. Elsevier, 2015: 2625-2634.

    [10]

    Soomro K, Zamir A R, Shah M. A dataset of 101 human actions classes from videos in the wild[J/OL]. Computer Vision and Pattern Recognition, arXiv: 1212.0402, 2012.

    [11]

    Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//ICCV, 2011: 2556-2563.

    [12]

    Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//ICML, 2015: 448-456.

    [13]

    WANG L, QIAO Y, TANG X. Video action detection with relational dynamic- poselets[C]//ECCV, 2014: 565-580.

    [14]

    GAN C, YAO T, YANG K, et a. You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images[C]//CVPR, 2016: 923-932.

    [15]

    Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[J]. Advances in Neural Information Processing Systems, 2014, 150: 109-125. http://de.arxiv.org/pdf/1406.2199

    [16] 冉鹏, 王灵, 李昕, 等. 改进Softmax分类器的深度卷积神经网络及其在人脸识别中的应用[J]. 上海大学学报: 自然科学版, 2018, 24(3): 352-366. https://www.cnki.com.cn/Article/CJFDTOTAL-SDXZ201803004.htm

    RAN Peng, WANG Ling, LI Xin, et al. Deep convolution neural network based on improved softmax classifier and its application in face recognition[J]. Journal of Shanghai University: Natural Science Edition, 2018, 24(3): 352-366. https://www.cnki.com.cn/Article/CJFDTOTAL-SDXZ201803004.htm

    [17]

    Yasin H, Hussain M, Weber A. Keys for Action: An Efficient Keyframe-Based Approach for 3D Action Recognition Using a Deep Neural Network[J]. Sensors, 2020, 20(8): 2226. DOI: 10.3390/s20082226

    [18]

    GAO Chenqiang, DU Yinhe, LIU Jiang, et al. InfAR dataset: Infrared action recognition at different times[J]. Neurcomputing, 2016, 212: 36-47. DOI: 10.1016/j.neucom.2016.05.094

    [19]

    WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 3551-3558.

    [20]

    Du Tran, Lubomir Bourdev, Rob Fergus, et al. Learning spatiotemporal features with 3D convolutional networks[C]//Proceedings of the 2015 IEEE, International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.

    [21] 杨天明, 陈志, 岳文静. 基于视频深度学习的时空双流人物动作识别模型[J]. 计算机应用, 2018, 38(3): 895-899. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201803050.htm

    YANG T M, CHENG Z, YU, W J, et al. Spatio-temporal two-stream human action recognition model based on video deep learning[J]. Journal of Computer Applications, 2018, 38(3): 895-899, 915. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201803050.htm

    [22]

    LIN S, JIA K, CHEN K, et al. Lattice long short-term memory for human action recognition[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2166-2175.

    [23]

    Carrlira J, Gisslrman A. Quo vadis. action recognition? A new model and the kinetics dataset[C]//Proceedings of the 2017 IEEE, Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4724-4733.

    [24]

    SUN S, KUANG Z, SHENG L, et al. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 20118-20132.

  • 期刊类型引用(12)

    1. 邱祥彪,杨晓明,孙建宁,王健,丛晓庆,金戈,曾进能,张正君,潘凯,陈晓倩. 高空间分辨微通道板现状及发展. 红外技术. 2024(04): 460-466 . 本站查看
    2. 刘宇,时荔蕙. 像增强器性能梯次及发展路线研究. 红外与毫米波学报. 2023(04): 427-433 . 百度学术
    3. 曾进能,杨琼连,龚燕妮,李廷涛,王乙瑾,李晓露,赵恒,马怀超,徐传平,吴艳娟,汪云,李耀斌,须恃瑜,刘倍宏,徐鳕娇,李荣喜. 超二代微光像增强器性能随工作时间的影响研究. 红外技术. 2023(08): 869-875 . 本站查看
    4. 孙磊,金东东,纪春恒,裴崇雷,安鸿波,段恩悦. 基于增强型CCD探测器的距离选通三维成像不均匀性补偿方法. 兵工学报. 2023(08): 2495-2502 . 百度学术
    5. 李亚情,左加宁,李晓露,周盛涛,褚祝军,杜培德,王光凡. 自动门控像增强器温度补偿技术研究. 红外技术. 2023(10): 1126-1131 . 本站查看
    6. 李晓峰,常乐,刘倍宏,须恃瑜,丁易冰. 超二代像增强器分辨力随输入照度变化研究. 红外技术. 2022(04): 377-382 . 本站查看
    7. 李亚情,周盛涛,王光凡,褚祝军,杜培德,朱文锦,李晓露,左加宁,朱世聪. 普通高压电源超二代微光像增强器亮度增益温度特性研究. 红外技术. 2022(08): 804-810 . 本站查看
    8. 李晓峰,何雁彬,常乐,王光凡,徐传平. 超二代与三代像增强器性能的比较研究. 红外技术. 2022(08): 764-777 . 本站查看
    9. 张益军. 半导体光电阴极的研究进展. 红外技术. 2022(08): 778-791 . 本站查看
    10. 邱祥彪,闵信杰,金戈,孙建宁,王健,丛晓庆,张正君,徐昭,潘凯,任玲,张振,乔芳建,聂慧君,黄国瑞,陈晓倩,胡泽训,林焱剑,刘丹,杨晓明. 采用干法刻蚀进行微通道板扩口理论模型研究. 红外技术. 2022(08): 818-823 . 本站查看
    11. 孙磊,金东东,纪春恒,裴崇雷,安鸿波. 基于抛物线包络反演的距离选通三维成像方法. 兵工学报. 2022(08): 1868-1873 . 百度学术
    12. 杨武丽,来悦颖,张晓辉,焦岗成,李世龙,郭欣,贾甜甜. 微光像增强器常用荧光粉性能研究. 应用光学. 2022(06): 1207-1216 . 百度学术

    其他类型引用(4)

图(6)  /  表(3)
计量
  • 文章访问数:  213
  • HTML全文浏览量:  41
  • PDF下载量:  37
  • 被引次数: 16
出版历程
  • 收稿日期:  2020-12-26
  • 修回日期:  2021-08-23
  • 刊出日期:  2021-09-19

目录

/

返回文章
返回