基于改进空时双流网络的红外行人动作识别研究

蒋一; 侯丽萍; 张强

基于改进空时双流网络的红外行人动作识别研究

1.
信阳职业技术学院数学与计算机科学学院, 河南信阳 464000
2.
信阳农林学院信息工程学院, 河南信阳 464000
3.
中国人民解放军空军第一航空学院研究生大队, 河南信阳 464000

基金项目:

装备预研基金

详细信息

作者简介:
蒋一(1983-), 男, 汉族, 河南信阳人, 学士, 讲师, 主要研究方向：计算机视觉、红外应用技术。E-mail: 85112285@qq.com

中图分类号: TP391.4
计量
- 文章访问数: 213
- HTML全文浏览量: 41
- PDF下载量: 37
出版历程
- 收稿日期: 2020-12-26
- 修回日期: 2021-08-23
- 刊出日期: 2021-09-19

Infrared Pedestrian Action Recognition Based on Improved Spatial-temporal Two-stream Convolution Network

1.
School of Mathematics and Computer Science, Xinyang Polytechnic College, Xinyang 464000, China
2.
School of Information Engineering, Xinyang Agriculture and Forestry College, Xinyang 464000, China
3.
Graduate Team, the First Aviation Academy, Chinese Air force, Xinyang 464000, China

摘要

摘要: 为了提升复杂背景下红外序列的行人动作识别精度，本文提出了一种改进的空时双流网络，该网络首先采用深度差分网络代替时间信息网络，提高时空特征的表征能力与提取效率；然后，采用基于决策级特征融合机制的代价函数对模型进行训练，可以更大限度地保留不同网络帧间图像的时空特征，更加真实地反映行人的动作类别。仿真结果表明，本文提出的改进网络在自建的红外视频数据集上获得了81%的识别精度，且计算效率也提升了25%，具有较高的工程应用价值。
- 双流网络 /
- 红外序列 /
- 动作识别 /
- 光流图像 /
- 差分网络 /
- 深度学习 /
- 空时特征
Abstract: This study proposes an improved spatial-temporal two-stream network to improve the pedestrian action recognition accuracy of infrared sequences in complex backgrounds. First, a deep differential network replaces the temporal stream network to improve the representation ability and extraction efficiency of spatio-temporal features. Then, the improved softmax loss function based on the decision-making level feature fusion mechanism is used to train the model, which can retain the spatio-temporal characteristics of images between different network frames to a greater extent and reflect the action category of pedestrians more realistically. Simulation results show that the proposed improved network achieves 87% recognition accuracy on the self-built infrared dataset, and the computational efficiency is improved by 25%, which has a high engineering application value.
- two-stream network /
- infrared sequences /
- action recognition /
- optical-flow /
- differential network /
- deep learning /
- spatial-temproal feature

HTML全文

0. 引言

人眼由于受到探测阈值的限制，在夜间看不见物体。微光像增强器的作用就是使人眼在夜间也能看见物体^[1-2]。其工作原理是利用光电阴极将入射光转换为光电子，再利用微通道板（Microchannel plate，MCP）^[3]对光电子进行倍增，之后再提高MCP输出电子的动能，最后使其轰击荧光屏发光，从而获得亮度适合人眼观察的可见光图像。微光像增强器从结构上讲包括输入窗、光电阴极、MCP、荧光屏、输出窗、管壳以及高压电源等。输入窗起输入光学图像和支撑光电阴极的作用，光电阴极起光电转换的作用，MCP起电子数量倍增的作用，荧光屏起电光转换的作用，输出窗起支撑荧光屏并输出光学图像的作用，管壳起真空封装的作用，高压电源起对光电子运动进行加速的作用。

目前像增强器主要有两种，一种为超二代像增强器，另一种为三代像增强器。超二代像增强器采用Na₂KSb光电阴极^[4-5]，而三代像增强器则采用GaAs光电阴极^[6-8]。超二代像增强器是在二代像增强器的基础上，采用新技术、新工艺和新材料而发展起来的。因为性能提高显著，因此将这种性能更高的二代像增强器称为超二代像增强器。超二代像增强器的主要参数包括阴极灵敏度、增益、信噪比、分辨力等。阴极灵敏度定义为单位入射光通量所产生的光电流。增益定义为像增强器输出窗上的亮度与输入窗上的照度之比；分辨力定义为像增强器荧光屏上所能分辨的最高黑白线对数（线密度）；信噪比定义为像增强器输出信号平均值与噪声（噪声定义为信号与信号平均值偏差的均方根值）之比。

超二代像增强器从20世纪80年代中期开始，到20世纪80年代末实现产业化，至今已经发展了近30年。在这30年的发展过程中，其性能得到不断提高，品质因子（Figure of Merit，FOM）从500提高到了1800以上。FOM定义为信噪比与分辨力的乘积^[9]。超二代像增强器技术以法国PHOTONIS公司为代表，相关的技术标准和规范也由PHOTONIS公司制定和引领。近年来，随着PHOTONIS公司4G系列像增强器的出现，使超二代像增强器的性能达到了一个新的高度。4G系列像增强器的标志是阴极灵敏度达到1000 μA·lm^-1，品质因子达到1800。4G系列像增强器与之前的超二代像增强器一样，仍然采用Na₂KSb光电阴极。4G系列像增强器由于性能的提高，应用范围更广，可以在月光星光、沙漠丛林、天空海面、城市乡村等多种环境下使用。以下称4G系列像增强器为高性能超二代像增强器；称之前的超二代像增强器为普通超二代像增强器。本文分析了高性能超二代像增强器的技术特征及性能，并与之前的超二代像增强器进行了比较，提出了进一步提高性能的技术途径，为超二代像增强器的研发以及应用提供参考。

1. 特征及性能

PHOTONIS公司高性能超二代像增强器与普通超二代像增强器相比，一个重要的区别是所采用的阴极输入窗不同。普通超二代像增强器采用玻璃窗，而高性能超二代像增强器却采用透射式衍射光栅窗。透射式衍射光栅窗（以下简称光栅窗）的结构见图 1。该光栅窗由一个玻璃窗和一个光栅所组成，其中的玻璃窗起支撑的作用，光栅起使输入光发生偏转的作用。如图 1中的输入光线1经过玻璃窗2达到光栅3，由于光栅3的衍射作用，使得输入光1发生偏转，这样进入光电阴极膜层5的光线8就成为斜射光，而斜射光8到达光电阴极的真空界面6时，因为满足全反射的条件^[10-11]，因此会发生全反射，使光线8再次反射回光电阴极，形成光线9，这样入射光在光电阴极内部的光程增加了一倍，因此增加了入射光的吸收率，从而提高了Na₂KSb光电阴极的灵敏度。

图 1 高性能超二代像增强器的光电阴极结构示意图

Figure 1. Schematic diagram of photocathode for super second generation image intensifier with high performance

Input photon, 2. Glass window, 3. Diffraction grating, 4. Emission electron, 5. Photocathode, 6. Vacuum interface, 7. Photocathode interface, 8. Diffracting photon, 9. Reflection photon

下载: 全尺寸图片幻灯片

图 2为光栅窗Na₂KSb光电阴极与普通玻璃输入窗（以下简称普通窗）Na₂KSb光电阴极的光谱响应曲线，其中曲线“Grating window”表示光栅窗Na₂KSb光电阴极的光谱灵敏度，而曲线“Glass window”则表示普通窗Na₂KSb光电阴极的光谱灵敏度。从图中可以看出，光栅窗与普通窗的光谱灵敏度相比，在整个光谱响应范围内，光谱灵敏度均有不同程度的提高，并且波长越长，提高的比例越大。原因是Na₂KSb材料是一种多晶半导体，相对于单晶半导体（如GaAs半导体），电子的扩散长度较小，因此其厚度不能太厚，否则光电子不能扩散到真空界面，从而不能逸出光电阴极形成光电流。由于Na₂KSb光电阴极厚度较薄，因此对入射光吸收不充分，特别是对长波。而采用光栅窗之后，由于吸收系数增加，对入射光的吸收更充分，特别是长波，因此光栅窗光电阴极的光谱灵敏度在长波方向的增加比例较大。长波光谱灵敏度的增加，将进一步提高Na₂KSb光电阴极与夜天光的光谱匹配系数，从而改善高性能超二代像增强器在夜天光条件下的使用性能。

图 2 不同阴极窗的光电阴极光谱分布

Figure 2. Spectral distribution of photocathode on different windows

下载: 全尺寸图片幻灯片

采用光栅窗之后，同样的Na₂KSb光电阴极，由于吸收系数的增加，阴极灵敏度可以提高，所提高的倍数称为增强系数（Enhance coefficient，EC）。EC由式(1)定义：

$$ {\rm{EC}} = {S_1}/{\mathit{S}_2} $$

(1)

式中：S₁和S₂分别为相同光电阴极在光栅窗和玻璃窗上的阴极灵敏度。例如对同一组制作的4支超二代像增强器，2支为采用光栅窗的超二代像增强器，另外2支为采用玻璃窗的超二代像增强器。4支像增强器由于是同时制作，因此可以认为4支像增强器的光电阴极是相同的。2支光栅窗像增强器的平均阴极灵敏度为S₁，另外2支玻璃窗像增强器的平均阴极灵敏度为S₂，这样光栅窗的EC可以根据式(1)计算出来。

目前采用普通窗的Na₂KSb光电阴极灵敏度在750~1000 μA·lm^-1之间，而对于4 G系列超二代像增强器，目前阴极灵敏度在1100~1400 μA·lm^-1之间^[10-11]，因此可以推算出4 G系列超二代像增强器所使用光栅窗的EC为1.40~1.45。

采用普通窗的Na₂KSb光电阴极，由于对输入光的吸收不充分，因此透过Na₂KSb光电阴极的光线还会被MCP的输入端反射回光电阴极，从而再次激发光电阴极发射光电子，而形成较亮的光晕，原理见图 3。如光束7经过阴极窗1，再经过光电阴极2，一部分被光电阴极所吸收，另一部分透过光电阴极入射到MCP的输入端3上面，经过MCP输入端反射回光电阴极2，使光电阴极发射光电子9，而光电子9再经过MCP的倍增，激发荧光屏5发光，最后从光纤面板输出窗6输出，因此在入射光束所成亮斑10的周围形成了一个光晕11。光晕包括电子光晕和光学光晕，此处所述的光晕是指光学光晕。采用光栅窗的Na₂KSb光电阴极，因为吸收系数增加，光吸收更充分，因此形成的光晕较小并且较暗。

图 3 光晕形成的原理示意图

Figure 3. Schematic diagram of halo generation

1. Input window, 2. Photocathode, 3. Input end of MCP, 4. MCP, 5. Phosphor screen, 6. Fiber optical Plate, 7. Reflection light, 8. Photoelectron, 9. Output electron, 10. Bright spot, 11. Halo

下载: 全尺寸图片幻灯片

图 4为高性能超二代像增强器和普通超二代像增强器对圆形亮斑成像的对比。投射在光电阴极上的圆形亮斑的尺寸和照度相同，但经过像增强器成像之后，在荧光屏上所观察到的图像却不一样。亮斑在荧光屏上的图像由两部分组成，中心的亮斑为入射圆形光斑的图像，而在亮斑周围的一圈亮环即为光晕。对于高性能像增强器而言，不仅亮斑的尺寸较小，同时光晕的直径也较小，见图 4(a)。但对于超二代像增强器而言，不仅亮斑图像的尺寸较大，而言光晕的直径也较大，见图 4(b)。高性能超二代像增强器的光晕较小且较暗，因此在城市周边或机场周边使用时，亮光源（如灯泡）对目标图像的干扰较小。

图 4 不同型号像增强器光晕比较

Figure 4. Halo comparison of different image intensifier

下载: 全尺寸图片幻灯片

高性能超二代像增强器与普通超二代像增强器相比较，由于性能提高显著，使得其最低探测阈值进一步降低。为了比较两种像增强器探测阈的变化，对低照度条件下的像增强器分辨力进行了测量。测量样品分别为一支高性能超二代以及一支普通超二代像增强器，其中高性能超二代像增强器的阴极灵敏度为1214 μA·lm^-1，增益为15000 cd·m^-2·lx^-1，信噪比为32.2，分辨力为68 lp·mm^-1；普通超二代像增强器的阴极灵敏度为874 μA·lm^-1，增益为15000 cd·m^-2·lx^-1，信噪比为28.4，分辨力为68 lp·mm^-1。分辨力测量仪的光源为2856 K色温的钨丝灯，靶板规格为USF1951。测量时，先在10^-1 lx数量照度（阴极面上）条件下测量两支像增强器的分辨力，然后再在光路中分别加入10倍、100倍或1000倍的中性密度衰减滤光片，再分别测量两支像增强器的分辨力。测量结果表明，随着照度的不断降低，两支像增强器的分辨力均有所降低，但分辨力基本相同。当照度进一步降低到10^-4 lx数量级时，普通超二代像增强器分辨力接近于消失，很难分别出分辨力靶板的图像，见图 5(a)，但高性能超二代像增强器仍然能分辨出分辨力靶板的图像，并且分辨力仍有17 lp·mm^-1，见图 5(b)。这说明高性能超二代像增强器的阴极灵敏度提升以后，较超二代像增强器而言，极限探测能力有了很大的提高。

图 5 不同型号像增强器分辨力比较

Figure 5. Resolution comparison of different image intensifier

下载: 全尺寸图片幻灯片

2. 提高性能的技术途径

在不改变现有超二代像增强器技术框架的前提下进一步提高超二代像增强器的信噪比和分辨力仍然是超二代像增强器的发展方向。因为像增强器的信噪比^[12-13]与阴极灵敏度的平方根成正比，因此提高信噪比的关键就是提高阴极灵敏度。

Na₂KSb光电阴极从结构上讲由两部分组成。一部分为Na₂KSb吸收层，另一部分为Cs₃Sb表面层，见图 6。Na₂KSb吸收层的作用是吸收光子，产生跃迁电子；Cs₃Sb表面层的作用是降低光电阴极的逸出功，因此Na₂KSb吸收层以及Cs₃Sb表面层均对Na₂KSb光电阴极的灵敏度高低起作用。由于Cs₃Sb表面层较薄，约15 nm，再加上制作工艺相对容易，因此工艺的一致性和重复较好，所以长期以来制作工艺相对固定。而对于Na₂KSb基底层而言，由于其厚度较厚，约200 nm，再加上制作工艺较难，因此工艺的一致性和重复性较差，所以制作工艺一直在不断改进或优化。从Na₂KSb光电阴极灵敏度提高的过程看，主要是Na₂KSb吸收层的制作工艺得到了不断的优化，而Cs₃Sb表面层的制作工艺却未发生变化。

图 6 光电阴极结构示意图

Figure 6. Schematic diagram of structure for photocathode

1. Glass window, 2. Na2KSb layer, 3. Cs3Sb layer

下载: 全尺寸图片幻灯片

表 1为4支普通超二代像增强器阴极灵敏度的实测值。从表中看出，4支普通超二代像增强器样品的阴极灵敏度高低不同，最高的为917 μA·lm^-1，最低的为582 μA·lm^-1。但其长波截止波长变化不大，在950 nm~955 nm之间。长波截止波长基本相同，意味着4支样品的逸出功基本相同，再加上Cs₃Sb表面层的制作工艺基本相同，所以可以认为4支普通超二代像增强器样品阴极灵敏度不同的原因在于Na₂KSb吸收层的不同。例如0615#和6495#两支样品，长波截止波长相同，均为950 nm，逸出功也相同，均为1.3 eV，但其阴极灵敏度却差别很大，0615#样品的阴极灵敏度仅仅为582 μA·lm^-1，而6495#样品的阴极灵敏度却为917 μA·lm^-1。又如7650#样品和8550#样品相比较，7650#样品的截止波长为955 nm，比8550#样品的长波截止波长长5 nm，逸出功小0.01 eV，但7650#样品的阴极灵敏度为702 μA·lm^-1，比8550#样品的阴极灵敏度低，8550#样品的阴极灵敏度为748 μA·lm^-1，这也说明造成Na₂KSb光电阴极灵敏度产生差距的主要因素在于Na₂KSb吸收层。如果Na₂KSb吸收层的性能不好（如晶格质量、吸收系数、掺杂浓度、杂质含量、扩散长度等），那么即使Cs₃Sb表面层达到了降低Na₂KSb光电阴极逸出功的要求，阴极的灵敏度也不会高。目前Na₂KSb光电阴极制作的实践证明，通过改进Na₂KSb吸收层的制作工艺能够提高光电阴极的灵敏度，并且阴极灵敏度最高可以超过1000 μA·lm^-1，并且接近1100 μA·lm^-1。尽管制作工艺改进对Na₂KSb吸收层性能影响的机理还不甚清楚，但改进工艺确实是进一步提高光电阴极灵敏度的有效的方法。所以加强对Na₂KSb材料的研究，搞清楚机理，并通过理论对实践进行指导，不断改进或优化Na₂KSb吸收层的制作工艺是提高Na₂KSb阴极灵敏度的途径。可以预计随着Na₂KSb制作工艺的进一步改进，普通玻璃窗Na₂KSb光电阴极的灵敏度将会达到850~1150 μA·lm^-1之间。

表 1 不同光电阴极灵敏度及逸出功

Table 1. Sensitivity and work function of different cathode

Sample	Sensitivity/(μA·lm^-1)	Threshold/nm	Work function/eV
0615#	582	950	1.30
6495#	917	950	1.30
7650#	702	955	1.29
8550#	748	950	1.30

下载: 导出CSV

| 显示表格

在通过改进Na₂KSb吸收层的制作工艺，进一步提高Na₂KSb光电阴极灵敏度的同时，还可以进一步提高光栅窗的EC。根据相关报道^[10-11]，光栅窗的结构以及制造工艺有多种选择，随着技术的发展，光栅窗的结构将进一步优化，光栅密度和衍射效率将进一步提高，同时EC也将进一步提高。如果光栅窗的EC达到1.6，而普通窗Na₂KSb光电阴极的灵敏度达到850~1150 μA·lm^-1，那么光栅窗Na₂KSb光电阴极的灵敏度可以达到1350~1800 μA·lm^-1。如果MCP的噪声因子为1.1，根据理论计算^[12-13]，超二代像增强器的信噪比将达到35~40。

提高超二代像增强器分辨力的最直接的技术途径就是采用小丝径的MCP和光纤面板^[14-15]。目前实践证明，采用6 μm丝径MCP和4 μm丝径光纤面板的超二代像增强器，分辨力可以达到72 lp·mm^-1，根据理论推算^[16-17]，如果采用4 μm丝径MCP和3 μm丝径光纤面板，那么预计分辨力将可以达到81 lp·mm^-1以上，因此FOM将会达到2800~3200之间。

3. 结论

在颠覆性技术出现之前，超二代像增强器技术仍然是沿着现有的技术路线不断发展，因为无论是在提高Na₂KSb光电阴极的灵敏度，还是在提高超二代像增强器的分辨力方面，均有进一步提高的空间。在超二代像增强器技术的发展过程中，PHOTONIS公司平均每5年实现一次技术提升^[18]，因此可以预计在今后的5~10年时间内，超二代像增强器的性能还会达到一个更高的水平。

超二代像增强器采用Na₂KSb光电阴极，而Na₂KSb是一种多晶半导体，生长工艺相对简单，因此生产成本低，具有性价比高的优点，而这一优点与单兵夜视装备要求性价比高的特点相吻合，所以超二代像增强器在未来5~10年时间内，在单兵夜视装备领域仍然具有不可替代性。

致谢: 本文所有数据来自中国科学院沈阳自动化研究所提供的光电跟踪取证系统；本文研究得到了北京工商大学吴晓波副教授的帮助，在此一并表示感谢。

图 1 双流网络结构

Figure 1. Two-stream network

下载: 全尺寸图片幻灯片

图 2 LSTM网络结构

Figure 2. LSTM structure

下载: 全尺寸图片幻灯片

图 3 改进的双流网络

Figure 3. Improved two-stream network

下载: 全尺寸图片幻灯片

图 4 差分关键帧与对应的光流图

Figure 4. Differential keyframe and corresponding optical-flow

下载: 全尺寸图片幻灯片

图 5 训练过程中的模型损失值变化趋势

Figure 5. Change trend of loss value during training

下载: 全尺寸图片幻灯片

图 6 训练过程中的模型识别精度变化趋势

Figure 6. Trend of precision variation during training

下载: 全尺寸图片幻灯片

表 1 数据集类别及其数量

Table 1 Classes and quantities of data-sets

NO	Categories	Total
1	Walk	152
2	Stand	203
3	climb	186
4	Jog	265
5	Jump	174
5	Punch	128
7	Lying	295
8	Wave1	168
9	Wave2	177
10	Crouch	312
11	Sitting	268
12	Handclapping	208
13	Push	158
14	Fight	119
15	Handshake	134
16	Hug	168

下载: 导出CSV

表 2 不同模块性能分析

Table 2 Performance analysis of different modules

DDN	IS	DF	Pr/%	FPS
			77.12	13.9
☑			77.83	18.1
	☑		79.91	13.8
		☑	79.78	12.7
☑	☑		81.79	17.8
☑		☑	82.09	18.5
	☑	☑	81.83	11.6
☑	☑	☑	83.01	17.7

下载: 导出CSV

表 3 不同对比算法的性能分析

Table 3 Performance analysis of different comparison models

Categories	IDT			C3D			SCNN-3G			L-LSTM			Ts-3D			OFGF			Our
Categories	Pr	Mr	Rr	Pr	Mr	Rr	Pr	Mr	Rr	Pr	Mr	Rr	Pr	Mr	Rr	Pr	Mr	Rr	Pr	Mr	Rr
Walk	64	27	70	66	21	72	68	23	72	74	19	77	76	27	74	79	16	80	78	10	80
Stand	72	20	75	76	19	77	76	19	74	82	19	87	84	20	75	84	16	85	85	20	86
climb	50	36	61	53	31	63	61	34	66	66	25	67	71	36	61	76	24	81	78	16	81
Jog	66	28	70	68	23	75	70	23	70	67	28	76	71	28	70	76	19	78	86	8	90
Jump	60	32	65	61	31	68	67	34	67	60	32	74	72	32	65	72	22	77	71	16	80
Punch	41	50	44	41	40	43	46	51	48	51	40	58	60	50	64	61	30	64	67	22	69
Lying	56	36	60	57	31	66	59	33	65	56	36	67	70	30	67	66	22	69	67	16	70
Wave1	65	31	65	68	29	68	68	30	68	65	31	76	72	23	75	75	11	80	82	11	85
Wave2	68	28	69	70	30	71	71	23	76	68	28	87	78	28	79	81	17	86	88	8	88
Crouch	41	29	41	43	34	45	44	23	46	41	29	58	53	20	50	60	22	61	68	26	71
Sitting	70	24	78	73	28	80	72	28	79	71	24	81	78	19	81	80	15	88	82	14	87
Handclap	37	33	38	38	34	42	38	30	33	37	33	50	45	23	58	67	22	68	72	23	76
Push	41	46	44	44	47	46	42	42	47	41	46	57	66	30	64	71	23	74	71	16	79
Fight	53	35	57	58	30	58	56	31	58	53	35	67	67	29	67	63	15	77	80	13	80
Handshake	62	29	67	65	31	70	66	26	70	62	29	76	71	20	77	75	19	87	76	22	81
Hug	67	26	69	66	27	72	61	28	74	76	28	74	74	26	78	78	25	79	81	14	85
Mixed dataset	57	31	60	59	30	63	60	29	63	60	30	70	69	27	69	72	18	77	77	15	80

下载: 导出CSV

参考文献(24)

[1]	Karpathy A, Toderici G, Shetty S, et al. Large- scale video classification with convolutional neural networks[C]// CVPR, 2014: 1725-1732.
[2]	Tran D, Bourdev L D, Fergus R, et al. Learning spatiotem-poral features with 3d convolutional networks[C]//ICCV, 2015: 4489-4497.
[3]	ZHANG B, WANG L, WANG Z, et al. Real-time action recognition with enhanced motion vector CNNs[C]//CVPR, 2016: 2718-2726.
[4]	Niebles J C, CHEN C W, LI F F. Modeling temporal structure of decomposable motion segments for activity classification[C]// ECCV, 2010: 392-405.
[5]	Tumas P, Nowosielski A, Serackis A. Pedestrian detection in severe weather conditions[J]. IEEE Access, 2020, 8: 62775-62784. DOI: 10.1109/ACCESS.2020.2982539
[6]	魏丽, 丁萌, 曾丽君. 红外图像中基于似物性与稀疏编码的行人检测[J]. 红外技术, 2016, 38(9): 752-757. http://hwjs.nvir.cn/article/id/hwjs201609007 WEI Li, DING Meng, ZENG Lijun. Pedestrian Detection Based on Objectness and Sparse Coding in a Single Infrared Image[J]. Infrared Technology, 2016, 38(9): 752-757. http://hwjs.nvir.cn/article/id/hwjs201609007
[7]	Fernando B, Gavves E M, Ghodrati J O, et al. Modeling video evolution for action recognition[C]//CVPR, 2015: 5378-5387.
[8]	Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 40(6): 1510-1517.
[9]	Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term Recurrent Convolutional Networks for Visual Recognition and Description[M]. Elsevier, 2015: 2625-2634.
[10]	Soomro K, Zamir A R, Shah M. A dataset of 101 human actions classes from videos in the wild[J/OL]. Computer Vision and Pattern Recognition, arXiv: 1212.0402, 2012.
[11]	Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//ICCV, 2011: 2556-2563.
[12]	Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//ICML, 2015: 448-456.
[13]	WANG L, QIAO Y, TANG X. Video action detection with relational dynamic- poselets[C]//ECCV, 2014: 565-580.
[14]	GAN C, YAO T, YANG K, et a. You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images[C]//CVPR, 2016: 923-932.
[15]	Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[J]. Advances in Neural Information Processing Systems, 2014, 150: 109-125. http://de.arxiv.org/pdf/1406.2199
[16]	冉鹏, 王灵, 李昕, 等. 改进Softmax分类器的深度卷积神经网络及其在人脸识别中的应用[J]. 上海大学学报: 自然科学版, 2018, 24(3): 352-366. https://www.cnki.com.cn/Article/CJFDTOTAL-SDXZ201803004.htm RAN Peng, WANG Ling, LI Xin, et al. Deep convolution neural network based on improved softmax classifier and its application in face recognition[J]. Journal of Shanghai University: Natural Science Edition, 2018, 24(3): 352-366. https://www.cnki.com.cn/Article/CJFDTOTAL-SDXZ201803004.htm
[17]	Yasin H, Hussain M, Weber A. Keys for Action: An Efficient Keyframe-Based Approach for 3D Action Recognition Using a Deep Neural Network[J]. Sensors, 2020, 20(8): 2226. DOI: 10.3390/s20082226
[18]	GAO Chenqiang, DU Yinhe, LIU Jiang, et al. InfAR dataset: Infrared action recognition at different times[J]. Neurcomputing, 2016, 212: 36-47. DOI: 10.1016/j.neucom.2016.05.094
[19]	WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 3551-3558.
[20]	Du Tran, Lubomir Bourdev, Rob Fergus, et al. Learning spatiotemporal features with 3D convolutional networks[C]//Proceedings of the 2015 IEEE, International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.
[21]	杨天明, 陈志, 岳文静. 基于视频深度学习的时空双流人物动作识别模型[J]. 计算机应用, 2018, 38(3): 895-899. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201803050.htm YANG T M, CHENG Z, YU, W J, et al. Spatio-temporal two-stream human action recognition model based on video deep learning[J]. Journal of Computer Applications, 2018, 38(3): 895-899, 915. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201803050.htm
[22]	LIN S, JIA K, CHEN K, et al. Lattice long short-term memory for human action recognition[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2166-2175.
[23]	Carrlira J, Gisslrman A. Quo vadis. action recognition? A new model and the kinetics dataset[C]//Proceedings of the 2017 IEEE, Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4724-4733.
[24]	SUN S, KUANG Z, SHENG L, et al. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 20118-20132.

施引文献(16)

期刊类型引用(12)

1.	邱祥彪，杨晓明，孙建宁，王健，丛晓庆，金戈，曾进能，张正君，潘凯，陈晓倩. 高空间分辨微通道板现状及发展. 红外技术. 2024(04): 460-466 . 本站查看
2.	刘宇，时荔蕙. 像增强器性能梯次及发展路线研究. 红外与毫米波学报. 2023(04): 427-433 . 百度学术
3.	曾进能，杨琼连，龚燕妮，李廷涛，王乙瑾，李晓露，赵恒，马怀超，徐传平，吴艳娟，汪云，李耀斌，须恃瑜，刘倍宏，徐鳕娇，李荣喜. 超二代微光像增强器性能随工作时间的影响研究. 红外技术. 2023(08): 869-875 . 本站查看
4.	孙磊，金东东，纪春恒，裴崇雷，安鸿波，段恩悦. 基于增强型CCD探测器的距离选通三维成像不均匀性补偿方法. 兵工学报. 2023(08): 2495-2502 . 百度学术
5.	李亚情，左加宁，李晓露，周盛涛，褚祝军，杜培德，王光凡. 自动门控像增强器温度补偿技术研究. 红外技术. 2023(10): 1126-1131 . 本站查看
6.	李晓峰，常乐，刘倍宏，须恃瑜，丁易冰. 超二代像增强器分辨力随输入照度变化研究. 红外技术. 2022(04): 377-382 . 本站查看
7.	李亚情，周盛涛，王光凡，褚祝军，杜培德，朱文锦，李晓露，左加宁，朱世聪. 普通高压电源超二代微光像增强器亮度增益温度特性研究. 红外技术. 2022(08): 804-810 . 本站查看
8.	李晓峰，何雁彬，常乐，王光凡，徐传平. 超二代与三代像增强器性能的比较研究. 红外技术. 2022(08): 764-777 . 本站查看
9.	张益军. 半导体光电阴极的研究进展. 红外技术. 2022(08): 778-791 . 本站查看
10.	邱祥彪，闵信杰，金戈，孙建宁，王健，丛晓庆，张正君，徐昭，潘凯，任玲，张振，乔芳建，聂慧君，黄国瑞，陈晓倩，胡泽训，林焱剑，刘丹，杨晓明. 采用干法刻蚀进行微通道板扩口理论模型研究. 红外技术. 2022(08): 818-823 . 本站查看
11.	孙磊，金东东，纪春恒，裴崇雷，安鸿波. 基于抛物线包络反演的距离选通三维成像方法. 兵工学报. 2022(08): 1868-1873 . 百度学术
12.	杨武丽，来悦颖，张晓辉，焦岗成，李世龙，郭欣，贾甜甜. 微光像增强器常用荧光粉性能研究. 应用光学. 2022(06): 1207-1216 . 百度学术

其他类型引用(4)

资源附件(0)

图(6) / 表(3)

计量

文章访问数: 213
HTML全文浏览量: 41
PDF下载量: 37
被引次数: 16

0. 引言
1. 特征及性能
2. 提高性能的技术途径
3. 结论

基于改进空时双流网络的红外行人动作识别研究

作者简介: 蒋一(1983-), 男, 汉族, 河南信阳人, 学士, 讲师, 主要研究方向：计算机视觉、红外应用技术。E-mail: 85112285@qq.com

计量

出版历程