Detection and Recognition of Persons and Vehicles in Low-Resolution Nighttime Thermal Images Based on Optimized Convolutional Neural Network
-
摘要: 夜间环境下人车的检测与识别在自动驾驶,安防等领域具有重要意义.本文提出使用性价比较高的低分辨率红外热成像摄像机拍摄的图像来进行夜间的人车检测与识别,并根据图像独特的性质对Faster RCNN网络进行了优化.增加多通道卷积层来适应热成像图像的灰度特性.使用全局平均池化层来适应较少的图像及类别数量,增加批标准化层来防止加深加宽网络后可能出现的梯度消失或爆炸.使用在城市夜间环境中采集的2000张低分辨率热成像图像对网络进行训练与测试,平均准确识别率达到71.3%.相比于传统的检测手段,本组合方法在真实的场景中取得了较好的识别效果,同时提升了准确识别率,有效解决了夜间环境下人车检测与识别的问题,鲁棒性及应用价值较强.
-
关键词:
- 自动驾驶 /
- 夜间环境 /
- 人车检测与识别 /
- 红外热成像 /
- FasterRCNN
-
0. 引言
人脸识别[1-3]和车牌识别[4-5]是智慧安防[6]领域的重要内容,尤其在新冠肺炎防控形势下,人脸识别技术更是与非接触、高灵敏的红外测温结合,在人流量较密集的车站、商超、医院和学校等场所迅速检测出体温异常人员并通过人脸识别确认人员身份,为疫情防控提供精准数据和智能支持。人脸和车牌的特征尺度小、细节丰富,对成像系统的空间分辨力有较高要求,需要较大规模的探测器和高传函、小畸变的光学镜头。然而,安防系统又要求广域监控,需要使用视场大但具有一定畸变的广角镜头。广角镜头的焦距通常介于13~38 mm之间,短于标准镜头但长于鱼眼镜头,对角视场角一般为60°~118°,水平视场角约为50°~110°[7],优点是视场大、景深大,缺点是图像存在径向畸变。径向畸变[8-9]会改变图像中目标的几何形状和大小,在畸变较大的图像区域会影响目标识别距离的估算。约翰逊准则[10-11]是描述光电成像系统探测性能的经典判据,主要适用于距离较远的多类目标的识别,例如区分人的性别和车辆的类型,但不涉及人员身份和车牌号这种精细信息的识别。随着智能化技术的发展,精确识别人脸、车牌等精细目标已经成为智能摄像头、智慧安防系统的基本功能。因此,需要将精确目标识别作为约束来权衡高空间分辨力和大视场的性能指标以及估计识别距离。为此本文提出了像素面密度对精确目标进行统一描述,并提出考虑广角镜头径向畸变的精确目标识别距离估算方法,通过对存在旋转和平移的精确目标进行计算验证。
1. 人脸和车牌等精确目标的描述和识别指数
我国[12-13]使用像素数描述人脸(face)和车牌(license plate),并提出识别人脸和车牌的指数,如表 1所示,规定人脸瞳孔间距占30个像素以上、车牌水平长度占100个像素以上时可以认清(identification)人员身份和车牌号;欧盟[14]和英国[15]分别使用单个像素对应的目标长度和目标-屏幕比(target-screen ratio, TSR)描述人(person)目标,欧盟规定认清人的识别指数应大于4 mm/像素,英国则规定TSR应大于100%,如表 1所示。
表 1 识别标准与识别指数Table 1. Standards and recognition indexStandard Evaluation index Identification China (Face) Pixels ≥30 China (License plate) Pixels ≥100 European Union (Person) mm/pixel > 4 United Kingdom (Person) TSR > 100% 智能目标识别主要由计算机完成,不需要显示在显示器上由观察者识别,且显示器有多种尺寸和分辨率,故英国的TSR的实际操作性较差。我国和欧盟识别指数的本质是每个像素对应目标的水平长度,但实际上图像传感器每个像元对应的是真实物理空间的二维区域,而不是水平线段。因此,本文提出使用像素面密度(单位为pixels/m2)描述人脸和车牌。根据我国成年人面部尺寸和机动车号牌的标准[16-17],可知男性瞳孔间距为60 mm,女性瞳孔间距为58 mm,小型汽车号牌尺寸为440 mm×140 mm,将我国和欧盟的识别指数标准换算到最小像素面密度,如表 2所示,其中还给出了探测、识别和认清人时所需的像素面密度。对于人目标,探测(detection)定义为能够确定有人存在;识别(recognition)定义为能够高度确认目标一定是人,且能分清是成人还是儿童、是男人还是女人;认清(identification)定义为能够看到人的头部、躯干、四肢等细节,但不一定能认清人脸并确认人的身份。从表 2可看出,人脸识别的本质是认清人的面部细节后确认人的身份,因此其所需的像素面密度是认清人的4倍。人脸和车牌识别在文字上虽然使用“识别”二字,但探测等级上相当于“认清(identification)”。
表 2 识别人脸、车牌和人所需的最小像素面密度Table 2. Minimal pixel density of face, license plate and person recognitionSituations Pixel density(pixels/m2) Face recognition 267289 License plate recognition 51984 Person detection 625 Person recognition 15625 Person identification 62500 2. 考虑径向畸变的识别距离估算
在使用约翰逊准则的远距离目标识别中,与距离相比,广角镜头径向畸变的影响可以忽略不计,也不需要严格考虑目标与相机之间的位置关系。相对地,人脸和车牌识别属于近距离精确目标识别,识别这些精确目标时需要考虑识别所需最小像素面密度,因此,定义精确目标识别距离为该目标成像后对应的图像像素面密度等于识别所需最小像素面密度时目标与相机之间的距离。精确目标识别需要考虑镜头畸变、目标与相机之间的位置关系,故需要建立目标、相机和图像的坐标系,并进行三者之间的坐标转换。
2.1 光学镜头径向畸变建模
光学镜头的径向畸变是光线的弯曲程度在透镜边缘大于透镜中心导致的,造成的图像畸变以透镜中心为原点,距离原点越远,畸变程度越大。径向畸变有两类,长焦镜头的枕形畸变和广角镜头的桶形畸变,畸变示意图如图 1所示。本文主要讨论广角镜头的桶形畸变。
建立径向畸变的数学表达式为:
$$ \left\{\begin{array}{l} x_{\mathrm{d}}=x\left(1+k_{1} r^{2}+k_{2} r^{4}+k_{3} r^{6}+\cdots\right) \\ y_{\mathrm{d}}=y\left(1+k_{1} r^{2}+k_{2} r^{4}+k_{3} r^{6}+\cdots\right) \\ r^{2}=x^{2}+y^{2} \end{array}\right. $$ (1) 式中:(x, y)为不考虑径向畸变的理论像素点坐标;(xd, yd)为考虑径向畸变的实际像素点坐标;r为极径,表示理论像素点与中心点的欧式距离;k1、k2、k3为径向畸变系数,广角镜头取k1、k2两项即可满足对径向畸变模型的拟合要求。
2.2 目标、相机和图像像素坐标系以及引入广角镜头径向畸变的坐标转换
正面对人脸和车牌目标进行识别时效果最佳,目标偏转角度越大则识别效果越差,因此,将目标正面作为标准面来等效目标,以标准面中心为原点建立目标坐标系Xo-Yo-Zo;以相机中心为原点,光轴方向为Z轴建立相机坐标系Xc-Yc-Zc;以图像左上角为原点建立图像像素坐标系u-v。目标、相机和图像像素坐标系示意图如图 2所示。
相机坐标系固定不动,改变目标坐标系,利用欧拉角E(α, β, γ)描述目标相对于相机的旋转关系,其中α、β、γ分别表示目标绕Zo轴、Yo轴和Xo轴正向沿顺时针方向旋转的角度。α取值不影响目标成像后的像素面密度,故将其置为0。将欧拉角E(0, β, γ)转换为旋转矩阵R以进行齐次坐标运算,转换公式为:
$$ \boldsymbol{R}=\left[\begin{array}{ccc} \cos \beta & \sin \beta \sin \gamma & \sin \beta \cos \gamma \\ 0 & \cos \gamma & -\sin \gamma \\ -\sin \beta & \cos \beta \sin \gamma & \cos \beta \cos \gamma \end{array}\right] $$ (2) 利用平移向量t(tx, ty, tz)描述目标相对相机的平移关系,其中tx、ty、tz分别表示目标沿Xc轴、Yc轴和Zc轴正向移动的距离。考虑式(2)的旋转和平移,目标坐标转换为相机坐标的公式为:
$$ \left[\begin{array}{c} X_{\mathrm{c}} \\ Y_{\mathrm{c}} \\ Z_{\mathrm{c}} \end{array}\right]=\left[\begin{array}{cccc} \cos \beta & \sin \beta \sin \gamma & \sin \beta \cos \gamma & t_{x} \\ 0 & \cos \gamma & -\sin \gamma & t_{y} \\ -\sin \beta & \cos \beta \sin \gamma & \cos \beta \cos \gamma & t_{z} \end{array}\right]\left[\begin{array}{c} X_{\mathrm{o}} \\ Y_{\mathrm{o}} \\ Z_{\mathrm{o}} \\ 1 \end{array}\right] $$ (3) 式中:(Xo, Yo, Zo)为目标坐标点;(Xc, Yc, Zc)为相机坐标点。由于相机坐标系Xc-Yc-Zc的原点在相机中心,所以本文讨论的目标在水平和垂直方向的平移距离代表着目标偏离相机中心的距离。亦即对于相机视场,在视场中心的目标平移距离小,离视场中心越远其平移距离越大。实际应用中,相机视场内通常有多个目标,使用广角镜头后视场增大,可包含的目标数量更多,但由于广角镜头畸变的影响,处于视场边缘的目标通常有较大的变形。为便于将公式变量与实际应用结合,需要注意的是本文中目标平移距离均代表实际应用中目标偏离相机中心的距离。
减少相机坐标点的维度,将其转换到距离相机为单位1的平面上,对相机坐标归一化,得到:
$$ \left[\begin{array}{c} x \\ y \\ 1 \end{array}\right]=\left[\begin{array}{c} \frac{X_{c}}{Z_{c}} \\ \frac{Y_{c}}{Z_{c}} \\ 1 \end{array}\right]=\left[\begin{array}{c} \frac{\cos \beta X_{\mathrm{o}}+\sin \beta \sin \gamma Y_{\mathrm{o}}+\sin \beta \cos \gamma Z_{\mathrm{o}}+t_{x}}{-\sin \beta X_{\mathrm{o}}+\cos \beta \sin \gamma Y_{\mathrm{o}}+\cos \beta \cos \gamma Z_{\mathrm{o}}+t_{z}} \\ \frac{\cos \gamma Y_{\mathrm{o}}-\sin \gamma Z_{\mathrm{o}}+t_{y}}{-\sin \beta X_{\mathrm{o}}+\cos \beta \sin \gamma Y_{\mathrm{o}}+\cos \beta \cos \gamma Z_{\mathrm{o}}+t_{z}} \\ 1 \end{array}\right] $$ (4) 将式(1)的径向畸变引入式(4),用(xd, yd)代替(x, y)作为包含径向畸变的归一化相机坐标。
相机内参矩阵K描述相机坐标到像素坐标的平移与缩放转换关系,内参矩阵K为:
$$ \boldsymbol{K}=\left[\begin{array}{ccc} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{array}\right]=\left[\begin{array}{ccc} 1 & 0 & c_{x} \\ 0 & 1 & c_{y} \\ 0 & 0 & 1 \end{array}\right] \times\left[\begin{array}{ccc} f_{x} & 0 & 0 \\ 0 & f_{y} & 0 \\ 0 & 0 & 1 \end{array}\right] $$ (5) 式中:(fx, fy)为相机在x和y方向上的像素焦距,(cx, cy)为相机主点位置。
引入广角镜头径向畸变的相机坐标转换到像素坐标的公式为:
$$ \left[\begin{array}{c} u \\ v \\ 1 \end{array}\right]=\left[\begin{array}{ccc} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{array}\right]\left[\begin{array}{c} x_{\mathrm{d}} \\ y_{\mathrm{d}} \\ 1 \end{array}\right]=\left[\begin{array}{c} f_{x} x_{\mathrm{d}}+c_{x} \\ f_{y} y_{\mathrm{d}}+c_{y} \\ 1 \end{array}\right] $$ (6) 式(3)~式(6)可将精确目标成像到图像上且可知其占据的像素数,进而得到精确目标对应的像素面密度。将平移向量中tz的值从0开始逐渐增大,计算出精确目标在不同tz下对应的像素面密度,当像素面密度值等于识别该精确目标所需最小像素面密度时,对应的tz即为该精确目标的识别距离。
3. 人脸和车牌识别距离估算
3.1 估算流程
考虑广角镜头径向畸变的精确目标识别距离估算流程为:
① 利用旋转矩阵和平移向量的式(3)将目标坐标转换到相机坐标;
② 利用式(4)归一化相机坐标并引入径向畸变;
③ 利用式(5)的内参矩阵和式(6)将包含径向畸变的相机坐标转换为像素坐标;
④ 计算目标在图像上占据的像素数和对应的像素面密度;
⑤ 通过判断实际计算的像素面密度是否大于表 2中的识别指数来估算识别距离。
3.2 估算结果
人脸和车牌识别需要的最小像素面密度分别为267289 pixels/m2和51984 pixels/m2,以FLIR公司型号为BB2-08s2的相机中含有的典型径向畸变值k1=-0.6,k2=0.35作为畸变系数,估算不同视场角和分辨率的广角相机对存在旋转和平移的人脸与车牌目标的实际识别距离,并与不考虑畸变的理论识别距离进行比较。
广角镜头水平视场角约为50°~110°,图像传感器长宽比例通常为16:9,常用分辨率与对应像素数有1280×720(1 M)、1920×1080(2 M)、2560×1440(4 M)和3840×2160(8 M)这4种。目标相对相机不存在旋转与平移,改变相机水平视场角和分辨率,得到的人脸与车牌识别距离数据如表 3所示。
表 3 识别距离与视场角和分辨率的关系Table 3. Relationship between recognition distance and field of view, recognition distance and resolutionResolution (pixel) Recognition distance of face/License plate/m 50° 60° 70° 80° 90° 100° 110° 1280×720 2.66/6.02 2.15/4.87 1.77/4.01 1.48/3.35 1.24/2.81 1.04/2.36 0.87/1.97 1920×1080 3.99/9.03 3.22/7.30 2.66/6.02 2.22/5.02 1.86/4.22 1.56/3.54 1.31/2.95 2560×1440 5.31/12.04 4.29/9.73 3.54/8.02 2.96/6.70 2.48/5.62 2.08/4.72 1.74/3.94 3840×2160 7.97/18.06 6.44/14.59 5.31/12.03 4.43/10.04 3.72/8.43 3.12/7.07 2.61/5.90 固定相机分辨率为1920×1080,视场角为80°,讨论人脸和车牌目标存在旋转的情况。首先目标只绕X轴旋转一定角度,其次目标同时绕X轴和Y轴旋转相同角度。不同旋转角度下识别距离如图 3所示。
由表 3和图 3知,其他条件不变时,识别距离随视场角增大而减小,随分辨率增大而增大,随目标旋转角度增大而减小,且当目标同时沿两轴旋转时,识别距离的下降程度更大。旋转角度小于70°时,能够有效识别目标并进行距离估算,当旋转角度较大甚至达到90°时,将无法有效识别目标。上述情况下,目标相对相机不存在平移,故目标成像在径向畸变程度很小的图像中心,此时考虑径向畸变得到的实际识别距离与不考虑径向畸变得到的理论识别距离基本相同,差异不超过1 cm。
固定相机分辨率为1920×1080、视场角为80°,保证目标均处于相机视野内,讨论目标相对相机存在平移时的识别距离。不同平移距离下的识别距离如图 4所示,其中实线表示考虑径向畸变的实际情况,在图例中用字母d表示,虚线表示不考虑径向畸变的理论情况,灰色平面表示识别人脸或车牌目标对应的最小像素面密度,曲线与平面交点的距离坐标值即为最远识别距离。
径向畸变大小与极径长度相关,极径越长,径向畸变越大。识别距离与极径长度的关系如图 5所示,其中实线表示考虑畸变的实际情况,在图例中用字母d表示,虚线表示不考虑畸变的理论情况。
从图 5可看出,不考虑径向畸变的理论识别距离不受目标平移影响,人脸识别距离始终为2.22 m,车牌识别距离始终为5.02 m。考虑径向畸变后,平移距离越大,极径越长,可识别距离越近。因为平移距离越大,目标成像位置距图像中心越远,径向畸变造成的成像压缩程度越大,从而使图像上目标的像素面密度减小,只有距离靠近才能再次满足像素面密度要求,这也符合存在径向畸变后可识别距离会变近的实际情况。人脸和车牌在不同平移距离下的识别距离差异如表 4所示。当平移距离为1 m时,人脸和车牌实际与理论识别距离差异分别为0.76 m和0.26 m,相差比例分别为34.2%和5.2%。当车牌平移距离为2 m时,识别距离差异为1.38 m,相差比例高达27.5%。可见当平移距离较大时,径向畸变对识别距离影响也很大。
表 4 实际识别距离与理论识别距离的差异Table 4. Difference between actual recognition distance and ideal recognition distanceTranslation distance /m Ideal recognition distance/m Actual recognition distance/m Difference in distances/m Difference in proportions Face recognition 0.25 2.22 2.18 0.04 1.8% 0.5 2.22 2.07 0.15 6.8% 0.75 2.22 1.82 0.40 18.0% 1.0 2.22 1.46 0.76 34.2% License plate recognition 0.5 5.02 4.96 0.06 1.2% 1.0 5.02 4.76 0.26 5.2% 1.5 5.02 4.37 0.65 12.9% 2.0 5.02 3.64 1.38 27.5% 径向畸变对存在平移和旋转车牌成像后所占据的像素区域大小影响如图 6所示,其中虚线框代表不考虑径向畸变的理论情况,实线框代表考虑径向畸变后的实际情况。中间黑色框对应的车牌不存在旋转和平移,左上方红色框只存在平移,左下方青色框存在平移但平移距离较红色框短,右上方紫色框存在平移和绕X轴的旋转,右下方蓝色框存在平移和同时绕X、Y轴的旋转。
从图 6可知,径向畸变的特性使得只有当物体存在平移时,畸变的存在才会影响目标成像后对应的像素区域大小,进而改变像素面密度。根据前面的分析,引入旋转之后,会叠加上旋转对像素面密度的影响。同样的,改变相机分辨率和视场角,也会在平移对像素面密度改变的基础上再叠加额外的影响因素。利用本文提出的方法,可以估算出考虑径向畸变后的实际识别距离,并得到与理论识别距离之间的差异。
4. 结论
本文提出了像素面密度对人脸和车牌进行统一描述,并设计了考虑广角镜头径向畸变的精确目标识别距离估算方法。该方法首先建立径向畸变的数学模型,并以目标、相机和图像像素坐标系为基础,将径向畸变引入到目标、相机和像素坐标系统的转换公式中,从而反映出径向畸变对目标成像后对应像素面密度的改变。通过对存在旋转和平移的人脸和车牌目标的识别距离进行估算,并与不考虑径向畸变的理论识别距离进行对比。结果表明:该方法能够解决存在径向畸变的广角相机对精确目标识别距离进行估算的问题,得到的实际识别距离相较于理论识别距离更加符合实际,其中人脸和车牌平移距离分别为1 m和2 m时,实际与理论的识别距离差异高达34.2%和27.5%,这表明考虑径向畸变对精确目标识别距离的估算至关重要。
综上,广角镜头应用于智慧安防监控系统时,虽然视场角增大、可包含的目标数量增多,但与位于视场中心的目标相比,位于视场边缘的目标的像素面密度会减小,识别距离也会减小。因此,智慧安防领域的工程人员应关注广角镜头畸变对目标识别距离的影响,尤其对于视场边缘的目标,可采用超分辨力技术、增加用于训练神经网络的畸变图像样本数量等方法来提高精确目标的识别率。
-
期刊类型引用(3)
1. 张石清,宋铭心,陈鑫权,楼亮亮,赵小明,钱小鸿. 面向智能交通的人车识别无线感知方法研究. 传感技术学报. 2024(07): 1186-1192 . 百度学术
2. 戚博炜,李媛媛,宋丽媛. 基于多尺度多路径集成网络的轴承故障诊断方法. 机械强度. 2024(04): 778-786 . 百度学术
3. 王东升,王海龙,张芳,韩林芳,赵怡琳. 基于时序信息的红外图像缺陷信息提取. 红外技术. 2022(06): 565-570 . 本站查看
其他类型引用(9)
计量
- 文章访问数: 185
- HTML全文浏览量: 21
- PDF下载量: 28
- 被引次数: 12