Image Processing Method for Visual Simultaneous Localization and Mapping
-
摘要: SLAM一直是机器人领域的研究热点,近年来取得了万众瞩目的进步,但很少有SLAM算法考虑到动态场景的处理。针对视觉SLAM场景中动态目标的处理,提出一种在动态场景下的图像处理方法。将基于深度学习的语义分割算法引入到ORB_SLAM2方法中,对输入图像进行分类处理的同时剔除人身上的特征点。基于已经剔除特征点的图像进行位姿估计。在TUM数据集上与ORB_SLAM2进行对比,在动态场景下的绝对轨迹误差和相对路径误差精度提高了90%以上。在保证地图精度的前提下,改善了地图的适用性。Abstract: Simultaneous localization and mapping(SLAM) has always been a research hotspot in the robotics field. In recent years, remarkable progress has been made in SLAM research, but few SLAM algorithms have considered the processing of dynamic scenes. Therefore, in this study, an image processing method for dynamic target processing in a visual SLAM scene is proposed. The semantic segmentation algorithm based on deep learning was introduced into the ORB_SLAM2 method and input image classification processing was accomplished while removing the feature points on the body. Pose estimation was performed based on images with eliminated feature points. Compared to ORB_SLAM2 on the TUM dataset, the absolute trajectory error and relative path error accuracy were improved by more than 90% in the dynamic scene. To ensure the accuracy of the generated map, the applicability of the map was improved.
-
Keywords:
- visual SLAM /
- dynamic scene /
- ORB-LAM2 /
- feature points /
- remove
-
0. 引言
随着复杂战场环境中目标的伪装和隐身能力的不断增强,如何快速准确侦查到敌方目标显得尤其重要[1-2]。战场光电设备常用的波段为可见光、微光、近红外、中波红外和长波红外等几个波段。根据单一波段光电设备特有的成像机制,发展出对应的对抗措施,依此减小目标被探测到的几率。因此对两个或两个以上使用不同波段的光电设备进行图像融合处理,融合后的图像相应地具有识别一定伪装的能力,提高探测目标的概率。
图像融合是指将同一目标场景的两幅或多幅图像按特定的准则进行融合,使合成后的单幅图像包含更全面的信息[3]。红外与可见光图像融合是当前图像融合研究的热点之一,被广泛应用于军事、航空、安防监控等领域[4]。红外图像依赖于目标与环境的温度差,不受外界光照度的影响,故红外图像对比度较高,但不能突显所观察场景中的细节信息;可见光图像具有较强的细节信息表现能力,但易受外界光照度的影响,光照度较差时目标难以分辨,因此红外与可见光图像融合具有十分重要的意义[5-6]。
孙爱平等对共光路与平行光路两种图像融合光学布局型式的优劣做出相关论述,受工艺条件的限制,现在大部分图像融合光学装置为平行光路布局[7]。为了补偿温度变化带来的焦面位移,平行光路布局的红外与可见光图像融合光学系统可采用机械热补偿和光学被动热补偿两种方式,其中光学被动热补偿的图像融合光学系统具有更好的图像配准精度。据此本文采用平行光路布局型式,光学被动热补偿的设计型式设计了一款红外和可见光图像融合物镜,并对图像配准精度展开相应分析。
1. 图像融合光学系统热补偿方式的比较
光学元件的尺寸、折射率和镜筒的尺寸随温度的变化而变化,引起像面位移造成成像模糊。为了补偿温度变化所引起的像面位移可采用机械热补偿方式和光学被动热补偿方式,其中机械热补偿方式可分为外调焦热补偿方式和内调焦热补偿方式,如图 1所示。
外调焦热补偿方式即镜头组整组前后移动,改变镜头与探测器靶面的间隔实现热补偿。对于红外与可见光图像融合光学系统,受加工、装配精度的影响,红外镜头和可见光镜头整组前后移动的过程中,二者的光轴发生漂移,造成图像配准精度的降低。
内调焦热补偿方式即镜头组其中一件光学元件或者一组光学元件作为补偿组沿光轴前后移动,在环境温度变化时实现像面与探测器靶面的重合。由于其中一件光学元件或者一组光学元件沿光轴前后移动,改变了原来的光学成像关系,使镜头组的焦距发生改变即放大倍率改变,造成目标所成图像的大小不一致,进而降低图像配准精度;受加工、装配精度的影响,补偿组沿轴向移动,二者光轴发生漂移,造成图像配准精度的降低。
光学被动热补偿方式即镜头组选择合适的光学材料、镜筒材料及面型类型,在不移动任何光学元件的条件下,实现环境温度变化时像面与探测器靶面的重合。随着工作温度的变化,镜头组采取光学被动热补偿方式时其放大倍率一致并且无活动的光学元件,光轴相对位置基本无变化,图像配准精度很高。
红外与可见光图像融合光学系统采取光学被动热补偿方式比机械热补偿方式具有更高的图像配准精度,故本文采取光学被动热补偿方式开展红外与可见光图像融合物镜的设计。
2. 融合物镜设计分析
2.1 设计指标
可见光物镜选用800×600、18 μm的低照度CMOS,设计波段为0.6 μm~0.95 μm,此波段相对于可见光常用的0.48 μm~0.65 μm彩色波段,具有一定的透雾功能,配合透雾算法可提高可见光物镜观察场景的细节能力。图像融合系统光学设计参数见表 1。
表 1 图像融合系统光学设计参数Table 1. Optical design parameters of image fusion systemInfrared lens Focal length
Field
F/#
Wavelength
Detector type38.7 mm
16°×12°
1.1
8 μm-12 μm
UFPA 640×480, 17 μmVisible lens Focal length
Field
F/#
Wavelength
Detector type51.22 mm
16°×12°
1.5
0.6 μm~0.95 μm
CMOS 800×600, 18 μmFusion lens Registration accuracy
Distance temperatureOne pixel(0.017 mm)
45.5 m-∞
-40℃-60℃2.2 红外物镜光学被动热补偿设计
红外物镜采取四片式设计型式,光学布局型式见图 2。红外物镜光学透镜材料选择Ge和IRG206,镜筒材料选择铝合金,面型选择常用的球面、非球面和二元衍射面,其中二元衍射面放置在第二透镜的后表面上。通过以上措施实现在环境温度变化时红外物镜的像面与红外机芯的靶面相重合,在工作温度范围内成像清晰。
红外物镜在低温(-40℃)、常温(20℃)和高温(60℃)条件下的点列图及传递函数曲线如图 3所示。红外物镜的传递函数(MTF)在奈奎斯特频率(30 lp/mm)处除边缘视场外对比度均在0.4以上,中心视场区域的对比度接近衍射极限;依据点列图所示,0.7视场内的能量均在一个像素内,其余视场约有80%的能量在一个像素内。综上所述红外物镜在工作温度范围内像差校正效果较好。
2.3 可见光物镜光学被动热补偿设计
可见光物镜采用类高斯的设计形式,如图 4所示。可见光物镜的光学透镜选用成都光明生产的环保材料,面型均为球面,镜筒材料选择铝合金。通过优化选择球面半径和透镜材料实现在工作温度范围内可见光物镜的像面与CMOS(Complementary Metal-Oxide Semiconductor)靶面相重合,成像清晰。
可见光物镜在低温(-40℃)、常温(20℃)和高温(60℃)条件下的点列图及传递函数曲线如图 5所示。可见光物镜的MTF(Modulation Transfer Function)在奈奎斯特频率(28 lp/mm)处除边缘视场外对比度均在0.6以上;依据点列图所示,所有视场约有80%的能量在一个像素内。综上所述可见光物镜在工作温度范围内像差校正效果较好。
2.4 可见光物镜进行光学被动热补偿的必要性分析
可见光物镜在大部分场合使用机械热补偿方式,很少见到光学被动热补偿的镜头。对于图像融合光学系统,为了提高图像配准的精度,不仅红外物镜需要进行光学被动热补偿设计,可见光物镜也需要进行光学被动热补偿设计。
以一种天塞型变形型式的照相物镜为例,分析在图像融合光学系统中进行光学被动热补偿设计的必要性。此天塞型照相物镜的焦距为44.8 mm,F数为3.5,工作波段为0.48 μm~0.65 μm,成像器件为1/3英寸的CCD(WAT-600CX,像元大小6.5 μm×6.25 μm),光学透镜材料为成都光明环保材料,面型均为球面,镜筒材料为铝合金,设计布局型式见图 6,各个温度点的传递函数曲线见图 7。由图 7可知此照相物镜在常温工作环境下MTF曲线在奈奎斯特频率处(80 lp/mm)对比度在0.6以上,在低温和高温工作环境下,MTF性能严重下降。在常温工作环境中,如果此照相物镜的性能使用到奈奎斯特频率或者接近此频率点时,在低温和高温工作环境中,照相物镜具有不能达到常温性能指标的缺陷。
据以上分析,红外与可见光图像融合光学系统中的可见光物镜采用光学被动热补偿设计非常必要,同时对于定焦使用的可见光或者微光物镜,如果工作环境温度变化较大,也需要进行光学被动热补偿设计。
3. 图像配准精度的分析
3.1 引起图像配准精度降低的因素
图像配准精度的高低是决定图像融合效果的一个重要因素,因此图像配准精度是设计图像融合光学系统的一个与图像质量同等重要的设计指标。对于平行光路布局、红外与可见光图像融合光学系统,从理论上分析影响图像配准精度的因素有以下两个方面:
一是平行光路布局引起的图像配准精度的降低。由于红外物镜与可见光物镜的光轴平行但不重合,二者之间具有一定的间隔,造成随着观察距离的远近不同,配准精度也随之变化。
二是红外物镜与可见光物镜的畸变造成图像配准精度的降低。在图像融合光学系统中红外物镜与可见光物镜的畸变是需要关联的,为了提高图像配准的精度,红外物镜与可见光物镜的畸变在相同视场点需要具有相同的畸变值,依此来消除畸变带来的图像配准误差。
3.2 平行光路布局图像配准精度分析
红外和可见光图像融合物镜采取平行光路布局型式,由于二者的光轴具有一定的间隔,因此同一个目标分别经过红外物镜和可见光物镜成像后成像于各自的探测器上,像点距离各自探测器中心的间隔随观察距离的变化而变化,造成图像配准精度的降低。
为了简化分析,假设目标A在可见光物镜的光轴上,距离可见光物镜间隔为L,则经过可见光物镜成像于CMOS靶面的中心ACMOS。目标A与红外物镜的光轴间隔为d,经红外物镜成像于红外机芯的AIR处,AIR距离红外机芯的间隔为△d,如图 8所示。此△d为平行光路布局带来的图像配准误差:
$$\frac{d}{L} = \frac{{\Delta d}}{{{f_{{\rm{IR}}}}}}$$ 红外物镜与可见光物镜光轴间距为0.02 m,则对应不同距离的图像配准精度如表 2所示。由表 2可知此图像融合光学系统在45.5 mm~无穷远的观察范围内,图像配准精度在一个像素内,并且所观察的目标越远,图像配准精度越高。在图像配准误差大于一个像素的观察范围内,可以采取单通道观察如红外通道或者可见光通道。
表 2 随距离变化的图像配准精度Table 2. Image registration accuracy with distanceL/m △d/mm Pixel Notes 30 0.026 1.5 the size of each pixel is 0.017 mm 40 0.019 1.1 45.5 0.017 1 50 0.015 0.88 60 0.013 0.76 3.3 畸变影响图像配准精度分析
红外图像和可见光图像在同一个监视器上显示时,由于受畸变的影响,实际目标图像与理论目标图像具有一定的错位,造成图像配准精度的降低,因此在进行红外物镜和可见光物镜设计时需要对其畸变大小进行控制,使其畸变大小相一致。
红外物镜和可见光物镜在进行像质优化时,由于是光学被动热补偿系统,只需控制常温下的畸变值相一致,其余工作温度下畸变值相对常温下的畸变值变化非常小,即红外物镜和可见光物镜在其余工作温度下畸变值大小也一致,畸变变化情况见表 3和图 9。由表 3和图 9可知,以常温20℃的工作条件分析畸变带来图像配准的误差即可。
表 3 红外物镜与可见光物镜的畸变Table 3. Distortion of infrared objective lens and visible objective lens0.5ω 0.707ω 0.85ω 1ω Infrared lens 20℃ -0.61879% -1.24937% -1.83023% -2.59627% -40℃ -0.61847% -1.24882% -1.82957% -2.59568% 60℃ -0.61883% -1.2494% -1.83017% -2.59595% Visible lens 20℃ -0.61071% -1.25465% -1.83872% -2.588% -40℃ -0.61292% -1.25212% -1.83447% -2.5828% 60℃ -0.60927% -1.25632% -1.84153% -2.59143% 假定红外图像和可见光图像都在同一个微型OLED上显示(800×600、15 μm),以对角线一半长度做为像方理论像高进行分析。图像处理不会对红外图像和可见光图像产生畸变,则在进行图像融合时各个视场点图像配准的误差见表 4所示。由表 4可知,红外图像与可见光图像的畸变带来的配准精度误差不超过1 μm,即在进行像质优化设计过程中通过控制红外物镜和可见光物镜的畸变值,可以基本消除畸变带来的图像配准误差。
表 4 红外物镜和可见光物镜的图像配准误差Table 4. Image registration error of infrared objective lens and visible objective lensTheoretical image height /mm Infrared image height /mm Visibleimageheight /mm Error/mm 0.5ω 3.75 3.72680 3.72710 0.00030 0.707ω 5.3025 5.23626 5.23597 0.00029 0.85ω 6.375 6.25832 6.25778 0.00054 1ω 7.5 7.30528 7.30590 0.00062 4. 公差分析
红外物镜和可见光物镜分别按表 5、表 6分配零件公差,焦面位移作为补偿(补偿量±0.5 mm),以平均概率分布方式分配实际装配及加工时的公差值,并采用蒙特卡罗分析方法模拟50套加工装配后的虚拟镜头,分析虚拟镜头的MTF变化,依此判断实际镜头的成像效果。
表 5 红外物镜零件公差表Table 5. Tolerance table of infrared objective lens partsParameter Tolerance N ±3aperture △N ±0.7aperture Aspheric error ±0.00007 mm Thickness of optical parts ±0.02 mm Focal plane displacement compensation ±0.5 mm Surface tilt ±1' Air distance ±0.02 mm Element tilt 4.5' Element eccentricity 0.052 mm - - 表 6 可见光物镜零件公差表Table 6. Tolerance table of visible objective lens partsParameter Tolerance N ±4aperture △N ±0.6aperture Thickness of optical part ±0.03 mm Air distance ±0.05 mm Focal plane displacement compensation ±0.5 mm Surface tilt ±6' Element tilt ±6' Element eccentricity ±0.052 mm nd ±0.001 vd ±1% 表 7的蒙特卡罗分析结果表明90%的红外镜头在奈奎斯特频率处MTF值不小于0.135的;表 8的蒙特卡罗分析结果表明90%的可见光镜头在奈奎斯特频率处MTF值不小于0.301的。常规的加工及装配工艺均能满足表 5、表 6的公差要求,公差分配合理且整个镜头的成像质量较好。
表 7 红外物镜公差分析结果Table 7. Tolerance analysis results of infrared objective lensLens percentage /% MTF minimum(Nyquist frequency) 90 0.135 80 0.158 50 0.196 20 0.248 10 0.275 表 8 可见光物镜公差分析结果Table 8. Tolerance analysis results of infrared lens visible objective lensLens percentage /% MTF minimum(Nyquist frequency) 90 0.301 80 0.351 50 0.455 20 0.531 10 0.597 5. 结论
本文介绍了平行光路布局、光学被动热补偿方式实现红外与可见光图像融合物镜的设计理论和方法。通过对产生图像配准误差因素的分析,采取相应的措施减小或消除图像配准的误差,说明红外物镜和可见光物镜采取光学被动热补偿方式的设计方案能够提高图像配准的精度,改善图像融合效果。通过采取光学被动热补偿方式进行红外与可见光图像融合物镜的设计,为其它进行图像融合研究的相关人员提供参考。
-
表 1 绝对轨迹误差对比(ATE)
Table 1 Absolute trajectory error comparison
Sequences ORB-SLAM2 Ours Improvement/% Rmse Mean Median Std Rmse Mean Median Std Rmse Mean Median Std walking_xyz 0.5357 0.4964 0.4733 0.2014 0.0269 0.0185 0.0151 0.0196 94.98 96.27 96.81 90.27 walking_halfsphere 0.4318 0.3651 0.3107 0.2305 0.0334 0.0285 0.0243 0.0175 92.26 92.19 92.18 92.41 walking_static 0.3753 0.3398 0.2963 0.1593 0.0076 0.0068 0.0062 0.0034 97.97 98.00 97.91 97.87 sitting_static 0.0082 0.0071 0.0063 0.0041 0.0062 0.0054 0.0047 0.0031 24.39 23.94 25.40 24.39 表 2 相对位姿误差对比(RPE)
Table 2 Relative pose error comparison
Sequences ORB-SLAM2 Ours Improvement/% Rmse Mean Median Std Rmse Mean Median Std Rmse Mean Median Std walking_xyz 0.7856 0.6444 0.5714 0.4493 0.0400 0.0280 0.0222 0.0285 94.91 95.65 96.11 93.66 walking_halfsphere 0.6200 0.4957 0.4705 0.3724 0.0474 0.0414 0.0373 0.0231 92.35 91.65 92.07 93.80 walking_static 0.5354 0.3946 0.1802 0.3618 0.0112 0.0102 0.0096 0.0048 97.91 97.42 94.67 98.67 sitting_static 0.0127 0.0112 0.0101 0.0060 0.0093 0.0081 0.0073 0.0044 26.77 27.68 27.72 26.67 表 3 相对旋转误差对比(RRE)
Table 3 Relative rotation error comparison
Sequences ORB-SLAM2 Ours Improvement/% Rmse Mean Median Std Rmse Mean Median Std Rmse Mean Median Std walking_xyz 14.3695 11.7969 0.1856 8.2046 0.8776 0.6192 0.0082 0.6220 93.89 94.75 95.58 92.42 walking_halfsphere 14.5176 12.0261 0.2177 8.1323 1.0316 0.8956 0.0139 0.5118 92.89 92.55 93.62 93.71 walking_static 9.6864 7.1088 0.0558 6.5796 0.3021 0.2724 0.0044 0.1306 96.88 96.17 92.11 98.02 sitting_static 0.3572 0.3220 0.0054 0.1546 0.3347 0.2981 0.0048 0.1523 6.30 7.42 11.11 1.49 表 4 两种方法在TUM数据集的耗时
Table 4 Time consuming of the two methods in TUM dataset
Methods 1 2 3 Average ORB-SLAM2 54.314 58.629 59.373 57.439 Ours 81.241 79.298 78.505 79.681 -
[1] Durrant-Whyte H, Bailey Tim. Simultaneous localization and mapping: part I[J]. IEEE Robotics & Amp Amp Automation Magazine, 2006, 13(2): 99-10. http://vigir.missouri.edu/~gdesouza/Research/MobileRobotics/Simultaneous%20localization%20and%20mapping.%20IEEE%20Robotics%20and%20Automation%20magazine-%20Part%201,%20H.%20Durrant-White%20and%20T.%20Bailey.pdf
[2] 张金凤, 石朝侠, 王燕清. 动态场景下基于视觉特征的SLAM方法[J]. 计算机工程, 2020, 46(10): 95-102. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC202010012.htm ZHANG Jinfeng, SHI Chaoxia, WANG Yanqing. SLAM method based on visual features in dynamic scene[J]. Computer Engineering, 2020, 46(10): 95-102. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC202010012.htm
[3] 江国来. 共融移动服务机器人导航与交互关键技术研究[D]. 深圳: 中国科学院大学(中国科学院深圳先进技术研究院), 2019. JIANG Guolai. Research on Key Technologies of Navigation and Interaction of Inclusive Mobile Service Robot[D]. Shenzhen: University of Chinese Academy of Sciences, 2019.
[4] HAN Shuangquan, XI Zhihong. Dynamic scene semantics SLAM based on semantic segmentation[J]. IEEE Access, 2020, 8: 43563-43570. DOI: 10.1109/ACCESS.2020.2977684
[5] WANG Kai, LIN Yimin, WANG Luowei, et al. A unified framework for mutual improvement of SLAM and semantic segmen- tation[C]//International Conference on Robotics and Automation (ICRA) of IEEE, 2019: 5224-5230.
[6] Bescos Berta, Fácil José M, Civera Javier, et al. Dyna SLAM: tracking, mapping and in painting in dynamic scenes[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 4076-4083. DOI: 10.1109/LRA.2018.2860039
[7] YU Chao, LIU Zuxin, LIU Xinjun, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//IEEE International Conference on Intelligent Robots and Systems(IROS), 2018: 1168-1174.
[8] 王召东, 郭晨. 一种动态场景下语义分割优化的ORB_SLAM2[J]. 大连海事大学学报, 2018, 44(4): 121-126. DOI: 10.3969/j.issn.1671-7031.2018.04.020 WANG Zhaodong, GUO Chen. An improved ORB_SLAM2 in dynamic scene with semantic segmentation[J]. Journal of Dalian Maritime University, 2018, 44(4): 121-126. DOI: 10.3969/j.issn.1671-7031.2018.04.020
[9] 王晨, 汤心溢, 高思莉. 基于深度卷积神经网络的红外场景理解算法[J]. 红外技术, 2017, 39(8): 728-733. http://hwjs.nvir.cn/article/id/hwjs201708010 WANG Chen, TANG Xinyi, GAO Sili. Infrared scene understanding algorithm based on deep convolutional neural network[J]. Infrared Technology, 2017, 39(8): 728-733. http://hwjs.nvir.cn/article/id/hwjs201708010
[10] Mur-Artal Raul, D Tardos Juan. ORB-SLAM2: an opensource slam system for monocular, stereo, and rgb-d cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262. DOI: 10.1109/TRO.2017.2705103
[11] ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6230-6239.
[12] 李瀚超, 蔡毅, 王岭雪. 全局特征提取的全卷积网络图像语义分割算法[J]. 红外技术, 2019, 41(7): 595-599, 615. http://hwjs.nvir.cn/article/id/hwjs201907001 LI Hanchao, CAI Yi, WANG Lingxue. Image semantic segmentation based on fully convoluted network with global feature extraction[J]. Infrared Technology, 2019, 41(7): 595-599. http://hwjs.nvir.cn/article/id/hwjs201907001
[13] Sturm Jürgen, Engelhard Nikolas, Endres Felix, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//RSJ Int. Conf. Intell. Robots Syst. of IEEE, 2012: 573-580.
-
期刊类型引用(3)
1. 李夕雯,张可人,赵建府. 基于光纤探头的光电图像径向畸变校正方法. 激光杂志. 2023(12): 207-211 . 百度学术
2. 杨璐,郭文锋. 抵抗密文攻击的光学图像加密方法. 激光杂志. 2022(11): 134-138 . 百度学术
3. 罗扬,袁艺标. 基于聚类的超声射频图像阴影双线性补偿方法. 计算机仿真. 2021(10): 209-212+236 . 百度学术
其他类型引用(1)