Detection Algorithm for Small Target in Cluttered Cloud Background Image Sequences
-
摘要: 云杂波背景图像序列中运动小目标的实时检测算法,是红外精确制导系统中的首先对云杂波背景图像像素进行分类分析,研究了两种最大顺序滤波器和利用序列图像中像素时域剖面检测小目标的自适应方差滤波器算法,继而提出了一种适合云杂波背景的小目标检测算法.使用此算法对两组真实图像序列中运动小目标进行检测,根据对检测结果的分析,指出此算法可有效地完成检测任务,并且具有运算简单、存储量小、可并行实现、实时性好等特点.最后提出了后续工作的方向.
-
0. 引言
成像系统性能模型是评估系统性能的重要手段之一。随着红外成像技术与系统的不断发展,新型的红外传感器不断涌现,成像系统性能评估模型的需求也随之增长。红外偏振成像系统通过在红外成像系统中加装偏振器件来实现偏振成像,在伪装对抗、军事打击等众多领域应用广泛。
目前,已有的红外偏振成像系统性能模型大多建立在红外成像系统性能模型的基础上。当前流行的红外成像系统性能模型[1-5]来自于两个主要机构:美国夜视与电子传感器管理局(Night Vision and Electronic Sensors Directorate,NVESD)和荷兰人类因素研究所(The Netherlands Organization,TNO)。美国NVESD自1975年就一直致力于开发红外成像系统的性能模型[1-3]。早期的模型如FLIR90[1]、FLIR92[2]、NVTherm2002[3]等依据最小可分辨温差(Minimum Resolvable Temperature Difference,MRTD)理论和约翰逊(Johnson)准则建立。随后,Vollmerhausen提出了TTP准则[6],用于代替Johnson准则并建立了NVThermIP模型[4]。现有的红外偏振成像系统性能模型多沿用了早期美国NVESD早期MRTD模型的思路进一步考虑偏振片透过率等影响,对原有模型的参数进行部分修正,详见表 1。此类模型基于线性非移变理论(Linear Shift-Invariant System,LSI)建立,无法通过近似对复杂的非线性系统进行准确的评估。
表 1 红外偏振成像系统性能模型研究现状Table 1. Research status of performance models for infrared polarization imaging systemsName Year Principle Illustration Edson Guimaraes[9] 1999 MRTD, Johnson Criterion Based on the MRTD, this model further consider the transfer function and transmittance of the polarizer. Mehmet Yildirim[10] 2000 Designed for the second generation forward looking infrared sensor. Zhou Chenghao[11] 2013 Emphatically analyzed the models of different targets such as point source targets and extended source targets. Xia Runqiu[12] 2016 Ignore registration errors and the impact of the polarizer on MTF, the MRTD model of the polarization system is calculated. Liang Jianan[13] 2019 Modify the MRTD model and Johnson criterion based on interference factors such as background clutter. 荷兰TNO的研究起步略晚,他们提出了三角方向判别阈值(Triangle Orientation Discrimination,TOD)系列方法[5],并搭建了一些自动化的软件便于性能评估。该类方法首先制作带有不同大小、方向并可调节对比度的三角形靶标板,观察者对其进行观察给出对于三角形方向的判断,并拟合TOD阈值曲线,随后计算出目标获取性能。为方便实现自动化,其在软件中使用模拟的三角形(或场景)、近似的相机模型[7],以及TOD人眼视觉系统(Human Visual System,HVS)模型[8]。该类自动化模型采用HVS代替了本来的观察者观察和判别的过程,为其他研究者提供了思路。但目前该类模型尚未应用在红外偏振成像系统中。
综上所述,目前的红外偏振成像系统性能模型发展严重不足,无法匹配先进的成像系统,新的模型亟待建立。研究认为,搭建系统性能模型应该考虑几个基本条件:是否自动化、是否有应对非线性图像处理的能力、是否能在复杂环境下依旧保证性能评估的准确性。上述的荷兰TOD模型直接面向二维图像,且在自动化方面有初步的尝试,具有一定的借鉴意义。但该类模型中所包含的HVS模型,或使用前期实验中观察者人眼观察得到的拟合曲线,或使用一个简单的人眼视觉模型和一个基于几何模板匹配的简单方向判别器。前者需要实验人员参与耗费人力物力,后者所使用的视觉模型较为简单具有误差且判别器仅能对简单几何图案进行判断。为克服上述问题,本文首次将深度学习方法引入性能模型,提出了一个自动化的基于图像的红外偏振成像系统性能模型。并通过红外偏振辐射原理仿真海面舰船数据集,基于该典型场景对模型展开测试。实验结果表明,该模型对于红外偏振成像系统的评估结果与人的主观感知具有较好的一致性。
1. 模型结构与原理
图 1展示了本文所提出模型的基本架构。模型由两个主要模块(图中灰色部分)构成:成像系统退化模块、性能感知模块(图中蓝色部分)。成像系统退化模块用于计算从光学系统捕捉场景到显示器显示的整个过程的退化反应。性能感知模块由PRI-YOLOv5网络和预测网络组成,这个模块负责接收退化图像,并判断目标的可识别、可确认概率。其中,PRI-YOLOv5网络基于原YOLOv5网络进行改进,用网络模拟观察者观察图像的信息提取过程和识别/确认图像中目标的判断过程。预测网络则学习图像内容与可识别/确认概率的关系,从而破除网络仅能判识已知目标(包含在数据集中)的局限性。在评估一个新的系统时,我们需要输入高质量的原始图像,并根据系统的硬件参数量身定制成像系统退化模块,退化完成后输入性能感知模块,从而得到最终的目标获取性能。
1.1 成像系统退化模块
成像系统退化模块根据系统的参数模拟了系统的退化效应。退化主要来自于4个部分:光学系统、探测器、电子电路、显示器。有些系统集成了数字图像处理功能,这些功能的影响可以放在探测器退化后面模拟。尽管该退化模块对整个系统性能模型有重要的贡献,但这不是本文主要讨论的问题。我们参考文献[14],在频域来完成整个退化过程。
1.2 性能感知模块
性能感知模块是本文提出的系统性能模型的重要环节,该模块通过适当地训练深度学习网络,使其学习人眼对图像中目标判识的过程。再根据后续统计得出系统的目标获取性能。它包含了两个部分:PRI-YOLOv5网络和预测网络。
1.2.1 PRI-YOLOv5网络
YOLO[15]是当前计算机视觉领域最热门的目标检测网络之一。自2016以来,YOLO系列网络不断朝着更优的方向发展。YOLOv5[16]是其第五代版本,它采用CSPDarknnet53作为骨干网络(Backbone)、PANet作为颈部网络(Neck)、YOLO探测头作为头部网络(Head)。该网络的输出为图像中的每个目标标注预选框和标签。预选框代表着网络认为目标最有可能存在的位置,标签包含了所框选目标可能的种类以及相应的概率。YOLOv5的损失函数包括了坐标损失、置信度损失和类别损失3个部分。
深度学习起源于神经网络,它通过模拟人脑对信息抽象的过程提取信息,来完成高级任务。考虑到YOLOv5的结构和其优越的性能,我们从原理上进行详细的分析,并对该网络的头部网络输出和损失函数部分进行改进。使其替代传统模型中的仿人眼视觉系统模型/观察者对大量数据进行观察并判断的过程,完成模拟人眼和大脑自动对特征提取并输出场景中目标的可识别、可确认概率的功能。由于其输出为可识别和确认概率(the Probability of Recognition and Identification,PRI),将该改进的网络称为PRI-YOLOv5。图 2为PRI-YOLOv5的结构及输出定义示意图。
从原理上来说,该网络将每个输入的图像分成若干个网格。每个格子随机生成3个预测锚框(anchor box)并在训练过程中不断调整,每个预测锚框至多负责一个目标。为了兼顾不同尺寸目标的探测,YOLOv5网络在3个不同尺度上分别生成预测锚框。预测锚框的可信度由头部网络给出。在头部网络中,一个尺度下的输出由张量n×n×[anchornum×(nc+5)]表示,其中n, anchornum, nc分别表示格子,锚框和种类的数量。nc+5中前nc个通道中存放的数值是每个种类的预测概率,表示为Pr(Classi|Object)。后5个通道存放的分别是预测框的坐标(中心点的x、y和框的宽、高)和置信度。置信度可表示为$ \Pr \left( {{\text{Object}}} \right) \times {\text{IOU}}_{{\text{pred}}}^{{\text{truth}}} $,Pr(Object)代表目标被包含在预测框中的可能性,取值为0或1,$ {\text{IOU}}_{{\text{pred}}}^{{\text{truth}}} $表示预测框和真实框的交并比。
上述过程与人眼面对一个场景时的搜索过程相似。为了便于理解,我们首先介绍一下Johnson准则。在该准则中,人的观察等级被分为3类,定义在视野中寻找到目标为可探测,判断出目标的种类为可识别,鉴别出目标的类型或其他特征为可确认(种类意味着更大的范围,类型则更为确切和具体)。当面对新的环境时,人眼首先会分区搜索,寻找是否存在感兴趣区域(Region of Interest,ROIs),我们称这个过程为探测。进一步地分析感兴趣区域中目标的种类和更确切的类型对应着识别和确认。类似的,在网络中,网络对输入图片进行特征提取和整合。当到达头部网络时对上述张量值进行计算。我们将网络的预测锚框等效于人眼的分区搜索框。因此,可以认为框的置信度等效于人眼的探测概率,并用conf表示。为了匹配人眼的观察等级,将原YOLOv5网络中的nc进一步细分为nccls和nctype。nccls表示目标种类的数量,用于存储目标落入某种类的概率。nctype表示目标类型的数量,用于存储目标属于某具体类型的概率。对于一个锚框,其框选的目标最有可能属于的种类和类型的概率值为pro1和pro2。我们定义pro1×conf为识别概率POR,pro2×conf为确认概率POI。但从常理上说,目标首先应该属于某种类,其次才能属于某类型,POR理论上来说应该对POI有一定影响。所以我们将二者相乘作为确认概率输出。相应地,损失函数中类别损失的部分也要将种类误差和类型误差单独计算后相加。
1.2.2 预测网络
上述的PRI-YOLOv5网络已实现了性能感知模块的基本功能,但由于目标检测网络只能对数据集中存在的/已标注的目标类别进行判识。而作为判断系统性能的一个环节,该模块应该根据成像系统拍摄图像的质量,对图像中所有的目标均可进行判识。为破除PRI-YOLOv5对可判识目标类别的限制,我们选取文献[17]中的网络作为预测网络。此网络由Su等提出并命名为HyperIQA,被用于盲图像质量评价领域。它包含了3个部分:提取语义特征的骨干网络,学习质量感知规则的超网络和预测最终数值的目标网络。该预测网络可以随着图像内容的变化自适应地调节权重参数,使预测值不断向真值靠近。可用于学习图像内容和数字(概率)之间的映射关系。
如图 3所示,只需将PRI-YOLOv5的数据集和其训练出的概率值分别作为预测网络的输入和真值标签。网络即可学习其映射关系。在训练完成后,该网络理论上可以对不同条件下拍摄的目标(或许是未知类别)进行识别和确认概率的判断。主观上来说,具有相似语义特征或内容的图像中的目标应具有相近的可识别/确认概率。另外,由于每张图片对应两个概率标签,所以该网络需要训练两次。
2. 实验过程与结果
鉴于红外偏振数据的难以获取,本章首先基于海面场景的红外偏振辐射模型,建立了仿真数据集。随后,我们分别介绍了性能感知模块两个网络的实施细节及结果。最后,对整个模型进行了测试。
2.1 海面舰船数据集
图 4描述了海面舰船场景仿真的过程。首先,下载舰船的3D模型文件(通常以.max结尾),并对船模型做一些必要的简化,保留其主要特征,来避免模型的过度复杂并减少对计算资源的消耗。导出舰船模型文件并生成高度场。同时,基于波浪谱合成高分辨率的海面。考虑到舰船吃水的实际情况,适当地降低舰船的高度场使其与海面高度场相融合。参考文献[18],对合成高度场进行光线逆追迹,同时保存反射点、法线和反射方向等重要信息。最后,结合这些有效信息、折射率及舰船和海面的温度等计算出偏振辐射度,从而获得场景仿真结果。
根据上述原理,选取6个不同型号的船只作为场景中的观测目标,它们属于3个不同的种类:护卫舰、驱逐舰、巡逻舰。表 2展示了船只模型及其尺寸,具体型号以ship1~ship6代为表示。由于场景仿真的原理复杂,计算量大耗时较长。虽然针对船模型以及尺寸较小的海面进行仿真,可成倍缩小计算量。但是基于模型仿真并不完全符合实际情况,如仿真距离和焦距不同对路径中大气传输和红外辐射的影响等。故按照表 3中组1参数对船模型进行仿真,并配套以较小的海面尺寸、较近的拍摄距离,用于网络预训练。另外,按照船只的实际尺寸对模型进行放大。护卫舰和驱逐舰模型长度在1.94~4 m之间,实际长度约为模型的50倍,在97~196 m之间,长宽比约为8。巡逻舰由于其任务的特殊性,通常具有更小的尺寸,模型长度约为2 m,实际长度约为模型的35倍,约为62.5 m,长宽比约为4。按照表 3组2参数对其进行仿真,用于网络的正式训练。假设仿真是在有太阳辐射的夏季进行的,表 3列举了其他的变量和常量。相机的硬件参数根据法国CEDIP公司的一款Jade中波红外偏振相机的说明书进行设置。
表 2 船模型及类别Table 2. Ship models and classesTarget class Frigate Destroyer Patrol Target type ship1 Size
X: 0.280m
Y: 1.948mship3 Size
X: 0.436m
Y: 3.919mship5 Size
X: 0.367m
Y: 2.001mship2 Size
X: 0.344m
Y: 2.830mship4 Size
X: 0.395m
Y: 3.108mship6 Size
X: 0.482m
Y: 2.000mNote: All 3D models are downloaded from https://www.3d66.com/ 表 3 仿真中变量和常量参数设置Table 3. Variables and constant settings during simulationVariables Group 1: Model ship Group 2: Real ship Name Number of values Values(unit) Number of values Values(unit) Focal length(f) 2 60, 85(mm) 1 105(mm) Pixel size(p) 3 14, 17, 20(μm) 3 14, 17, 20(μm) View radius(r) 2 100, 150(m) 4 2, 3, 4, 5(km) View zenith angle 4 30, 45, 60, 75(°) 4 30, 45, 60, 75(°) Wind speed 1 2(m/s) 1 13(m/s) Sea surface size 1 8 m×8 m 1 338 m×338 m Target class 6/3 see Table 1 6/3 see Table 1 Constants Name Values Name Values Solar zenith angle/° 45 Solar azimuth angle/° 60 Max reflected number 3 Detected wavelength/μm 3.8 Image size 300×300 Sea temperature/ K 300 Deck temperature/K 318.15 Hull temperature/K 303.15 Hot part temperature/K 328.15 Others temperature/K 313.15 仿真图像共计506组,图 5给出了一组仿真结果示例,(a)~(e)是5个常见的Stokes参数,即偏振角(AoP)、线偏振度(DoLP)、强度(I)、水平和垂直方向的辐射强度差(Q)和对角方向辐射强度差(U)。经过观察,图(b)~(d)保存了更多的图像细节及偏振信息,将其依次拼接为三通道图像,记为1张。共计图像506张,组1图像288张,组2图像218张。
2.2 性能感知模块实施细节及结果
PRI-YOLOv5的训练在NVIDIA GeForce GTX 1060 GPU上基于Python 3.6和Pytorch 1.7.0环境实现。
PRI_YOLOv5网络的源代码已上传至https://github.com/Zjb001/git_PRI-YOLOv5。两组数据集的真值标签均由“LabelImg”制作,根据1.2.1节和表 2,每个图像应同时标注两个标签。即图像中目标所对应的种类和类型,这两个类别被标记为两个独立的字符并连接。类别索引按照[护卫舰, 驱逐舰, 巡逻舰, ship1, ship2, ship3, ship4, ship5, ship6]排序,从0~9。例如,shipl的类别索引为“03”。
首先使用组1数据进行预训练,预训练采取权重随机初始化的方法,优化器为Adam,初始学习率设置为0.01,batch_size设为4(由于硬件限制),前3个epoch用于热身(warm_up)。组1数据共288张,舍弃12张无效图像,并按照7:3的比例划分训练集和验证集。预训练至损失函数收敛,并保存模型。随后,使用预训练模型对组2数据进行训练,该组数据共218张,其中43张作为测试集,其余按照7:3划分为训练集和验证集,其余参数与预训练相同。当迭代进行到150次时,网络已收敛,如图 6。
与TOD方法中观察者观测实验的准备工作类似,训练后的PRI-YOLOv5网络获得了对数据集中几种舰船的认知。预测网络的训练环境与PRI-YOLOv5相同。在训练阶段,参考文献[17],随机裁剪5个224×224像素大小的图像块用于增强。这个过程重复10次来减少随机性的影响。训练采取随机初始化的方法,batch_size设为4。测试阶段也采取同样的随机裁剪,关于此文献[17]中包含了更多的细节。使用组2数据集进行训练,训练集和验证集按照8:2划分,测试集与前述相同。由于每个图像对应两个概率标签,所以应在保持其他参数不变的条件下进行两次训练,epoch分别设置为25、50。使用Spearman相关系数(Spearman's Rank Correlation Coefficient,SRCC)和Pearson相关系数(Pearson’s Linear Correlation Coefficient,PLCC)来衡量预测值和真值间的相关性。这两个系数均位于0~1之间,值越高代表性能越好。当真值标签为识别概率时,网络的平均SRCC为0.9261,平均PLCC为0.8680。当标签为确认概率时,网络的平均SRCC为0.7965,平均PLCC为0.7295。训练完毕后,对测试集进行测试。图 7记录了两次训练的测试结果,左侧为识别概率(POR)的预测情况,结果显示识别概率预测值和真实值之间的绝对误差除几个异常点之外基本维持在10%以内,均值为8.74%。右侧为确认概率(POI)的预测情况,确认概率预测值和真实值之间的绝对误差相对较大,均值为9.32%。从图中可以看出,真实值为‘0’时,预测值较不准确。若仅计算非零值,则两次的测试结果误差可分别达到6.604%、5.456%。
为测试预测网络是否可以破除可判识目标类别的限制,而根据图像质量来客观地给出识别/确认概率值。选取一个额外的未包含在数据集中的舰船模型(简称shipX),该模型长2.297 m、宽0.625 m。将其按照比例1(ship1~ship4平均放大比例)、比例2(ship5~ship6平均放大比例)分别放大至114.85 m长31.25 m宽、71.78 m长19.53 m宽。随后依照表 3中第二组仿真参数对shipX进行仿真,仿真完成后将其输入已训练好的预测网络,得到相应的概率值。为定量衡量其与数据集中已包含船只的预测数据的差异,计算基于shipX的仿真数据和原有测试集数据之间的相似性(横坐标),并计算两者预测值之间差值的绝对值ΔP(纵坐标),将其进行拟合,结果如图 8。其中,相似性用常见指标归一化互信息(Normalized Mutual Information,NMI)衡量,其值应处于0~1之间,该值越大代表两幅图像包含的信息相似程度越大。
图 8显示,基于shipX的仿真数据和原有测试数据集数据的相似性越大(包含的互信息越多),预测值(识别/确认概率)之间的差值越小。在相似程度一致时,识别概率的差值要大于确认概率的差值,从侧面说明了识别概率值对图像内容的敏感性略大。该实验表明,预测网络基本可以破除目标类别的限制,即根据图像质量输出识别/概率值,而不是图像内容。
2.3 系统性能模型结果及分析
接下来将基于已构建的性能感知模块,进一步测试整个性能模型的有效性。按照图 1所示的模型架构,选取3款红外偏振成像系统(代号A款、B款、C款)进行整体的性能评估,系统的主要参数见表 4。对于原始仿真图像,需要首先经历系统的退化,然后输入训练好的性能感知模块,来获取最终的目标获取性能。
表 4 待评估红外偏振成像系统主要参数Table 4. The main parameters of infrared polarization imaging systems to be evaluatedSystem Focal length/mm Wave-length/μm F# Resolution Pixel size/μm System A 105 3~5.2 3.5 160×120 20 System B 135 3~5.2 1.5 640×480 17 System C 105 3~5.2 2 320×240 20 图 9展示了上述3款系统的退化效果图,左侧为偏振图像,右侧为按照次序叠加的三通道图像。观察可知,系统A的分辨率最低,成像较为模糊,而系统B的分辨率最高。图 10展示了测试数据经过退化后,输入到性能感知模块得到的预测结果经过二次拟合得到的曲线。结果显示,系统的识别/确认概率随距离变远而下降,B系统拍摄的图片质量较高,其性能表现最佳。其次是为C系统,两款系统均在3.7 km仍保持50%的识别概率。而A系统的50%识别概率则需要通过预测来获得,超出了数据涵盖的距离范围。在4.2~4.3 km之间,A系统的识别概率和B、C两款系统的确认概率出现交叉,这可能是由于该系统的探测器分辨率过低。总体来说,该评估结果与主观认知基本吻合,和实验室前期实拍实验得出的结论基本相符。
3. 结论
本文首先介绍了红外偏振成像系统相关性能模型的研究背景和研究现状,并分析了已有性能模型的优缺点。并根据目前的需求,建立了一个基于图像的红外偏振成像系统性能模型。为满足系统性能模型的自动化需求,首次将深度学习方法引入模型。作为搭建系统性能模型与深度学习方法之间桥梁的初次尝试,该项研究有望引领系统性能模型领域朝此方向发展。对于模型中较为关键的性能感知模块的原理和相关实验的实施细节及原理进行了详细的描述。结果表明,整个系统性能模型可对已知硬件参数的红外偏振成像系统进行性能评估,并且所得结果与人的主观认知具有较好的一致性。此外,本文基于物理模型构建了面向海面场景的红外偏振数据集,可应用于各项相关研究。
文中搭建的模型基于自建的仿真海面舰船数据集展开实验验证。后续可进一步讨论其他典型场景,如地面坦克等。另外,仿真技术对仿真图像的质量有直接的影响。应进一步提升仿真水平。同时,在后续的研究中,有望将该模型应用于更多不同类型相机的性能测试。
计量
- 文章访问数: 78
- HTML全文浏览量: 23
- PDF下载量: 6