Staring Infrared Systems Reconstruction Based on Measured Data
-
摘要: 为充分评估基于凝视红外成像体制精确制导武器的性能,利用高可信度的数字建模仿真成为国内外普遍关注的重要途径.鉴于产品研制过程中能够获取大量的实测数据,从采样、信号传递、噪声以及空间传递等理论出发,结合典型红外场景仿真平台中理想传感器的设计,完成了基于实测数据的凝视红外成像系统重构方法研究,并利用三维噪声模型、计算机模拟图像进行了重构效果的精度验证分析.最后通过灵敏度阈值开展了实验室内验证试验,从综合性能评估实例的角度上,再次证明了该重构方法有效,为凝视红外制导武器的实战化评估应用奠定基础.
-
0. 引言
行人重识别(Person Re-Identification,ReID)是计算机视觉中的一个专门领域,专注于跨不同摄像机视图或视频序列中的帧识别行人。想象这样一个场景:一个行人被监控网络中的一台摄像机捕获,然后移出画面,之后重新出现在另一台摄像机的视野中。行人重识别旨在正确关联同一个行人的视图,从而实现跨多个摄像机和位置的无缝跟踪和监控。它广泛应用于智能视频监控、智能安保等领域[1-3]。然而,在弱光或夜间环境中,可见光图像可能不足以进行准确的行人识别[4]。相比之下,红外成像不依赖于可见光,可以捕捉物体发出的热信号,即使在低能见度的情况下也能提供有价值的信息[5]。随着红外成像技术的发展,在光线不足的环境中从可见光模式切换到红外模式的智能监控摄像机已经普及,并推动了监控系统的全天候可见光-红外行人重识别(Visible-Infrared Person Re-Identification,Ⅵ-ReID)的发展[6-7]。
Ⅵ-ReID的目标是在给定一种模态的图像时,在一组可见/红外图像中识别到同一个人[8-9]。近年来,Ⅵ-ReID备受关注[10]。许多专注于缓解模态之间巨大语义差距的Ⅵ-ReID工作已经取得了进展,根据其不同的对齐方式,可以将其分为两大类:图像级对齐和特征级对齐。图像级对齐方法侧重于通过模态翻译减少跨模态差距。一些基于GAN的方法通过风格转换对图像进行跨模态对齐[11-12]。然而,生成的图像不可避免地含有噪声。因此,X模态及其衍生方法通过引入中间模态来对齐跨模态图像[13-15]。主流特征级对齐方法通过寻找模态共享特征空间来最小化跨模态差距[16-19]。为此,Fang等人[20]提出了一种语义对齐和亲和推理框架,该框架通过共享原型对齐潜在的部分语义特征,从而允许在两种模态中聚集具有相同语义信息的潜在语义部分特征。Feng等人[21]通过正交分解将形状相关特征从形状擦除特征中分离出来,提高了Ⅵ-ReID学习表征的多样性和识别性。然而,这些方法都需要标注良好的跨模态数据,而标注数据集是一项耗时耗力的工程,因此它们不太适用于真实场景中。由于这一限制,本文试图研究Ⅵ-ReID的无监督解决方案。
对于无监督可见光-红外行人重识别(Unsupervised Ⅵ-ReID,USⅥ-ReID),一些无监督域适应(Unsupervised Domain Adaptation)方法使用标注良好的源域进行预训练,然后将预训练好的模型迁移到目标域来解决USⅥ-ReID任务[22-23],但预训练阶段仍然依赖于标注数据。受Dai等人[24]的启发,一些真正的无监督方法采用对比学习来提高性能表现[25-28]。这类方法利用聚类算法在齐次空间中产生监督信号,生成伪标签来构造两种特定于模态的内存库,一种用于存储可见光图像特征,另一种用于存储红外图像特征。在训练过程中,将内存中心作为质心原型,最大限度地减小查询图像与质心原型之间的对比损失,并基于相似度聚合相应的质心原型。然而,伪标签往往是不准确和僵化的。Chen等人[29]利用文本信息提供更大的语义监控洞察,以弥补伪标签的僵化。此外,可靠的跨模态对应对于USⅥ-ReID至关重要,因此Wu等人[26]提出了一个渐进的图匹配框架来建立更可靠的跨模态对应。然而,聚类中心主要呈现每个人的共同信息而缺乏不同个体之间的独特信息,这导致基于质心原型的对比损失产生类别之间重叠的分类边界,在遇到困难样本时出现模糊的跨模态对应。Shi等人[30]设计了一个硬原型对比学习来挖掘丰富而有意义的信息,改善不同类别之间的边界。并且在每个聚类中随机抽取样本作为动态原型,以满足特征的多样性。然而,由于聚类操作不可避免地将错误样本聚类,选择的困难原型或动态原型极有可能不属于当前类别,从而会对模型的特征学习造成干扰。
针对上述USⅥ-ReID方法中存在的不足,本文在现有研究基础上,提出了一种柔性加权原型对比学习方法。首先,设计了一个柔性原型(Soft Prototype, SP)选择策略来挖掘个体全面且正确的信息,指导模型学习更高的鉴别性特征。与传统的对比学习方法不同,柔性原型与质心原型具有较高的相似性且包含自身独特的信息,能够提供更多正监督信号。在此基础上,又设计了一个柔性加权(Soft-Weight, SW)策略,定量地测量所选的柔性原型相对于当前质心原型的相关性,并将柔性加权原型融合到对比学习中,进一步消除错误原型对模型训练的干扰。由于训练初期的聚类结果是不可靠的,因此,最后引入渐进式对比学习(Progressive Contrative Learning, PCL)策略,使模型将注意力逐步转移到柔性原型上。
1. 本文方法
本文提出的方法的框架如图 1所示。首先利用双对比学习(Dual-Contrative Learning, DCL)框架学习模态内判别性,并通过联合模态内对比学习对其进行优化。接着将提出的柔性原型选择与柔性加权策略融入到对比损失中。最后通过渐进式对比学习策略优化网络模型。
1.1 双对比学习
给定一个可见光-红外训练数据集T={Tv, Tr},其中$ {T^{\text{v}}} = \{ x_i^{\text{v}}\} _{i = 1}^{{N_{\text{v}}}} $表示Nv个可见光图像,$ {T^{\text{r}}} = \{ x_i^{\text{r}}\} _{i = 1}^{{N_{\text{r}}}} $表示Nr个红外图像。利用双流主干网络fθ(θ是网络参数)分别提取行人的可见光图像的特征集$ {F^{\text{v}}} = \{ f_i^{\text{v}}\} _{i = 1}^{{N_{\text{v}}}} $和红外图像的特征集$ {F^{\text{r}}} = \{ f_i^{\text{r}}\} _{i = 1}^{{N_{\text{r}}}} $。大多数USⅥ-ReID方法通常使用聚类算法生成伪标签。遵循这一范式,本文使用DBSCAN算法[31]分别为可见光和红外图像生成伪标签:
$$ Y^{\mathrm{v}} =\operatorname{DBSCAN}\left(F^{\mathrm{v}}\right) $$ (1) $$ Y^{\mathrm{r}} =\operatorname{DBSCAN}\left(F^{\mathrm{r}}\right) $$ (2) 在每次训练迭代开始时,通过以下方式计算每个类的表征:
$$ m_i^{\text{v}} = \frac{1}{{|Y_i^{\text{v}}|}}\sum\nolimits_{{f^{\text{v}}} \in Y_i^{\text{v}}} {{f^{\text{v}}}} $$ (3) $$ m_i^{\text{r}} = \frac{1}{{|Y_i^{\text{r}}|}}\sum\nolimits_{{f^{\text{r}}} \in Y_i^{\text{r}}} {{f^{\text{r}}}} $$ (4) 式中:|Yiv|和|Yir|表示第$ i $个类的特征数量。将这些类别表征分别存储在可见光内存库$ {M^{\text{v}}} = \{ m_i^{\text{v}}\} _{i = 1}^{|{Y^{\text{v}}}|} $和红外内存库$ {M^{\text{r}}} = \{ m_i^{\text{r}}\} _{i = 1}^{|{Y^{\text{r}}}|} $中。在训练过程中,通过动量更新策略更新两种模态的内存库:
$$ m_i^{\text{v}} = \lambda m_i^{\text{v}} + (1 - \lambda ){f^{\text{v}}}, \quad {f^{\text{v}}} \in Y_i^{\text{v}} $$ (5) $$ m_i^{\text{r}} = \lambda m_i^{\text{r}} + (1 - \lambda ){f^{\text{r}}}, \quad {f^{\text{r}}} \in Y_i^{\text{r}} $$ (6) 式中:λ~Unif(0, 1)是动量更新速率。将内存库中的表征作为质心原型,通过样本与质心原型的对比学习来优化特征提取器fθ,计算如下:
$$ L_{{\text{DCL}}}^{\text{v}} = - \log \frac{{\exp ({f^{\text{v}}} \cdot m_ + ^{\text{v}}/\tau )}}{{\sum\nolimits_{i = 1}^{|{Y^{\text{v}}}|} {\exp ({f^{\text{v}}} \cdot m_i^{\text{v}}/\tau )} }} $$ (7) $$ L_{{\text{DCL}}}^{\text{r}} = - \log \frac{{\exp ({f^{\text{r}}} \cdot m_ + ^{\text{r}}/\tau )}}{{\sum\nolimits_{i = 1}^{|{Y^{\text{r}}}|} {\exp ({f^{\text{r}}} \cdot m_i^{\text{r}}/\tau )} }} $$ (8) $$ {L_{{\text{DCL}}}} = L_{{\text{DCL}}}^{\text{v}} + L_{{\text{DCL}}}^{\text{r}} $$ (9) 式中:|Yv|和|Yr|代表类别数量;τ是用来控制数据分布的温度参数;m+v(r)代表与查询图像具有相同伪标签的质心原型。DCL损失函数有助于模型学习模态内判别性和不变性特征。
1.2 柔性加权原型对比学习
为了确保原型有效地捕捉到个体的共性和差异性且减缓由于聚类算法引入的错误样本对模型的干扰,本文设计了一种新的柔性加权原型对比学习方法来提供对个体更加全面、精准的了解。其中,柔性原型选择策略利用网络提取的图像特征,根据特征之间的余弦相似度在每个类别中选择前K个最近邻样本作为柔性原型,具体如下:
$$ {(sm_i^v)_j} = NN(m_i^v) = \mathop {\arg \max }\limits_{{f^v} \in Y_i^v} (\cos ({f^v}, m_i^v)) $$ (10) $$ {(sm_i^r)_j} = NN(m_i^r) = \mathop {\arg \max }\limits_{{f^r} \in Y_i^r} (\cos ({f^r}, m_i^r)) $$ (11) 式中:j=1, 2, …, K,特征向量在计算前都进行了归一化。柔性原型选择策略不仅能够考虑到个体的全面性,为模型提供更多的正监督信息,而且选择到的原型有很大概率能够正确代表个体特征。同时,为了进一步消除错误原型对模型训练的干扰,本文提出了一种柔性加权策略,定量地测量所选的K个柔性原型相对于当前质心原型的相关性,具体如下:
$$ w_j^{\text{v}} = {\text{Softmax}}[{(sm_i^{\text{v}})_j} \times {(m_i^{\text{v}})^{\text{T}}}] $$ (12) $$ w_j^{\text{r}} = {\text{Softmax}}[{(sm_i^{\text{r}})_j} \times {(m_i^{\text{r}})^{\text{T}}}] $$ (13) 将选择到的原型通过柔性加权的方式结合到对比损失函数中,得到柔性加权原型对比损失函数:
$$ L_{{\text{SWPCL}}}^{\text{v}} = - \log \frac{{\sum\limits_{i = 1}^K {w_i^{\text{v}} \cdot \exp ({f^{\text{v}}} \cdot {{(sm_ + ^{\text{v}})}_i}/\tau )} }}{{\sum\limits_{i = 1}^K {w_i^{\text{v}} \cdot \exp ({f^{\text{v}}} \cdot {{(sm_ + ^{\text{v}})}_i}/\tau )} + \sum\limits_{j = 1}^{(|{Y^{\text{v}}} - 1|)} {\sum\limits_{k = 1}^K {\exp ({f^{\text{v}}} \cdot {{(sm_j^{\text{v}})}_k}/\tau )} } }} $$ (14) $$ L_{{\text{SWPCL}}}^{\text{r}} = - \log \frac{{\sum\limits_{i = 1}^K {w_i^{\text{r}} \cdot \exp ({f^{\text{r}}} \cdot {{(sm_ + ^{\text{r}})}_i}/\tau )} }}{{\sum\limits_{i = 1}^K {w_i^{\text{r}} \cdot \exp ({f^{\text{r}}} \cdot {{(sm_ + ^{\text{r}})}_i}/\tau )} + \sum\limits_{j = 1}^{(|{Y^{\text{r}}} - 1|)} {\sum\limits_{k = 1}^K {\exp ({f^{\text{r}}} \cdot {{(sm_j^{\text{r}})}_k}/\tau )} } }} $$ (15) $$ {L_{{\text{SWPCL}}}} = L_{{\text{SWPCL}}}^{\text{v}} + L_{{\text{SWPCL}}}^{\text{r}} $$ (16) SWPCL促进灵活和适应性强的学习过程,旨在最大限度地减少样本与其各自的柔性原型之间的差异,而不是严格地将样本与固定的原型或随机选择的原型对齐。
1.3 渐进式对比学习
在初始训练阶段,模型学习到的特征通常不具备良好的判别性,在这个时期引入柔性样本可能会适得其反,将模型优化引向错误的方向。受Shi等人[30]的启发,引入了渐进式对比学习,最终形成了整体损失函数:
$$ {L_{{\text{Total}}}} = \left\{ {\begin{array}{*{20}{l}} {{L_{{\text{DCL}}}}, \;\;\;\;{\text{epoch}} \leqslant {E_{{\text{DCL}}}}} \\ {{L_{{\text{SWPCL}}}}, \;\;{\text{epoch}} > {E_{{\text{DCL}}}}} \end{array}} \right. $$ (17) 式中:EDCL是一个超参数用来决定在DCL阶段训练的epoch次数。
2. 实验
2.1 数据集和评估方法
在两个广泛使用的可见光-红外数据集SYSU-MM01[32]和RegDB[33]上对所提出的方法进行了评估。SYSU-MM01包含22257张可见光和11909张近红外图像,由室内和室外环境中的4台可见光相机和2台红外相机收集。RegDB是一个较小的数据集,由两个对齐的相机(一个可见光和一个红外)收集,它由412个不同身份的行人组成,其中每个身份有10张可见光图像和10张红外图像。
在这两个数据集上采用累积匹配特征(Cumulative Matching Characteristics,CMC),即Rank-k准确率和平均精度均值(mAP)评估本文方法的性能。在SYSU-MM01上,有两种不同的测试设置,包括全搜索(All Search)和室内搜索(Indoor Search)模式。图库由可见光图像组成,查询由全搜索模式下的红外图像组成。对于室内搜索模式,丢弃由可见光的室外场景捕获的图像。RegDB包含两个测试设置,包括可见模式到热模式(Visible to thermal)和热模式到可见模式(Thermal to Visible),并将训练集和测试集随机分割10次,报告总体平均结果。
本文方法使用PyTorch在NVIDIA GeForce RTX 4050上实现,采用AGW[34]中的非局部模块增强网络,该网络利用在ImageNet[35]预训练的ResNet50[36]作为特征提取器来输出2048维特征。在每个训练Epoch中,随机抽样16个行人ID,每个ID抽取16个样本。所有行人图像都被调整为288×144。使用Adam优化器对模型进行训练。权重衰减设置为5e-4,初始学习率为3.5e-4,每20个Epoch衰减到之前值的1/10。前50个Epoch通过与质心原型的对比损失进行训练,然后再用柔性加权原型对比损失训练整个网络50个Epoch。在每个训练Epoch中,使用DBSCAN对每个模态内的图像进行聚类。DBSCAN的最大距离在SYSU上设置为0.6,在RegDB上设置为0.3[25]。在聚类过程中,两个数据集的最少聚类数量设置为4。内存库中的特征更新速率λ为0.1,柔性原型数量K为3,温度因子τ为0.05。
2.2 与其它方法的比较
为了全面评价本文的方法,将其与13种监督式Ⅵ-ReID(SⅥ-ReID)方法和6种无监督式Ⅵ-ReID(USⅥ-ReID)方法进行了比较。在SYSU-MM01与RegDB数据集上的对比结果见表 1。
表 1 SⅥ-ReID和USⅥ-ReID方法在SYSU-MM01和RegDB数据集上结果的比较(所有方法均采用Rank-1(%)和mAP(%)进行度量)Table 1. Comparisons with state-of-the-art methods on SYSU-MM01 and RegDB, including SⅥ-ReID and USⅥ-ReID methods (All methods are measured by Rank-1 (%) and mAP (%))% Settings SYSU-MM01 RegDB All Search Indoor Search Visable to Theamal Thermal to Visable Type Methods Rank-1 mAP Rank-1 mAP Rank-1 mAP Ramk-1 mAP SⅥ-ReID DDAG[17] 54.8 53.0 61.0 68.0 69.4 63.5 68.1 61.8 AGW[34] 47.5 47.7 54.2 63.0 70.1 66.4 70.5 65.9 NFS[37] 56.9 55.5 62.8 69.8 80.5 72.1 78.0 69.8 LbA[9] 55.4 54.1 58.5 66.3 74.2 67.6 72.4 65.5 CAJ[10] 69.9 66.9 76.3 80.4 85.0 79.1 84.8 77.8 MPANet[18] 70.6 68.2 76.7 81.0 83.7 80.9 82.8 80.7 DART[8] 68.7 66.3 72.5 78.2 83.6 75.7 82.0 73.8 FMCNet[4] 66.3 62.5 68.2 74.1 89.1 84.4 88.4 83.9 MAUM[16] 71.7 68.8 77.0 81.9 87.9 85.1 87.0 84.3 DEEN[7] 74.7 71.8 80.3 83.3 91.1 85.1 89.5 83.4 SGIEL[21] 77.1 72.3 82.1 83.0 92.2 86.6 91.1 85.2 PartMix[38] 77.8 74.6 81.5 84.4 85.7 82.3 84.9 82.5 FDNM[39] 77.8 75.1 87.3 89.1 95.5 90.0 94.0 88.7 USⅥ-ReID OTLA[23] 29.9 27.1 29.8 38.8 32.9 29.7 32.1 28.6 ADCA[25] 45.5 42.7 50.6 59.1 67.2 64.1 68.5 63.8 CCLNet[29] 54.0 50.2 56.7 65.1 69.9 65.5 70.2 66.7 PGM[26] 57.3 51.8 56.2 62.7 69.5 65.4 69.9 65.2 GUR[27] 61.0 57.0 64.2 69.5 73.9 70.2 75.0 69.9 PCLMP[30] 64.4 58.7 69.5 74.4 84.3 80.7 82.7 78.4 Ours 66.4 60.1 70.5 75.6 85.7 82.1 84.2 79.8 Note: The bold fonts represent the best in each category 如表 1所示,与最先进的USⅥ-ReID方法相比,本文的方法具有更优越的性能。例如在SYSU-MM01数据集的All Search设置下,本文方法的Rank-1和mAP的性能指标分别为66.4%和60.1%。在其余同等实验设置下,Rank-1和mAP也获得了最好的性能。表 1中提到的现有USⅥ-ReID方法,虽然在行人重识别任务上取得了很大的进步,但忽视了个体信息的多样性以及聚类误差带来的原型选择的错误性,这将会给模型训练引入分歧。因此,渐进式柔性原型对比学习方法不仅能最大概率地选择到具有全面和正确信息的样本作为原型,而且对原型的柔性度量也能减缓错误样本对模型训练的干扰。该方法可以指导模型学习更多的鲁棒性和判别性特征。
与SⅥ-ReID方法的比较,本文提出的方法优于其中一些最近提出的方法,如(Dynamic dual-attentive aggregation,DDAG[17]),(Attention Generalized mean pooling with Weighted triplet loss,AGW[34])和(Neural Feature Search,NFS[37])。这表明与完全依赖数据标注的SⅥ-ReID方法相比,本文方法同样具有巨大的竞争力。这种现象主要得益于柔性度量的原型在对比学习中发挥的作用。必须承认,由于缺乏带注释的跨模态对应,与有监督的方法相比,无监督方法仍有很大的改进空间。
2.3 消融实验
在本节中,对SYSU-MM01数据集进行了全搜索和室内搜索两种模式的消融研究,以展示本文方法中每个组件的有效性,结果如表 2所示。使用PGM[26]作为Baseline。当在Baseline上添加柔性样本SP时,Rank-1和mAP的性能提升明显。原因在于使用柔性原型选择策略可以有效地挖掘个体全面且正确的特征,有利于模型学习更多的判别特征。当再加上柔性加权(SW)策略进一步缓解了错误样本对模型训练的干扰,提升了模型的性能。最后,渐进式对比学习(PCL)策略的引入使模型的注意力从单个质心原型平稳地转移到多个柔性原型上。结果证实了渐进式对比学习在柔性原型的选择中发挥了有价值的作用。
表 2 本文方法在SYSU-MM01上的消融研究Table 2. Ablation studies of our method on SYSU-MM01Methods All search Indoor search Baseline SP SW PCL Rank-1 mAP Rank-1 mAP ✓ 57.2 51.7 56.2 62.7 ✓ ✓ 64.5 57.9 65.8 70.6 ✓ ✓ ✓ 65.9 59.6 68.3 74.5 ✓ ✓ ✓ ✓ 66.4 60.1 70.5 75.6 此外,柔性原型选择策略中,原型数量K是一个重要的参数。在SYSU-MM01数据集上对不同K值做消融实验来评估其对模型性能的影响,结果如图 2所示。当K逐渐增大时,Rank-1不断提升,直到K为3时效果最佳。这证明了SP策略为模型提供了更全面、正确的信息。当K继续增大,Rank-1性能开始下降。其原因在于选择的柔性原型与质心原型的相似度越来越低,对模型的训练造成了一定的干扰。
3. 结论
本文提出了一种基于柔性加权原型对比学习的无监督可见光-红外行人重识别方法。首先,设计了一个柔性原型选择策略来挖掘个体全面且正确的信息,指导模型学习更高的鉴别性特征。在此基础上,又设计了一个柔性加权策略,定量地测量所选的柔性原型相对于当前质心原型的相关性,并将柔性加权原型融合到对比学习中,进一步消除错误原型对模型训练的干扰。最后引入渐进式对比学习策略,使模型将注意力逐步转移到柔性原型上。在SYSU-MM01和RegDB公共数据集上的大量实验证明了所提出的柔性加权原型对比学习方法的有效性。
计量
- 文章访问数: 152
- HTML全文浏览量: 19
- PDF下载量: 14