Soft-Weight Prototype Contrastive Learning for Unsupervised Visible-Infrared Person Re-Identification
-
摘要:
无监督可见光-红外行人重识别(Unsupervised Visible-Infrared Person Re-identification,USⅥ-ReID)是一项非常重要且具有挑战性的任务。USⅥ-ReID的关键挑战是在不依赖任何跨模态标注的情况下有效地生成伪标签并建立跨模态对应。近年来,通过聚类算法生成伪标签的方法在USⅥ-ReID中得到了越来越多的关注。然而,以前的方法只是选择代表个体的单一类中心原型或按照一定的策略随机选择原型来建立跨模态对应。这不仅忽略了个体特征的多样性,也没有考虑聚类过程中错误样本对模型训练的影响。为了解决这个问题,本文提出了一种柔性加权原型对比学习(Soft-Weight Prototype Contrastive Learning, SWPCL)方法。该方法首先设计了一个柔性原型(Soft Prototype, SP)选择策略,根据个体特征之间的相似度选择质心原型的最近邻样本作为柔性原型,为模型提供丰富的正监督信息。为了进一步消除错误原型对模型训练的干扰,提出了一种柔性加权(Soft-Weight, SW)策略,定量地度量所选的柔性原型相对于当前质心原型的相关性, 将选择到的原型通过柔性加权的方式结合到对比学习中。最后,引入了一种渐进式对比学习(Progressive Contrastive Learning, PCL)策略,将模型的注意力逐渐转移到柔性原型上,避免聚类退化。在SYSU-MM01和RegDB两个公共数据集上的大量实验证明了所提出的柔性加权原型对比学习方法的有效性。
Abstract:Unsupervised visible-infrared person re-identification (USⅥ-ReID) is a highly important and challenging task. The key difficulty lies in effectively generating pseudo-labels and establishing cross-modality correspondences without relying on any annotations. Recently, generating pseudo-labels using clustering algorithms has attracted increasing attention in USⅥ-ReID. However, previous methods typically selected a single centroid prototype to represent an individual or randomly selected prototypes based on a fixed strategy for cross-modal correspondence. This approach not only overlooks the diversity of individual characteristics but also fails to account for the negative impact of incorrect samples on model training during clustering. To address these issues, we propose soft-weight prototype contrastive learning (SWPCL). This method first introduces a soft prototype (SP) selection strategy, which selects the nearest neighbor samples of the centroid prototype as the soft prototype based on the similarity between individual features, providing rich positive supervised information to the model. To further eliminate the interference of erroneous prototypes on model training, a soft-weight (SW) strategy is proposed to quantitatively measure the correlation between each selected soft prototype and the corresponding centroid prototype. These prototypes are then integrated into contrastive learning through a soft-weighting mechanism. Finally, a progressive learning strategy is introduced to gradually shift the model's focus toward reliable soft prototypes, thereby avoiding clustering degradation. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed SWPCL method.
-
0. 引言
随着红外技术的发展,红外成像系统具有良好的大气穿透性、天气适应性和抗干扰能力,在工业、农业、军事等领域有着越来越广泛的应用。但系统设计、元器件制作、材料加工等多方面的原因导致红外成像系统无法避免地存在非均匀性噪声[1]。现阶段针对红外图像的非均匀校正算法主要分为3类,分别为基于标定的、基于场景的和基于深度学习的校正算法。
基于标定的校正算法实现简单,常见的有单点校正[2]和两点校正[3]。该类方法基于线性标定校正结果较差。此外,当系统长期工作或环境改变后,需要重新标定并对系统再次校正。
基于场景的校正算法是利用当前帧或之前几帧图像进行非均匀校正。相对于基于标定的算法,该算法具有更好的鲁棒性,解决了重新标定的问题,但仍存在缺陷。如时域高斯滤波算法容易导致“重影”、“鬼影”等问题[4]。此外,基于场景的校正算法大多依靠多帧图像进行校正,算法复杂度较大,难以实现实时校正。
基于深度学习的校正算法是利用生成式卷积神经网络,实现单帧红外图像非均匀校正。如崔健等人[5]利用全卷积神经网络对红外图像实现单帧校正。陆俊杰等人[6]则是结合生成对抗网络的思想,增加判别器,有效提高了算法的校正结果。此类算法鲁棒性较高,且避免了对先验知识的依赖,但其往往需要设计较为复杂的生成模型,整体计算量较大。
为解决现阶段基于深度学习的校正算法复杂度较高的问题,本文提出了一种轻量化红外图像校正算法。该算法首先通过轻量化的下采样模块提取红外图像的特征,然后使用反卷积操作对特征图进行上采样,从而实现红外图像非均匀校正。实验结果表明,该算法能够有效地消除噪声,提高图像质量,并且降低了计算复杂度和内存占用。
1. 非均匀性噪声分析
红外成像系统通过焦平面探测单元接收不同强度的辐射,并将其输出的电信号经过放大、滤波、采样等处理,转换为可视化的灰度图像。探测单元对红外辐射的响应[7]为:
$$ y_{i,j}(n)=A_{i,j}χ_{i,j}(n)+B_{i,j}(n) $$ (1) 式中:χi, j(n)为探测单元的接受到的红外辐射强度;yi, j(n)为对应的输出;Ai, j为像元增益;Bi, j为像元偏置。
受红外成像系统的材料和制作工艺限制,不同探测单元对均匀辐射会产生不同的响应。因此,在放大电路对探测单元响应信号和电路噪声进行放大后,成像结果中会存在明显的条纹噪声,即红外图像非均匀噪声。
2. 轻量化红外图像校正算法设计
2.1 网络结构
本文提出了一种基于Unet模型[8]的轻量化红外图像非均匀校正算法,该算法可分为两个阶段:下采样特征提取阶段对输入的单帧红外图像进行特征提取;上采样图像重建阶段使用反卷积操作对特征图进行图像重建。此外,为了提高网络上下文信息提取的能力,在上采样阶段使用跳跃连接进行特征融合,并在部分跳跃连接中引入改进的通道注意力机制[9]对特征通道权重进行调整。整体网络结构如图 1所示。
在原始Unet网络中,每个下采样模块由卷积层和池化层组成。其中,卷积层包含批归一化和Relu激活函数,实现特征提取;池化层实现特征下采样。为了减少网络参数量和计算量,本文对下采样过程进行轻量化改进,提出了一种轻量化多尺度下采样模块,其结构如图 2所示。
本文针对跳跃连接中的注意力机制进行轻量化改进,改进后结构如图 3所示。该结构首先使用全局平均池化和全局最大池化对尺寸为H×W×C的输入特征图进行通道降维,得到两个1×1×C的通道权重;将两个通道权重拼接后,利用一维卷积实现特征融合和权重调整;最后将通道权重与原始特征图相乘,得到新的特征。
2.2 LMDM结构设计
本文设计的LMDM主要分为3个阶段:下采样阶段、通道重构阶段和多尺度特征提取阶段。
下采样阶段是基于图像中相邻像素具有空间相似性,利用Jiang等人提出的Space_to_depth(STD)算法[10]对图像特征进行下采样。该算法将图像划分为若干个2×2大小的子区域,并将每个子区域中的四个像素按照深度连接方式分配到四个不同通道中,其流程如图 4所示。STD算法可以有效地减小特征图在二维空间上的尺寸,同时增加特征图在三维通道上的数量,并且不会对图像结构特征造成较大损失。
通道重构阶段是利用卷积层对STD的输出特征进行通道压缩和提取特征。该阶段利用1×1卷积层将输出通道数减少到LMDM预定输出通道的1/4。同时使用卷积操作可消除通道间的冗余信息。随后LMDM对重构后的特征进行进一步提取。
多尺度特征提取阶段是基于DSC[11]实现的轻量化设计。DSC是一种轻量化卷积操作,由两步组成:第一步对每个通道的特征图进行深度卷积,得到相应的子图;第二步是将子图拼接后用逐点卷积的方法对不同通道的特征进行线性组合,得到新的特征。图 5展示了深度可分离卷积流程。
多尺度特征提取往往采用并列结构[12],利用不同尺寸的卷积核对特征图进行特征提取,并将输出特征拼接后进行融合降维。为降低复杂度,本文用串联结构实现多尺度特征提取。如图 6所示,使用两个3×3卷积层串联后,输出特征的感受野等同于一个5×5卷积层,并且计算复杂度更低。
综上可知,LMDM利用深度可分离卷积技术使用一个1×1和3个3×3的串联卷积对特征图进行多尺度特征提取,随后将提取后的特征进行拼接获得输出特征,其流程如图 7所示。
2.3 LMDM复杂度分析
对所设计的LMDM进行复杂度分析。假设输入特征图大小为2D×2D×C1,输出特征图大小为D×D×C2。其中,多尺度特征提取阶段实现感受野大小分别为1×1、3×3、5×5和7×7的多尺度特征提取。
首先,STD算法对输入特征进行下采样,并输出D×D×4C1的特征图。该步骤仅对特征进行遍历操作,计算复杂度为:
$$ O(n)_{\rm STD}=4D^{2}$$ (2) 随后,利用1×1的标准卷积层对输出特征进行通道重构获得D×D×C2/4的重构特征,其计算复杂度为:
$$ O(n)_{\rm RE}=D×D×4C_{1}×C_{2}/4×1×1 $$ (3) 紧接着,LMDM使用一个1×1和3个3×3的串联DSC对重构特征进行多尺度特征提取。其中,单次DSC的复杂度计算公式为:
$$ O(n)_{\rm DPC}=O(n)_{\rm Depth}+O(n)_{\rm Point} $$ (4) 当卷积核大小为1×1时,DSC计算复杂度为:
$$ \begin{array}{l} O{\left( n \right)_{{\text{DPC}} - 1 \times 1}} = D \times D \times \frac{{{C_2}}}{4} \times 1 \times 1 + \hfill \\ \quad \quad \frac{{{C_2}}}{4} \times \frac{{{C_2}}}{4} \times 1 = {C_2}\left( {{D^2}/4 + {C_2}/16} \right) \end{array} $$ (5) 同理,卷积核大小选取3×3时,DSC计算复杂度为:
$$ O(n)_{\rm DPC-3×3}=9C_{2}(D^{2}/4+C_{2}/16) $$ (6) 因此多尺度特征提取阶段的计算复杂度为:
$$ O(n)_{\rm Multi}=7C_{2}D^{2}+7C_{2}^{2}/4$$ (7) 最终LMDM总体计算复杂度为:
$$\begin{align} O(n)_{\rm Ours}=&O(n)_{\rm STD}+O(n)_{\rm Re}+O(n)_{\rm Multi}= \\ & 4D^{2}+C_{1}C_{2}D^{2}+7C_{2}D^{2}+7C_{2}^{2}/4 \end{align}$$ (8) 传统下采样模块仅通过卷积层和池化层实现,假设其仅通过一个卷积层进行特征提取,此时计算复杂度为:
$$ O(n)_{\rm Ori}=O(n)_{\rm conv}+O(n)_{\rm pooling}=36C_{1}C_{2}D^{2}+4D^{2} (9) $$ (9) 通过分析可知,相较于传统下采样特征提取模块,本文提出的LMDM复杂度明显降低。此外,LMDM引入了多尺度特征提取,可以获得更多的纹理细节。
2.4 损失函数
针对生成图像的结构、纹理特性,模型选用均方误差作为损失函数,计算公式为:
$$ L = \frac{1}{{mn}}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {{{\left( {{y_{i,j}} - {x_{i,j}}} \right)}^2}} } $$ (10) 式中:m和n分别为图像的宽度和长度;yi, j为理想红外图像像素值;xi, j为输出图像像素值。
为增加生成图像的细节信息并去除小噪声,损失函数引入L1损失,计算公式为:
$$ {L_{{\text{L1}}}}\left( G \right) = {E_{x,y,z}}\left[ {\left\| {y - G\left( {x,z} \right)} \right\|} \right] $$ (11) 最终算法损失函数为:
$$ \text{Loss}=L+λL_{L1}$$ (12) 式中:λ为L1损失函数的系数。
3. 实验设计
3.1 数据集制作
模型训练使用的数据包括公开数据集和团队自主拍摄的数据集。其中,公开数据集有FLIR[13]和LTIR[14],其具有场景多样性和图像质量高的特点。自主拍摄的数据集是基于艾睿光电公司RTD611型红外焦平面阵列研发的长波(8~14 μm)红外探测器采集的真实红外图像。最终,本文从上述数据集中挑选了5000张优质的图像,通过翻转、镜像、裁切等图像增强技术将其扩充至10000张,并按照6:2:2的比例将数据集划分为训练集、测试集和验证集。
本文将数据集图像转换为单通道8位灰度图后,按照1:1的比例裁剪成正方形,并将其大小缩放到256×256。随后为数据集中的图像添加均值为0、标准差在[0.02, 0.10]范围内变化的模拟条纹噪声。
3.2 模型训练
模型搭建和训练基于TensorFlow深度学习框架,具体硬件选择、环境配置和超参数设置如表 1所示。
表 1 模型训练环境Table 1. Model training environmentIndicator Parameters CPU AMD Ryzen7 5800H GPU NVIDIA RTX 3060 RAM size 16G VRAM size 6GB CUDA vision 10.0 Deep learning framework Tensorflow-gpu-2.3.0 Batch size 16 Optimization algorithm Adam Learning rate 0.0001 Decay rate 0.9 3.3 校正效果评价指标
本文从定量评价和定性评价双方面对红外图像的校正结果进行评判。
定性评价主要通过肉眼观察图像的对比度、纹理结构、模糊程度和噪声残留等特征进行判断。此方法受到评价者主观因素的影响较大,缺乏稳定性。
定量评价则是使用客观指标对校正结果进行量化显示,主要评价指标有结构相似性(Structural Similarity, SSIM)[15]和峰值信噪比(Peak Signal to Noise Ratio, PSNR)[16]和粗糙度(Roughness)[17]。
结构相似性计算公式为:
$$ \text{SSIM}(X,Y)=l(X,Y)⋅c(X,Y)⋅s(X,Y)$$ (13) SSIM分别从图像的亮度、对比度和结构3个方面对图像进行评价。SSIM值越大,表明两张图像越相似。l(X, Y)、c(X, Y)和s(X, Y)的计算公式分别为:
$$ l\left( {X,Y} \right) = \frac{{2{\mu _x}{\mu _y} + {C_1}}}{{\mu _x^2 + \mu _y^2 + {C_1}}} $$ (14) $$ c\left( {X,Y} \right) = \frac{{2{\delta _x}{\delta _y} + {C_2}}}{{\delta _x^2 + \delta _y^2 + {C_2}}} $$ (15) $$ s\left( {X,Y} \right) = \frac{{{\delta _{xy}} + {C_3}}}{{{\delta _x}{\delta _y} + {C_3}}} $$ (16) 式中:μx,μy是图像x、y的所有像素平均值;δx,δy是所有像素的标准差值;δxy为对应像素的协方差值,C1、C2、C3为常数,可以避免分母为0。
峰值信噪比计算方法为:
$$ {\text{PSNR}} = 10 \times \lg \left[ {\frac{{{{\left( {{2^n} - 1} \right)}^2}}}{{{\text{MSE}}}}} \right] $$ (17) 式中:n为比特数,MSE为均方差。MSE计算公式为:
$$ {\text{MSE}} = \frac{1}{{mn}}\sum\limits_{i = 0}^{m - 1} {\sum\limits_{j = 0}^{n - 1} {{{\left\| {X\left( {i,j} \right) - Y\left( {i,j} \right)} \right\|}^2}} } $$ (18) 式中:X,Y分别为校正后图像和理想图像;m,n为图像的宽和高。峰值信噪比数值越高,表明非均匀校正校正质量越好。
粗糙度指标是一种不依赖理想图像的质量评价方法,它仅根据当前图像的像素值来计算。粗糙度反映了图像的非均匀程度,数值越小说明非均匀校正效果越好。其计算公式如下:
$$ {\text{Roughness}} = \frac{{{{\left\| {\boldsymbol{h}*\boldsymbol{Y}} \right\|}_1} + {{\left\| {{\boldsymbol{h}^{\text{T}}}*\boldsymbol{Y}} \right\|}_2}}}{{{{\left\| \boldsymbol{Y} \right\|}_1}}} $$ (19) 式中:h为[-1, 1]的水平矩阵;hT为h的转置矩阵;Y为校正后红外图像像素矩阵;*表示矩阵卷积操作。
3.4 对比算法
在实验分析中,本文设计两组对比实验。第一组实验用于分析LMDM的内存占用情况,并与原始Unet网络下采样模块(Conv+Pooling)以及主流轻量级卷积神经网络中的下采样特征提取模块进行对比,包括MobleNetV1[18]、MobileNetV3[19]、ConvNet[20]和GhostNet[21]。第二组实验旨在评估红外图像非均匀校正效果,选取时域高通滤波算法(Bilateral Filter Thermal Handling NUC, BFTH)[22]、条带噪声校正算法(Signal-image-based NUC, DLS)[23]、Unet网络校正算法(Unet)[8]和基于注意力机制的残差多尺度校正算法(Residual Attention Network NUC, RAN)[24]与本文算法进行对比。其中BFTH和DLS算法是目前较为成熟的红外图像非均匀校正算法,RAN算法是2022年最新提出的红外图像校正算法。
4. 实验结果与分析
本文从网络复杂度、定量评价和定性评价3个方面进行对提出的算法校正效果评价。
4.1 网络复杂度分析
为了分析LMDM的内存占用情况,实验使用六种下采样模块对256×256×1的输图像进行特征提取,得到128×128×8的输出特征,并统计各模块的内存占用,结果如表 2所示。
表 2 各网络内存消耗Table 2. Memory consumption of each networkNetwork Weight/kB Feature-map /M LMDM(Ours) 0.3672 1.7500 Unet 0.8476 5.5000 MobleNetV1 0.9883 4.6875 MobileNetV3 1.1875 4.5000 ConvNet 11.5078 21.7500 GhostNet 2.0156 20.5000 表 2显示,LMDM的内存占用最低,其权重占用内存和特征图占用内存分别只有Unet网络下采样模块的43%和32%。
进一步地,为了验证本文提出的LMDM和改进通道注意力机制对网络加速的效果,实验从验证集中随机选取100张图片,分别与原始Unet算法和RAN算法进行了网络内存占用和运行速度的测试分析。测试结果如表 3所示。
表 3 网络校正速度和内存对比Table 3. Network correction speed and memory comparisonAlgorithm Time-consuming of
100 images/sNetwork consumes
memory/MBOurs 2.17 49.82 Unet 3.73 182.36 RAN 2.89 518.85 通过表 3可知,本文提出的算法内存占用相比原始Unet算法降低了70%以上。而RAN算法则消耗内存最多,是本文算法的10倍。在100张图像校正耗时方面,本文提出的算法也表现出最快的单帧处理速度,仅需2.1 s即可完成100张图像的校正,处理速度相比RAN算法提升了24%以上。
通过网络复杂度分析可以证明,LMDM具有较低的内存占用。且基于LMDM和改进注意力机制模块构建的红外校正算法在运行速度和内存占用上均优于其他基于深度学习的校正算法。
4.2 定量评价
为了评价各个算法的校正效果,本文计算了100张验证集图像校正后的SSIM和PSNR指标,并给出了其平均值,如表 4所示。图 8、图 9分别显示了各个算法在验证集上的PSNR和SSIM指标。
表 4 各算法平均PSNR和SSIMTable 4. PSNR and SSIM of each algorithmAlgorithms PSNR SSIM Ours 34.25 0.9230 Unet 34.20 0.9306 BFTH 32.93 0.8285 DLS 34.38 0.8881 RAN 34.51 0.9128 从表 4中可以看出,在验证集上,基于场景的BFTH算法效果最差,RAN算法和Unet算法在PSNR和SSIM两个指标上都有较好的表现。DLS算法的PSNR值较高,但SSIM值较低。本文提出的算法在SSIM上仅略低于Unet算法,在PSNR上优于原始Unet网络。
从图 8和图 9可以看出,在各种红外图像非均匀校正算法的比较中,传统的BFTH算法表现最差,各项指标均低于其他方法,且数值波动幅度大,表明鲁棒性不足。在SSIM方面,各算法的表现则有明显的区别。DLS算法虽然在PSNR上较高,但在SSIM上仅略优于BFTH算法。本文提出的算法与Unet算法相近,在SSIM上均优于其他方法。在PSNR方面,本文提出的算法与Unet、RAN、DLS三种算法相差较小。
本文采用100张真实红外图像验证本文算法在实际红外成像系统中的效果。由于缺少理想红外图像作为参考,采用粗糙度对真实红外图像的校正质量进行定量评价。表 5和图 10分别给出了各算法校正后图像的平均粗糙度和具体数值。从粗糙度的对比可以看出,本文算法在真实红外图像校正方面优于其他算法。
表 5 各算法平均粗糙度指标Table 5. Roughness of each algorithmAlgorithms BFTH DLS RAN Unet Ours Roughness 0.1176 0.1052 0.1052 0.0972 0.0933 综上可知,本文算法在定量评价上优于其他几种校正算法,尤其是在PSNR指标和粗糙度指标上有显著的优势。虽然在SSIM指标上略逊于Unet算法,但差距不大。
4.3 定性评价
为验证本文算法和其他对比算法的校正效果,本文从公开数据集和实验室采集的真实红外图像中选择部分数据进行定性评价。
团队从公开数据集中选取一张结构复杂的建筑图像作为测试图像,其包含丰富的纹理细节和建筑结构信息,以及部分天空背景信息。在该图像上添加模拟非均匀噪声后,得到待校正的红外图像。经过各个算法校正后,结果如图 11所示。从图 11(b)可以看出,BFTH算法不能有效消除低频条纹噪声,并且导致右侧图像模糊和建筑信息缺失。DLS算法去除了大部分噪声,但是右侧出现网格状伪影,并且树木纹理不完整。RAN算法较好地去除了噪声,但是仍有残留,并且图像纹理信息不清晰。Unet算法和本文提出的算法均能干净地消除噪声,并且保持了较好的建筑结构和树叶纹理。
随后,为了验证各类算法在实际红外成像系统中的应用效果,团队使用实验室自主研发的红外成像系统进行非均匀校正算法测试,结果如图 12所示。其中,图 12(a)为红外成像系统获取的原始图像,可以看出该图像存在明显的条纹噪声。经过BFTH算法校正后,部分噪声被去除,但是图像过度平滑,草地纹理模糊不清,并且仍有残留噪声。DLS算法校正结果中出现网格状伪影,且图像对比度增强,部分区域亮度变化明显。RAN算法校正后,大部分噪声被消除,但是仍有明显条纹噪声和少量残留噪声。Unet算法非均匀噪声消除表现良好,并且较好地复原草地、树叶等信息。本文提出的算法校正效果如图 12(f)所示,其同样有效实现了非均匀噪声消除,并较好地保留了图像纹理信息。
通过定性评价可知,在红外图像测试上可知其校正结果已经较好地消除条纹噪声,且有效地保留了图像原始的纹理细节,噪声残留较少且未引入新的噪声。
5. 结论
本文提出了一种基于轻量化多尺度下采样网络的红外图像非均匀校正算法。LMDM采用STD算法下采样特征,并用多个DSC串联提取多尺度特征。同时,本文对通道注意力机制进行改进,利用全局平均池化和全局最大池化压缩通道,并用一维卷积学习通道权重,既降低了计算复杂度,又增强了网络的特征区分能力。实验结果表明,本文提出的算法校正后的图像具有良好的PSNR、SSIM和粗糙度指标。校正后的红外图像细节清晰、结构完整,有效地去除了噪声。此外,该算法在内存占用和处理速度上优于现有的深度学习算法,在保证校正效果的同时,实现了网络轻量化。
-
表 1 SⅥ-ReID和USⅥ-ReID方法在SYSU-MM01和RegDB数据集上结果的比较(所有方法均采用Rank-1(%)和mAP(%)进行度量)
Table 1 Comparisons with state-of-the-art methods on SYSU-MM01 and RegDB, including SⅥ-ReID and USⅥ-ReID methods (All methods are measured by Rank-1 (%) and mAP (%))
% Settings SYSU-MM01 RegDB All Search Indoor Search Visable to Theamal Thermal to Visable Type Methods Rank-1 mAP Rank-1 mAP Rank-1 mAP Ramk-1 mAP SⅥ-ReID DDAG[17] 54.8 53.0 61.0 68.0 69.4 63.5 68.1 61.8 AGW[34] 47.5 47.7 54.2 63.0 70.1 66.4 70.5 65.9 NFS[37] 56.9 55.5 62.8 69.8 80.5 72.1 78.0 69.8 LbA[9] 55.4 54.1 58.5 66.3 74.2 67.6 72.4 65.5 CAJ[10] 69.9 66.9 76.3 80.4 85.0 79.1 84.8 77.8 MPANet[18] 70.6 68.2 76.7 81.0 83.7 80.9 82.8 80.7 DART[8] 68.7 66.3 72.5 78.2 83.6 75.7 82.0 73.8 FMCNet[4] 66.3 62.5 68.2 74.1 89.1 84.4 88.4 83.9 MAUM[16] 71.7 68.8 77.0 81.9 87.9 85.1 87.0 84.3 DEEN[7] 74.7 71.8 80.3 83.3 91.1 85.1 89.5 83.4 SGIEL[21] 77.1 72.3 82.1 83.0 92.2 86.6 91.1 85.2 PartMix[38] 77.8 74.6 81.5 84.4 85.7 82.3 84.9 82.5 FDNM[39] 77.8 75.1 87.3 89.1 95.5 90.0 94.0 88.7 USⅥ-ReID OTLA[23] 29.9 27.1 29.8 38.8 32.9 29.7 32.1 28.6 ADCA[25] 45.5 42.7 50.6 59.1 67.2 64.1 68.5 63.8 CCLNet[29] 54.0 50.2 56.7 65.1 69.9 65.5 70.2 66.7 PGM[26] 57.3 51.8 56.2 62.7 69.5 65.4 69.9 65.2 GUR[27] 61.0 57.0 64.2 69.5 73.9 70.2 75.0 69.9 PCLMP[30] 64.4 58.7 69.5 74.4 84.3 80.7 82.7 78.4 Ours 66.4 60.1 70.5 75.6 85.7 82.1 84.2 79.8 Note: The bold fonts represent the best in each category 表 2 本文方法在SYSU-MM01上的消融研究
Table 2 Ablation studies of our method on SYSU-MM01
Methods All search Indoor search Baseline SP SW PCL Rank-1 mAP Rank-1 mAP ✓ 57.2 51.7 56.2 62.7 ✓ ✓ 64.5 57.9 65.8 70.6 ✓ ✓ ✓ 65.9 59.6 68.3 74.5 ✓ ✓ ✓ ✓ 66.4 60.1 70.5 75.6 -
[1] GE W, PAN C, WU A, et al. Cross-camera feature prediction for intra-camera supervised person re-identification across distant scenes[C]//Proceedings of the 29th ACM International Conference on Multimedia, 2021: 3644-3653.
[2] FU Y, WEI Y, WANG G, et al. Self-similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 6112-6121.
[3] GUO J, YUAN Y, HUANG L, et al. Beyond human parts: Dual part-aligned representations for person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 3642-3651.
[4] ZHANG Q, LAI C, LIU J, et al. Fmcnet: Feature-level modality compensation for visible-infrared person re-identification[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 7349-7358.
[5] 杨瑞宇, 吕浩, 龚晓霞, 等. 红外成像系统中自动对焦功能优化方法研究[J]. 红外技术, 2020, 42(10): 940-946. http://hwjs.nvir.cn/article/id/hwjs202010004 YANG Ruiyu, LYV Hao, GONG Xiaoxia, et al. Optimizing method of autofocusing function in infrared imaging system[J]. Infrared Technology, 2020, 42(10): 940-946. http://hwjs.nvir.cn/article/id/hwjs202010004
[6] YANG B, CHEN J, YE M. Top-k visual tokens transformer: Selecting tokens for visible-infrared person re-identification[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.
[7] ZHANG Y, WANG H. Diverse embedding expansion network and low-light cross-modality benchmark for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 2153-2162.
[8] YANG M, HUANG Z, HU P, et al. Learning with twin noisy labels for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 14308-14317.
[9] Park H, Lee S, Lee J, et al. Learning by aligning: Visible-infrared person re-identification using cross-modal correspondences[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 12046-12055.
[10] YE M, RUAN W, DU B, et al. Channel augmented joint learning for visible-infrared recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 13567-13576.
[11] WANG G, ZHANG T, CHENG J, et al. RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 3623-3632.
[12] YANG Y, ZHANG T, CHENG J, et al. Cross-modality paired-images generation and augmentation for RGB-infrared person re-identification[J]. Neural Networks, 2020, 128: 294-304. DOI: 10.1016/j.neunet.2020.05.008
[13] LI D, WEI X, HONG X, et al. Infrared-visible cross-modal person re-identification with an x modality[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 4610-4617.
[14] ZHANG Y, YAN Y, LU Y, et al. Towards a unified middle modality learning for visible-infrared person re-identification[C]//Proceedings of the 29th ACM International Conference on Multimedia, 2021: 788-796.
[15] WEI Z, YANG X, WANG N, et al. Syncretic modality collaborative learning for visible infrared person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 225-234.
[16] LIU J, SUN Y, ZHU F, et al. Learning memory-augmented unidirectional metrics for cross-modality person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 19366-19375.
[17] YE M, SHEN J, J. Crandall D, et al. Dynamic dual-attentive aggregation learning for visible-infrared person re-identification[C]//Computer Vision–ECCV, 2020: 229-247.
[18] WU Q, DAI P, CHEN J, et al. Discover cross-modality nuances for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 4330-4339.
[19] SUN H, LIU J, ZHANG Z, et al. Not all pixels are matched: Dense contrastive learning for cross-modality person re-identification[C]// Proceedings of the 30th ACM International Conference on Multimedia, 2022: 5333-5341.
[20] FANG X, YANG Y, FU Y. Visible-infrared person re-identification via semantic alignment and affinity inference[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 11270-11279.
[21] FENG J, WU A, ZHENG W S. Shape-erased feature learning for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 22752-22761.
[22] LIANG W, WANG G, LAI J, et al. Homogeneous-to-heterogeneous: Unsupervised learning for RGB-infrared person re-identification[J]. IEEE Transactions on Image Processing, 2021, 30: 6392-6407. DOI: 10.1109/TIP.2021.3092578
[23] WANG J, ZHANG Z, CHEN M, et al. Optimal transport for label-efficient visible-infrared person re-identification[C]//European Conference on Computer Vision, 2022: 93-109.
[24] DAI Z, WANG G, YUAN W, et al. Cluster contrast for unsupervised person re-identification[C]//Proceedings of the Asian Conference on Computer Vision, 2022: 1142-1160.
[25] YANG B, YE M, CHEN J, et al. Augmented dual-contrastive aggregation learning for unsupervised visible-infrared person re-identification[C]// Proceedings of the 30th ACM International Conference on Multimedia, 2022: 2843-2851.
[26] WU Z, YE M. Unsupervised visible-infrared person re-identification via progressive graph matching and alternate learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 9548-9558.
[27] YANG B, CHEN J, YE M. Towards grand unified representation learning for unsupervised visible-infrared person re-identification[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 11069-11079.
[28] YANG B, CHEN J, CHEN C, et al. Dual Consistency-Constrained Learning for Unsupervised Visible-Infrared Person Re-Identification[J]. IEEE Transactions on Information Forensics and Security, 2023(19): 1767-1779.
[29] CHEN Z, ZHANG Z, TAN X, et al. Unveiling the power of clip in unsupervised visible-infrared person re-identification[C]//Proceedings of the 31st ACM International Conference on Multimedia, 2023: 3667-3675.
[30] SHI J, YIN X, WANG Y, et al. Progressive Contrastive Learning with Multi-Prototype for Unsupervised Visible-Infrared Person Re-identification[J]. arXiv preprint arXiv: 2402.19026, 2024.
[31] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//KDD, 1996, 96(34): 226-231.
[32] WU A, ZHENG W S, YU H X, et al. RGB-infrared cross-modality person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 5380-5389.
[33] Nguyen D T, Hong H G, Kim K W, et al. Person recognition system based on a combination of body images from visible light and thermal cameras[J]. Sensors, 2017, 17(3): 605. DOI: 10.3390/s17030605
[34] YE M, SHEN J, LIN G, et al. Deep learning for person re-identification: A survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(6): 2872-2893.
[35] DENG J, DONG W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on Computer Vision and Pattern Recognition. IEEE, 2009: 248-255.
[36] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[37] CHEN Y, WAN L, LI Z, et al. Neural feature search for rgb-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 587-597.
[38] KIM M, KIM S, Park J, et al. Partmix: Regularization strategy to learn part discovery for visible-infrared person re-identification[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 18621-18632.
[39] ZHANG Y, LU Y, YAN Y, et al. Frequency domain nuances mining for visible-infrared person re-identification[J]. arXiv preprint arXiv: 2401. 02162, 2024.
-
期刊类型引用(1)
1. 刘广潆. 激光式可燃气体探测器在天然气站场的应用. 石油化工自动化. 2020(01): 83-85 . 百度学术
其他类型引用(0)