基于高光谱成像技术的涂抹掩盖字迹识别方法研究

王鸣久, 代雪晶, 汤澄清, 卢兆一

王鸣久, 代雪晶, 汤澄清, 卢兆一. 基于高光谱成像技术的涂抹掩盖字迹识别方法研究[J]. 红外技术, 2023, 45(1): 56-63.
引用本文: 王鸣久, 代雪晶, 汤澄清, 卢兆一. 基于高光谱成像技术的涂抹掩盖字迹识别方法研究[J]. 红外技术, 2023, 45(1): 56-63.
WANG Mingjiu, DAI Xuejing, TANG Chengqing, LU Zhaoyi. Research on Identification Method of Covered Handwriting Based on Hyperspectral Imaging Technology[J]. Infrared Technology , 2023, 45(1): 56-63.
Citation: WANG Mingjiu, DAI Xuejing, TANG Chengqing, LU Zhaoyi. Research on Identification Method of Covered Handwriting Based on Hyperspectral Imaging Technology[J]. Infrared Technology , 2023, 45(1): 56-63.

基于高光谱成像技术的涂抹掩盖字迹识别方法研究

基金项目: 

公安部科技强警基础工作专项项目 2016GABJC06

详细信息
    作者简介:

    王鸣久(1983-),男,讲师,主要研究方向为公安图像技术,E-mail:396105061@qq.com

    通讯作者:

    代雪晶(1970-),女,教授,主要研究方向为公安图像技术,E-mail:1210724331@qq.com

  • 中图分类号: DF794.2

Research on Identification Method of Covered Handwriting Based on Hyperspectral Imaging Technology

  • 摘要: 在刑事案件和民事案件中,许多重要文件中的签名、日期、数字等字迹常常被有意涂抹而掩盖其真实信息,因而无法作为证据使用。因此,开展高光谱成像技术(450~950 nm)快速无损显现涂抹掩盖字迹十分必要。涂抹掩盖字迹中,黑色签字笔作为书写及涂抹工具占多数,因此从21种黑色签字笔中随机选取两种进行相互涂抹作为样本。同时,选取墨水中含有碳元素和不含有碳元素的黑色签字笔各两支,用同一支笔书写字迹并进行涂抹掩盖作为样本。实验结果表明,用高光谱成像技术在450~950 nm波长范围内进行显现肉眼无法辨别的涂抹掩盖字迹,大部分被涂抹掩盖的字迹能够得到完整、清晰的显现,反映出被掩盖字迹的真实形态与信息,具有良好的显现效果。部分显现效果不佳,原书写字迹细节特征残缺,但能识别出原字迹,还有少部分较为模糊,无法达到检验要求。而使用传统红外显现方法时,大部分涂抹掩盖字迹难以显现。
    Abstract: In criminal and civil cases, signatures, dates, numbers, and other handwritings of several important documents are deliberately covered to conceal the real information such that they cannot be used as evidence. Therefore, it is necessary to study the feasibility of hyperspectral imaging technology (approximately 450–950 nm) for rapid and non-destructive identification of covered handwriting. Black handwriting pens are mostly used such that two pens are randomly selected from 21 kinds of black handwriting pens to cover each other as samples. Simultaneously, two kinds of black handwriting pens with carbon in the ink and two kinds of black handwriting pens without carbon in the ink are selected, and the same pen is used to write and cover by itself as a sample. The experimental results show that most of the covered handwriting can be completely and clearly identified using hyperspectral imaging technology in the band of approximately 450–950 nm with the real shape and information, which has a good effect. Part of the identification effect is not good, and the details of the original handwriting are incomplete, but the original handwriting can be recognized. In addition, few parts are blurred, which cannot meet the identification requirements. However, most of the covered handwriting is difficult to develop using the traditional infrared method.
  • 图像融合是一种重要的图像处理技术。旨在通过特定的特征提取和特征融合生成一幅包含源图像互补信息的图像。目前融合算法被广泛应用于自动驾驶、视觉跟踪和医学图像增强等领域。在图像处理领域,红外和可见光图像的融合也是图像融合的研究热点,红外图像中包含热辐射信息,但由于红外成像传感器的特性,采集的红外图像中纹理细节信息不明显。而可见光图像中包含大量细节纹理信息,但是没有热辐射信息,融合后的图像包含二者的互补信息,有利于人类的视觉感知。

    现有的融合方法大致可分为两类,传统方法和基于深度学习的方法。常用的传统融合方法包括:基于梯度转移的图像融合[1](gradient transfer fusion,GTF);基于显著性检测的图像融合方法[2](Two-scale Image Fusion,TIF);基于各向异性扩散和Karhunen-Loeve变换[3]的融合方法(Anisotropic Diffusion Fusion,ADF);基于卷积稀疏表示[4](Convolutional Sparse Representation, CSR)的图像融合方法;基于高斯滤波和双边滤波混合多尺度分解[5]的图像融合方法等。这些方法虽然都取得了较好的结果,但都需要手工设计繁琐的特征提取和融合规则,且泛化能力不强,当融合图像复杂时融合性能下降。

    近年深度学习在图像融合任务中有不错的表现。研究学者们提出了很多相关模型。按网络结构来区分可以分为自编码器和端到端两种。Prabhakar等提出DeepFuse[6]融合方法,采用卷积神经网络来提取两幅YCbCr图像中Y通道的特征,然后将所提取的特征相加再经过卷积神经网络得到融合后的Y通道,Cb、Cr通道通过加权融合得到,最后将YCbCr图像转换成RGB图像得到融合结果。Zhang等提出IFCNN[7](Image Fusion based on Convolutional Neural Network)是一种自编码器结构的网络。该方法采用卷积神经网络分别提取两幅源图像的特征,之后通过一定的融合规则将所得到的特征融合,融合后的特征经过卷积神经网络重建出融合图像。

    此外,研究者还提出端到端的深度学习融合框架,并取得不错的效果。Xu等提出U2Fusion[8](Unified Unsupervised image Fusion Network)融合算法,通过特征提取和信息测量,自动估计特征对应源图像的重要性,得到了较好的融合效果。Li等提出RFN-Fuse[9](Residual Fusion Network)同样是一种端到端的图像融合方法,先用训练好的编码器提取图像特征,然后输入进融合网络融合特征,再由解码器重建图像。Ma等提出FusionGAN[10](Generative Adversarial Network),一种端到端的方法,将生成对抗网络应用于图像融合,通过构建一个生成器和一个鉴别器使二者相互博弈,迫使生成器生成包含两幅源图像信息的融合图像。Fu等提出PerceptionGAN[11](GAN consistent with perception)通过将可见光图像连接到网络中的不同深度,使融合结果更接近人类的视觉感知,但其结果中红外图像信息较少。此外,基于GAN的方法也有其他研究学者提出[12-14]。由于端到端方法存在生成结果模糊、细节保存较少、如果没有很好的约束和大量的训练数据,融合性能并不佳等问题,本文采用自编码器策略。

    以上方法忽略了编解码过程中的特征通道注意力信息,并且长距离语义信息没有被充分利用。因此本研究在网络中应用注意力机制和Swin-Transformer来缓解这一问题。此外,现有的方法通常只考虑可见光图像的背景信息和红外图像的目标亮度信息,而红外图像的背景亮度信息通常被忽略,导致红外图像中的部分背景信息细节丢失。充分利用红外亮度信息会使背景更加清晰。红外图像的梯度信息也有助于生成更加清晰的图像。因此,一个新的混合特征聚合被提出来融合特征,其中包含红外亮度增强模块和纹理细节增强模块。红外亮度增强模块不仅可以增强红外目标信息,还保留了红外图像中部分背景的亮度。细节保留模块通过梯度算子提取特征图的梯度边缘信息。特征聚合中还加入了注意力机制来融合特征,能够保留更多细节。本文提出一种新的融合方法,主要贡献如下:

    1)提出一种注意力巢连接网络,充分利用多尺度分解和图像重建过程中的注意力信息。

    2)在解码器中采用Swin-transformer提取图像特征的长距离依赖。增强模型特征提取能力。

    3)提出了一种新的混合红外特征增强、纹理细节增强和注意力的特征聚合模块。可以充分保留来自源图像的亮度与细节信息。

    4)实验结果表明,所提方法能够更清晰地融合红外和可见光图像,融合结果中的纹理和细节信息更多。与现有的融合方法相比,本文提出的融合框架在公开数据集上的主观视觉评价和客观评价均表现出更好的融合性能。

    随着深度学习被广泛应用于图像融合领域,很多基于深度学习的方法被提出。这些方法大致分为两类,一是端到端的全神经网络,二是深度学习与手工设计融合规则相结合的方法。本章首先介绍几种经典的深度学习图像融合方法。

    注意力机制被广泛应用于神经网络中。Hu等人从通道维度入手提出一种通道注意力机制[15],该机制可以对特征进行校正,校正后的特征可以保留有价值的特征,剔除没价值的特征。Li等人提出CSpA-DN[16]网络将自注意力机制与DenseNet[17]结合,该方法为端到端的融合方法,大致分为3个部分:编码网络、注意力网络和解码网络,编码网络的目的是提取两幅源图像的特征,注意力网络对特征进行校正,解码网络重建图像。该网络采用类似DenseNet设计具有密集短连接结构,可以很好地传递特征图,减轻梯度消失,在一定程度上减少了参数量,并且在PET和MRI融合任务中取得了不错的效果。Li等提出了一种结合深度学习和手工设计融合规则的方法DenseFuse[18]。该方法采用两阶段的融合方法,首先训练一个编码和解码网络,源图像经过编码器提取特征,之后将所得特征相加,最后融合后的特征图经过解码网络重建得到融合图像。这些方法都没有充分利用特征图的多尺度信息,并且融合策略相对简单。

    其中具有多尺度结构的模型在处理图像任务时有不错的表现。Zhou等人提出了Unet++[19],用于图像分割。Unet++在不同尺度的Unet网络上探索并且把这些不同尺度的Unet嵌套在一起并使用跳跃连接组合成一个新的巢连接网络。Li等设计了NestFuse[20]网络采用巢连接结构,包含一个下采样和上采样过程,能够提取图像的深度特征信息。首先,训练一个提取多尺度信息的编码网络和一个对应的解码网络,在训练过程中没有融合阶段,只有编码解码过程。然后,使用设计的融合策略将编码器提取的每个尺度的特征进行融合。最后,由解码器重建图像并取得了较好的效果。然而,在编解码过程中,该方法并未考虑每个特征图的重要程度。因此,本文提出一种基于注意力的巢连接网络。由于注意力机制能够对特征图进行筛选,将其引入融合模型,充分利用各尺度的通道注意力信息,增强融合性能。

    本章将详细介绍基于注意力机制和巢网络的融合模型,并介绍模型的细节以及特征聚合模块。融合方法的总体框图如图 1

    图  1  本文融合方法的网络结构
    Figure  1.  Network architecture of the fusion method in this paper

    本文提出的融合方法主融合框架如图 1所示。其中EB为编码器、FA为特征聚合、DB为解码器。本节主要介绍编码器、解码器,特征聚合在2.2节中详细介绍。

    现有的U型网络存在相同尺度上卷积层不深导致特征未充分利用的问题,为了缓解这个问题,本文采用巢连接策略,在同一尺度之间增加卷积层,并使用跳跃连接,在不同尺度之间采用上采样连接,来充分利用特征。由于卷积只关注局部的纹理特征没有充分利用长程语义依赖,因此本研究在网络中使用Swin-transformer来提取长距离依赖如图 1所示。Swin-transformer相比于传统的Transformer有更低的计算量和更强的特征提取能力,其结构如图 2所示。

    图  2  基于Swin transformer的解码块
    Figure  2.  The decoding block based on Swin transformer

    编码器由4个卷积块组成,如图 3(a)所示,其中Conv表示卷积层,用来提取图像的浅层特征信息。在编码器中,每个卷积块都包括一个2×2的池化层,对特征图进行下采样。图 3(a)中EB代表一个卷积块,其结构如图 3(b)

    图  3  编码器及编码器中的卷积块结构
    Figure  3.  Encoder and the structure of convolutional block in encoder

    在编码阶段,图像先经过一个输出通道数为16的卷积层,再依次经过EB10,输出通道数为64,分辨率大小为224×224。EB20输出通道数为112,分辨率为112×112。EB30输出通道数为160,分辨率大小为56×56,EB40输出通道数为208,分辨率大小为28×28。参数如表 1所示。

    表  1  编码器和解码器网络参数
    Table  1.  Encoder and decoder network parameters
    Layer Input channel Output channel Resolution
    Encoder Conv 1 16 224×224
    EB10 16 64 224×224
    EB20 64 112 112×112
    EB30 112 160 56×56
    EB40 160 208 28×28
    Decoder DB31 368 160 56×56
    DB21 272 112 112×112
    DB22 384 112 112×112
    DB11 176 64 224×224
    DB12 240 64 224×224
    DB13 304 64 224×224
    Conv 64 1 224×224
    下载: 导出CSV 
    | 显示表格

    编码过程表达式如(1)~(4)所示:

    $$\mathit{\Phi }_1=\mathrm{EB}_1\left(F_{\mathrm{ATT}}(\operatorname{Conv}(I))\right)$$ (1)
    $$\mathit{\Phi }_2=\mathrm{EB}_2\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_1\right)\right)$$ (2)
    $$\mathit{\Phi }_3=\mathrm{EB}_3\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_2\right)\right)$$ (3)
    $$\mathit{\Phi }_4=\mathrm{EB}_4\left(F_{\mathrm{ATT}}\left(\mathit{\Phi }_3\right)\right)$$ (4)

    式中:IΦ分别表示输入图像和多尺度特征;EBm(⋅)表示多尺度特征提取函数;m表示多尺度层数m∈1, 2, 3, 4。Φm表示各尺度所得特征图。Conv(⋅)表示卷积层。

    巢连接网络没有筛选特征能力不能突出重要特征,为了提升网络提取特征能力,本文在多尺度网络结构中加入注意力机制,为每个尺度的特征图增加一个权重。本文采用的注意力计算方法如下。对每个特征图取平均池化操作,将得到的结果组成一个特征向量。计算单个H×W特征图对应的公式如(5)所示:

    $$ {F_{{\text{ATT}}}} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {u(i,j)} } $$ (5)

    式中:ij为像素坐标;u(⋅, ⋅)为平均池化操作。对通道数为C的特征图按通道进行FATT(⋅)操作,得到1×C维的特征向量。如图 2(b)中所示,使用线性层将所得特征向量的维度压缩,经过激活函数,其目的是增加网络的非线性,拟合通道之间的相关性。经过第一个线形层后维度变为原来的1/N,本文中N=16。之后,再用线性层将特征向量扩展到与原特征图的通道数相同的维度。所得特征向量经过Sigmoid函数之后得到与特征图通道数维数一致的权重向量,最后与原特征图相乘。

    将图像融合过程中部分特征图可视化,如图 3所示,输入为TNO数据集[21]中的可见光图像。每对图像的左右两幅图片分别为经过注意力机制前后的特征图。可以看出注意力机制能够将模糊的特征弱化,这些特征对重建图像纹理和细节的保留的重要性相对较小。图 4为解码器中DB21卷积块中特征图可视化结果,可视化结果表明注意力机制能够为各通道分配权重,突出重要信息。

    图  4  4对经过注意力模块前后的特征图
    Figure  4.  Four pairs of feature maps before and after the attention module

    红外和可见光图像分别经过编码器后使用特征聚合FA得到融合特征:

    $$\mathit{\Phi }_f^m=\mathrm{FA}\left(\mathit{\Phi }_1^m, \mathit{\Phi }_2^m\right)$$ (6)

    式中:FA(⋅)为特征聚合模块,具体如2.2节所示。Φ1mΦ2m分别为输入源图像的多尺度特征,m表示多尺度层数。将Φfm输入到解码器中得到最终的融合图像。

    解码阶段网络参数与编码阶段相对应。具体参数设置如表 1所示。解码器由6个DB卷积块组成,如图 5所示,用于重建融合图像,解码器的4个输入与编码器4个卷积块相对应。其中DB11和DB12由Swin-transformer块组成如图 2(a)所示,每个Swin-transformer块由7层不同尺度的Swin-transformer层组成,每个Swin-transformer层如图 2(b)所示。

    图  5  解码器网络结构
    Figure  5.  Network structure of decoder

    编码阶段和解码阶段的卷积块不完全相同。解码阶段的卷积块由两个卷积层、一个池化层和一个注意力模块组成,注意力模块与图 2(b)中所示的结构相同。如图 5所示。其中第二个卷积层的核大小为1×1,用来匹配维度。解码阶段没有用于下采样的池化层,其余卷积层保持不变。特征图上采样后拼接到同尺度特征中。

    大多数特征融合都是基于加权平均算子生成一个加权图来融合源图像。基于这一理论,权重图的选择成为一个关键问题。而现有的方法忽略了红外图像中的背景亮度信息及红外图像的梯度信息,为此在本研究中设计了红外特征增强模块保留更多红外亮度信息,并且从两幅源图像中分别提取梯度信息,同时混合基于注意力机制[20]的特征聚合,达到保留更多细节的目的。如图 6所示。在网络训练完成后,测试时将特征聚合加入到网络中,两副原图像经过编码器后得到多尺度特征Φ1mΦ2m,通过l1-norm和Soft-max算子计算得到的权重映射β1mβ2m权重图由公式(7)表示:

    图  6  特征聚合框架
    Figure  6.  The framework of feature aggregation
    $$ \beta _k^m(x,y) = \frac{{{{\left\| {\mathit{\Phi } _k^m(x,y)} \right\|}_1}}}{{\sum\nolimits_{i = 1}^k {{{\left\| {\mathit{\Phi } _i^m(x,y)} \right\|}_1}} }} $$ (7)

    式中:||⋅||1表示L1范数;k∈1, 2。(x, y)表示多尺度深度特征(Φ1mΦ2m)和权重图(β1mβ2m)中对应的位置,每个位置表示深度特征中的一个C维向量。Φkm(x, y)表示一个C维的向量。

    $ \hat{\mathit{\Phi }} _1^m $和$ \hat{\mathit{\Phi }} _2^m $表示用β1mβ2m加权的增强深度特征。增强特征$ \hat{\mathit{\Phi }} _k^m $通过公式(8)计算:

    $$ \hat{\mathit{\Phi }} _k^m(x,y) = \beta _k^m(x,y) \times \mathit{\Phi } _k^m(x,y) $$ (8)

    然后通过这些增强的深度特征计算出融合特征$\hat{\mathit{\Phi }} _f^m$,公式如公式(9)所示:

    $$ \hat{\mathit{\Phi }} _f^m(x,y) = \sum\limits_{i = 1}^2 {\hat{\mathit{\Phi }} _i^m(x,y)} $$ (9)

    现有方法中特征聚合大都只考虑空间信息。然而,深度特征是三维张量。因此,特征聚合中不仅要考虑空间维度信息,还要考虑通道信息。通道注意力特征计算过程与空间注意力特征计算过程大致相同,如图 6。利用通道注意力模块计算后的结果是一个一维向量,各个值为对应通道的权重。特征聚合输入特征图的权重向量α1mα2m由公式(10)计算得出。

    $$ \bar \alpha _k^m(n) = P(\mathit{\Phi } _k^m(n)) $$ (10)

    式中:n为输入特征中的通道数;P(⋅)为全局池化。全局池化方法是通过每个通道的奇异值求和得到。奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。

    然后,使用Soft-max函数计算得到最终的加权向量α1mα2m如公式(11):

    $$ \alpha _k^m(n) = \frac{{\bar \alpha _k^m(n)}}{{\sum\nolimits_{i = 1}^2 {\bar \alpha _i^m(n)} }} $$ (11)

    最后通道注意力模块的融合特征$ \tilde{\mathit{\Phi }} _f^m $由式(12)计算得到:

    $$ \tilde{\mathit{\Phi }} _f^m(n) = \sum\nolimits_{i = 1}^2 {\alpha _i^m(n)} \times \mathit{\Phi } _i^m(n) $$ (12)

    两幅源图像分别计算空间注意力和通道注意力得到结果和$ \hat{\mathit{\Phi }} _{\text{s}}^m $、$ \tilde{\mathit{\Phi }} _{\text{c}}^m $。m表示多尺度深度特征的层次。

    在所提特征聚合中对两幅图像分别进行梯度特征提取得到梯度权重图,如公式所示:

    $$ \varepsilon _k^m(x,y) = \frac{{S({{\left\| {\mathit{\Phi } _k^m(x,y)} \right\|}_1})}}{{\sum\nolimits_{i = 1}^2 {S({{\left\| {\mathit{\Phi } _i^m(x,y)} \right\|}_1})} }} $$ (13)

    式中:S(⋅)代表Sobel函数用于提取特征图的梯度特征。

    红外特征增强模块首先将红外特征通过分割的方法分离出来,如公式:

    $$ \eta _k^m(x,y) = \gamma \times {\text{seg}}(\mathit{\Phi } _{{\text{ir}}}^m(x,y)) $$ (14)

    式中:seg(⋅)为阈值分割函数,其阈值根据背景和红外目标像素值的最大类间方差获得。γ为平衡权重,在本文中设置为0.3。

    $$\breve{\mathit{\Phi }}_{\mathrm{E}}^m(x, y)=\varepsilon_k^m(x, y) \times \eta_k^m(x, y)$$ (15)

    最终的注意力融合特征Φfm由公式(16)计算得到。

    $$\mathit{\Phi }_{\mathrm{f}}^m=\frac{1}{3}\left(\hat{\mathit{\Phi }}_{\mathrm{s}}^m+\tilde{\mathit{\Phi }}_{\mathrm{c}}^m+\breve{\mathit{\Phi }}_{\mathrm{E}}^m\right)$$ (16)

    所提方法采用了两阶段训练策略。首先,训练一个可以提取图片深层特征的自动编码器,和一个可以处理这些特征重建图像的解码器。训练框架如图 7所示,其中IO分别为输入图像和重建图像。训练数据集采用MS-COCO[22]数据集。

    图  7  训练阶段的网络结构
    Figure  7.  Network structure in the training phase

    训练过程没有融合阶段,特征聚合不参与训练。只需训练解码器和编码器。在损失函数的约束下迫使网络能够重建出输入图像。在测试时编码器要分别对两幅源图像进行编码,再经特征聚合后输入到解码器。

    在训练阶段,损失函数Ltotal定义如下:

    $$L_{\text {total }}=L_{\text {pixel }}+\lambda L_{\text {ssim }}$$ (17)

    式中:LpixelLssim分别表示源图像和融合后图像之间的像素损失和结构相似度损失。λ是平衡两个损失的加权因子。在本文中λ取值为100。

    Lpixel由公式(18)得到:

    $$ {L_{{\text{pixel}}}} = \left\| {O - I} \right\|_{\text{F}}^2 $$ (18)

    式中:OI分别表示输出图像和输入图像。其中||⋅||F为F范数。损失函数可以最大程度地使输出图像像素更接近于输入图像。

    SSIM结构相似度损失函数Lssim由公式(19)得到。

    $$ {L_{{\text{ssim}}}} = 1 - (\frac{{2{\mu _{\text{I}}}{\mu _{\text{O}}} + {c_1}}}{{\mu _{\text{I}}^2 + \mu _{\text{O}}^{\text{2}} + {c_1}}})(\frac{{2{\sigma _{{\text{IO}}}} + {c_2}}}{{\sigma _{\text{I}}^{\text{2}} + \sigma _{\text{O}}^2 + {c_2}}}) $$ (19)

    式中:μI, μOσI, σO分别为输入输出图像的均值和标准差。σIO为协方差,c1c2为常数。Lssim越小两幅图像的结构越相似。

    本章中,首先介绍本文的实验设置。然后介绍消融研究。在主观评价方面与现有方法进行了比较,并利用多个质量评价指标对融合性能进行了客观评价。图 8展示了采用的21对红外和可见光测试图像的一部分。

    图  8  TNO数据集中的3对红外和可见光图像
    Figure  8.  Three pairs of infrared and visible images in TNO dataset

    选择10种比较典型和先进的融合方法来评价融合性能,包括:GTF[1],TIF[2],ADF[3],FusionGAN[10],DenseFuse[18],vggML[23],RFN-Fuse[9],DeepFuse[6],CSF[24](Classification Saliency-Based Fusion),Dual-branch[25],这些方法实验结果都由其公开代码得到,其中参数设置与其论文所述相同。网络训练时epoch和batch大小分别为2和2。实验平台为:E5 2680 v4 CPU, NVIDIA GTX 1080Ti GPU,代码实现使用PyTorch框架。

    利用以下几个质量指标对本文的融合方法和其他融合方法进行了定量比较。其中包括:边缘强度(Edge Intensity,EI)[26],视觉保真度(Visual Fidelity,VIF)[27],平均梯度(Average Gradient,AG)[28],信息熵(Entropy,EN)[29],标准差(Standard Deviation,SD),离散余弦特征互信息(Discrete Cosine Feature Mutual Information,FMI_dct)[30],相位一致(Phase Consistent,QP)[31]。测试采用的是TNO[21]和MSRS数据集[32],分别取21对图像。客观评价结果从其中选取21对图像进行测试,取21对图像客观结果的平均值进行对比。

    如2.1节所述,本研究在编解码网络中加入了注意力机制。分别对有注意力机制(Att)和没有注意力机制以及Swin-transformer(Att+ST)进行了实验,实验结果如图 9,其中测试图像是从TNO数据集中选取的部分图像。左边一列(a)是加上注意力之后的结果,中间一列(b)是加入Swin-transformer后的结果,右边一列(c)是所提融合方法的结果。可以看到加上注意力机制之后图像包含更多的纹理信息,背景中的植物细节更加清晰(如图 9中红框所示)。客观评价方面,两个不同模型的融合结果评价指标如表 2所示。

    图  9  消融前后融合结果对比
    Figure  9.  Comparison of fusion results before and after ablation
    表  2  消融前后图像评价指标平均值
    Table  2.  Average values of image evaluation indicators before and after ablation
    SCD MS-SSIM MI VIFF
    Att 1.585658489 0.861241115 13.7868369 0.331484695
    Att + ST 1.573055161 0.834073744 13.88869037 0.318701695
    Ours 1.579132302 0.864855029 13.82841411 0.365041201
    下载: 导出CSV 
    | 显示表格

    可以看出,加入的注意力机制对于客观评价标准的提升非常明显,各个评价标准都有不同程度地提升。客观评价结果表明网络中的注意力机制能够使融合性能得以改善。21对图片的客观评价指标对比如表 2所示。可以看到加入注意力后VIFF、MI、MS-SSIM三个指标有明显提升。

    现有融合方法和本文融合方法得到的TNO融合结果中选取的一对图像,如图 10所示。从图中可以看出FusionGAN融合结果虽然有一些显著的红外特征但是有些地方比较模糊,例如草丛与路面等部分纹理细节不明显。VggML、DenseFuse、Dual-branch的融合结果中红外信息不突出并且也存在模糊现象。GTF中丢失部分红外目标信息,例如人物脚部部分。TIF融合结果较为清晰,但图像中存在噪声和信息融合不均衡现象。

    图  10  红外和可见光图像的融合结果
    Figure  10.  Fusion results of infrared and visible images

    此外,还可以从图 10红框标记的局部放大区域进行比较。所提方法在主观评价方面比其他融合方法有更好的融合性能,融合结果中的亮度信息也更均衡。RFN-Fuse融合结果相对较好,但在细节纹理保存方面稍有欠缺。从放大区域可以看出所提方法能较清晰地显示出道路上的条纹,保存更多的纹理细节信息。此外为了体现模型的泛化性能本文还在MSRS数据集上做了对比试验如图 11所示。可以看出相比FusionGAN、RFN-Fuse所提方法的红外信息和可见光信息更加平衡,融合结果中可以保留更多细节。

    图  11  MSRS数据集红外和可见光图像融合结果
    Figure  11.  Fusion results of infrared and visible light images from MSRS dataset

    本文采用了客观评价指标进行对比,实验结果如表 3所示。采用的评价指标有7种同3.1节所示指标。其中每个评价标准最好的结果用红色字体表示。

    表  3  TNO数据集21对图像评价指标平均值
    Table  3.  Average value of 21 pairs of image evaluation indicators in TNO dataset
    EI FMI_dct QP VIF AG EN SD
    GTF 32.52770 0.10836 0.02177 0.45364 3.35874 6.63534 31.57911
    TIF 39.23519 0.19743 0.11410 0.74760 3.89565 6.52602 28.24174
    ADF 35.26416 0.28190 0.16059 0.31281 3.67947 6.27304 23.42029
    VggML 24.00504 0.40463 0.28970 0.29509 2.42635 6.18260 22.70687
    FusionGAN 22.14833 0.36334 0.09887 0.45354 2.20517 6.36285 26.06731
    DenseFuse 23.30637 0.40727 0.28615 0.28695 2.35330 6.17403 22.54629
    RFN-Fuse 29.14734 0.10639 0.01774 0.34545 2.73375 6.84134 35.27043
    DeepFuse 34.73729 0.41501 0.28615 0.28695 2.35330 6.17403 33.65323
    Dual-branch 25.07866 0.30116 0.29138 0.35070 2.47084 6.33231 27.02308
    CSF 36.81830 0.25636 0.24811 0.71146 3.60953 6.79053 35.71607
    Ours 50.76634 0.254905 0.303399 0.684504 5.38937 6.91420 38.77089
    下载: 导出CSV 
    | 显示表格

    表 3可以看出本文方法有5个指标是最优的,用红色字体标出。视觉保真度高说明融合结果具有更高的视觉保真度。平均梯度、边缘强度越高表明图像质量越高,也就更清晰。表 4展示了MSRS数据集上的客观评价结果可以看到所提方法的5个指标达到最好结果与在TNO数据集得出结果一致,说明所提方法的泛化性能较好。

    表  4  MSRS数据集21对图像评价指标平均值
    Table  4.  Average value of 21 pairs of image evaluation indicators in MSRS dataset
    EI FMI_dct QP VIF AG EN SD
    GTF 28.45466 0.19621 0.15700 0.44730 2.71035 5.73625 24.19185
    TIF 43.39727 0.22136 0.33786 1.04271 4.09034 6.58252 35.54339
    ADF 32.29431 0.21340 0.29474 0.45374 3.08234 6.29048 28.62276
    VggML 26.05613 0.38575 0.40246 0.45717 2.46865 6.24643 28.33981
    FusionGAN 16.97583 0.31703 0.13058 0.33249 1.59356 5.60325 19.71231
    DenseFuse 30.93252 0.09862 0.02089 0.13650 3.16776 5.65645 24.04045
    RFN-Fuse 16.06580 0.26362 0.35816 0.53009 1.47516 5.60288 25.07045
    Deep-fuse 28.63384 0.39021 0.39733 0.59795 2.70763 6.42196 32.44943
    Dual-branch 26.34184 0.28525 0.36961 0.50415 2.47727 6.21497 31.06896
    CSF 28.93600 0.24274 0.34685 0.58995 2.71384 6.25018 32.16605
    Ours 55.88537 0.35160 0.47274 0.74274 5.66437 6.73437 41.75073
    下载: 导出CSV 
    | 显示表格

    本文提出一种基于Swin-transformer和混合特征聚合的融合网络并提出了一种新的混合特征聚合。将Swin-transformer与注意力机制引入到多尺度网络中,充分利用长距离语义信息与通道注意力信息,解决基于卷积神经网络方法中细节丢失的问题。所提特征聚合将注意力与特征增强模块混合,能够保留更多背景细节信息。所提方法首先利用一个解码器来提取特征图的多尺度信息。再将各个尺度的特征用所提特征聚合进行融合,分别输入到解码器的对应接口进行解码。由于在编解码过程中使用了注意力机制,突出对结果有重要影响的通道,使得融合结果保留了更多细节和纹理特征。利用提出的网络结构,可以在重构过程中保留更多的显著特征,提高图像融合的性能。

  • 图  1   光谱成像原理示意图

    Figure  1.   Diagram of spectral imaging principle

    图  2   光谱成像系统

    Figure  2.   Device of spectral imaging technology

    图  3   1#签字笔掩盖报纸上打印字迹

    Figure  3.   Printed handwriting in newspaper covered with 1#

    图  4   2#签字笔掩盖报纸上打印字迹

    Figure  4.   Printed handwriting in newspaper covered with 2#

    图  5   3#签字笔掩盖报纸上打印字迹

    Figure  5.   Printed handwriting in newspaper covered with 3#

    图  6   4#签字笔掩盖报纸上打印字迹

    Figure  6.   Printed handwriting in newspaper covered with 4#

    图  7   2#签字笔掩盖复印纸上打印字迹

    Figure  7.   Printed handwriting on copy paper covered with 2#

    图  8   3#签字笔掩盖复印纸上打印字迹

    Figure  8.   Printed handwriting on copy paper covered with 3#

    图  9   4#签字笔掩盖复印纸打印字迹

    Figure  9.   Printed handwriting on copy paper covered with 4#

    图  10   5#签字笔掩盖复印纸上打印字迹

    Figure  10.   Printed handwriting on copy paper covered with 5#

    图  11   6#签字笔涂抹掩盖5#签字笔

    Figure  11.   5# handwriting covered with 6#

    图  12   5#签字笔涂抹掩盖6#签字笔

    Figure  12.   6# handwriting covered with 5#

    图  13   8#签字笔涂抹掩盖1#签字笔

    Figure  13.   1# handwriting covered with 8#

    图  14   1#签字笔涂抹掩盖8#签字笔

    Figure  14.   8# handwriting covered with 1#

    图  15   1#签字笔书写并涂抹掩盖

    Figure  15.   1# handwriting covered by itself

    图  16   4#签字笔书写并涂抹掩盖

    Figure  16.   4# handwriting covered by itself

    图  17   9#签字笔书写并涂抹掩盖

    Figure  17.   9# handwriting covered by itself

    图  18   10#签字笔书写并涂抹掩盖

    Figure  18.   10# handwriting covered by itself

    图  19   传统红外显现掩盖打印字迹效果

    Figure  19.   The covered printed handwriting developed by traditional infrared method

    图  20   传统红外显现掩盖黑色签字笔字迹效果

    Figure  20.   The covered black pen handwriting developed by traditional infrared method

  • [1] 许小京, 黄威. 光谱成像技术在物证鉴定领域的应用[J]. 红外与激光工程, 2012, 41(12): 3280-3284. DOI: 10.3969/j.issn.1007-2276.2012.12.027

    XU Xiaojing, HUANG Wei. Application of spectral imaging in forensic science[J]. Infrared and Laser Engineering, 2012, 41(12): 3280-3284. DOI: 10.3969/j.issn.1007-2276.2012.12.027

    [2]

    Edelman G J, Gaston E, Leeuwen T G van, et al. Hyperspectral imaging for non-contact analysis of forensic traces[J]. Forensic Science International, 2012, 223: 28-39. DOI: 10.1016/j.forsciint.2012.09.012

    [3]

    Panagou E Z, Papadopoulou O, Carstensen J M, et al. Potential of multispectral imaging technology for rapid and non-destructive determination of the microbiological quality of beef filets during aerobic storage[J]. International Journal of Food Microbiology, 2014, 174: 1-11. DOI: 10.1016/j.ijfoodmicro.2013.12.026

    [4]

    Belinda Bastide, Glenn Porter, Adrian Renshaw. Detection of Latent Bloodstains at Fire Scenes Using Reflected Infrared Photography[J]. Forensic Science International, 2019, 302: 109874 DOI: 10.1016/j.forsciint.2019.109874

    [5]

    Zapata F, García-Ruiz C. Trac. Emerging spectrometric techniques for the forensic analysis of body fluids[J]. Trends in Analytical Chemistry, 2015, 64: 53-63.

    [6] 张华锋, 王武, 白玉荣, 等. 多光谱成像无损识别冻融猪肉中危害级碎骨[J]. 光谱学与光谱分析, 2021, 41(9): 2892-2897. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN202109046.htm

    ZHANG Huafeng, WANG Wu, BAI Yurong, et al. Non-destructive identification of hazardousbone fragments embedded in the frozen-thawed pork based on multispectral imaging[J]. Spectroscopy and Spectral Analysis, 2021, 41(9): 2892-2897. https://www.cnki.com.cn/Article/CJFDTOTAL-GUAN202109046.htm

    [7]

    Alsberg B K, Loke T, Baarstad I, et al. PryJector: a device for in situ visualization of chemical and physical property distributions on surfaces using projection and hyperspectral imaging[J]. Journal of Forensic Sciences, 2011, 56(4): 976-983. DOI: 10.1111/j.1556-4029.2011.01747.x

    [8]

    Schuler R L, Kish P E, Plese C A. Preliminary observations on the ability of hyperspectral imaging to provide detection and visualization of bloodstain patterns on black fabrics[J]. Journal of Forensic Sciences, 2012, 57(6): 1562-1569. DOI: 10.1111/j.1556-4029.2012.02171.x

    [9]

    Tahtouh M, Scott S A, Kalman J R, et al. Four novel alkyl 2-cyanoacylate monomers and their use in latent fingermark detection by mid-infrared spectral imaging[J]. Forensic Science International, 2011, 207(1-3): 223-238 DOI: 10.1016/j.forsciint.2010.10.012

    [10]

    Joong Lee, Seong G Kong, Tae-Yi Kang, et al. Invisible ink mark detection in the visible spectrum using absorption difference[J]. Forensic Science International, 2014, 236: 77–83. DOI: 10.1016/j.forsciint.2013.12.024

    [11]

    Edelman G, Manti V, van Ruth S M, et al. Identification and age estimation of blood stains on colored backgrounds by near infrared spectroscopy[J]. Forensic Science International, 2012, 220: 239-244. DOI: 10.1016/j.forsciint.2012.03.009

    [12]

    Edelman G, van Leeuwen T G, Aalders M C. Hyperspectral imaging for non-contact analysis of forensic traces[J]. Forensic Science International, 2012, 223: 1-3. DOI: 10.1016/j.forsciint.2012.04.012

    [13]

    Binu Melit Devassy, Sony George. Dimensionality reduction and visualisation of hyperspectral ink data using t-SNE[J]. Forensic Science International, 2020, 311: 109874.

    [14]

    Lívia Rodrigues e Brito, André Braz, Ricardo Saldanha Honorato, et al. Evaluating the potential of near infrared hyperspectral imaging associated with multivariate data analysis for examining crossing ink lines[J]. Forensic Science International, 2019, 298: 169-176. DOI: 10.1016/j.forsciint.2019.02.043

    [15]

    Estelles-Lopez L, Ropodi A, Pavlidis D, et al. An automated ranking platform for machine learning regression models for meat spoilage prediction using multi-spectral imaging and metabolic profiling[J]. Food Research International, 2017, 99: 206. DOI: 10.1016/j.foodres.2017.05.013

  • 期刊类型引用(1)

    1. 曹雷欣,程荣森. 基于改进CNN的红外与可见光图像融合方法. 信息与电脑(理论版). 2023(24): 137-139 . 百度学术

    其他类型引用(2)

图(20)
计量
  • 文章访问数:  122
  • HTML全文浏览量:  42
  • PDF下载量:  32
  • 被引次数: 3
出版历程
  • 收稿日期:  2022-01-10
  • 修回日期:  2022-03-17
  • 刊出日期:  2023-01-19

目录

/

返回文章
返回