基于NSST-DWT-ICSAPCNN的多模态图像融合算法

王晓娜; 潘晴; 田妮莉

基于NSST-DWT-ICSAPCNN的多模态图像融合算法

广东工业大学信息工程学院, 广东广州 510006

基金项目:

国家自然科学基金项目 61901123

详细信息

作者简介:
王晓娜（1997-），女，硕士研究生，主要研究方向为图像处理、模式识别。E-mail：717057123@qq.com

通讯作者:
潘晴（1975-），男，副教授，主要研究方向为图像处理、信号处理、模式识别等。E-mail：pangqing@gdut.edu.cn

中图分类号: TP391
计量
- 文章访问数: 211
- HTML全文浏览量: 80
- PDF下载量: 38
出版历程
- 收稿日期: 2021-09-01
- 修回日期: 2021-11-23
- 刊出日期: 2022-05-19

Multi-modality Image Fusion Algorithm Based on NSST-DWT-ICSAPCNN

Faculty of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China

摘要

摘要: 为了增加融合图像的信息量，结合非下采样剪切波变换（Non-Subsampled Shearlet Transform, NSST）和离散小波变换（Discrete Wavelet Transform, DWT）的互补优势，提出了改进的多模态图像融合方法。采用NSST对两幅源图像进行多尺度、多方向的分解，得到相应的高频子带和低频子带；利用DWT将低频子带进一步分解为低频能量子带和低频细节子带，并利用最大值选择规则融合能量子带；采用改进连接强度的自适应脉冲耦合神经网络（Improved Connection Strength Adaptive Pulse Coupled Neural Network, ICSAPCNN）分别融合细节子带和高频子带，并对能量子带和细节子带进行DWT逆变换，得到融合的低频子带；采用NSST逆变换重构出细节信息丰富的融合图像。实验证明，提出的算法在主观视觉和客观评价方面均优于其他几种算法，且能同时适用于红外与可见光源图像、医学源图像的融合。
- 多模态图像 /
- 图像融合 /
- 离散小波变换 /
- 自适应脉冲耦合神经网络 /
- 非下采样剪切波变换
Abstract: To increase the information of the fused image, this paper proposes an improved multi-modality image fusion algorithm that combines the complementary advantages of the non-subsampled shearlet transform (NSST) and discrete wavelet transform (DWT). NSST was used to decompose the two source images in multiscale and multi-direction to obtain the corresponding high-frequency and low-frequency sub-bands. The low-frequency sub-bands were further decomposed into low-frequency energy sub-bands and low-frequency detail sub-bands by the DWT, and the low-frequency energy sub-bands were fused by the maximum selection rules. An adaptive pulse-coupled neural network with improved connection strength (ICSAPCNN) was used to fuse the detailed sub-bands and high-frequency sub-bands, and the energy sub-bands and detailed sub-bands were fused by inverse DWT to obtain the fused low-frequency sub-bands. The NSST inverse transform was used to reconstruct the fusion image with rich details. The experimental results verified that the proposed algorithm is superior to the other algorithms in both subjective vision and objective evaluation and can be applied to the fusion of both infrared and visible source images and medical source images.
- multi-modality images /
- image fusion /
- discrete wavelet transform /
- adaptive pulse coupled neural network /
- non-subsampled shearlet transform

HTML全文

0. 引言

印制电路板（printed circuit board，PCB）在电子工业中有着重要地位，随着科技的进步，电子产品趋于集成化、轻量化、高智能化，而为了使产品可以符合现在的制作工艺标准，PCB裸板的布线趋于复杂化。在印制PCB时，需要经过许多复杂繁琐的工序，但即使严格把控每一道工序，也无法保证百分之百的良品率，PCB裸板表面上可能会存在诸多缺陷如缺孔、鼠咬、开路、短路、毛刺、假铜等。常见的PCB板分为裸板与组装板两类，检测方法通常采用半自动化的人工检测方法，由于PCB裸板线路复杂，人工检测极易导致漏检、错检等情况，往往需要重复工序来保证合格度，检测效率低，人工成本高^[2]。因此快速精准低成本的对PCB的缺陷进行检测，依然是亟待解决的问题。

随着人工智能技术的迅速崛起，以机器视觉为主流的检测方法由于其低成本、高准确率和高效率等优势而被逐渐应用于各大工业检测工序之中。在机器学习的检测算法流行之前，在对PCB进行缺陷检测时主要以传统的图像处理方法进行。运用传统的图像处理算法，主要分为三大类：参考法、非参考法，混合法。但由于环境等外部问题，比如光照、位置等，使得检测时出现大量干扰信息，所以研究者们又进行图像增强等一系列的研究。Lu等人^[3]提出了一种图像增强算法，根据缺陷图和正常图纹理不同，可以放大PCB图像和焊膏图像之间的灰度值差异，从而提高检测结果的精确度；Zhang等人^[4]提出了一种基于自适应迭代阈值选择算法的有效边缘检测方法，该方法将图像预处理和图像检测相结合，得到了主观和客观结果较好的边缘信息；Wong等人^[5]基于调频连续波太赫兹图像对PCB图像进行增强，采用sinc包络和盲反卷积，较好地提升了图像增强效果。郭战岭等人^[6]提出了一种使用ORB算法和图像差分融合来进行PCB缺陷检测的算法。对待测图像配准后预处理以减少噪声并提高图像质量，从而提高检测率。非参考法^[7]是指通过构造一定规则再进行检测，对待测图像进行各种检测后，不符合设定规则的部分即认定为缺陷部分。朱寒^[8]提出了一种基于改进模板的匹配和图像差分法融合的多级检测算法，该方法提高了目前应用于PCB缺陷检测系统的模板匹配方法和缺陷检测方法的准确率。

传统PCB缺陷检测技术和基于机器学习的PCB缺陷检测技术逐渐不能满足我国PCB产业的生产需求。在近几年，卷积神经网络快速发展，特征的提取与识别变得简单，在人脸识别^[9]、目标检测^[10]等各个领域都展现出了优越性。卷积神经网络在缺陷检测领域有广泛的应用，常见算法有二阶段检测算法和一阶段检测算法。二阶段检测算法，如R-CNN和Faster R-CNN，通过两个阶段的流程来进行目标检测。但是由于需要两个阶段的处理，速度相对较慢。而一阶段检测算法，比如YOLO和SSD将目标检测任务直接建模为一个单一的机器学习问题。这些算法具有快速检测的优点，适用于实时应用在各种复杂场景，相对于二阶段算法，它们在检测精度上可能稍有牺牲。Ding等人^[11]提出了一种TDD-Net卷积神经网络模型，避免二次损坏的同时提高了检测率。林璐颖等人^[12]提出了一种融合双重神经网络的PCB缺陷检测方法，通过引入候选区域生成阶段，即使某个真实目标的置信度相对较低，也有可能被作为候选区域包括在内。该算法可以提高由于置信度低导致漏检的概率。Xia等人^[13]提出了一种PCB二阶段检测算法SSIM-NET。该网络使用结构相似指数降低对输出特征产生影响。且为了降低计算成本，采用MobileNet-V3对可疑区域进行分类，大大提高了检测速度。庹冰等^[14]提出一种基于YOLOX-WSC的PCB缺陷检测算法，该算法使各个类别的AP有明显提高，但在实际场景的应用效果不佳。为了提高目标检测的性能，钱万明等[15]提出了一种基于YOLOv4的PCB缺陷检测算法，该算法采用双向自适应特征融合网络AF-BiFPN取代PANet网络。针对YOLOv4算法难以在移动端部署的问题，采用GhostNet取代CSPDarknet53以轻量化整个检测网络。改进后的算法模型大小为18.64M，mAP为98.93%。Chen等人^[16]提出了一种基于faster RCNN的PCB缺陷检测方法。为了使得特征表示干扰性强，所以在将注意力添加在特征提取部分和特征融合部分之间，在干扰噪声的不同程度下，对PCB缺陷数据集上进行了对比实验，平均检测精确度可达到92.4%。Kang等人^[17]提出了一种基于SSD的深度学习检测网络——多层SSD（mSSD）。在该网络中加入小目标预测特征层模块，此外，使用ResNet50特征提取网络代替原来的VGG网络，扩大特征预测层，改进的mSSD检测算法大大提高了PCB缺陷检测中SSD的检测精度。Wang等人^[18]提出了一种基于有序概率密度加权和注意机制相结合的PCB插件焊点缺陷改进算法。采用广义联合广义交联（GIoU）对网络损失函数进行改进以提高模型的收敛速度，提高了模型的精度。文献[19]、[20]将注意力模块和常见的卷积神经网络融合，在不同的数据集上都得了良好的识别效果。因此在PCB缺陷检测中，研究人员尝试将注意力机制加入到神经网络中，使网络能更精确地识别缺陷位置。跟传统的机器学习方法相对比，深度学习的算法网络更深，具有较强的非线性能力，在复杂场所里有着良好的应用效果，具有更高的鲁棒性。

以上算法大多通过增加网络深度提高模型准确率，但是PCB裸板有着背景复杂，被检测图像对比度不高、亮度不均匀、缺陷位置小、形状不规则等特点，在增加网络深度时会造成参数量大、出现过拟合现象、丢失部分特征信息等问题。为了解决上述问题，以YOLO v5算法为基础，将注意力机制与网络进行融合与改进，并引用了新的特征融合网络和激活函数，提出了一个新的算法模型PA-YOLO v5，该模型在一定程度上，减少了这些缺点对检测精度的影响。

1. PCB缺陷检测模型构建

1.1 YOLO v5s网络架构

YOLO网络是一种创新的对象识别和定位算法，通过引入全卷积网络和端到端的设计思想。其最大的优势就是检测速度快，可以应用于多个复杂场景之中，在实时目标检测系统中十分流行。YOLO的主要目的是在一张图片中找出物体，并给出它的类别和位置。从而完成端到端的训练，过程是将待测图片先分割成S²个grid，和传统的遍历图像的描框机制不同，YOLO网络只需要将物体的中心位于预定的候选框中，则这个grid就对该物体进行检测。与先从图片中搜索出一些可能存在对象的候选区的卷积神经网络（Region-CNN, R-CNN）这种相对传统的目标检测算法相比，YOLO网络可以同时完成两个任务：生成候选区域和目标识别，在进行非极大值抑制操作之后，多个bounding box的位置和类别概率可以一起预测，使得在检测速度与精确度并重。YOLO v5网络模型是在YOLO v3模型基础上改进而来的。主要组成部分有3个，分别是：骨干网络、Neck和Head部分组成。数据增强所采用的方法可以分为Mosaic数据增强、自定义锚框计算、缩放平移变换3部分，主要作用是增加训练集的多样性和难度，有助于提高目标检测模型的鲁棒性和泛化能力。与以往YOLO系列的网络结构不同，传统的目标检测算法中，通常需要手动设置锚框的大小和宽高比等参数。然而，这些参数的选择往往需要经验和调试，容易出现不稳定和不准确的情况。而YOLO v5采用的是ATSS（adaptive training sample selection）的自适应锚框计算方法。ATSS是一种基于Anchor-based的目标检测算法，它通过学习的方式自动计算出最适合输入图像的锚框参数，而不需要手动设置。ATSS算法的核心思想是，在训练过程中，根据样本与锚框的匹配度（即交并比IoU），自适应地选择正负样本，从而有效地降低了难样本的影响，并提高了检测精度。ATSS算法在YOLO v5中的应用，使得YOLO v5在目标检测任务中取得了较为出色的性能表现，由于组成数据集时，各个图像的尺寸存在差异，在输入特征提取的步骤之前，需要将所有图片都缩放至同一个标准尺寸，常见的尺寸比如608×608、448×448等。骨干网络包含通信顺序进程（communicating sequential process，CSP），切片结构（Focus）、卷积模块（Convs）、瓶颈层（C3）以及空间金字塔池化（SPP）模块。CSP模型是一种常用于深度神经网络中的特征融合方法，基于Darknet-53，旨在增加网络对于更多特征的学习能力。

在CSP模块中，输入被分成两个分支，每个分支都进行卷积操作，其中一个分支经过一种减少通道数的卷积结构，降低计算成本和参数后，再与cancat融合，可以学习到输入图的更多特征信息，减少计算C3时产生的不良影响。Focus结构的基本思想是将输入的高分辨率图像切成较小的块或片段，然后将这些块重新放置在低分辨率图像中。通过这种方式，可以减少计算量，但是降低分辨率和重采样可能会导致信息的丢失。SPP结构又被称为空间金字塔池化，可以在不同尺度下提取特征，并将不同尺度的信息融合起来，从而提高感受野的范围。这有助于捕捉图像中不同尺度的细节和上下文信息，提升模型在物体识别、目标检测等任务中的性能。在Neck部分，将不同层级的特征图结合起来，生成具有多尺度信息的特征图，使用FPN特征金字塔和PANet相结合的结构，增强了特征融合。研究者根据各个网络的宽度、深度不同，将网络结构变为可选择配置的形式，网络分为YOLO v5s、YOLO v5l、YOLO v5m、YOLO v5x等版本，YOLO v5s是YOLO系列目标检测模型中最小的。相对较浅且具有较小的特征图宽度。但它仍然具备较好的目标检测性能，并具有一定的灵活性。它可以通过配置不同的超参数来满足不同需求。本文主要采用YOLO v5s的网络结构。YOLO v5s的网络结构如图 1所示。

图 1 YOLO v5s结构

Figure 1. YOLO v5s structure diagram

下载: 全尺寸图片幻灯片

1.2 损失函数计算

损失函数的功能是计算网络模型预测值和真实值的差距，在一定程度上体现模型性能的优劣，从而影响模型的收敛速度。YOLO v5一共有3种损失函数，分别是分类损失（cls_loss），定位损失（box_loss），置信度损失（obj_loss）。其中分类损失的作用是计算锚框与给定类别是否一一对应，定位损失是测定预测框与标定框之间的误差（GIoU），置信度损失是计算网络的置信度。总损失函数的定义如下：

$$ {l_{{\rm{oss}}}} = {l_{{\rm{obj}}}} + {l_{{\rm{cls}}}} + {l_{{\rm{box}}}} $$

(1)

其中，定位损失由GIoU决定，GIoU的损失引入了一个最小包围框的概念。最小包围框如图 2所示。

图 2 最小包围框

Figure 2. Minimum bounding box

下载: 全尺寸图片幻灯片

将图 2中的A框和B框完全包围的这个框，称为C框。将A视为预测框，B视为真实框，GIoU的定义如公式：

$$ {\rm{GIoU}}(B, {B}_{\text{gt}})={\rm{IoU}}(B, {B}_{\text{gt}})-\frac{|C-(B\cup {B}_{\text{gt}})|}{\left|c\right|} $$

(2)

$$ \begin{array}{l} {L_{{\rm{box}}}}(B, {B_{\text{gt}}}) = 1 - {\text{GIoU(}}B, {B_{\text{gt}}}{\text{)}} = \hfill \\ {\text{1}} - {\text{IoU(}}B, {B_{\text{gt}}}{\text{)}} + \frac{{\left| {C - (B \cup {B_{\text{gt}}})} \right|}}{{\left| c \right|}} \hfill \end{array} $$

(3)

式中：B和B_gt代表预测框的中心点和gt框的中心点；c代表包含这两个框的最小矩形的对角线长度。

2. 算法改进

2.1 CBAM注意力机制

计算机视觉中能够把注意力聚集在图像重要区域而丢弃掉不相关的方法被称作是注意力机制（attention mechanisms）。在现有的缺陷检测算法中，YOLO v5系列有着成熟的检测体系，已经集合了大量的trick，但是当被测物体背景复杂的时候，还是会有错检和漏检的问题发生。在网络的骨干网络中添加CBAM注意力机制，丰富待检测目标的细节特征，摒弃无关特征，提高检测精度。CBAM Attention属于混合域注意力机制，是用来提取任务相关区域的注意力机制，包含2个独立的子模块：通道注意力模块（channel attention module，CAM）和空间注意力模块（spatial attention module，SAM）。

通道注意力通过学习通道之间的关系，计算通道之间的相似度或重要性，对输入特征图的不同通道进行加权，以增强有用的通道而抑制无用的通道。这样可以使网络更加关注任务相关的特征，提高对关键目标的区分能力。空间注意力模块忽略通道域间的差异，将每个空间中的图像特征同等对待，在初始图像特征提取时可以使用空间域变换方式，在一些神经网络的其他部分运用时效果不明显。综上所述，CBAM模块结合了通道注意力机制和空间注意力机制，在深度学习模型中使用这种混合域的注意力机制，既能关注通道信息，也可以关注图像的空间信息，提高对任务相关区域和特征的关注度，改善特征表示能力，进而提高模型性能。CBAM模块可以顺着两个不同的维度对特征图像依次计算注意力，将最终输出结果和输入特征图做乘法操作以自适应优化特征。CBAM注意力机制示意图如图 3所示。

图 3 CBAM注意力机制示意框图

Figure 3. Schematic diagram of CBAM attention mechanism

下载: 全尺寸图片幻灯片

池化的目的是提取高层次特征，不同尺度的池化意味着提取的高层次特征更加丰富，平均池化可以使网络定位特征图上的每一个像素点，最大池化可以在梯度反向传播计算时，网络只关注特征图中响应最大的地方。CBAM模块通过对每个位置不同通道提取的信息进行最大池化和平均池化以得到不同维度的最大值和平均值，并将输出特征作为加权系数，与原特征进行融合。这样经过几层卷积以后，原始图像的局部区域的特征信息会体现在输出特征的任一位置，由于通过不同通道的信息进行提取并相乘，因此这种加权方式更加注重局部范围的信息。

2.2 BiFPN特征融合网络

由于PCB的背景复杂，不同输入特征具有不同的分辨率，这就意味着它们在融合后的输出特征中会有不平等的贡献。为了解决这一问题，本文采用一种加权双向特征金字塔网络（BiFPN），可以进行双向交叉尺度连接和加权特征融合。可以为每个输入特征引入可学习的权重，用来衡量其在融合过程中的重要性。图 4中蓝色部分所传递的是高层特征的语义信息，方向是自顶向下；红色部分所传递的低层特征的位置信息，方向是自底而上；紫色部分是同一层在输入节点和输入节点间新加的一条边。该网络去除了那些只有一条输入边的节点。特征融合通常是通过将多个节点的特征进行组合来实现的，而当一个节点只有一条输入边时，它无法从其他节点中获取额外的特征信息进行融合。因此，在这种情况下，该节点对于整体特征融合的贡献较小。删除它对网络影响不大的同时也简化了双向特征网络；BiFPN结构示意图如图 4所示。P7节点右边第一个节点，如果原始输入节点和输出节点位于同一层，可以在它们之间增加一条额外的边来实现特征融合。通过增加这条边，可以在不增加太多成本的情况下融合更多的特征。这种方法可以增加网络的表达能力，并且可以更好地捕捉输入特征之间的关联性。通过融合更多的特性，可以提高网络的性能和准确性。

图 4 BiFPN融合网络结构图

Figure 4. BiFPN fusion network structure diagram

下载: 全尺寸图片幻灯片

2.3 FReLU激活函数

妨碍视觉任务精准的主要原因是激活函数对空间的敏感度不足。为了改善这一问题，将原始网络的ReLU激活函数更换为FReLU激活函数，其工作过程如图 5所示。相比于ReLU激活函数，它的空间灵敏度随着感受野的增加得到增强。FReLU激活函数的形式是y＝max(x, T(x))，式中T(x)为空间上下文特征提取器。

图 5 FReLU激活函数工作过程

Figure 5. FReLU activation function working process

下载: 全尺寸图片幻灯片

2.4 PA-YOLO v5网络模型

根据PCB板的图像特征，提出PA-YOLO v5网络模型。该模型以YOLO v5s网络作为主干网络，在骨干网络中加入CBAM注意力机制，将注意力映射围绕特征图的通道与空间这两个不同的维度进行输入，然后将输入特征的映射与注意力机制相乘，再将输入的特征图进行自适应特征细化。为了捕捉缺陷细节特征的效果更佳，将原有的PANet网络替换为BiFPN网络，通过逐层融合上下采样的特征图，同时引入横向连接和纵向连接，这样双向流动的特征信息，有效地解决在提取不同尺度的特征时存在信息丢失和冗余问题，从而使得不同尺度的特征能够更好地融合和利用。使用新的激活函数——FReLU激活函数，这种视觉激活函数的功能简单有效，无论是密集还是稀疏的预测均可以实现显著改善。消除了激活函数中的空间敏感度不足这一阻碍视觉任务实现的障碍。通过实验结果可以看出本文提出的算法在实际应用中具有一定的优势。PA-YOLO v5网络模型示意如图 6所示。

图 6 PA-YOLO v5网络模型

Figure 6. PA-YOLO v5 network model

下载: 全尺寸图片幻灯片

3. 实验准备

3.1 数据集构建

本文使用DeepPCB缺陷数据集对算法进行验证。使用的DeepPCB缺陷数据集中的所有图像都是从线性扫描CCD获得的，分辨率约为48个像素/mm，以上述方式从采样图像中手动检查，测试图像的原始大小约为16k×16k像素，然后将它们裁剪成许多大小为640×640的子图像，共1500张图片。共分为缺孔、鼠咬、开路、短路、毛刺、假铜6个类别。

3.2 实验环境搭建

实验均在Linux平台下运行，使用python语言，调用pytorch库进行网络搭建、调试、训练与测试。服务器配置为CPU: 24 vCPU AMD EPYC 7642 48-Core Processor，GPU: RTX 3060(8 GB)。

3.3 模型性能评估

为了对此PCB缺陷检测模型网络的性能进行全面且客观的评价，本文使用的评价指标为目标检测领域常用的精确率（Precision）、召回率（recall）、平均精度（mAP）来对性能衡量评估，具体公式如下所示：

精确率（查准率）是评价预测准不准的评价指标，计算方式如下：

$$ {\text{Precision}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}} $$

(4)

式中：TP表示正类正样本，即样本值为A值，预测结果也为A值；FP表示负类正样本，即样本值为B值，预测结果为A值。

召回率（查全率）是评估预测查找的全不全，计算方式如下：

$$ {\rm{Recall}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} $$

(5)

式中：FN表示负类负样本，即样本值为A值，预测为B值。

mAP表示模型在所有类别上预测效果的评价指标，计算方式如下：

$$ {\rm{AP}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FN}} + {\rm{FP}}}} $$

(6)

$$ {\rm{mAP}} = \frac{{\sum {\rm{AP}}}}{{{Q}}} $$

(7)

4. 实验结果及分析

首先本文针对第2章所提出的改进方案进行了消融实验并分别分析CBAM注意力机制、BiFPN网络混合架构以及FReLU激活函数对网络整体的影响。从宏观数据评价指标上进行衡量。表 1为消融实验的测试结果。

表 1 消融实验对比结果

Table 1. Comparison results of ablation experiments

Model	Recall	Precision	mAP
YOLO v5s	0.971	0.951	0.977
YOLO-CBAM	0.986	0.973	0.989
YOLO-BiFPN	0.987	0.964	0.986
YOLO-FReLU	0.982	0.974	0.990
PA-YOLO v5	0.993	0.979	0.994

下载: 导出CSV

| 显示表格

表 1中，对于CBAM注意力机制而言，因为从空间和通道两个不同维度所提取的特征信息，最大化地保留了细节特征，有效地提高了检测网络对被检测缺陷的感知度，在表 1中3个指标都有明显提升；其次改进后的BiFPN双向加权特征金字塔网络，丰富了深层语义信息，使得被检测目标的细节特征更加明显，那么对类别判定就更精准，有效地提高了精确率，再由于更换了激活函数，FReLU激活函数扩大的感受野，对于检测精度的提升也有所帮助。综上，通过消融实验证明可以看出本文的方法对于YOLO v5网络在PCB缺陷检测任务中的检测性能有所提升。

本文的对比实验主要由Faster-RCNN网络，SSD网络及YOLO同系列网络YOLO v3网络进行横向和纵向的对比测试。对于不同模型每个类目标的AP以及整体的mAP和F1这3个指标测试结果分别见表 2~3。

表 2 每个类目标AP测试对比结果

Table 2. Comparison results of AP tests for each class target (%)

Model	Pin hole	Mouse bite	Open circuit	Spurious copper	Spur	Short circuit
Faster RCNN	76.6	72.4	84.6	77.2	70.9	74.9
SSD	90.8	85.8	86.3	84.3	82.7	78.4
YOLO v3	96.4	98.7	92.4	90.3	90.2	97.6
PA-YOLO v5	99.5	99.4	99.4	99.4	99.2	99.3

下载: 导出CSV

| 显示表格

表 3 mAP及F1测试结果

Table 3. mAP and F1 test results

Model	mAP(%)	F1
Faster RCNN	77.2	0.58
SSD	78.9	0.62
YOLOv3	95.3	0.89
PA-YOLO v5	99.4	0.99

下载: 导出CSV

| 显示表格

表 2中，Faster RCNN作为现在流行的双阶段检测网络，描框机制选用的是对特征图进行遍历，对于被检测图像中目标可以全面识别，但由于PCB板背景复杂，缺陷目标和正常目标所在的区域差异较小，当描框开始遍历时所选中目标可能含有正常区域，导致检测模型对类别精确率的影响较大。但SSD网络属于单阶段网络，检测时不受背景因素的影响，所以整体每个缺陷类别精确率比Faster-RCNN网络高。横向对比时，PA-YOLO v5各类目标的精确率均高于YOLO v3，可以宏观地评价，改进后的网络模型在该数据集上的表现得到提升，表 3中F1和mAP值反映的是各个网络模型在检测PCB时的性能，可以看出本文提出的PA-YOLO v5网络的性能最好，F1值可达0.99，mAP值可达99.4。Faster-RCNN网络在遍历目标时可以寻找到所有待检目标，但可能存在着同一目标存在多个预测框；SSD的特征提取部分采用VGG作为主体部分，由于VGG的网络复杂度不高，难以提取PCB中的关键目标特征内容，导致网络无法有效地检测出存在问题的区域。从图 7的单个图片中的检测效果示例和图 8的PR曲线可以看出，PA-YOLO v5在各种缺陷上精确率均超过99%。能够检测出所有的缺陷目标，在实际应用中具有可靠性。

图 7 PCB部分缺陷检测结果示例

Figure 7. Example of partial PCB defect test results

下载: 全尺寸图片幻灯片

图 8 PA-YOLO v5模型的PR曲线

Figure 8. PR curves of PA-YOLO v5 model

下载: 全尺寸图片幻灯片

5. 总结

本文中提出的基于YOLO v5s的PCB板缺陷检测方法通过加入CBAM注意力机制，采用新的激活函数并和双向多尺度融合网络相结合，以不同的维度，更高的感受野，来保证提取缺陷细节的完整性。从而有效提升了该算法对PCB的缺陷识别的精确度。优化后的模型比初始模型更适合微小缺陷的检测，在数据集上对于给定的6种缺陷上的精度均值均高于99.3%，体现了多信息融合的优势，满足工业生产的需求。经过实验检测，优于其他对比算法，提高了检测的鲁棒性，为之后进一步的研究夯实了基础。

图 1 NSST二级分解过程

Figure 1. The two-level decomposition process of NSST

下载: 全尺寸图片幻灯片

图 2 DWT分解过程

Figure 2. The decomposition process of DWT

下载: 全尺寸图片幻灯片

图 3 基于NSST-DWT-ICSAPCNN的融合流程图

Figure 3. The fusion diagram based on NSST-DWT-ICSAPCNN

下载: 全尺寸图片幻灯片

图 4 “road”红外和可见光图像以及融合结果

Figure 4. The "road" infrared and visible source images and fusion results

下载: 全尺寸图片幻灯片

图 5 “tree”红外和可见光图像以及融合结果

Figure 5. The "tree" infrared and visible source images and fusion results

下载: 全尺寸图片幻灯片

图 6 致死性脑卒中CT和MRI图像以及融合结果

Figure 6. The fatal stroke CT and MRI source images and fusion results

下载: 全尺寸图片幻灯片

图 7 脑膜瘤CT和MRI图像以及融合结果

Figure 7. The meningoma CT and MRI source images and fusion results

下载: 全尺寸图片幻灯片

表 1 两组红外与可见光图像客观评估指标值

Table 1 Values of objective evaluation index for 2 groups of infrared and visible images

Images	Metrics	ASR^[7]	CNN^[8]	NSCT-APCNN^[9]	NSST-APCNN^[10]	NSST-DWT-ICSAPCNN
Road	Q_EN	7.1339	7.4964	7.3703	7.331	7.4247
	Q_MI	3.0046	3.2051	3.0786	3.2336	3.0167
	Q_SD	38.3922	48.4964	45.5887	44.5039	51.7009
	Q_VIFF	0.4469	0.5842	0.5206	0.5078	0.6275
	Q_IE	0.8055	0.8054	0.8052	0.8053	0.8062
	Q_TE	0.5749	0.5207	0.5401	0.5454	0.5886
Tree	Q_EN	6.3464	7.1022	6.9596	6.9152	7.1043
	Q_MI	1.2234	1.1755	1.3188	1.7535	2.1287
	Q_SD	24.3398	37.2648	32.8565	31.4357	34.8227
	Q_VIFF	0.3177	0.4706	0.3822	0.3798	0.4261
	Q_IE	0.8033	0.8043	0.8035	0.8035	0.8040
	Q_TE	0.4090	0.2861	0.2981	0.3279	0.3282

下载: 导出CSV

表 2 六组红外与可见光图像客观评估指标平均值

Table 2 Average values of objective evaluation index for 6 groups of infrared and visible images

Metrics	ASR^[7]	CNN^[8]	NSCT-APCNN^[9]	NSST-APCNN^[10]	NSST-DWT-ICSAPCNN
Q_EN	6.2345	6.8978	6.9633	6.9094	7.0247
Q_MI	2.8656	3.2917	3.6756	4.1826	4.3438
Q_SD	24.7236	38.7514	37.0670	35.4332	38.6467
Q_VIFF	0.3761	0.5399	0.5445	0.5032	0.5514
Q_IE	0.8063	0.8076	0.8086	0.8090	0.8097
Q_TE	0.7311	0.6582	0.6534	0.6971	0.6841

下载: 导出CSV

表 3 两组医学图像客观评估指标值

Table 3 Values of objective evaluation index for 2 groups of medical images

Images	Metrics	ASR^[7]	CNN^[8]	NSCT-APCNN^[9]	NSST-APCNN^[10]	NSST-DWT-ICSAPCNN
fatal stroke	Q_EN	4.5440	4.8244	5.0632	4.8747	5.1693
	Q_MI	2.5170	2.8593	2.7118	2.8665	2.7618
	Q_SD	72.3351	90.2448	90.0339	84.2365	88.4652
	Q_VIFF	0.2691	0.3333	0.3259	0.3100	0.3131
	Q_IE	0.8051	0.8055	0.8054	0.8051	0.8054
	Q_TE	0.6663	0.7252	0.7277	0.7102	0.7896
meningoma	Q_EN	4.1794	4.2013	4.3485	4.6852	4.6013
	Q_MI	2.5408	2.9163	2.9516	3.0001	3.0665
	Q_SD	72.0789	88.7470	92.8914	90.2904	91.3901
	Q_VIFF	0.4940	0.6192	0.6279	0.5624	0.6292
	Q_IE	0.8056	0.8059	0.8062	0.8064	0.8064
	Q_TE	0.7907	0.7923	0.8445	0.8733	0.8804

下载: 导出CSV

表 4 八组医学图像客观评估指标平均值

Table 4 Average values of objective evaluation index for 8 groups of medical images

Metrics	ASR^[7]	CNN^[8]	NSCT-APCNN^[9]	NSST-APCNN^[10]	NSST-DWT-ICSAPCNN
Q_EN	4.3242	4.6515	4.7943	4.7715	4.8254
Q_MI	2.6843	2.9002	2.8697	2.8998	2.9848
Q_SD	66.6290	83.3568	85.9244	85.7634	85.7755
Q_VIFF	0.3561	0.4417	0.4562	0.4491	0.4647
Q_IE	0.8057	0.8061	0.8061	0.8062	0.8062
Q_TE	0.7033	0.7494	0.7608	0.7593	0.7818

下载: 导出CSV

参考文献(18)

[1]	YANG Y, QUE Y, HUANG S, et al. Multimodal sensor medical image fusion based on type-2 fuzzy logic in NSCT domain[J]. IEEE Sensors Journal, 2016, 16(10): 3735-3745. DOI: 10.1109/JSEN.2016.2533864
[2]	LI G, LIN Y, QU X. An infrared and visible image fusion method based on multi-scale transformation and norm optimization[J]. Information Fusion, 2021, 71: 109-129. DOI: 10.1016/j.inffus.2021.02.008
[3]	LI X, ZHOU F, TAN H. Joint image fusion and denoising via three-layer decomposition and sparse representation[J]. Knowledge-Based Systems, 2021, 224: 107087. DOI: 10.1016/j.knosys.2021.107087
[4]	XU H, MA J. EMFusion: An unsupervised enhanced medical image fusion network[J]. Information Fusion, 2021, 76: 177-186. . DOI: 10.1016/j.inffus.2021.06.001
[5]	Bulanon D M, Burks T F, Alchanatis V. Image fusion of visible and thermal images for fruit detection[J]. Biosystems Engineering, 2009, 103(1): 12-22. DOI: 10.1016/j.biosystemseng.2009.02.009
[6]	ZHAN L, ZHUANG Y, HUANG L. Infrared and visible images fusion method based on discrete wavelet transform[J]. J. Comput. , 2017, 28(2): 57-71.
[7]	LIU Y, WANG Z. Simultaneous image fusion and denoising with adaptive sparse representation[J]. IET Image Processing, 2015, 9(5): 347-357. DOI: 10.1049/iet-ipr.2014.0311
[8]	LIU Y, CHEN X, CHENG J, et al. Infrared and visible image fusion with convolutional neural networks[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 16(3): 1850018. DOI: 10.1142/S0219691318500182
[9]	ZHU Z, ZHENG M, QI G, et al. A phase congruency and local Laplacian energy based multi-modality medical image fusion method in NSCT domain[J]. IEEE Access, 2019, 7: 20811-20824. DOI: 10.1109/ACCESS.2019.2898111
[10]	ZHANG L, ZENG G, WEI J, et al. Multi-modality image fusion in adaptive-parameters SPCNN based on inherent characteristics of image[J]. IEEE Sensors Journal, 2019, 20(20): 11820-11827.
[11]	张蕾. 采用改进平均梯度与自适应PCNN的图像融合[J]. 计算机应用与软件, 2021, 38(3): 218-223. DOI: 10.3969/j.issn.1000-386x.2021.03.033 ZHANG Lei. Image fusion using improved average gradient and adaptive PCNN[J]. Computer Application and Software, 2021, 38(3): 218-223. DOI: 10.3969/j.issn.1000-386x.2021.03.033
[12]	YIN M, LIU X, LIU Y, et al. Medical image fusion with parameter- adaptive pulse coupled neural network in nonsubsampled shearlet transform domain[J]. IEEE Transactions on Instrumentation and Measurement, 2018, 68(1): 49-64.
[13]	Diwakar M, Singh P, Shankar A. Multi-modal medical image fusion framework using co-occurrence filter and local extrema in NSST domain[J]. Biomedical Signal Processing and Control, 2021, 68: 102788. DOI: 10.1016/j.bspc.2021.102788
[14]	邓辉, 王长龙, 胡永江, 等. 脉冲耦合神经网络在图像融合中的应用研究[J]. 电光与控制, 2019, 26(11): 19-24. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ201911006.htm DENG Hui, WANG Changlong, HU Yongjiang, et al. Application of pulse coupled neural network in image fusion[J]. Electronics Options & Contral, 2019, 26(11): 19-24. https://www.cnki.com.cn/Article/CJFDTOTAL-DGKQ201911006.htm
[15]	杨风暴, 董安冉, 张雷, 等. DWT、NSCT和改进PCA协同组合红外偏振图像融合[J]. 红外技术, 2017, 39(3): 201-208. http://hwjs.nvir.cn/article/id/hwjs201703001 YANG Fengbao, DONG Aran, ZHANG Lei, et al. Infrared Polarization Image fusion using the synergistic combination of DWT, NSCT and improved PCA[J]. Infrared Technology, 2017, 39(3): 201-208. http://hwjs.nvir.cn/article/id/hwjs201703001
[16]	TAN W, Tiwari P, Pandey H M, et al. Multimodal medical image fusion algorithm in the era of big data[J]. Neural Computing and Applications, 2020: 1-21.
[17]	JIANG L, ZHANG D, CHE L. Texture analysis-based multi-focus image fusion using a modified Pulse-Coupled Neural Network (PCNN)[J]. Signal Processing: Image Communication, 2021, 91: 116068. DOI: 10.1016/j.image.2020.116068
[18]	LIU Z, Blasch E, XUE Z, et al. Objective assessment of multiresolution image fusion algorithms for context enhancement in night vision: a comparative study[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 34(1): 94-109.

施引文献(3)

期刊类型引用(3)

1.	朱泽宇，肖满生，徐萌，王瑶瑶，颜谨. 基于改进YOLOv8n的轻量化PCB板表面缺陷检测算法. 软件导刊. 2025(04): 69-74 . 百度学术
2.	李扬，陈伟，杨清永，李现国，徐常余，徐晟. 基于大核分离和通道先验卷积注意的PCB缺陷检测方法. 燕山大学学报. 2024(06): 519-527+549 . 百度学术
3.	王崟，陆利坤，齐亚莉，曾庆涛. 基于优化YOLOv8-X的印刷电路板缺陷智能检测方法. 现代计算机. 2024(24): 29-35 . 百度学术

其他类型引用(0)

资源附件(0)

图(7) / 表(4)

计量

文章访问数: 211
HTML全文浏览量: 80
PDF下载量: 38
被引次数: 3

0. 引言
1. PCB缺陷检测模型构建
1.1 YOLO v5s网络架构
1.2 损失函数计算
2. 算法改进
2.1 CBAM注意力机制
2.2 BiFPN特征融合网络
2.3 FReLU激活函数
2.4 PA-YOLO v5网络模型
3. 实验准备
3.1 数据集构建
3.2 实验环境搭建
3.3 模型性能评估
4. 实验结果及分析
5. 总结

0. 引言
1. PCB缺陷检测模型构建
1.1 YOLO v5s网络架构
1.2 损失函数计算
2. 算法改进
2.1 CBAM注意力机制
2.2 BiFPN特征融合网络
2.3 FReLU激活函数
2.4 PA-YOLO v5网络模型
3. 实验准备
3.1 数据集构建
3.2 实验环境搭建
3.3 模型性能评估
4. 实验结果及分析
5. 总结

参考文献(18)

施引文献(3)

资源附件(0)

基于NSST-DWT-ICSAPCNN的多模态图像融合算法

作者简介: 王晓娜（1997-），女，硕士研究生，主要研究方向为图像处理、模式识别。E-mail：717057123@qq.com

通讯作者: 潘晴（1975-），男，副教授，主要研究方向为图像处理、信号处理、模式识别等。E-mail：pangqing@gdut.edu.cn

计量

出版历程