DCGAN-Based Generation of Ultraviolet Image Intensifier Field-of-View Defect Images
-
摘要:
传统数据增强方法容易过拟合,为了解决紫外像增强器视场瑕疵图像数据集样本不平衡的问题,提升基于深度学习的条纹状瑕疵识别精度,提出了一种基于深度卷积生成对抗网络(Deep Convolution Generative Adversarial Network,DCGAN)的紫外像增强器视场瑕疵图像生成方法。通过对DCGAN进行损失函数的改进以及添加卷积注意力机制的优化,建立了紫外像增强器视场瑕疵图像生成模型,成功实现了紫外像增强器视场瑕疵图像的生成。随后,利用图像质量评价指标以及瑕疵检测模型来验证生成图像的有效性。实验结果显示,生成的紫外像增强器视场瑕疵图像可以满足使用需求,将生成图像融合到真实图像中再输入瑕疵检测模型可提高其检测精度。这一研究成果为三代微光像增强器和紫外像增强器的基于深度学习的视场瑕疵检测提供了技术支撑。
Abstract:Traditional data enhancement methods are easy to over-fit. To solve the problem of sample imbalance in the field of view defect image dataset of the ultraviolet image intensifier and improve the recognition accuracy of stripe defects based on deep learning, a field of view defect image generation method of the ultraviolet image intensifier based on a deep convolution generative adversarial network (DCGAN) is proposed. Through the improvement of the loss function of the DCGAN and the optimization of the convolution attention mechanism, the generation model of the field-of-view defect image of the UV image intensifier is established, and the generation of the field-of-view defect image of the UV image intensifier is successfully realized. The image quality evaluation index and defect detection models are then used to verify the effectiveness of the generated image. The experimental results show that the generated UV image intensifier field-of-view defect image can meet the application requirements, and the detection accuracy can be improved by fusing the generated image into the real image and then entering the defect detection model. The research results provide technical support for field-of-view defect detection based on the deep learning of the third-generation low-light-level image intensifier and ultraviolet image intensifier.
-
0. 引言
深度学习瑕疵检测的成功在很大程度上依赖于充足且高质量的训练数据集[1-2]。然而,目前存在一些限制。首先,由于紫外像增强器产量有限,采集大量视场瑕疵图像需要长时间的积累。其次,并未有公开的紫外像增强器视场瑕疵图像资源,这使得获取高质量的训练数据变得更为困难。同时,小规模数据集容易导致模型出现过拟合问题,从而影响了模型的泛化能力。为了克服这些限制,数据增强成为一种有效的解决方案。传统的数据增强方法(旋转和翻折等)虽然能够增加数据样本,但是生成的图像与原始图像相似度较高,提升效果有限。
利用生成对抗网络[3](Generative Adversarial Network,GAN)是解决训练数据不足的另一种有效方法,它能够学习瑕疵图像的特征分布并生成高质量的相似图像,已在工业[4]、农业[5]、医学[6]等多个领域得到广泛应用[7-10]。除了传统的GAN,研究人员还提出了许多优化改进的GAN变体。例如,条件生成对抗网络[11](Conditional Generative Adversarial Nets,CGAN)在生成过程中引入了条件约束,使得生成器能够有针对性地生成符合特定类别或特征的数据;深度卷积生成对抗网络[12](Deep Convolution Generative Adversarial Networks,DCGAN)采用卷积神经网络来取代多层感知机,从而在生成高质量数据方面表现出色。然而,GAN还面临着若干问题和局限性。需要在公开数据集上训练大量图像,才能得到更有效的输出数据。此外,当输入样本品质较低时,网络可能无法很好地学习图像特征,从而导致生成的视场瑕疵图像质量不高。因此,在实践中需要有针对性地优化和改进GAN,以充分发挥其在数据生成方面的能力。
为了提升检测模型对紫外像增强器视场中条纹类瑕疵的识别性能,提出了一种改进的DCGAN方法来进行数据增强。其中,为了解决DCGAN训练难以收敛的问题,采用了Wasserstein距离[13-14]来取代原有的损失函数,从而实现了更快的收敛速率和更高效的生成效果。此外,还引入了卷积注意力模块[15-17](Convolutional Block Attention Module,CBAM),使其能够更加准确地关注条纹类瑕疵的信息特征。这一系列改进措施使得生成器能够生成具有明显特征的高质量视场图像,从而有效补充紫外像增强器视场瑕疵数据集的样本数量。
1. 紫外像增强器视场瑕疵图像
1.1 视场图像的采集
本文采用高清数码摄像机直接获取紫外像增强器视场图像。整个测试系统的基本结构如图 1所示,主要包括紫外光源模块、紫外像增强器像管供电模块以及图像采集模块。数据收集的具体步骤如下:首先,启动紫外光源系统,并等待光源稳定。随后,将待检测的像增强器像管固定在暗箱的夹具上,接通电源,然后关闭暗箱盖。在专业人员的监督下,高清摄像机开始采集像增强器像管的视场图像,这一过程要确保数据的准确性和可靠性。
1.2 视场瑕疵的分析
1.2.1 视场瑕疵的定义
视场瑕疵更多是基于人类观感的概念,严格来说,视场中所有影响观察的因素都可以被称为视场瑕疵。在机器视觉任务中,需要提供一个可以量化的定义,即在紫外辐射照射下,待紫外像增强器工作状态稳定后,荧光屏输出的图像中出现超过平均灰度值10%的各种形状图案[18-21]。
紫外像增强器视场瑕疵主要包括两部分[21]:
1)在无紫外辐射的情况下,加以额定工作电压,观察荧光屏是否存在比周围亮得多的点状、条纹、溅射点和其它形状的图案;
2)当有紫外辐射的情况下,正常工作条件下观察荧光屏图像中的各规定区域内是否出现超出规定对比度的亮点及暗点。
图 2展示了紫外像增强器视场图像中的一些典型瑕疵,包括(a)暗点、(b)亮点、(c)条纹状、(d)暗斑、(e)亮斑和(f)溅射状。紫外像增强器视场瑕疵通常表现出同一类别但形态各异,与荧光屏背景之间有一定对比度等特点。
1.2.2 瑕疵样本数量不平衡
视场瑕疵之间的数量差异十分显著。对于数据集共计1254张视场瑕疵图像样本,进行了各类瑕疵数量的统计分析,具体数据见图 3。这一分析揭示了在视场图像中,不同类别的瑕疵样本在数量上存在一定的差距,而其中以暗点瑕疵为主要类别。这也就意味着,假如采集的视场图像样本数量不足,就有可能会忽略掉某些类型瑕疵的存在。而这种数量的不平衡主要呈现在样本的多样性不足和样本分布不平衡两个方面。
多样性不够主要表现在同一类瑕疵之间存在巨大的差异。举例而言,对于同样是划痕这一类瑕疵,其呈现出各种各样的表现形式,有的可能呈现发白的状态,而有的则呈现发黑的特点;有的可能受到视角影响而呈现不同程度的视觉变化,还有一些可能出现在边缘地带。这种多样性不仅在位置上存在差异,而且在表现形式上也有所不同。这为一个关键问题带来了挑战:很难收集到覆盖所有形态的瑕疵样本,因此在测试集上很难获得令人满意的性能。实际上,训练集和测试集存在明显的偏差,而这种偏差并非是由于标注所致,而是数据本身造成的。这种情况在实际情况中非常常见,就以条纹状瑕疵为例,可能会表现出较高的边缘发生概率,但并不能完全排除其发生在其他位置的可能性。这种情况下,困难在于难以收集到全面的样本,即便获得了样本,也难以覆盖所有可能情况。
另一方面,样本不平衡表现在多个方面:首先,从样本级别看,正常样本数量远远超过不合格样本数量,因此每天采集的图像中,存在大量正常样本而瑕疵样本较少;其次,从瑕疵尺寸级别看,不同尺寸瑕疵在视场图像中的分布比例往往也不平衡,例如对于一张由500万像素相机拍摄2500×2000像素图片而言,通常占据50×50像素尺寸以内的暗点类瑕疵最多。这些尺寸过小的瑕疵会给检测带来极大的困难。例如:采集图片输入检测模型后会重新调整尺寸,由于无法对瑕疵进行有效的尺寸调整操作,小瑕疵会进一步变得更小,使得检测过程变得更困难且难以控制甚至容易发生漏检情况;最后,从类别上看,不同瑕疵类别之间还存在不平衡,有些类别瑕疵占比多,而其他一些则占比少。但是实践表明,只要存在足够多的样本,即使瑕疵微弱(即肉眼可辨别)也能够被检测模型识别出来。
1.2.3 数量不平衡对视场瑕疵检测的影响
为了探究紫外像增强器视场瑕疵数量不平衡给基于深度学习视场瑕疵检测结果带来的影响,特地选取了3种不同的瑕疵检测模型:两阶段检测模型Faster-RCNN(Faster Region-based Convolutional Neural Network)以及单阶段检测模型SSD(Single Shot MultiBox Detector)、YOLOv5(You Only Look Once v5)进行对各类瑕疵的检测效果对比,对比结果如表 1所示。其中,平均精准度(Average Precision,AP)是评估瑕疵检测算法对单个类别准确性的指标,平均精准度均值(mean Average Precision,mAP)是多个类别AP的平均值,即多类别平均精度,而每秒帧率(Frames Per Second,FPS)表示每秒处理的帧数,用于衡量算法的实时性能。
表 1 不同检测模型对各类瑕疵的检测效果Table 1. The detection effect of different detection models on various defectsModels Average precision/% mAP/% FPS Scotoma Bright spot Macula Speck Stripe SSD 22.97% 43.05% 48.57% 42.12% 27.07% 36.76% 70.90 Faster-RCNN 18.54% 23.53% 72.85% 61.16% 42.84% 43.78% 11.92 YOLOv5 59.41% 2.50% 47.29% 25.33% 23.58% 31.62% 101.69 占据面积小是导致暗点、亮点检测效果较差的主要原因,可以通过优化检测模型来解决该问题。根据表 1的实验结果,可以明显看出各个模型在暗斑和亮斑的检测方面相对于暗点和亮点有着更出色的表现。这一现象的原因在于斑状瑕疵区域所占据的像素点较多,使得其在整个视场内的显著性更为突出。虽然暗斑和亮斑的数量相对较少,但它们在紫外像增强器视场中的信息反映却更为显著,进而表现出更为精准的检测效果。这也就解释了为什么这3个模型在这2类瑕疵的检测上表现更优。
再结合各类型瑕疵占比的情况,可以推断出特征信息复杂的条纹状瑕疵由于其数量相对较少,导致了较低的平均精准度。为了提升其检测精度,拟考虑采用改进后的DCGAN来生成更多的条纹状瑕疵。这一策略有望更好地识别和分类各种瑕疵类型,从而提高整个检测模型的性能。
2. 基于DCGAN的视场瑕疵图像生成
2.1 GAN网络
GAN是一个由生成器网络G和判别器网络D组成的深度学习网络模型。生成器主要研究图像的数据分布规律,将输入的随机噪声转换为某种规律的图像数据。相反,判别器的任务是甄别输入的样本数据,判断其是真实的图片数据还是来自于生成器,并给出相应的概率大小。训练过程中,生成器和判别器就好像在进行一种对抗,之间存在着竞争和优化,最终实现平衡状态[22]。
如图 4所示,在GAN网络结构示意中,生成器G在输入随机噪声的驱动下,生成虚假数据。判别器D对融合真实数据和虚假数据的数据集进行甄别与评价。在训练阶段,判别器D以最大程度地准确区分实际数据(真)和生成数据(假)为主要目标,改进输入数据判定的准确性。与此同时,期望生成器G输出与真实数据相似的图像,使判别器无法轻易区分两者的差异,从而做到接近真实数据的目的。这个对抗的过程是GAN训练的核心机制,也是其成功应用于许多领域的基础[22]。
2.2 基于DCGAN的视场瑕疵图像生成对抗网络
DCGAN与普通GAN结构大致相似,但也引入了一系列关键的改进[23-24]。对于生成器和判别器最显著的变化之一就是在两者结构中都去除了池化层。此外,批量归一化(BN)层在两者的每一层结构中都应用了。关于结构中的全连接层,DCGAN将它们全部替换成了1×1的卷积层。在激活函数的选取方面,tanh函数被应用于生成器在倒数第一层,而ReLU函数则被应用在剩下的层中;Sigmoid函数被应用于判别器的倒数第一层,而Leaky ReLU函数则被应用在剩下的层中。这些改进不仅使得DCGAN能够更加有效地从真实图像中提取数据特征,也让其在准确区分生成图像和真实图像方面表现更加优异。总体而言,这一系列的改动显著地提升了DCGAN的性能,使其成为生成模型领域的一个常用模型。
DCGAN网络引入卷积神经网络以提升性能,但仍存在一个根本性问题:其基于JS散度(Jensen-Shannon Divergence)的损失函数会导致训练过程中可能出现梯度消失的情况。为解决此问题,将DCGAN的损失函数以Wasserstein距离来替代。
Wasserstein距离[25]是测定两个概率分布之间“距离”的定量。它涉及到将一种概率分布转换成另一种的最小成本。假设有两个概率分布P和Q,它们分别定义在某个空间上。Wasserstein距离W(P, Q)定义如下:
$$ W\left( {P,Q} \right) = \mathop {\inf }\limits_{\gamma \in \Pi \left( {P,Q} \right)} \int {\left\| {x - y} \right\|} {\text{d}}\gamma \left( {x,y} \right) $$ (1) 式中:$ \Pi(P, Q) $表示所有P和Q上的联合概率分布集合,满足边际分布分别为P和Q;γ(x, y)表示联合概率分布中点x来自P,点y来自Q的概率;||x-y||表示在给定空间中点x和y之间的距离度量。
Wasserstein距离[25]是通过将两个分布之间的“距离”定义为将一个分布变换成另一个所需的最小成本来计算的。这个定义使得Wasserstein距离具有凸性质,而JS散度则不具有这种特性。凸性使得Wasserstein距离在优化问题中更容易处理,同时也使得它在数值计算时更加稳定;由于Wasserstein距离的定义涉及到一个最小化问题,因此可以使用梯度下降等一系列算法来计算。相比之下,JS散度在某些情况下可能无法直接进行梯度计算;Wasserstein距离更关注分布之间的局部结构差异,而JS散度更关注全局的分布差异。这使得Wasserstein距离能够更好地捕捉到分布的细节和局部特征;对于高维空间中稀疏分布的情况,Wasserstein距离通常能够提供更有意义的度量,因为它考虑了数据点之间的距离。相比之下,JS散度可能会受到稀疏性的影响。综上所述,这一改动使得训练过程更快收敛,同时生成的图像质量也有了一定提升。
另外,还添加卷积注意力机制[26-27]辅助条纹状瑕疵图像生成。这是一种在卷积神经网络中引入注意力机制的方法,通过动态地调整特征图的权重,使网络更加关注重要的特征区域或通道。它按照顺序先后结合了通道注意力和空间注意力,如图 5所示。其工作原理是通过两个子模块,分别对通道维度和空间维度进行注意力加权,从而提升网络对重要特征的关注程度。通道注意力子模块通过学习每个通道的重要性权重,使得网络在不同通道上能够动态地调整特征响应的强度。空间注意力子模块则通过学习每个空间位置的权重,使得网络能够在不同位置上关注不同程度的特征。通过结合这两个子模块,卷积注意力能够使网络在通道和空间上更加灵活地关注重要的特征,从而提升了模型的性能和泛化能力。使生成器更加准确关注视场中的条纹类瑕疵的特征,增加瑕疵区域的关注度,生成瑕疵特征明显的视场图像。
基于DCGAN模型、Wasserstein距离和卷积注意力机制,建立了一种紫外像增强器视场条纹状瑕疵图像的生成对抗网络模型,其中生成器网络和判别器网络的大致结构如图 6所示。生成器是用于生成类似图像的神经网络模型,它以随机噪声向量作为输入,通过一个全连接层将其映射为一个形状为(4, 4, 1024)的张量,然后经过批归一化和ReLU激活函数处理。接下来,通过4个反卷积层(self.deconv1、self.deconv2、self.deconv3和self.deconv4),分别将特征图的尺寸放大一倍,通道数逐步减少,从而逐步生成高分辨率的图像。每个反卷积层后面都有批归一化层和ReLU激活函数来引入非线性特性。最终的输出经过tanh激活函数,确保像素值范围在[-1, 1]之间。此外,生成器还引入了卷积注意力模块,用于增强网络对特定通道的关注,从而提升生成图像的质量。
判别器是用于区分实际数据(真)和生成数据(假)的神经网络模型。它接收一个3通道的64×64的图像作为输入,通过4个卷积层(self.conv1、self.conv2、self.conv3和self.conv4)逐步减小特征图的尺寸,同时通道数逐步增加,以最终得到一个大小为1的标量,表示输入是真实样本的概率。在每个卷积层后面都有批归一化层和LeakyReLU激活函数来引入非线性特性。LeakyReLU相对于传统的ReLU允许一定程度的负数传递,有助于减轻梯度消失问题。同样地,判别器也引入了卷积注意力模块,以增强网络对特定通道的关注,从而提升判别器的性能。
总的来说,生成器负责生成逼真图像数据,而判别器负责区分实际数据和生成数据。通过反复训练生成器与判别器之间的对抗,模型会逐渐提升生成数据的品质,从而达到实验所需求的水平。
2.3 参数设置于网络训练
实验平台的软硬件配置情况如表 2、3所示。用于训练的数据集为紫外像增强器视场瑕疵数据集,共计包含1254张图像。
表 2 实验平台硬件环境配置情况Table 2. Hardware environment configuration of experimental platformHardware Model and parameters CPU Intel(R) Core(TM) i5-12400 4.40GHz GPU Nvidia RTX 3060 12GB Memory 16G(8G×2) 表 3 实验平台软件环境配置情况Table 3. Experimental platform software environment configurationSoftware Name Operating system Windows11 Deep learning framework Pytorch Programming language Python Third-party library OpenCV/CUDA 随后,对这1254张图像进行剪裁,保留了仅含有条纹状瑕疵的部分,避免了其他类型瑕疵的干扰,以确保训练数据的准确性和有效性。同时,也排除了那些相似程度较高和质量较差的图像,以保证最终数据的高质量性。经过这一系列处理后,得到了一个包括232张图像的条纹状瑕疵数据集,每张图像的尺寸统一调整为64像素×64像素。这个经过处理的数据集将作为网络训练的输入,训练开始时,首先将生成器和判别器设置为训练模式,并加载预训练权重。然后根据指定的学习率下降策略和当前epoch更新生成器和判别器的学习率。初始学习率设为2×10-3,最小学习率为初始学习率的0.01,使用Adam优化器。训练参数的设置如表 4所示。接着,从数据加载器中获取一个批次的真实图像和噪声,并将它们移至GPU上。批次大小为64,数据加载器使用多线程同时加载数据。生成器接收到一批随机噪声向量,将其作为输入然后输出相应数量的生成数据。这些生成数据(假)和实际数据(真)一起送入生成器和判别器网络中,分别计算生成器损失和判别器损失。生成器损失度量了生成器生成的数据与实际数据之间的差异,判别器损失度量了判别器对生成数据和实际数据的区分精准度。
表 4 DCGAN模型的训练参数Table 4. Training parameters of DCGAN modelParameters Setting Batch size 64 Learning rate 0.002 Epochs 2000 接下来,通过反向传播算法将损失值传递回生成器和判别器,然后利用优化器来更新它们的参数。在这个过程中,学习率会根据预设的学习率下降策略和当前的epoch数进行相应的调整。在整个训练过程中,会持续记录生成器和判别器的损失值,以便后续分析和可视化。训练会持续循环进行,每个epoch结束后,会根据设定的保存周期来决定是否保存模型权重和日志文件,以便于后续的训练或评估。整个训练过程会重复执行,直到达到指定的2000次epoch。在往复的训练过程中,模型会逐步纠正生成器和判别器的参数,以使其能够更准确地输出与实际数据相似的生成数据,从而提升模型的生成能力。
2.4 图像生成结果与评价
为了评估模型性能,对比了在不同迭代次数下DCGAN和改进后的DCGAN(增加卷积注意力和替换损失函数)所生成的紫外像增强器视场条纹瑕疵图像的效果,这里只随机展示了不同迭代次数下的5张图像,如图 7和图 8所示。最终会选择生成的10000张条纹状瑕疵图像进行图像评估。
当Epoch为100时,两种模型几乎都无法观察到条纹瑕疵的生成。且DCGAN模型相较于改进后的模型,生成的图像背景严重失真,甚至都不能呈现为绿色背景,表明训练初期该模型学习瑕疵的特征信息较为困难。
随着迭代的进行,情况开始有所好转。当Epoch为500时,改进后模型生成的视场瑕疵图像呈现出过度均匀的背景样式,且背景之中隐约开始出现黑色的阴影轮廓,表明该模型已经学习到了一些特征。与此同时,DCGAN模型可以达到了优化后模型上一阶段(100Epoch)的图片效果,表明改进的确带来了一定程度的性能提升。
当Epoch为1000时,优化后的DCGAN生成的图像已经可以呈现类似条纹状瑕疵的大致样式,但整体还是表现得有点模糊,数据的品质还不够好。此时DCGAN模型才刚开始出现有明暗特征、过度均匀的绿色背景图像且有隐约的条纹状瑕疵阴影轮廓,但不是很明显。
随着迭代的进一步进行,特别当Epoch为2000时,改进后的DCGAN已经能生成带有条纹状瑕疵的图像,且该模型生成图像中条纹轮廓更加清晰,图像背景整体明暗过度均匀,生成图像的背景和条纹状瑕疵都更接近真实图像。而此时,DCGAN模型也可以生成了条纹状瑕疵,但分布比较嘈杂,生成的质量也相对较差。也进一步证明了增加卷积注意力机制、替换损失函数对于提升生成图像的质量有一定效果。
生成图像质量是评价不同图像生成模型的关键指标。然而,直接主观比较容易受个人偏见影响,因此不能作为唯一的评价标准。为了更客观、具有说服力地评估生成图像的质量,定量化的数值指标显得尤为重要[28]。本文选择了3个重要的定量评价指标对基于改进DCGAN算法生成的图像和真实图像进行评估,分别是峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性(Structure Similarity,SSIM)以及学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)。这3个指标能够全面地评估生成图像的质量,包括了图像的清晰度、结构相似度以及感知相似度等方面。表 5展示了使用这3个指标对DCGAN模型不同改进程度的消融实验结果,其中A代表替换了Wasserstein距离,B代表引入了卷积注意力机制。
表 5 消融实验结果Table 5. Ablation experimental resultsModels PSNR/dB SSIM LPIPS DCGAN 15.35 0.812 0.218 DCGAN+A 15.88 0.825 0.209 DCGAN+A+B 16.34 0.834 0.207 PSNR衡量图像的重建质量[29],它通过比较实际图像数据与生成图像数据的均方误差,并将其转换为对数尺度来评估它们之间的相似度。较高的PSNR值表示实际图像与生成图像之间的误差越小;SSIM是一个综合考虑了亮度、对比度和结构信息的指标[30],它通过分别计算实际图像与生成图像的亮度、对比度和结构相似性,然后将它们组合成一个综合指标。且SSIM值介于-1和1之间,1表示完全相似,-1表示完全不相似,0表示中等相似度;LPIPS用神经网络进行特征提取来计算图像之间的感觉相似度[31],较低的LPIPS值表明两张图像在感觉上更为相似。
PSNR值越高表示图像质量越好,16.34 dB可能意味着一些细节上的损失或者噪音;SSIM的取值范围是[-1, 1],0.834表示生成图像与实际图像之间存在一定的结构相似性;LPIPS值越低表示图像质量越好,0.207是一个相对较低的值,表明生成图像在感知上与参考图像相似。综合来看,根据评价指标,生成的图像质量可以被认为是不错的,可能存在一些细微的差异或者噪音,但也基本满足了实验的需求。
为了验证生成图像的质量,选用了Faster-RCNN、SSD和YOLOv5这3种不同的检测模型,作为评价生成对抗网络生成的紫外像增强器视场条纹瑕疵图像的标准。为了全面评估模型性能,选择检测的平均精准度作为主要评价指标,这是在目标检测领域中比较广泛使用的指标。在对照实验中,针对生成对抗网络生成的瑕疵图像构建了不同的数据集,用于测试3种检测模型的检测精度。通过这一设计,能够较为全面地评估模型在不同数据集上的性能表现,从而得到更加全面的实验结果。在实验结果方面,表 6展示了通过不同检测模型对生成图像增强后的数据集进行检测的结果。从实验数据中可以明显看出,通过生成图像增强后的数据集能够有效提升条纹瑕疵的检测精度。这一结果证明了生成对抗网络在提升图像质量方面的有效性,也为其在实际应用中的潜力提供了一定的实验证据。
表 6 条纹状瑕疵检测的平均精准度Table 6. Average precision of stripe defect detectionTraining datasets Average Precision/% Faster-RCNN SSD YOLOv5 Initial training sample datasets 42.84% 27.07% 23.58% Added 200 generated stripe images 45.59% 29.81% 38.75% Added 500 generated stripe images 53.40% 34.19% 41.15% 3. 结论
针对采集紫外像增强器视场瑕疵图像困难、自建数据集样本不平衡的问题,提出了一项有效的解决方法——基于DCGAN的瑕疵图像生成技术。首先,采集了一定数量的紫外像增强器视场瑕疵图像作为训练基础数据。随后,结合改进后的DCGAN网络模型,经过多轮迭代对抗训练,可以生成类似于实际条纹状瑕疵的图像。有效的模型改进为后续检测模型的性能提升奠定了坚实基础。在验证生成图片有效性的方面,通过采用3种不同检测模型(Faster-RCNN、SSD以及YOLOv5)对原始图像和生成模型增强后的数据集进行了训练。实验结果显示,通过生成模型增强后的数据集在条纹类瑕疵检测中表现出了更高的检测精度,进一步验证了方法的有效性和优越性。
综上所述,本文提出的方法在实验中展现出了不错的性能。它可以保证生成的视场瑕疵图像的质量,达到扩充现有数据集的目的,从而显著提升了基于深度学习的视场瑕疵检测精度。这一研究成果具有重要的实际意义,为解决相关问题提供了可行的技术路径。
-
表 1 不同检测模型对各类瑕疵的检测效果
Table 1 The detection effect of different detection models on various defects
Models Average precision/% mAP/% FPS Scotoma Bright spot Macula Speck Stripe SSD 22.97% 43.05% 48.57% 42.12% 27.07% 36.76% 70.90 Faster-RCNN 18.54% 23.53% 72.85% 61.16% 42.84% 43.78% 11.92 YOLOv5 59.41% 2.50% 47.29% 25.33% 23.58% 31.62% 101.69 表 2 实验平台硬件环境配置情况
Table 2 Hardware environment configuration of experimental platform
Hardware Model and parameters CPU Intel(R) Core(TM) i5-12400 4.40GHz GPU Nvidia RTX 3060 12GB Memory 16G(8G×2) 表 3 实验平台软件环境配置情况
Table 3 Experimental platform software environment configuration
Software Name Operating system Windows11 Deep learning framework Pytorch Programming language Python Third-party library OpenCV/CUDA 表 4 DCGAN模型的训练参数
Table 4 Training parameters of DCGAN model
Parameters Setting Batch size 64 Learning rate 0.002 Epochs 2000 表 5 消融实验结果
Table 5 Ablation experimental results
Models PSNR/dB SSIM LPIPS DCGAN 15.35 0.812 0.218 DCGAN+A 15.88 0.825 0.209 DCGAN+A+B 16.34 0.834 0.207 表 6 条纹状瑕疵检测的平均精准度
Table 6 Average precision of stripe defect detection
Training datasets Average Precision/% Faster-RCNN SSD YOLOv5 Initial training sample datasets 42.84% 27.07% 23.58% Added 200 generated stripe images 45.59% 29.81% 38.75% Added 500 generated stripe images 53.40% 34.19% 41.15% -
[1] 谭志. 基于深度学习的目标检测与识别技术[M]. 北京: 化学工业出版社, 2021. TAN Zhi. Target Detection and Recognition Technology Based on Deep Learning[M]. Beijing: Chemical Industry Press, 2021.
[2] 宫久路, 谌德荣, 王泽鹏. 目标检测与识别技术[M]. 北京: 北京理工大学出版社, 2022. GONG Jiulu, CHEN Derong, WANG Zepeng. Target Detection and Recognition Technology[M]. Beijing: Beijing Institute of Technology Press, 2022.
[3] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. DOI: 10.1145/3422622
[4] 张卓, 雷晏, 毛晓光, 等. 基于对抗生成网络的缺陷定位模型域数据增强方法[J/OL]. 软件学报: 1-18. [2023-10-29], http://www.jos.org.cn/jos/article/abstract/6961?st=search. ZHANG Zhuo, LEI Yan, MAO Xiaoguang, et al. Data augmentation method of defect location model domain based on adversarial generative network[J/OL]. Journal of Software: 1-18 [2023-10-29], http://www.jos.org.cn/jos/article/abstract/6961?st=search.
[5] 袁培森, 吴茂盛, 翟肇裕, 等. 基于GAN网络的菌菇表型数据生成研究[J]. 农业机械学报, 2019, 50(12): 231-239. https://www.cnki.com.cn/Article/CJFDTOTAL-NYJX201912026.htm YUAN Peisen, WU Maosheng, ZHAI Zhaoyu, et al. Study on phenotypic data generation of mushroom based on GAN network[J]. Journal of Agricultural Machinery, 2019, 50(12): 231-239. https://www.cnki.com.cn/Article/CJFDTOTAL-NYJX201912026.htm
[6] DOMAN K, KONISHI T, MEKADA Y. Lesion image synthesis using DCGANs for metastatic liver cancer detection[J]. Adv Exp Med Biol., 2020, 1213: 95-106.
[7] 陈昊. 基于生成对抗网络GAN的量化选股策略研究[D]. 广州: 广州大学, 2023. CHEN Hao. Research on Quantitative Stock Selection Strategy Based on Generative Adversarial Network GAN[D]. Guangzhou: Guangzhou University, 2023.
[8] 黄玥玥. 基于GAN网络的水下图像增强方法研究[D]. 西安: 陕西科技大学, 2023. HUANG Yueyue. Research on Underwater Image Enhancement Method Based on GAN Network [D]. Xi'an: Shaanxi University of Science and Technology, 2023.
[9] 林本旺. 基于生成对抗网络的人脸表情生成方法研究[D]. 北京: 北京建筑大学, 2023. LIN Benwang. Research on Facial Expression Generation Method Based on Generative Adversarial Networks[D]. Beijing: Beijing Jianzhu University, 2023.
[10] 叶娜. 基于生成对抗网络的机器人跨模态感知技术研究[D]. 南昌: 南昌大学, 2023. YE Na. Research on Cross-Modal Perception Technology of Robots Based on Generative Adversarial Networks[D]. Nanchang: Nanchang University, 2023.
[11] Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint arXiv: 1411.1784, 2014.
[12] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv: 1511.06434, 2015.
[13] 吴浩生, 江沛, 王作学, 等. 基于Wasserstein GAN数据增强的矿物浮选纯度预测[J/OL]. 重庆大学学报: 1-12. [2023-10-29]. http://kns.cnki.net/kcms/detail/50.1044.N.20230523.1159.002.html. WU Haosheng, JIANG Pei, WANG Zuoxue, et al. Mineral flotation purity prediction based on Wasserstein GAN data enhancement[J/OL]. Journal of Chongqing University: 1-12. [2023-10-29]. http://kns.cnki.net/kcms/detail/50.1044.N.20230523.1159.002.html.
[14] 王雨萌, 孙长海, 赵树春, 等. 基于改进的Wasserstein生成对抗网络和深度残差网络的电缆中间接头局部放电缺陷识别[J]. 科学技术与工程, 2022, 22(35): 15650-15658. https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS202235027.htm WANG Yumeng, SUN Changhai, ZHAO Shuchun, et al. Partial discharge defect identification of cable intermediate joints based on improved Wasserstein generative adversarial network and deep residual network [J]. Science and Technology and Engineering, 2022, 22(35): 15650-15658. https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS202235027.htm
[15] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[16] Christou C, Eliophotou-Menon M, Philippou G. Teachers' concerns regarding the adoption of a new mathematics curriculum: an application of CBAM[J]. Educational Studies in Mathematics, 2004, 57: 157-176. DOI: 10.1023/B:EDUC.0000049271.01649.dd
[17] 吴丽君, 陈士东, 陈志聪. 基于注意力-生成式对抗网络的异常行为检测[J]. 微电子学与计算机, 2022, 39(8): 31-38. https://www.cnki.com.cn/Article/CJFDTOTAL-WXYJ202208004.htm WU Lijun, CHEN Shidong, CHEN Zhicong. Abnormal behavior detection based on attention-generative adversarial networks[J]. Microelectronics and Computers, 2022, 39(8): 31-38. https://www.cnki.com.cn/Article/CJFDTOTAL-WXYJ202208004.htm
[18] 杨琦. 紫外像增强器视场缺陷检测技术研究[D]. 南京: 南京理工大学, 2011. YANG Qi. Research on Defect Detection Technology of Ultraviolet Image Intensifier[D]. Nanjing: Nanjing University of Science and Technology, 2011.
[19] 赵清波. 宽光谱像增强器辐射增益和视场缺陷测试技术研究[D]. 南京: 南京理工大学, 2008. ZHAO Qingbo. Research on Radiation Gain and Field Defect Test Technology of Wide Spectrum Image Intensifier[D]. Nanjing: Nanjing University of Science and Technology, 2008.
[20] 王吉晖, 金伟其, 王霞, 等. 基于数学形态学的像增强器缺陷的图像检测方法[J]. 光学技术, 2005(3): 463-464, 467. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJS200503041.htm WANG Jihui, JIN Weiqi, WANG Xia, et al. Flaw inspection method for image tube based on image processing[J]. Optical Technology, 2005(3): 463-464, 467. https://www.cnki.com.cn/Article/CJFDTOTAL-GXJS200503041.htm
[21] 许正光, 王霞, 王吉晖, 等. 像增强器视场缺陷检测方法研究[J]. 应用光学, 2005(3): 12-15. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX200503004.htm XU Zhengguang, WANG Xia, WANG Jihui, et al. Research of an approach to detect field defects of image intensifier[J]. Application Optics, 2005(3): 12-15. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX200503004.htm
[22] 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017, 43(3): 321-332. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201703001.htm WANG Kunfeng, GOU Chao, DUAN Yanjie, et al. Research progress and prospect of generative adversarial network GAN[J]. Acta Automatica Sinica, 2017, 43(3): 321-332. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201703001.htm
[23] 陈新雨. 基于生成式对抗网络的图像生成方法研究[D]. 湘潭: 湘潭大学, 2020. CHEN Xinyu. Research on Image Generation Method Based on Generative Adversarial Networks[D]. Xiangtan: Xiangtan University, 2020.
[24] 吴晓燕, 钱真坤. 基于深度卷积生成式对抗网络的人脸恢复方法[J]. 计算机应用与软件, 2020, 37(8): 207-212. https://www.cnki.com.cn/Article/CJFDTOTAL-JYRJ202008037.htm WU Xiaoyan, QIAN Zhenkun. A face recovery method based on deep convolutional generative adversarial networks[J]. Computer Applications and Software, 2020, 37(8): 207-212. https://www.cnki.com.cn/Article/CJFDTOTAL-JYRJ202008037.htm
[25] 朱显珅. Wasserstein距离下的图像应用研究[D]. 昆明: 云南师范大学, 2023. ZHU Xianshen. Research on Image Application Under Wasserstein Distance[D]. Kunming: Yunnan Normal University, 2023.
[26] 蔡梓豪, 姜屹, 张来平, 等. 基于卷积注意力网络的网格质量评价方法[J]. 四川大学学报(自然科学版), 2023, 60(5): 139-148. https://www.cnki.com.cn/Article/CJFDTOTAL-SCDX202305015.htm CAI Zihao, JIANG Yi, ZHANG Laiping. An evaluation method of grid quality based on convolutional attention network[J]. Journal of Sichuan University (Natural Science Edition), 2023, 60(5): 139-148. https://www.cnki.com.cn/Article/CJFDTOTAL-SCDX202305015.htm
[27] 赵雅琴, 宋雨晴, 吴晗, 等. 基于DenseNet和卷积注意力模块的高精度手势识别[J]. 电子与信息学报, 2024, 46(3): 967-976. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202403022.htm ZHAO Yaqin, SONG Yuqing, WU Han, et al. High-precision gesture recognition based on DenseNet and convolutional attention module[J]. Journal of Electronics and Informatics, 2024, 46(3): 967-976. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202403022.htm
[28] Shmelkov K, Schmid C, Alahari K. How good is my GAN?[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 213-229.
[29] Korhonen J, You J. Peak signal-to-noise ratio revisited: Is simple beautiful[C]//Fourth International Workshop on Quality of Multimedia Experience. IEEE, 2012: 37-38.
[30] WANG Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. DOI: 10.1109/TIP.2003.819861
[31] ZHANG R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 586-595.