类HED网络的热红外图像显著性人体检测深度网络

张骏; 张鹏; 张政; 白云飞

类HED网络的热红外图像显著性人体检测深度网络

张骏^{1, 2, 3,},
张鹏^{1, 2, 3},
张政^{1, 2, 3},
白云飞^{1, 2, 3}

1.
中航华东光电有限公司，安徽芜湖 241002
2.
特种显示国家实验室，安徽芜湖 241002
3.
国家特种显示工程技术研究中心，安徽芜湖 241002

基金项目:

安徽省科技重大专项项目

详细信息

作者简介:
张骏（1983-），男，工程师，硕士，研究方向：图像处理与模式识别。E-mail: zqiniop@163.com

中图分类号: TP183
计量
- 文章访问数: 131
- HTML全文浏览量: 64
- PDF下载量: 30
出版历程
- 收稿日期: 2021-03-28
- 修回日期: 2021-04-26
- 刊出日期: 2023-06-19

Similar HED-Net for Salient Human Detection in Thermal Infrared Images

ZHANG Jun^{1, 2, 3,},
ZHANG Peng^{1, 2, 3},
ZHANG Zheng^{1, 2, 3},
BAI Yunfei^{1, 2, 3}

1.
Aviation Industry Corp Huadong Photoelectric Company Limited, Wuhu 241002, China
2.
State Special Display Engineering Laboratory, Wuhu 241002, China
3.
Land National Special Display Engineering Research Center, Wuhu 241002, China

摘要

摘要: 热红外图像中的人体目标易于观察显著性强，应用广泛，但受限于热红外设备的硬件，往往图像中的人体目标边缘模糊，检测效果较差，同时因为热红外的特殊成像原理，人体目标检测时极易受到发热物和遮挡物的干扰，检测的精度也无法得到保证。针对上述问题，本文提出了一种类HED（holistically nested edge detection）的热红外显著性人体检测网络。网络采用类HED网络形式，通过将不同比例的空洞卷积编解码模块进行残差相加形式，完成人体目标的检测任务。实验证明该网络可以有效地检测人体目标，准确地预测边缘结构，同时在发热物及遮挡物等环境下也具有较高的检测精度。
- HED /
- VGG /
- U-NET
Abstract: Human targets in thermal infrared images are easy to observe and have a wide range of applications. However, they are limited by the hardware of thermal infrared devices. The edges of human targets in the images are often blurred and the detection efficiency is poor. Simultaneously, because of the special imaging principle of thermal infrared, human target detection is vulnerable to the interference of heating and occlusion objects and the detection accuracy cannot be guaranteed. In response to the above issues, this study proposes a type of holistically nested edge detection (HED)-thermal infrared saliency human detection network. The network adopted the form of a similar HED network and detected human targets by adding the residuals of different proportions of the hole convolutional codec module. Experiments showed that the network can effectively detect human targets, accurately predict the edge structure, and also have high detection accuracy in an environments with heating objects and obstructions.
- HED /
- VGG /
- U-Net

HTML全文

0. 引言

随着我国经济向高质量转型发展，现代科技正助推机械设备向高精密、高复杂和高效率方向发展，机械设备的高负荷运转必然造成关键部件常承受巨大的冲击与载荷，进而极易产生疲劳，萌生裂纹^[1]。如不能在初期及时发现，裂纹会逐渐扩展，进而导致整个设备损坏，造成人力、物力资源损失，甚至存有重大的安全隐患^[2]。因此，确保设备的安全是非常重要的任务，具有重大的研究意义。

涡流脉冲热像（Eddy current pulse thermography，ECPT）技术是一种将涡流检测和热像技术相互结合的新型无损检测技术^[3]。作为新晋的无损检测手段，其具有检测面积大、速度快、非接触、无污染、空间分辨率高以及成像直观等优势^[4]。涡流热图像处理方法成为近年来的研究热点。毕野等^[5]设计一套涡流热像无损检测系统，并提出一种基于深度学习模型的识别诊断试件的损伤程度；Gao等^[6]提出了一种定量分析策略，以验证各种热特征提取技术的检测性能；孙吉伟等^[7]探究了利用图像特征提取技术对涡流脉冲热成像缺陷检测。然而，在实际应用中，由于裂纹缺陷类型不同，进而产生不同状态的温度场分布，降低了图像特征提取的准确性和效率。随着深度学习技术的迅速发展，基于计算机视觉进行热像无损检测愈发智能化和现代化，其应用领域将会得到极大地拓宽。它的发展趋势必然是采用人工智能技术来实现快速、可靠、智能的检测。

为了解决人工提取特征效率低下和智能化不足等问题，本文采用涡流脉冲热像无损检测系统采集具有微小裂纹的金属热像数据，对图像进行预处理，将循环神经网络应用到金属疲劳裂纹检测中，利用卷积神经网络（Convolutional Neural Network，CNN）善于提取图像特征的优势，提出一种涡流脉冲热像技术背景下基于Bi-LSTM模型的金属裂纹识别分类方法。首先将预处理后的涡流脉冲热图像输入CNN模型提取图像特征，在经过特征压缩，变为序列特征输入Bi-LSTM模型，最后通过分类器Softmax实现涡流热图像识别分类，并与其他网络模型的识别率进行对比。经实验验证，该方法在金属疲劳裂纹检测方面获得更高的效率和识别精度。

1. 循环神经网络

循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归并且所有的节点（循环单元）按照链式连接的递归网络。主流的循环神经网络是长短期记忆网络（long short-term memory，LSTM）和双向循环神经网络（Bi-RNN）。循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征学习时具有一定优势，常用于处理一段文字或声音、购物或观影的顺序，同时也能处理图像的一行或者一列像素^[8]。

1.1 长短期记忆循环神经网络

长短期记忆神经网络是一种循环神经网络结构的变体，可以解决循环神经网络的梯度消失和梯度爆炸问题。LSTM相比于RNN的最大不同是通过“门”结构来控制神经网络中每个时刻的信息状态，LSTM中引入了3个门，既输入门（input gate）、遗忘门（forget gate）、和输出门（output gate），以及与隐含状态形状相同的记忆细胞从而记录额外的信息^[9]。LSTM内部结构如图 1所示。

图 1 LSTM神经网络结构组成

图中：X_t表示输入状态；i是输入门；f是遗忘门；$ {\tilde c_t} $是候选记忆细胞；o是输出门；c_t是记忆细胞；h_t是隐藏状态。

Figure 1. The structure of LSTM neural network

下载: 全尺寸图片幻灯片

1.2 双向长短期记忆循环神经网络

传统的RNN网络没有记忆功能，单向的LSTM网络由前向后推测信息，都只能利用以往的信息，而没考虑之后的隐含层神经元的信息，缺乏前后的逻辑性^[10]。双向长短时记忆神经网络（Bi-LSTM）是在LSTM结构基础上演变而来的，通过前向和后向传播双向运算，加深之前序列特征的提取，可以提高模型输出结果的准确性。这样的双向LSTM网络即可获得以往信息和未来信息，从而在整个时间上获得更多的信息^[11]。

Bi-LSTM的双向结构，不仅具备了LSTM解决RNN中的梯度消失、爆炸的能力，而且相较于单方向的LSTM，既能充分利用前面的历史信息，又能考虑到后面的信息数据。Bi-LSTM很好地实现了记忆和累积功能，尽可能地利用了所能用到的信息，对前后序列捕捉特征更加有效。Bi-LSTM能够充分利用前后序列的相关信息来解决序列问题^[12]。Bi-LSTM结构示意图如图 2所示。

图 2 Bi-LSTM网络结构

Figure 2. Bi-LSTM network structure

下载: 全尺寸图片幻灯片

在Bi-LSTM网络的计算过程中，分别对前向隐向量$ {\vec h_{t - 1}} $产生新的向量$ {\vec h_t} $和后向隐向量$ {\vec h_{t + 1}} $产生新的向量$ {\vec h_t}^\prime $进行计算。计算公式分别为：

$$ {\vec h_t} = g\left( {{W_{x{{\vec h}_t}}}{x_t} + {W_{\vec h\vec h}}\overrightarrow {{h_{t - 1}}} + {b_{\vec h}}} \right) $$

(1)

$$ {\vec h_t}^\prime = g\left( {{W_{x{{\vec h}_t}}}{x_t} + {W_{\vec h\vec h}}\overrightarrow {{h_{t + 1}}} + {b_{\vec h}}} \right) $$

(2)

Bi-LSTM中，将前后正反两个方向LSTM相加，最终输出结果y_t：

$$ {y_t} = f\left( {{W_{\overrightarrow {hy} }}{{\vec h}_t} + {W_{\overleftarrow {hy} }}{{\vec h}_t}^\prime + {b_y}} \right) $$

(3)

式中：W是权重参数；b是偏差参数。

另外，如果模型过拟合，那么得到的模型几乎不能用。为了防止过拟合现象，提高网络模型的适用性，引入Dropout方法。此方法通过使部分神经元随机失去活性，保证所有的训练都具有不同的弱分类器的性质，从而保证了模型的泛化能力^[13]。

2. 涡流脉冲热像的数据获取及处理

涡流脉冲热像技术是目前国内外研究的一个热点，它将电磁生热和瞬态红外热成像相互结合，可以在较大范围内快速、高效地进行缺陷的检测和特征提取，其核心是涡流脉冲热图像的识别。本文实验采用涡流加热装置对被测金属试件进行涡流加热，同时搭建红外热像检测装置，实时采集红外热波检测图像，并将数据转换成图像，再对图像进行预处理后作为样本数据集。

2.1 涡流脉冲热像实验系统

设计搭建一套涡流脉冲热像无损检测实验台，能够定量控制激励时间、激励强度和提取距离等检测条件参数，同时编写一套涡流脉冲热像无损检测系统软件，满足软件和硬件上的实验要求，其组成如图 3所示，主要由型号为FILR-T640的红外热像仪（分辨率为640 pixel×480 pixel，采集频率为30 Hz，热灵敏度为35 mK）、感应电磁激励装置（功率为3 kW的高频激励电源、电磁线圈、支座、水冷装置）、采集控制终端（PC）和其他辅助设备（三维移动平台等）。

图 3 涡流脉冲热像检测实验系统

Figure 3. ECPT experimental system

下载: 全尺寸图片幻灯片

2.2 检测试件和数据采集

为得到实际应用中经常遇到的缺陷裂纹，实验采用一种具有预制疲劳裂纹的金属平板，如图 4所示，尺寸大小为240 mm×47.7 mm×5 mm，材料为45钢^[14]。由于加工过程的约束，不能在金属试件的内部进行缺陷破坏，因此本实验仅对金属试件表面缺陷进行研究，即在平板长边一侧进行人工预制贯穿疲劳裂纹。此外，在实验之前，被测金属平板表面喷涂黑色哑光漆，以改善其表面的发射率。

图 4 含疲劳裂纹的45钢平板试件

Figure 4. 45 steel flat specimen with fatigue crack

下载: 全尺寸图片幻灯片

为了充分考虑实验数据的多样性，此次选取的实验数据在不同的激励时间、激励强度（系统功率的百分比）和提取距离（电磁线圈下表面与试件上表面的距离）条件进行图像序列采集。本文以18类试件为研究对象，采集条件为激励时间200ms，激励强度80%，提取距离10 mm，采集时间1 s，每类含不同长度裂纹或没有裂纹，其编号和尺寸如表 1所示，其中第1类为无裂纹（正常）试件。

表 1 18类金属试件裂纹长度及其编号

Table 1. Crack length and numbering of 18 metal specimens

Serial numbers	Crack length/μm
1	0
2	1707.41
3	1986.66
4	2181.48
5	3454.42
6	3474.50
7	3898.49
8	4639.50
9	4866.00
10	5263.50
11	5374.71
12	5477.50
13	5624.33
14	6559.11
15	6570.00
16	6577.41
17	6629.00
18	6740.50

下载: 导出CSV

| 显示表格

2.3 红外图像预处理及样本集形成

将样本输入模型之前需要通过MATLAB软件对实验采集的金属试件样本进行图像预处理，对非试件区域进行裁剪，获得所需的实验范围，进行样本集制作。该数据集包括18类不同类型的涡流脉冲热像实验所得的红外热图像，由于采集的样本数量较少所以需要对原始样本集进行扩增，数据扩增的常见的方法有图像缩放、图像裁剪、图像平移、图像亮度调整、图像色彩调整、图像添加噪声和滤波等^[15]。为更好保持原始图片的特征信息，采用图像旋转的方法对样本数据扩增，图片进行顺时针旋转90°、180°和270°，如图 5、6所示，分别为含裂纹图像和无裂纹图像，每类180张，共采集3240张金属试件的涡流脉冲热图像。

图 5 有裂纹数据集扩增图

Figure 5. Expansion of crack dataset

下载: 全尺寸图片幻灯片

图 6 无裂纹数据集扩增图

Figure 6. Expansion of the crack-free dataset

下载: 全尺寸图片幻灯片

将3240张图片按照7:3的比例分为训练数据集和测试数据集，其中训练图像2268张，测试图像972张。

3. 基于Bi-LSTM金属试件缺陷检测

3.1 环境配置

文中实验采用硬件环境是Intel（R），Core（TM）i5-7500 CPU@3.40 GHz，内存16 G，显卡为GeForce GTX 1060 6 GB，软件环境为：Windows10（64位）操作系统，MATLAB R2021b。

3.2 网络模型建立

首先，输入图像为预处理后图像，确保所有图像的尺寸相同，卷积神经网络善于提取图像特征，但是难以捕捉到序列数据中的长期依赖关系^[16]。因此，文中针对当前涡流脉冲热图像数据设计一个Bi-LSTM网络结构，弥补这一不足。网络结构示意图如图 7所示。

图 7 文中设计模型主体结构

Figure 7. Main structure of the model in this paper

下载: 全尺寸图片幻灯片

1）输入层：作为网络结构的首层，图像通过输入层后转化为矩阵作为下一层卷积层的输入，文中输入涡流脉冲热图像的大小为256×256，以便进行卷积操作。

2）卷积层：实验采用4个卷积层，利用多个不同大小的多个卷积核，可以获得更多的特征图，从而使特征信息显示的更加丰富。

3）池化层：池化层可以使特征变得更加明显，池化后的特征图分辨率变为原来的1/2。

4）Bi-LSTM网络层：将之前得到的特征压缩，变为序列特征输入Bi-LSTM模型处理分类，使用Adam自适应可变学习率优化器，对网络进行训练^[17]。经过多次反复实验调参，采用两层堆积的LSTM结构，其隐含层节点数分别为64和32。

5）全连接层：可以看作是卷积、池化操作之后，将局部特征重新进行拟合，文中在Softmax层之前设置1个全连接层，均采用128个神经元。

6）Softmax回归模型：分类器采用Softmax回归模型，它是logistic回归模型在多分类问题上的扩展，在多分类问题中，类标签y可以取两个以上的值。Softmax回归模型对多分类问题非常有效。

其中，批标准化（BatchNorm，BN）层能够加快网络的收敛速度，使网络更加稳定，同时，为避免在双向训练时过拟合，使其提取更有用的特征，在网络模型中加入丢失输出（Dropout）方法^[18]，大小取0.5。Dropout是一种简单而高效的正则化方法，它的主要目的是通过阻止特征检测器的共同作用，从而提高神经网络的泛化能力。具体网络参数如表 2所示。

表 2 本文设计的模型各网络层具体参数

Table 2. Specific parameters of each network layer in this paper

Layer	Detailed parameters
Input	256×256，Thermal image
Conv1	Number and size of convolution kernels，2 5×5×1
Conv2	Number and size of convolution kernels，4 5×5×1
Conv3	Number and size of convolution kernels，8 5×5×1
Conv4	Number and size of convolution kernels，16 5×5×1
Pool	Number and size of convolution kernels，1 2×2×1
Drop	Dropout (0.2)
FC	128 fully connected layer
Bi-LSTM1	Number of hidden layer nodes 64
Bi-LSTM2	Number of hidden layer nodes 32
Softmax	Softmax

下载: 导出CSV

| 显示表格

3.3 实验结果分析

实验采用深度学习框架Deep Network Designer构建循环神经网络，Deep Network Designer是基于MATLAB的神经网络设计平台。

3.3.1 迭代次数对模型训练精度的影响

迭代（Iteration）是指使用一个Batch数据对网络模型进行一次参数更新的过程，称作“一次训练”，也叫“迭代次数（Epoch）”。对于Bi-LSTM模型来说，如果训练阶段的迭代次数过小，会导致数据训练不够充分，分类准确率低；相反如果迭代次数过大，会加大时间成本，使得计算成本增加。所以选择合适的迭代次数能在获得最佳训练效果的同时拥有最小的成本。为了确定最佳的Epoch，把除了迭代次数以外的其他参数设为固定值，使用本文设计的Bi-LSTM网络模型，设定最大迭代次数为30。损失函数是一种用于求解和评估网络模型的非负值函数，其损失函数值越低，则该模型具有更好的鲁棒性。随着迭代次数的增加，识别准确率逐步增加，损失函数不断降低达到最佳。当迭代次数达到5次，即训练次数达到1000次以上，识别准确率不在增加，震荡幅度基本稳定，训练模型的准确率到达100%且损失趋近于0，说明模型训练效果很好。训练集准确率和损失变化曲线如图 8所示。

图 8 训练结果曲线

Figure 8. Training result curves

下载: 全尺寸图片幻灯片

3.3.2 批量尺寸对模型训练精度的影响

在模型训练过程中，批量尺寸的大小对模型的性能有着至关重要的影响。使用小批量尺寸时，虽然能够更快地收敛，但是并不容易并行化，分类效果不理想，使用批改尺寸较大时，网络训练收敛速度加快，但是权值调整次数减少，导致训练效果较差。因此，在选择批量尺寸的同时，需要衡量分类的正确率和时间，选择合适的批量尺寸，在保证时间的条件下，提高分类的正确率。迭代次数选择30次，分别取批量尺寸16、32、64、128，在每种批量尺寸的情况下进行10次实验，不同批量尺寸下的实验结果的平均值对比如图 8所示。

根据表 3可以看出，批量尺寸选择16时，用时最少，但准确率相对于批量尺寸32和64较低，批量尺寸选择128时，准确率最低，并且时间成本较高，当批量尺寸为64时，模型准确率最高，达到100%，并且用时也较短，故选取批量尺寸为64最佳。

表 3 不同批量尺寸识别准确率

Table 3. Different batch size identification accuracy

Batch size	Accuracy/%	Time/s
16	98.77	261
32	99.87	220
64	100	197
128	94.78	162

下载: 导出CSV

| 显示表格

通过实验，模型最终选取迭代次数为30次，批量尺寸为64，学习率为0.0001，Dropout层参数设置为0.5。

3.4 模型可视化效果

同时为了更清楚评价本文方法的性能，在测试的输出环节设计了混淆矩阵^[19]。其中某次测试样本的分类结果如图 9所示，横坐标表示了18类真实裂纹缺陷，纵坐标表示18类预测裂纹缺陷。通过混淆矩阵的方法，有无裂纹图像识别准确率都可以看到。

图 9 测试结果的准确性

Figure 9. Accuracy of test results

下载: 全尺寸图片幻灯片

4. Bi-LSTM网络模型性能评估

4.1 复合检测条件下可行性验证

在实际的涡流脉冲热像检测中，针对不同材料、不同结构，通常需要采用不同的检测条件。缺陷尺寸的识别准确率不仅和模型结构有关，也受到涡流脉冲热像检测时的检测条件影响。为了验证文中提出的Bi-LSTM模型的可行性，选用不同检测条件下获得的涡流脉冲图像混合在一起进行验证，每组数据采集时间和激励位置不变，6种检测条件激励强度分别为60%、80%、100%，提取距离分别为4 mm、7 mm、13 mm、16 mm，每类标签含180张，6种检测条件下共1800张图像。选择10类缺陷长度的金属平板试件，缺陷尺寸及对应标签如表 4所示。复合检测条件下金属缺陷尺寸的分类识别依然用训练好的网络模型，多次实验验证准确率达到98.7%左右。实验结果表明，本文提出的循环神经网络模型适用于复合检测条件下涡流脉冲热图像的识别，具有一定的可行性。

表 4 复合检测条件下裂纹尺寸及其标签

Table 4. Crack size and label under composite detection conditions

Serial number	Crack length/μm	Serial number	Crack length/μm
a	5374.71	f	7507.79
b	5624.33	g	7930
c	6559.11	h	8414.54
d	6577.41	i	9143
e	7275	j	9453

下载: 导出CSV

| 显示表格

4.2 对比模型构建与分析

本文采用准确率作为模型的评价指标。同时，为了验证本文所设计的Bi-LSTM模型的性能，对比两种传统机器学习模型（Support Vector Machine，SVM^[20]、K-Nearest Neighbor Classifier，KNN^[21]）、三种深度学习模型（Google Inception Net，GooLeNet^[22]、Visual Geometry Group Network，VGGNet^[23]和Deep residual network，ResNet^[24]），在相同预处理条件下趋于稳定时，取多次实验进行比较，实验结果表明，文中设计的Bi-LSTM模型准确率优于其他方法，识别分类效果更好，具体实验结果如表 5所示。

表 5 Bi-LSTM与其他算法的实验对比

Table 5. Experimental comparison between BI-LSTM and other algorithms

Model	Bi-LSTM (This paper)	SVM	KNN	GooLeNet	VGG	ResNet
Accuracy%	100	96.7	99.59	97.8	98.6	99.3
Recognition time/s	197	462	293	309	345	322

下载: 导出CSV

| 显示表格

5. 结论

本文通过将循环神经网络模型应用到涡流脉冲热图像的智能识别分类中，探究了不同迭代次数和批量尺寸对模型训练精度的影响，提出一种基于Bi-LSTM的金属疲劳裂纹智能检测与识别分类方法，对得到的数据集识别分类准确率可达到100%，解决了涡流脉冲热图像智能检测识别的问题。得出了以下结论：

1）为了解决传统诊断方法在金属缺陷裂纹检测不具有智能化的问题，提出的方法可从数据中直接自动提取涡流脉冲热图像特征，提高金属缺陷识别的准确性和智能性的方法。

2）在复合检测条件下对涡流脉冲热图像混合在一起进行验证，多次实验验证，本文提出的Bi-LSTM网络模型适用于复合检测条件下涡流脉冲热图像的识别，具有一定的可行性。

3）对比传统神经网络（SVM、KNN）和深度学习模型（GooLeNet、VGG和ResNet），本文提出的方法识别精度最高，针对现有裂纹识别精度可高达100%。

图 1 本文提出的网络架构图

Figure 1. The proposed network architecture

下载: 全尺寸图片幻灯片

图 2 U型编解码网络与UNet网络对比：(a) 本文提出的U型编解码码网络；(b)UN et网络结构

Figure 2. Comparison between U-Net and U-shaped encoder-decoder networks : (a) U-shaped encoder-decoder network proposed in this article; (b) U-Net network architecture

下载: 全尺寸图片幻灯片

图 3 FPN结构

Figure 3. Feature pyramid network (FPN) architecture

下载: 全尺寸图片幻灯片

图 4 自建训练集数据：上2层为热红外图像，下2层为标记图（GT）

Figure 4. Self-built Training Dataset: The upper two layers are thermal infrared images, and the lower two layers are labeled maps (GT)

下载: 全尺寸图片幻灯片

图 5 实验结果：(a) 输入图像；(b)标注图像；(c) Ours(VGG16)；(d) Ours(MobileNet-v2)；(e) PoolNet(ResNet50)；(f) PICNet(VGG16)；(g) BASNet(ResNet34)

Figure 5. Experimental results (a) input image; (b) GT image; (c) Ours(VGG16); (d) Ours(MobileNet-v2); (e) PoolNet(ResNet50), (f) PICNet (VGG16); (g) BASNet(ResNet34)

下载: 全尺寸图片幻灯片

图 6 模型PR曲线

Figure 6. Model PR curves

下载: 全尺寸图片幻灯片

表 1 主干VGG16网络结构

Table 1 Backbone VGG16 network structure table

Operation	Input Size	Output Size	Output
Input Data	224×224×3		No
Conv_1 (3×3)	224×224×3	224×224×64	No
Conv_2 (3×3)	224×224×64	224×224×64	No
MaxPool(2×2)	224×224×64	112×112×64	No
Conv_3 (3×3)	112×112×64	112×112×128	No
Conv_4 (3×3)	112×112×128	112×112×128	Yes
MaxPool (2×2)	112×112×128	56×56×128	No
Conv_5 (3×3)	56×56×128	56×56×256	No
Conv_6 (3×3)	56×56×256	56×56×256	No
Conv_7 (3×3)	56×56×256	56×56×256	Yes
MaxPool（2×2）	56×56×256	28×28×256	No
Conv_8 (3×3)	28×28×256	28×28×512	No
Conv_9 (3×3)	28×28×512	28×28×512	No
Conv_10(3×3)	28×28×512	28×28×512	Yes
MaxPool(2×2)	28×28×512	14×14×512	No
Conv_11 (3×3)	14×14×512	14×14×512	No
Conv_12 (3×3)	14×14×512	14×14×512	No
Conv_13 (3×3)	14×14×512	14×14×512	Yes
MaxPool(2×2)	14×14×512	7×7×512	No
Conv_add1(3×3)	7×7× 512	7×7×1024	No
Conv_add2 (3×3)	7×7×1024	7×7×512	Yes

下载: 导出CSV

表 2 单一尺度U型编码网络结构

Table 2 Single-scale U-encoded network structure

Operation	Parameters
Conv_1	K=3, stride=1, padd=1
Dilation Conv_1	K=3, dilation=2i, padd=2(5-i) (i=1, 2, 3, 4)
Dilation Conv_2	K=3, dilation=2i, padd=2 (5- i) (i =1, 2, 3, 4)
Conv_2	K=3, stride=1, padd=1
Conv_3	K=1, stride=1

下载: 导出CSV

表 3 编解码网络优化实验对比

Table 3 Comparative experiment of encoder-decoder network optimization

Operation	maxF_β	MAE
Conv	0.8279	0.01052
Dilation Conv (Dlation=2)	0.8526	0.00987
Dilation Conv+Conv (Dlation=2)	0.8884	0.00616
Dilation Conv+Conv (Dlation=2, 2, 4, 6, 8)	0.8934	0.00607
Dilation Conv+Conv (Dilation=4, 4, 16, 32, 64)	0.7891	0.01421
Dilation Conv+Conv (Dilation =2, 2, 8, 16, 32)	0.8491	0.00979

下载: 导出CSV

表 4 多层特征融合对比实验

Table 4 Multilayer feature fusion contrast experiment

Fusion operation	BCE
MFSO	0.85367
MFMO-layer1	0.92691
MFMO-layer2	0.89786
MFMO-layer3	0.87981
MFMO-layer4	0.86286
MFMO-layer5	0.84326

下载: 导出CSV

表 5 多算法验证对比

Table 5 Multialgorithm validation comparison

Models	Evaluation metrics
Models	maxF_β	MAE	Model size /MB	Running time/ms
BASNet(ResNet 34)	0.88087	0.01154	348.5	467.3
PICNet(VGG16)	0.88732	0.00633	153.3	178.2
PoolNet(ResNet50)	0.89066	0.00623	273.3	578.7
Ours(VGG16)	0.89146	0.00603	101.2	111.7
Ours(MobileNet-V2)	0.84066	0.01325	19.4	86.1

下载: 导出CSV

参考文献(24)

[1]	ZHAO Z Q, ZHANG P, XU S T, et al. Object detection with deep learning: a review[J]. IEEE Transactions on Neural Networks and Learning Systems of IEEE, 2018, 30(11): 3212-3232.
[2]	ZHANG Y, GUO L, CHENG G. Improved salient objects detection based on salient points[C]//35th Chinese Control Conference (CCC) of IEEE, 2016. DOI. : 10.1109/ChiCC. 2016.7554008.
[3]	ZHAN Jin, HU Bo. Salient object contour detection based on boundary similar region[C]//Fourth International Conference on Digital Home IEEE Computer Society, 2012. DOI: 10.1109/ICDH.2012.74.
[4]	Yuna Seo, Donghoon Lee, Yoo C D. Salient object detection using bipartite dictionary[C]//IEEE International Conference on Image Processing, 2014. DOI: 10.1109/ICIP.2014.7025228.
[5]	Nouri F, Kazemi K, Danyali H. Salient object detection via global contrast graph[C]//2015 Signal Processing and Intelligent Systems Conference (SPIS) Of IEEE, 2016. DOI: 10.1109/SPIS.2015.7422332.
[6]	Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[7]	Simonyan K, Zisserman A. Very deep convolutional networks for large-sale image recognition[J]. Computer Science, 2014. DOI: 10.48550/arXiv.1409.1556.
[8]	Sewak M. Practical Convolution Neural Networks[M]. Birmingham: Published by Packt Publishing Ltd. 2018.
[9]	LIU Wei, Dragomir Anguelov, Dumitru Erhan, et al. SSD: single shot multiBox detector[C]//IEEE European Conference on Computer Vision (ECCV), 2016, DOI: 10.1007/978-3-319-46448-0_2.
[10]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, DOI: 10.1109/CVPR.2016.90.
[11]	HUANG G, LIU Z, Laurens V D M, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017, DOI: 10.1109/CVPR.2017.243.
[12]	REN Qinghua, HU Renjie. Densely connected refinement network for salient object detection[C]//International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS), 2018, DOI: 10.1109/ISPACS.2018.8923354.
[13]	Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//2015 MICCAI, DOI: 10.1109/ACCESS.2021.3053408.
[14]	LIU N, HAN J, YANG M H. PiCANet: learning pixel-wise contextual attention for saliency detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) of IEEE, 2018: DOI: 10.48550/arXiv.1708.06433.
[15]	FENG M, LU H, DING E. Attentive feedback network for boundary-aware salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, DOI: 10.1109/CVPR.2019.00172.
[16]	QIN Xuebin, ZHANG Zichen, HUANG Chenyang. et al. BASNet: boundary-aware salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) of IEEE, 2019, DOI: 10.1109/CVPR.2019.00766.
[17]	LIU Jiangjiang, HOU Qibin, et al. A simple pooling-based design for real-time salient object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition of IEEE, 2019, DOI: 10.1109/CVPR.2019.00404..
[18]	XIE S, TU Z. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(5): 3-18.
[19]	Mark Sandler, Andrew Howard, et al. MobileNet V2: inverted residuals and linear bottlenecks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520, DOI: 10.1109/CVPR.2018.00474.
[20]	Andrew Howard, M Zhu, B Chen, et al. MobileNets: efficient convolution neural networks for mobile vision application[J/OL]//Computer Science, arXiv: 1704.04861, https://arxiv.org/abs/1704.04861.
[21]	YU Fisher, Koltun V. Multi-scale context aggregation by dilated convolutions[C]//The International Conference on Learning Representations, 2016, DOI: 10.48550/arXiv.1511.07122.
[22]	CHEN L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[C]//Computer Science, 2017. arXiv: 1706.05587, https://arxiv.org/abs/1706.05587.
[23]	CHEN Q, XU J, Koltun V. Fast image processing with fully convolutional networks[C]//ICCV of IEEE, 2017, DOI: 10.1109/ICCV.2017.273.
[24]	LIN Tsungyi, Piotr Dollar, R Girshick, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) of IEEE, 2017, DOI: 10.1109/CVPR.2017.106.

施引文献(3)

期刊类型引用(3)

1.	韩文斌. 大型水利工程施工中混凝土大坝活动裂纹检测方法. 水上安全. 2025(01): 103-105 . 百度学术
2.	蔡云程. 船用涡流检测技术在船舶结构无损检验中的应用研究. 仪器仪表用户. 2024(06): 101-103+106 . 百度学术
3.	曾俊恺. 基于声发射技术的压力容器管道裂纹扩展无损检测方法分析. 中国机械. 2024(31): 126-130 . 百度学术

其他类型引用(0)

资源附件(0)

图(6) / 表(5)

计量

文章访问数: 131
HTML全文浏览量: 64
PDF下载量: 30
被引次数: 3

0. 引言
1. 循环神经网络
1.1 长短期记忆循环神经网络
1.2 双向长短期记忆循环神经网络
2. 涡流脉冲热像的数据获取及处理
2.1 涡流脉冲热像实验系统
2.2 检测试件和数据采集
2.3 红外图像预处理及样本集形成
3. 基于Bi-LSTM金属试件缺陷检测
3.1 环境配置
3.2 网络模型建立
3.3 实验结果分析
3.3.1 迭代次数对模型训练精度的影响
3.3.2 批量尺寸对模型训练精度的影响
3.4 模型可视化效果
4. Bi-LSTM网络模型性能评估
4.1 复合检测条件下可行性验证
4.2 对比模型构建与分析
5. 结论

0. 引言
1. 循环神经网络
1.1 长短期记忆循环神经网络
1.2 双向长短期记忆循环神经网络
2. 涡流脉冲热像的数据获取及处理
2.1 涡流脉冲热像实验系统
2.2 检测试件和数据采集
2.3 红外图像预处理及样本集形成
3. 基于Bi-LSTM金属试件缺陷检测
3.1 环境配置
3.2 网络模型建立
3.3 实验结果分析
3.3.1 迭代次数对模型训练精度的影响
3.3.2 批量尺寸对模型训练精度的影响
3.4 模型可视化效果
4. Bi-LSTM网络模型性能评估
4.1 复合检测条件下可行性验证
4.2 对比模型构建与分析
5. 结论

参考文献(24)

施引文献

资源附件(0)

类HED网络的热红外图像显著性人体检测深度网络

作者简介: 张骏（1983-），男，工程师，硕士，研究方向：图像处理与模式识别。E-mail: zqiniop@163.com

计量

出版历程