基于改进YOLOX的X射线违禁物品检测

武连全; 楚宪腾; 杨海涛; 牛瑾琳; 韩虹; 王华朋

基于改进YOLOX的X射线违禁物品检测

1.
中国刑事警察学院警察技能战术训练部，辽宁沈阳 110854
2.
中国刑事警察学院公安信息技术与情报学院，辽宁沈阳 110854

基金项目:

公共安全风险防控与应急技术装备”国家重点专项2018年度项目 2018YFC0810102

详细信息

作者简介:
武连全（1979-），男，硕士，副教授，硕士生导师，主要从事警务指挥与战术、反恐处置与大数据应用研究。E-mail：wu_lianquan0402@126.com

中图分类号: TP391.4
计量
- 文章访问数: 187
- HTML全文浏览量: 53
- PDF下载量: 25
出版历程
- 收稿日期: 2022-03-20
- 修回日期: 2022-04-20
- 刊出日期: 2023-04-19

X-ray Detection of Prohibited Items Based on Improved YOLOX

1.
Department of Police Skills and Tactics Training, Criminal Investigation Police University of China, Shenyang 110854, China
2.
Video and Audio Material Examination Department, Criminal Investigation Police University of China, Shenyang 110854, China

摘要

摘要: 在安全检查过程中快速准确地识别违禁物品有利于维护公共安全。针对X射线行李图像中存在的物品堆叠变形、复杂背景干扰、小尺寸违禁物品检测等问题，提出一种改进模型用于违禁物品检测。改进基于YOLOX模型进行，首先在主干网络中引入注意力机制加强神经网络对违禁品的感知能力；其次在Neck部分改进多尺度特征融合方式，在特征金字塔结构后加入Bottom-up结构，增强网络细节表现能力以此提高对小目标的识别率；最后针对损失函数计算的弊端改进IOU损失的计算方式，并根据违禁物品检测任务特点改进各类损失函数的权重，增大对网络误判的惩罚来优化模型。使用该改进模型在SIXray数据集上进行实验，mAP达到89.72%，FPS到达111.7 frame/s具备快速性和有效性，所提模型与阶段主流模型相比准确率和检测速度都有所提升。
- YOLOX /
- X射线图像 /
- 违禁品 /
- 注意力机制
Abstract: In the process of security inspection, rapid and accurate identification of prohibited items is conducive to maintaining public security. To address the problems of stack deformation, complex background interference, and small-sized contraband detection in X-ray luggage images, an improved model for contraband detection is proposed. This improvement is based on the YOLOX model. First, an attention mechanism was introduced into the backbone network to enhance the ability of the neural network to perceive contrabands. Second, in the neck part, the multi-scale feature fusion method was improved upon, and a bottom-up structure was added after the feature pyramid structure to enhance the performance ability of the network for details, thereby improving the recognition rate of small targets. Finally, the calculation method based on IOU loss was upgraded in view of the disadvantages of the loss function calculation. The weights of various loss functions were also increased according to the characteristics of the contraband detection task, and the punishment of network misjudgment was increased to optimize the model. Upon using the improved model on the SiXray dataset, an mAP of 89.72% was attained and a fast and effective FPS arrival rate of 111.7 frame/s was achieved. Compared with mainstream models, the accuracy and detection speed of the proposed model were improved.
- YOLOX /
- X-ray image /
- prohibited items /
- attention mechanism

HTML全文

0. 引言

空中目标检测是对空作战领域的一个重要组成部分。目前很多常用的目标检测算法都是基于可见光图像来完成的，针对黑夜、多云等缺少光源、能见度低的情况，很难使目标有效成像，因此无法获得令人满意的检测效果^[1]。而红外成像技术依靠目标自身的红外辐射工作，无需借助外部环境光，能够在恶劣的观测条件下探测到目标的特征并进行成像，在目标捕获、跟踪等方面有重要应用^[2]。随着国家军队改革的不断深入，作战形式逐渐从机械化作战向智能化、信息化作战的方向发展^[3]。因此通过红外成像所得到的信息精准快速地检测出空中目标是一个非常重要的研究方向。

随着大数据时代的到来，深度学习、人工智能等技术展现出了迅猛发展的势头，以深度学习为基础的目标检测算法凭借其优良的检测性能逐渐成为了目标检测领域中人们的首选算法^[4]。当前的目标检测算法主要分为两阶段（two-stage）和单阶段（one-stage）两种。前者的两个阶段具体包括：为区分前景和背景，得到前景区域RoI（region of interest）的第一阶段（通常用矩形框来表示，被称为bbox（bounding box）），和利用RoI在CNN中所提取到的特征进行分类和回归预测的第二阶段（通常该阶段为多分类，需要区分出不同物体的类别）。R-CNN^[5]，Fast R-CNN^[6]，Faster R-CNN^[7]是目前较为常用的两阶段目标检测算法。后者是基于anchor直接在输入图像中完成目标的检测分类以及边框调整^[8]，无需其他操作。SSD（single shot multiBox detector）^[9]、YOLO^[10]（You only look once）是目前比较具有代表性的单阶段目标检测算法。

通常情况下，使用两阶段的目标检测算法能够在红外场景下的目标检测中得到更高的准确率，但是这类算法的检测速度难以满足空中作战对于实时性的要求^[11]。而单阶段目标检测算法只需一次特征提取即可完成目标检测，能够更好地适应空中作战中复杂多变的情况^[12]。YOLOv3目标检测算法在经过前两代的改良之后，凭借其高精度和极快检测速度的优势，得到了广泛的应用^[13]。因此本文以YOLOv3算法为主体模型，对其进行改进和优化，使其可以从红外成像技术所得到的空中图像信息里快速精准地检测出目标。

1. 目标识别算法

1.1 YOLOv3

DarkNet-53是YOLOv3目标检测算法的骨干网络，在算法中主要负责对输入图像进行特征提取。YOLOv3为了解决深度神经网络中可能出现的冗余、梯度爆炸的问题，在网络中使用残差连接、设置了快捷链路。YOLOv3的网络结构如图 1所示：首先将需要检测的图像尺寸调整为416×416（本文尺寸均指像素）后输入网络，在Darknet-53（红框标注的部分）里进行特征提取，提取到的特征被称作特征层，是输入图片特征的集合。这个过程会对输入的图片进行5次压缩，其中在第3、第4和第5压缩结束时会得到L1、L2和L3三个有效特征层。之后借鉴了特征金字塔（feature pyramid networks, FPN）的思想，通过上采样和特征连接的方式将这3个有效特征层中不同尺度的特征融合在一起，使网络可以实现多尺度的预测。网络输出有3个分支y1、y2和y3，其中L3输出的特征是最高层的、最抽象，在经过卷积后会输出给适合较大目标检测的y1；L2输出的特征在L3的基础上做了一个上采样和一个低层的特征连接（concat）的操作，在卷积后会输出给适合检测中等目标的y2；L1输出的特征在L2的基础上做了一个上采样和一个更低层的特征连接，经过卷积后会输出给适合小目标检测的y3。图中DBL结构作为网络的基本组成模块由3个操作组成：卷积、批量标准化和激活函数；Resn结构表示每个res_block结构中res_unit的数量；concat结构代表张量拼接。

图 1 YOLOv3网络结构

Figure 1. YOLOv3 network structure

下载: 全尺寸图片幻灯片

YOLOv3会通过K-Means聚类的方式得到适合不同尺度大小的先验框。由于这些先验框已经确定好了数据集中常见目标的宽和高，因此能使模型更容易学习。

1.2 EfficientNet

EfficientNet网络是2019年Tan M等人提出的一组系列网络模型，该系列模型通过平衡缩放网络的深度（depth）、宽度（width）和输入图像分辨率（resolution）这3个维度，使网络模型在精度、效率和模型大小上得到了最优的效果^[14]。EfficientNet系列模型包括8个不同的网络结构（EfficientNet-B0~EfficientNet-B7），可以根据实际情况和需求，选择最合适的模型来完成目标检测。该系列模型能够以较少的模型参数量得到很好的检测结果，是当下目标检测性能最优的网络之一^[15]。

EfficientNet网络通过采用复合缩放的方式，以一定的比例对卷积神经网络的3个维度进行扩展，寻找一组能使网络检测精度最大化的最优参数。模型缩放的关系式如公式(1)所示：

$$ \begin{array}{l} \max\limits _{d, w, r} \operatorname{Accuracy}(N(d, w, r)) \\ \text { s.t. } \quad N(d, w, r)=\underset{i=1, \cdots, s}{\odot} \hat{F}_i^{d \cdot \hat{L}_i}\left(X_{\left(r \cdot \hat{H}_{i, r}, \hat{W}_{i, w} \cdot \hat{C}_i\right)}\right) \\ \operatorname{Memory}(N) \leq \text { target_memory } \\ \operatorname{FLOPS}(N) \leq \text { target_flops } \end{array}$$

(1)

式中：d、w和r分别代表网络的深度、宽度和分辨率的倍率；Memory代表记忆存储器；FLOPS代表每秒浮点运算次数。这组关系式的含义在于如何优化d、w和r三个参数，使模型能在给定条件的约束下获得最佳的精度。由于这3个参数存在一定的联系，因此通过一个复合系数Φ对它们进行复合调整，以得到最优的组合参数。复合调整方法如公式(2)所示：

$$ \text { depth: } d=\alpha^{\varPhi}\\ \text { width: } w=\beta^{\varPhi}\\ \text { resolution }: r=\gamma^{\varPhi}\\ \text { s.t. } \quad \alpha \cdot \beta^2 \cdot \gamma^2 \approx 2\\ \alpha \geq 1, \beta \geq 1, \gamma \geq 1 $$

(2)

式中：α、β和γ分别代表网络深度、宽度和分辨率的分配系数。复合系数Φ是一个可调的复合系数，复合系数的值是根据当前所拥有的资源进行人工调节的。对于基线网络EfficientNet-B0来说，通过调整公式(2)中的复合系数Φ，就可扩展出剩余的Efficientnet-B1到Efficientnet-B7网络。

EfficientNet是由多个倒置瓶颈卷积模块（Mobile Inverted Bottleneck Convolution, MBConv）、卷积层、全局平均池化层和全连接层共同构成的^[16]。MBConv的网络结构如图 2所示：利用1×1的卷积升高输入特征层的维数，然后进行一次深度可分离卷积，在标准化和激活函数之后施加注意力机制，再利用1×1的卷积降低特征层的维数使其与输入保持一致，最后将降维处理后的特征层与左边的残差边相加后输出。其中深度可分离卷积里的特征大小有3×3和5×5两种；注意力机制包含了最大池化、两次1×1的卷积、激活函数以及与原特征图相乘等操作。

图 2 MBConv网络结构

Figure 2. MBConv network structure

下载: 全尺寸图片幻灯片

Swish激活函数如公式(3)所示：

$$ f(x)＝x⋅\text{sigmoid}(nx) $$

(3)

式中：x为输入；n为可调参数。Swish函数没有上边界，不会出现梯度饱和的现象；拥有下边界，可以产生更强的正则化效果；非单调且处处连续可导，可以使模型更容易训练。

2. YOLOv3算法的改进

为了进一步提高YOLO v3目标检测算法对于空中红外目标的检测精度，降低模型的复杂度，拟使用EfficientNet的骨干网络代替原YOLO v3算法中的DarkNet-53完成对输入图像的特征提取，并使用性能优越的CIoU作为网络的损失函数，优化模型的损失计算方法，提升模型的预测精准度。

2.1 网络结构的改进

为了能够提升YOLO v3目标检测算法的性能，在考虑了实验环境以及数据集大小等实际因素后，设计了一组对比实验，通过对比分析这组实验结果后，本文选择使用EfficientNet-B4的主干特征提取网络完成特征提取（实验结果分析见3.3）。EfficientNet-B4共包含32个MBConv模块，为了能够使EfficientNet-B4的主干特征提取网络的输出尺寸与DarkNet-53的输出尺寸保持一致，使网络可以正常运行，取出第10个、第22个和第32个MBConv模块的输出层作为有效特征层，继续完成不同尺度间的特征融合。同时网络针对不同尺度的目标分别构建检测层，提升模型检测的精准度。

改进后的网络结构图如图 3所示：将尺寸为416×416的图像输入网络模型中，在Stem、Module2、Module3、Module4和Module6这5个模块中对输入的图像进行长和宽的压缩，Module1、Module5和Module7不对图像进行压缩，只进行特征提取。通过主干特征提取网络，可以在Module 3、Module 5和Module 7处得到3种不同尺度的有效特征层（L1：52×52，L2：26×26，L3：13×13），分别用来检测小、中、大3个不同尺度大小的目标。之后通过卷积、上采样、张量拼接等方式将深层网络与浅层网络融合，增加低层特征的表达能力，提升网络的检测性能，最后将不同尺度的目标分配到不同的预测层（y₁、y₂、y₃）实现目标检测。

图 3 EN-YOLOv3网络结构

Figure 3. EN-YOLOv3 network structure

下载: 全尺寸图片幻灯片

2.2 损失函数的改进

IoU（Intersection over Union）是目标检测领域的常用指标，通过计算“预测框”和“真实框”的交并比来反映目标检测的精准度^[17]。YOLO v3的损失函数由3部分组成：预测框定位损失，目标置信度损失和目标类别损失^[18]。其中中心点距离损失和预测框的宽高损失组成了预测框损失，因为预测框本身是一个矩形，所以通过IoU来反映预测框的精准度是很直观的。IoU的定义如公式(4)所示：

$$ \text{IoU} = \frac{{|A \cap B|}}{{|A \cup B|}} $$

(4)

但IoU也有其自身的缺陷：对于没有重叠的预测框与真实框来说，|A∩B|的值为0，导致得到的IoU也为0，无法反映出两者的距离大小，且由于没有梯度回转，无法继续进行学习训练。为了解决这个问题，后来的研究者们分别提出了GIoU、DIoU和CIoU作为损失函数^[19]。GIoU在IoU的基础上加强了对于非重合区域的关注，能够更好地反映出预测框与真实框的重合度；但是当目标框与预测框处于同一平面时，GIoU就会退化为IoU，会造成收敛变慢、回归不够准确等问题。DIoU和CIoU的作者Zheng等人表示一个优秀的回归定位损失应该包括重叠的面积、中心点距离和长宽比这3种几何参数^[20]。因此CIoU在计算损失时考虑了这些因素，在损失函数的迭代过程中使预测框不断向真实框移动，尽可能保证了预测框和真实框的宽高纵横比更为接近，提高了检测精度，而且加快了预测框的回归收敛速度。CIoU的损失函数如公式(5)所示：

$$ {L_\text{CIoU}} = 1 -\text{ IoU }+ \frac{{{\rho ^2}(b,{b^\text{gt}})}}{{{c^2}}} + mv $$

(5)

式中：c为能够将预测框和真实框同时包含在一起的最小闭包区域的对角线距离；ρ(b, b^gt)为真实框和预测框中心点的欧氏距离；m为权重函数；v为度量长宽比相似性的函数。m和v的定义如公式(6)、公式(7)所示：

$$ m = \frac{v}{{1 - \text{IoU} + v}} $$

(6)

$$ v = \frac{4}{{{\pi ^2}}}{(\arctan \frac{{w_1^\text{gt}}}{{{h^\text{gt}}}} - \arctan \frac{{{w_1}}}{h})^2} $$

(7)

式中：w₁、h和w₁^gt、h^gt分别代表预测框的宽高和真实框的宽高。

3. 实验结果与分析

本文的实验条件如表 1所示。

表 1 实验环境

Table 1. Lab environment

Parameters	Configuration
Operating system	Linux
Video memory	16 G
Training framework	TensorFlow-GPU 2.3.0
Programming language	Python
GPU	NVIDIA RTX2080Ti

下载: 导出CSV

| 显示表格

3.1 实验数据与评价指标

本实验的数据来自某航天研究所的红外成像视频文件，包括单飞行器目标干扰投放和多飞行器目标干扰投放。单目标视频文件共有2627帧图片，每帧图片的大小是512×640；多目标视频文件共有589帧图片，每帧图片的大小是512×640。实验的目标是：投放干扰源前的飞行器目标检测，投放干扰源后飞行器与干扰的目标检测。

本文从两份视频文件中选取部分合适的图片组成自建数据集。由于该视频文件的红外图像中，部分目标细节模糊、整体的对比度较低，直接利用从视频文件中选取的原图进行模型训练会导致检测精度较低、误差较大，所以需要对图像进行预处理，增强目标清晰度；针对自建数据集的样本较少，采用几何变换（镜像、旋转等）、像素调整（调整对比度、亮度等）方式增加图像样本，扩充自建数据集。目前自建数据集含有2500张红外场景图像，按照比例随机取2025张图像、225张图像、250张图像分别作为模型的训练集、验证集和测试集。

本文使用平均准确率（mean average precision，mAP）对目标检测算法进行性能评价，以了解模型正确分类的能力。计算mAP需要两个参数：查准率（Precision）和召回率（Recall）。查准率是指预测正确的正样本占全部正样本的比例，定义如公式(8)所示：

$$ \text{Precision} = \frac{\text{TP}}{{\text{TP} + \text{FP}}} $$

(8)

召回率是指预测为正样本占全部正样本的比例，定义如公式(9)所示：

$$ \text{Recall} = \frac{\text{TP}}{{\text{TP} + \text{FN}}} $$

(9)

式中：TP表示预测和实际都为正样本；FP表示实际的负样本被预测为正样本；FN表示实际的正样本被预测为负样本。

基于召回率和查准率，可计算得到每个种类的AP（average precision），其定义如公式(10)所示：

$$ \text{AP} = \int_0^1 {P(R)\text{d}R} $$

(10)

mAP就是对所有种类的AP求均值，其定义如公式(11)所示：

$$ \text{mAP} = \frac{{\sum\limits_{i = 1}^k {\text{A}{\text{P}_i}} }}{k} $$

(11)

式中：k为要检测的目标类别总数；AP_i和mAP的值在0和1之间，越接近于1，说明目标检测算法的性能越好。

3.2 训练过程

由于网络内部的参数过多，需要大量训练样本才能拟合出一个性能良好的模型。而本文数据集的样本有限，若直接将其用于模型训练，会产生训练速度慢以及准确率不高的问题。因此决定采用迁移学习的思想，先使用PASCAL VOC数据集对网络模型进行训练获得预训练模型，针对空中红外目标的检测，在预训练模型的基础上使用自建数据集进行迁移学习。

迁移学习的过程分为两个阶段：第一个阶段是冻结训练的阶段，这个阶段会冻结模型的主干网络，不改变特征提取网络的参数，只会对网络的部分结构进行微调，这个阶段将学习率设置为0.001，batch_size设置为16，epoch设置为50，冻结的层数为前468层；第二个阶段是解冻阶段的训练，这个阶段模型的主干网络不再冻结，特征提取网络开始发生改变，其中学习率设置为0.0001，batch_size设置为8，epoch设置为50。

3.3 同系列算法实验对比

为了能够在EfficientNet系列网络中选择出最合适的模型作为本文算法的主干特征提取网络，本文设计了一组实验进行对比分析，实验中分别使用EfficientNet B1-B6替换YOLOv3的主干网络Darknet-53，经过模型的训练测试后得到各个模型的mAP和Model size，实验结果如表 2所示。从表 2中可以看出EfficientNet系列网络的B1、B2、B3、B5的mAP都低于YOLOv3，B4和B6的mAP高于YOLOv3，而B4以不到B6一半的模型大小得到了和B6相似的检测精度，因此最终选择EfficientNet-B4为本文算法的主干特征提取网络。

表 2 同系列算法实验对比

Table 2. Experiment comparison of the same series of algorithms

Backbone feature extraction network	mAP@0.5	Model size/MB
Darknet-53	0.8251	235.5
Efficientnet-B1	0.7822	50.9
Efficientnet-B2	0.8216	62.1
Efficientnet-B3	0.8185	78.1
Efficientnet-B4	0.8289	117.7
Efficientnet-B5	0.8203	173.7
Efficientnet-B6	0.8292	238.4

下载: 导出CSV

| 显示表格

3.4 实验结果定性分析

在自建数据集中，随机抽取3类测试图像，测试3.2中通过迁移学习训练所得到的模型，单目标飞行器的检测效果如图 4所示，多目标飞行器的检测效果如图 5所示，干扰条件下多目标飞行器的检测效果如图 6所示。

图 4 基于EN-YOLOv3模型的单目标检测

Figure 4. Single target detection based on EN-YOLOv3 model

下载: 全尺寸图片幻灯片

图 5 基于EN-YOLOv3模型的多目标检测

Figure 5. Multi-target detection based on EN-YOLOv3 model

下载: 全尺寸图片幻灯片

图 6 基于EN-YOLOv3模型的干扰条件下的多目标检测

Figure 6. Multi-target detection under interference conditions based on EN-YOLOv3 model

下载: 全尺寸图片幻灯片

从图中可以看出，无论是不同飞行姿态下的单目标飞行器，还是有无干扰下的多目标飞行器，均可通过本模型得到正确标定，且标定矩形框的大小与目标区域大小相符。实验结果可以定性表明，改进后的EN-YOLOv3算法能够从红外图像中准确检测和定位空中红外目标。

3.5 实验结果定量分析

为定量验证改进算法的有效性，本文采用消融研究的思想设立了3组模型并分别进行训练，3组模型结构见表 3，表格中的“√”和“×”分别代表了使用和不使用该模块。其中，Model 1是原始的YOLOv3模型，Model 2和Model 3是对主干特征提取网络和损失函数分别进行改进验证的模型，Model 3为本文所构建的模型。

表 3 基于消融实验所设立的不同模型结构

Table 3. Different model structures established based on ablation experiments

Model	Backbone feature extraction network		CIoU
Model	Darknet-53	Efficientnet-B4	CIoU
Model 1	√	×	×
Model 2	×	√	×
Model 3	×	√	√

下载: 导出CSV

| 显示表格

不同模型下的mAP和FPS如表 4所示，从表 4中可以看出，Model 2使用EfficientNet-B4作为网络的主干特征提取网络时，得到的mAP与YOLO v3（Model 1）相比上升了0.38个百分点，Model 3在Model 2的基础上使用CIoU作为损失函数后，得到的mAP与YOLOv3（Model 1）相比上升了1.17个百分点。另外Model 2和Model 3在目标检测速度方面略低于Model 1，但是差距很小，能够满足红外场景下空中目标检测对于算法实时性的要求。由此可见经过主干网络和损失函数改进后的Model 3可以在满足目标检测速度要求的同时更加精准地检测出空中红外目标。

表 4 不同模型下的mAP和FPS

Table 4. mAP and FPS under different models

Model	Model 1	Model 2	Model 3
mAP@0.5	0.8251	0.8289	0.8368
FPS	45	43	43

下载: 导出CSV

| 显示表格

表 5为经过训练后各组模型的大小和参数情况。表 5的数据表明，就模型大小而言，改进后算法（Model 3）相比于YOLO v3（Model 1）降低了50.03%，模型的参数量也大大减少，表明使用EfficientNet作为目标检测模型的主干特征提取网络相比DarkNet-53更加轻量高效。对比分析表明，本文所提出的EN-YOLO v3目标检测算法与原YOLOv3算法相比有了较大的提升，说明本文提出的目标检测算法更加适合检测空中的红外目标。

表 5 不同模型结构下的模型尺寸和参数数量

Table 5. Model size and parameter quantity under different model structures

Model	General parameters	Trainable parameters	Non-trainable parameters	Model size/MB
Model 1	61581727	61529119	52608	235.5
Model 2	30562887	30428887	134000	117.7
Model 3	30562887	30428887	134000	117.7

下载: 导出CSV

| 显示表格

4. 结语

空中红外目标检测是现代空战中的一个重要组成部分，目标检测的能力在实战当中有很大的影响。为了能够进一步提升目标检测算法的性能，本文对于YOLOv3算法进行了优化。首先摒弃参数过多的DarkNet-53，使用EfficientNet的骨干网络完成特征的提取，降低模型的复杂度，减少模型的参数量，提升了训练速度；使用CIoU作为网络模型的损失函数，在计算损失时考虑中心点距离、重叠面积和长宽比这3个要素，使模型的预测框更加符合真实框，提升了模型预测的精准度。实验的测试结果表明，本文提出的EN-YOLO v3算法在检测速度略低于YOLO v3的情况下，模型大小比YOLO v3降低了50.03%，精准度比YOLO v3提升了1.17%。在下一步的研究工作中，将会以本文为基础，继续扩展数据集，实现红外场景下不同机型的检测。

图 1 数据增强效果

Figure 1. Example of data augment

下载: 全尺寸图片幻灯片

图 2 改进后的网络结构

Figure 2. Improved model structure

下载: 全尺寸图片幻灯片

图 3 CBAM算法流程

Figure 3. The process of CBAM module

下载: 全尺寸图片幻灯片

图 4 改进后的Neck

Figure 4. Improve Neck structure

下载: 全尺寸图片幻灯片

图 5 比对模型对各类违禁物品的P-R曲线

Figure 5. P-R curves of different models for various prohibited items

下载: 全尺寸图片幻灯片

图 6 改进模型检测效果

Figure 6. Experimental renderings

下载: 全尺寸图片幻灯片

表 1 CBAM不同添加位置的结果

Table 1 Results of different add CBAM locations %

Location	Gun	Knife	Pliers	Wrench	Scissor	Map
CSP_1	95.45	86.43	86.89	83.52	81.61	86.78
CSP_2	97.12	85.56	87.47	84.98	82.67	87.56
CSP_3	96.14	85.23	88.45	85.17	83.24	87.65
CSP_4	97.45	87.77	89.49	86.49	83.71	88.98

下载: 导出CSV

表 2 改进策略的消融实验

Table 2 Ablation study Ablation experiments with improved strategies %

CBAM	Bottom-up	Loss	Gun	Knife	Pliers	Wrench	Scissor	Map
-	-	-	97.32	81.07	88.24	87.25	79.72	86.72
√	-	-	97.45	87.77	89.49	86.49	83.71	88.98
-	√	-	97.49	87.82	89.13	86.51	82.91	88.77
-	-	√	97.46	84.08	87.86	86.47	82.18	87.61
√	√	√	97.57	88.74	89.26	88.97	84.05	89.72

下载: 导出CSV

表 3 对比实验结果

Table 3 Comparative experimental results

Models	Map/(%)	FPS/(frame/s)
Fast R-CNN	80.23	52.8
RetinaNet	83.94	55.3
YOLOv3	85.93	56.9
YOLOv4	86.12	73.8
YOLOv5s	89.12	98.5
Guo’s^[26]	73.68	55
Mu’s^[27]	80.16	25
Dong’s^[28]	89.60	-
Ours	89.72	111.7

下载: 导出CSV

参考文献(32)

[1]	陈冰. 基于多能X射线成像的违禁物品自动识别[D]. 北京: 北京理工大学, 2018. CHEN B. Automatic Recognition of Prohibited Items Based on Multi-energy X-ray Imaging[D]. Beijing: Beijing Institute of Technology, 2018.
[2]	邰仁忠. X射线物理学[J]. 物理, 2021, 50(8): 501-511. https://www.cnki.com.cn/Article/CJFDTOTAL-WLZZ202108003.htm TAI R Z. X-ray physics[J]. Physics, 2021, 50(8): 501-511. https://www.cnki.com.cn/Article/CJFDTOTAL-WLZZ202108003.htm
[3]	McCarley J S, Kramer A F, Wickens C D, et al. Visual skills in airport-security screening[J]. Psychological Science, 2004, 15(5): 302-306. DOI: 10.1111/j.0956-7976.2004.00673.x
[4]	梁添汾, 张南峰, 张艳喜, 等. 违禁品X光图像检测技术应用研究进展综述[J]. 计算机工程与应用, 2021, 57(16): 74-82. DOI: 10.3778/j.issn.1002-8331.2103-0476 LIANG T F, ZHANG N F, ZHANG Y X, et al. Summary of research progress on application of prohibited item detection in X-ray images[J]. Computer Engineering and Applications, 2021, 57(16): 74-82. DOI: 10.3778/j.issn.1002-8331.2103-0476
[5]	Mery D, Mondragon G, Riffo V, et al. Detection of regular objects in baggage using multiple X-ray views[J]. Insight-Non-Destructive Testing and Condition Monitoring, 2013, 55(1): 16-20. DOI: 10.1784/insi.2012.55.1.16
[6]	Michel S, Mendes M, de Ruiter J C, et al. Increasing X-ray image interpretation competency of cargo security screeners[J]. International Journal of Industrial Ergonomics, 2014, 44(4): 551-560. DOI: 10.1016/j.ergon.2014.03.007
[7]	韩萍, 刘则徐, 何炜琨. 一种有效的机场安检X光手提行李图像两级增强方法[J]. 光电工程, 2011, 38(7): 99-105. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC201107023.htm HAN P, LIU Z X, HE W K, An efficient two-stage enhancement algorithm of X-ray carry-on luggage images[J]. Opto-Electronic Engineering, 2011, 38(7): 99-105. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC201107023.htm
[8]	Khan S U, Chai W Y, See C S, et al. X-ray image enhancement using a boundary division wiener filter and wavelet-based image fusion approach[J]. Journal of Information Processing Systems, 2016, 12(1): 35-45.
[9]	ZHAO B, Wolter S, Greenberg J A. Application of machine learning to x-ray diffraction-based classification[C]//Anomaly Detection and Imaging with X-Rays(ADIX) Ⅲ. International Society for Optics and Photonics, 2018, 10632: 1063205.
[10]	Gaus Y F A, Bhowmik N, Breckon T P. On the use of deep learning for the detection of firearms in x-ray baggage security imagery[C]//2019 IEEE International Symposium on Technologies for Homeland Security (HST), 2019: 1-7.
[11]	Franzel T, Schmidt U, Roth S. Object detection in multi-view X-ray images[C]//Joint DAGM (German Association for Pattern Recognition) and OAGM Symposium, 2012: 144-154.
[12]	王宇, 邹文辉, 杨晓敏, 等. 基于计算机视觉的X射线图像异物分类研究[J]. 液晶与显示, 2017, 32(4): 287-293. https://www.cnki.com.cn/Article/CJFDTOTAL-YJYS201704008.htm WANG Y, ZOU W H, YANG X M, et al. X-ray image illegal object classification based on computer vision[J]. Chinese Journal of Liquid Crystals and Displays, 2017, 32(4): 287-293. https://www.cnki.com.cn/Article/CJFDTOTAL-YJYS201704008.htm
[13]	Alom M Z, Taha T M, Yakopcic C, et al. The history began from alexnet: a comprehensive survey on deep learning approaches[J/OL]. arXiv preprint arXiv: 1803.01164, 2018.
[14]	WANG L, GUO S, HUANG W, et al. Places205-vggnet models for scene recognition[J/OL]. arXiv preprint arXiv: 1508.01667, 2015.
[15]	Ballester P, Araujo R M. On the performance of GoogLeNet and AlexNet applied to sketches[C]//Thirtieth AAAI Conference on Artificial Intelligence, 2016, 30(1): doi: https://doi.org/10.1609/aaai.v30i1.10171.
[16]	Haque M F, Lim H Y, Kang D S. Object detection based on VGG with ResNet network[C]//2019 International Conference on Electronics, Information, and Communication (ICEIC) of IEEE, 2019: 1-3(doi: 10.23919/ELINFOCOM.2019.8706476).
[17]	ZOU Z, SHI Z, GUO Y, et al. Object detection in 20 years: a survey[J/OL]. arXiv preprint arXiv: 1905.05055, 2019.
[18]	CHEN C, LIU M Y, Tuzel O, et al. R-CNN for small object detection[C]//Asian Conference on Computer Vision, 2016: 214-230.
[19]	Girshick R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[20]	R Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[21]	ZHANG Y, KONG W, LI D, et al. On using XMC R-CNN model for contraband detection within X-ray baggage security images[J]. Mathematical Problems in Engineering, 2020, 2020: 1-14.
[22]	Sigman J B, Spell G P, LIANG K J, et al. Background adaptive faster R-CNN for semi-supervised convolutional object detection of threats in x-ray images[C]//Anomaly Detection and Imaging with X-Rays (ADIX) V, 2020, 11404: 1140404.
[23]	Papageorgiou C P, Oren M, Poggio T. A general framework for object detection[C]//Sixth International Conference on Computer Vision (IEEE Cat. No. 98CH36271) of IEEE, 1998: 555-562.
[24]	LIU Z, LI J, SHU Y, et al. Detection and recognition of security detection object based on YOLO9000[C]//2018 5th International Conference on Systems and Informatics (ICSAI)of IEEE, 2018: 278-282.
[25]	Galvez R L, Dadios E P, Bandala A A, et al. YOLO-based Threat Object Detection in X-ray Images[C]//2019 IEEE 11th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management (HNICEM), 2019: 1-5.
[26]	郭守向, 张良. Yolo-C: 基于单阶段网络的X光图像违禁品检测[J]. 激光与光电子学进展, 2021, 58(8): 0810003. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202108007.htm GUO S X, ZHANG L. Yolo-C: one-stage network for prohibited items detection within X-ray images[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810003. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202108007.htm
[27]	穆思奇, 林进健, 汪海泉, 等. 基于改进YOLOv4的X射线图像违禁品检测算法[J]. 兵工学报, 2021, 42(12): 2675-2683. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO202112015.htm MU S Q, LIN J J, WANG H Q, et al. An algorithm for detection of prohibited items in X-ray images based on improved YOLOv4[J]. Acta Armamentarii, 2021, 42(12): 2675-2683. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO202112015.htm
[28]	董乙杉, 李兆鑫, 郭靖圆, 等. 一种改进YOLOv5的X光违禁品检测模型[J/OL]. 激光与光电子学进展, [2022-02-21]. http://kns.cnki.net/kcms/detail/31.1690.TN.20220217.1141.008.html. DONG Y S, LI Z X, GU J Y, et al. An improved YOLOv5 model for X-ray prohibited items detection[J]. Laser & Optoelectronics Progress: [2022-02-21]. http://kns.cnki.net/kcms/detail/31.1690.TN.20220217.1141.008.html.
[29]	GE Z, LIU S, WANG F, et al. YOLOX: Exceeding Yolo series in 2021[J/OL]. arXiv preprint arXiv: 2107.08430, 2021.
[30]	WANG C Y, LIAO H, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 390-391.
[31]	Woo S, Park J, Lee J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[32]	MIAO C, XIE L, WAN F, et al. SiXray: a large-scale security inspection x-ray benchmark for prohibited item discovery in overlapping images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 2119-2128.

施引文献(2)

期刊类型引用(0)

其他类型引用(2)

资源附件(0)

图(6) / 表(3)

计量

文章访问数: 187
HTML全文浏览量: 53
PDF下载量: 25
被引次数: 2

0. 引言
1. 目标识别算法
1.1 YOLOv3
1.2 EfficientNet
2. YOLOv3算法的改进
2.1 网络结构的改进
2.2 损失函数的改进
3. 实验结果与分析
3.1 实验数据与评价指标
3.2 训练过程
3.3 同系列算法实验对比
3.4 实验结果定性分析
3.5 实验结果定量分析
4. 结语

基于改进YOLOX的X射线违禁物品检测

作者简介: 武连全（1979-），男，硕士，副教授，硕士生导师，主要从事警务指挥与战术、反恐处置与大数据应用研究。E-mail：wu_lianquan0402@126.com

计量

出版历程