基于改进YOLOX的X射线违禁物品检测

武连全; 楚宪腾; 杨海涛; 牛瑾琳; 韩虹; 王华朋

基于改进YOLOX的X射线违禁物品检测

1.
中国刑事警察学院警察技能战术训练部，辽宁沈阳 110854
2.
中国刑事警察学院公安信息技术与情报学院，辽宁沈阳 110854

基金项目:

公共安全风险防控与应急技术装备”国家重点专项2018年度项目 2018YFC0810102

详细信息

作者简介:
武连全（1979-），男，硕士，副教授，硕士生导师，主要从事警务指挥与战术、反恐处置与大数据应用研究。E-mail：wu_lianquan0402@126.com

中图分类号: TP391.4
计量
- 文章访问数: 187
- HTML全文浏览量: 53
- PDF下载量: 25
出版历程
- 收稿日期: 2022-03-20
- 修回日期: 2022-04-20
- 刊出日期: 2023-04-19

X-ray Detection of Prohibited Items Based on Improved YOLOX

1.
Department of Police Skills and Tactics Training, Criminal Investigation Police University of China, Shenyang 110854, China
2.
Video and Audio Material Examination Department, Criminal Investigation Police University of China, Shenyang 110854, China

摘要

摘要: 在安全检查过程中快速准确地识别违禁物品有利于维护公共安全。针对X射线行李图像中存在的物品堆叠变形、复杂背景干扰、小尺寸违禁物品检测等问题，提出一种改进模型用于违禁物品检测。改进基于YOLOX模型进行，首先在主干网络中引入注意力机制加强神经网络对违禁品的感知能力；其次在Neck部分改进多尺度特征融合方式，在特征金字塔结构后加入Bottom-up结构，增强网络细节表现能力以此提高对小目标的识别率；最后针对损失函数计算的弊端改进IOU损失的计算方式，并根据违禁物品检测任务特点改进各类损失函数的权重，增大对网络误判的惩罚来优化模型。使用该改进模型在SIXray数据集上进行实验，mAP达到89.72%，FPS到达111.7 frame/s具备快速性和有效性，所提模型与阶段主流模型相比准确率和检测速度都有所提升。
- YOLOX /
- X射线图像 /
- 违禁品 /
- 注意力机制
Abstract: In the process of security inspection, rapid and accurate identification of prohibited items is conducive to maintaining public security. To address the problems of stack deformation, complex background interference, and small-sized contraband detection in X-ray luggage images, an improved model for contraband detection is proposed. This improvement is based on the YOLOX model. First, an attention mechanism was introduced into the backbone network to enhance the ability of the neural network to perceive contrabands. Second, in the neck part, the multi-scale feature fusion method was improved upon, and a bottom-up structure was added after the feature pyramid structure to enhance the performance ability of the network for details, thereby improving the recognition rate of small targets. Finally, the calculation method based on IOU loss was upgraded in view of the disadvantages of the loss function calculation. The weights of various loss functions were also increased according to the characteristics of the contraband detection task, and the punishment of network misjudgment was increased to optimize the model. Upon using the improved model on the SiXray dataset, an mAP of 89.72% was attained and a fast and effective FPS arrival rate of 111.7 frame/s was achieved. Compared with mainstream models, the accuracy and detection speed of the proposed model were improved.
- YOLOX /
- X-ray image /
- prohibited items /
- attention mechanism

HTML全文

0. 引言

受到自然界中照明、遮挡、天气等因素的影响，可见光图像中有时候并不能准确地观测到目标。相比之下，红外图像由于其独特的成像机制，能够获取到外界的热辐射信息，即使在极具有挑战性的可见光成像条件下，也可以捕获较多的目标信息，在许多现实应用中都发挥着重要的作用，如精确制导系统、森林火灾探测系统和海上监视及救援系统。因此，从红外图像中检测目标，特别是小目标，在过去的几十年里引起了广泛的关注，也是深度学习领域的一个活跃的研究课题^[1-4]。

相较于一般的目标检测任务，红外小目标检测通常面临着来自三方面的挑战：①由于成像距离远，红外图像中的目标通常很小，所占像素个数不超过整幅图像的0.2%；②受到背景中大量杂波以及噪声的影响，红外图像的信噪比通常较低，导致目标与背景难以区分；③目标通常缺乏特定的形状及纹理，且在不同的场景下形状及大小都会发生变化。

为了准确地检测出红外小目标，早期的研究人员提出了一些包括滤波^[5]、人类视觉系统（human vision system, HVS）^[6-8]和低秩表示^[9-12]在内的基于图像处理和机器学习技术的开创性工作。然而，这些传统算法通常存在一些局限性。基于滤波的方法，如高帽滤波、最大中值/最大平均滤波器^[13]，通常只能对均匀的背景杂波进行一定程度的抑制，而对应对复杂的背景噪声，导致较高的误报率，性能不稳定。对于基于人类视觉系统的方法，通过利用目标与背景之间的差异进行检测，由于严重依赖于手工制作的分割阈值，导致在复杂环境中的检测性能不佳。基于低秩表示的方法假设背景与目标分别具有稀疏性及低秩性，可以处理一些低信噪比的红外图像，但对复杂背景下具有形状较小且容易改变的目标的图像仍然存在较高的误警率。这些基于传统的红外小目标检测算法可以在一些简单的场景中表现出良好的性能，但由于依赖于超参数调优和手工制作的先验，通常会受到上述一些挑战，从而只具有有限的表示能力。

为了解决上述问题，许多研究人员将深度学习引入红外小目标检测领域^[14-15]。Wang等人^[16]基于条件对抗生成网络提出了MDvsFA（miss detection vs. false alarm）算法，实现了漏检率以及虚警率这两个指标之间的平衡。为了从不同的层中提取上下文特征，Dai等人^[17]提出了一种非对称上下文特征融合方法（asymmetric contextual modulation, ACM），并构建了一个红外小目标数据集（single-frame infrared small target, SIRST）。Li等人^[18]提出了一种密集嵌套注意网络（dense nested attention network, DNANet）来准确提取小目标特征。虽然这些方法比传统方法具有更好的性能，但它们仍然忽略了池化和降采样层的细节损失问题。同时，当面对包含有小且难以检测的目标以及复杂背景的情况时，这些模型通常缺乏足够的表达能力来产生有区别的表示。其次，这些基于卷积神经网络（convolutional neural networks, CNN）的模型^[19-22]通常会盲目堆叠许多层来扩大感受野来提取语义特征，这导致它们在提取全局上下文和利用低级别的细节特征方面效率低下，而这些对于检测小目标十分重要。

最近一段时间，Transformer结构在计算机视觉中得到广泛应用^[23-26]，并取得巨大的成功。其中，Transformer结构中的自注意力机制在远程依赖性以及局部自相似性方面的建模能力优于CNN，可以缓解基于CNN的红外小目标算法的局限性。然而直接使用标准的Transformer结构会面临两个问题：①标准全局自注意力的计算复杂度与空间维数呈平方关系，相反地，基于局部窗口的自注意力能很大程度上缓解计算资源的压力，然而由于仅在特定位置的窗口内对特征进行操作，导致感受域十分有限；②红外图像在空间上稀疏的，然而其特征在通道维度却具有较高的相关性，因此对通道维相关性建模的成本效益要高于捕获空间维相互依赖性。

为解决上述问题，本文在先前的研究工作基础上，提出了一种基于拉普拉斯金字塔多级Transformer的红外小目标检测算法（LPformer）。LPformer采用了一种类似U-Net^[27]的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（LPT）块堆叠而成，解码器设计了几个反卷积以及残差块用于对不同层级的特征进行聚合。值得注意的是，对于LPT块，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换（structural information transform, SIF）模块与主干网络中不同层级的LPT块进行融；同时，在LPT块中还采用了一种基于通道维的Transformer（spectral-wise transformer, SWT）结构，将每个通道特征图作为图像块（Token），并沿着通道维进行自注意力的计算。

1. 本文方法

1.1 总体框架

本文提出的LPformer总体框架如图 1所示，首先通过浅层特征提取模块对红外图像进行初步特征提取同时提升通道数，接着主干网络采用了一种类似U-Net的编码器-解码器结构，其中编码器由3个拉普拉斯金字塔Transformer（Laplace pyramid Transformer, LPT）块堆叠而成，瓶颈层由一个基于通道维的Transformer（spectral-wise transformer, SWT）块组成，解码器部分通过几个反卷积以及残差块用于对不同层级的特征进行聚合，在解码器后本文通过一个由几个卷积组成的head模块对分割结果进行预测，得到最终的二值化结果。具体来说，每个LPT块由SWT块、结构信息转换（structural information transform, SIF）块以及一个残差块串联而成。SWT块通过沿着通道维进行自注意力的计算，实现高效特征的提取，SIF块基于融合由红外图像中提取到的不同层级的拉普拉斯金字塔高频成分对输入特征进行高频部分的补偿，残差块由两个普通的3×3卷积，批归一化操作以及下采样操作组成，降低特征的空间尺寸同时提升通道数。

图 1 基于拉普拉斯金字塔多级Transformer的红外小目标检测框架

Figure 1. Infrared small target detection framework based on Laplacian pyramid multi-level transformer

下载: 全尺寸图片幻灯片

1.2 结构信息转换模块

为了克服红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率，本文首先利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过一种结构信息转换模块^[28]与主干网络中不同层级的LPT块进行融合，用于对损失的纹理信息进行补偿。

定义根据拉普拉斯金字塔算法提取到的3层高频成分金字塔P_H＝[H₀, H₁, H₂]，接着如图 2所示，高频结构信息首先经过一个普通卷积提取条件特征图，接着分别通过两组卷积层自适应地学习出一对放射变换系数(γ, β)，其维度与对应层级的由SWT输出的特征图F相同，接着通过下式得到融合后的特征图：

图 2 高频结构信息转换模块

Figure 2. High frequency structure information conversion module

下载: 全尺寸图片幻灯片

$$ {\text{SIT}}(F\mid \gamma ,\beta ) = \gamma \odot F + \beta $$

(1)

式中：$ \odot $表示点乘操作。

1.3 基于通道维的Transformer

由于红外小目标通常尺寸较小且亮度较暗，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的transformer（spectral-wise transformer, SWT）结构，总体结构如图 3(a)所示，输入特征首先经过层归一化操作，通过通道维自注意力计算（spectral-wise self-attention, SWSA）块（如图 3(c)所示）实现基于通道维度的自注意力的计算，接着进行残差连接与进一步的层归一化操作，最后通过前馈网络（如图 3(b)所示）增强模型的拟合能力。

图 3 基于通道维Transformer模块

Figure 3. Spectral-wise transformer block

下载: 全尺寸图片幻灯片

与标准空间维Transformer不同的是，基于通道维的Transformer块将输入特征图的每一个通道视作一个Token，并沿着通道维度进行自注意力的计算。首先将输入图像${X_{{\text{in }}}} \in {\mathbb{R}^{H \times W \times C}}$转换为Token$X \in {\mathbb{R}^{HW \times C}}$，其中H、W、C分别表示特征图的高度、宽度以及通道个数。再将X线性投影到query$Q \in {\mathbb{R}^{HW \times C}}$，key$ K \in {\mathbb{R}^{HW \times C}} $，value$V \in {\mathbb{R}^{HW \times C}}$，则有：

$$ Q＝XW^{Q}\text{，}K＝XW^{K}\text{，}V＝XW^{V} $$

(2)

式中：W^Q，W^K，${W^V} \in {\mathbb{R}^{C \times C}}$都是可以学习的参数。为简化问题，这里省略了biases项。这里，将特征图的每个通道都作为一个Token并进行自注意力的计算：

$$ A=\operatorname{softmax}\left(\boldsymbol{K}^{\mathrm{T}} Q\right) $$

(3)

$$ Z＝VA $$

(4)

式中：K^T代表K的转置矩阵；$ A \in {\mathbb{R}^{C \times C}} $表示生成的注意力特征图；$ Z \in {\mathbb{R}^{HW \times C}} $表示经过注意力加权后的特征，接着再添加位置编码信息：

$$ \operatorname{SWSA}(\boldsymbol{X})=Z+f_{\mathrm{p}}(\boldsymbol{V})$$

(5)

式中：f_p(V)是生成位置编码的函数。最后将上式的结果进行转换从而获得最终的输出特征图$ {X_{{\text{out }}}} \in {\mathbb{R}^{H \times W \times C}} $。

这里本文对其计算复杂度进行分析，由于基于通道维的自注意力将每个通道视为一个Token，并且每个Token的维度n等于H×W。因此其计算复杂度为：

$$ {O}_{(通道维自注意力计算)}=2HW{C}^{2} $$

(6)

而基于全局自注意力计算和基于窗口的自注意力计算的计算复杂度分别为：

$$ {O}_{(全局自注意力计算)}=2{(HW)}^{2}C $$

(7)

$$ {O}_{(基于窗口自注意力计算)}=2{M}^{2}HWC $$

(8)

其中M表示设定窗口的大小，这里不难看出，基于通道维的自注意力以及基于窗口的自注意力的计算复杂度都是与特征图的空间尺寸（H×W）呈线性关系，相比于全局计算自注意力要高效很多。同时，基于通道维的自注意力还将每个光谱特征作为Token，在计算自注意力A时，接受域是全局的，并不局限于特定位置的窗口。因此基于通道维的自注意力的感受野是整幅特征图并且不会受到特定窗口的限制。

为方便说明，如表 1所示，总结了各种自注意力结构的属性。

表 1 不同自注意力结构的属性比较

Table 1. Property comparison of different self-attention structures

Self-attention scheme	Global self-attention	Local-window self-attention	Spectral-wise self-attention
Receptive field	Global	Local	Global
Complexity to HW	Quadratic	Linear	Linear
Calculating wise	Spatial	Spatial	Spectral

下载: 导出CSV

| 显示表格

2. 实验结果与分析

2.1 数据集介绍

本文在NUDT-SIRST数据集上进行实验，包含了427张具有代表性的红外图像和480个不同场景的实例，其中将大约50%的数据用于训练、20%以及30%的数据分别用于验证及测试。

2.2 训练环境及实验设置

本文基于PyTorch1.13.1平台对所提出算法进行实验验证，GPU为GTX2080Ti，操作系统为Ubuntu20.04。本文采用AdaGrad作为优化器，初始学习率为0.04。训练过程总共需要持续500个epoch，衰减率为10⁻⁴，batch大小为8。本文同一些目前较为先进的红外小目标检测算法进行对比，包括：ALCNet^[29]，ACMNet^[17]，MDvsFA^[16]，WSLCM^[30]，TLLCM^[31]，IPI^[32]，NRAM^[33]，PSTNN^[34]以及MSLSTIPT^[35]。

2.3 评价指标

本文采用IoU、归一化交并比nIoU、检测率P_d以及虚警率F_a这几个常用的度量指标将所提出的LPformer与一些先进方法进行对比：

交并比IoU定义为：

$$ \text { IoU }＝A_{i}/A_{u } $$

(9)

式中：A_i和A_u分别表示相交区域和并集区域的大小；nIoU是IoU的标准化，即：

$$ \text {nIoU } = \frac{1}{N}\sum\limits_{i = 1}^N {(TP[i]/(} T[i] + P[i] - TP[i])) $$

(10)

式中：N表示样本总数；TP[⋅]表示被模型正确预测的正样本的像素数目，T[⋅]和P[⋅]分别表示图像中真实值和预测为正样本的像素数目。

检测率表示正确检测出的目标N_pred与所有目标N_all的比值：

$$P_{\mathrm{d}}=N_{\text {pree }} / N_{\text {all }} $$

(11)

虚警率F_a表示错误预测的目标像素数N_false与图像中所有像素N_all的比值：

$$ {F_{\mathrm{a}}} = {N_{{\text{false }}}}/{N_{{\text{all }}}} $$

(12)

2.4 消融实验

本文通过设置消融实验对不同模块对网络性能的影响进行分析，具体包括是否采用本文设计的基于通道维的Transformer模块（SWT），是否采用通过拉普拉斯金字塔（Laplace pyramid）提取高频信息对网络进行补偿以及是否采用结构信息转换（SIF）模块对所提取到的结构信息与主干网络中的特征进行融合。实验结果如表 2所示，同时本文还进行了可视化结果的对比，如图 4所示，分析可知：

表 2 消融实验结果

Table 2. Ablation study results

Index	SWT	Laplace	SIF	IoU	nIoU	P_d	F_a
1	×	√	√	70.24	70.69	96.36	30.54
2	√	√	×	73.45	71.36	97.32	24.54
3	√	×	×	71.43	70.63	96.93	28.42
4	×	×	×	69.76	70.05	95.25	41.32
5	√	√	√	75.42	72.79	98.17	20.98

下载: 导出CSV

| 显示表格

图 4 消融实验红外图像检测结果

Figure 4. Ablation study of infrared image detection results

下载: 全尺寸图片幻灯片

1）通过将实验1、实验5以及实验3、实验4分别进行对比可以发现，采用SWT模块可以使得网络在现有基础上的各项指标均实现提升，可视化检测结果也具有更加准确的目标边缘，得益于通道维自注意力计算，网络能够提升对特征图中的小目标的判别能力，因而效果有显著提升。

2）相较于实验5，实验3中并不包含基于拉普拉斯金字塔对红外图像进行不同尺度高频信息提取的结构信息补偿分支，可以看到IoU指标和nIoU指标分别降低了3.99%和2.16%，同时在可视化结果图中，实验5中的结果具有更加完整以及精确的目标形状，证明了为网络补充结构信息的必要性以及所采用方法的有效性。

3）实验2中，为充分验证SIF模块对于所提取到的结构信息与主干网络中的特征的融合能力，相较于实验5，本文将SIF模块替换为普通的特征相加操作，可以看到，各项指标均下降明显，同时可视化结果中的目标的完整性及准确性受到影响，证明SIF结构的有效性。

2.5 实验结果

为验证本文算法的先进性，在SIRST数据集上对目前已有的经典算法进行比较，如表 3所示。可以看到，一些基于手工先验的传统算法在处理具有挑战性的样例时较为受限，导致检测性能较其他基于深度学习方法相差很多。同时，在基于CNN的算法中，由于自身缺乏表达能力，导致不能准确地进行掩码预测，因此IoU以及nIoU指标都较低；此外，这类方法在存在噪声的背景下学习鉴别能力较弱，容易造成目标的错检以及漏检。与之相比，本文所提出的LPformer网络，在所有的评价指标方面都取得了最好的性能，并且和ALCNet相比，IoU指标和nIoU指标分别提升1.99%以及1.35%，本文将这一提升归因于所采用的高频结构信息补偿分支的设计以及基于通道维度Transformer模块的设计，分别能够为网络提供更多的细节信息以及提升网络的表达能力。除了对模型性能的比较以外，本文还对模型推理单张图像所耗费的平均时间进行了统计。由于一些传统算法的缺乏可比较性，这里只对一些基于深度学习的算法进行了比较，结果表明本文所采用的LPformer不仅在性能上领先其他算法，在算法复杂度及推理时间也优于其他大部分模型，能够满足一般现实中的使用条件。

表 3 对比实验结果

Table 3. Experimental results on different algorithms

Algorithm	IoU	nIoU	P_d	F_a	Time reasoning/s
WSLCM	4.41	33.82	91.74	22593	-
TLLCM	3.51	21.75	92.66	26498	-
IPI	2.62	4.16	84.40	203.07	-
NRAM	45.68	55.49	85.32	161.15	-
PSTNN	51.95	62.66	82.57	394.29	-
MSLSTIPT	20.21	24.74	82.57	259.75	-
MDvsFA	45.28	48.16	76.15	166.07	0.099
ACM	67.96	71.05	97.25	72.92	0.014
ALCNet	73.43	71.44	97.84	25.68	0.035
LPformer	75.42	72.79	98.17	20.98	0.024

下载: 导出CSV

| 显示表格

如图 5所示，本文对一些算法的检测结构进行了可视化，可以看到，即使是在较低对比度以及低信噪比的情况下，本文的LPformer不仅能够准确地对目标进行定位，还能获得一个大致完整和精确的目标形状，这与本文所利用拉普拉斯金字塔提取原始红外图像各层高频结构信息并与网络不同层级高效融合分不开。同时由于基于通道维度Transformer模块的设计提升了网络地表达能力和鉴别学习能力，和其他算法的检测结果相比，较少出现漏检以及错检情况。同时，如图 6所示，本文还绘制了5种性能先进的算法的（receiver operating characteristic，ROC）曲线，可以看到，本文所采用的LPformer网络的性能明显优于其他算法。

图 5 不同算法红外图像检测结果

Figure 5. Visual results of different algorithms on infrared image detection

下载: 全尺寸图片幻灯片

图 6 不同算法ROC曲线

Figure 6. Curves of ROC by different methods

下载: 全尺寸图片幻灯片

3. 结论

本文提出了一个新颖的LPformer网络来解决低对比度以及低信噪比挑战下的红外小目标检测任务。具体来说，针对红外小目标特征容易在网络迭代过程中损失纹理细节信息，被背景所淹没，从而影响检测效率的问题，本文利用拉普拉斯金字塔从原始输入的红外图像中提取不同层级的高频边界信息，接着通过引入一种结构信息转换模块与主干网络中不同层级的特征进行高效融合，用于对损失的纹理信息进行补偿。此外，为了在抑制噪声的同时将小目标特征有效进行提取，本文采用了一种基于通道维的Transformer，能够有效提升网络检测精度。通过在SIRST数据集上与其他现有算法进行的大量对比实验，证明了本文所提出的算法的优越性。

图 1 数据增强效果

Figure 1. Example of data augment

下载: 全尺寸图片幻灯片

图 2 改进后的网络结构

Figure 2. Improved model structure

下载: 全尺寸图片幻灯片

图 3 CBAM算法流程

Figure 3. The process of CBAM module

下载: 全尺寸图片幻灯片

图 4 改进后的Neck

Figure 4. Improve Neck structure

下载: 全尺寸图片幻灯片

图 5 比对模型对各类违禁物品的P-R曲线

Figure 5. P-R curves of different models for various prohibited items

下载: 全尺寸图片幻灯片

图 6 改进模型检测效果

Figure 6. Experimental renderings

下载: 全尺寸图片幻灯片

表 1 CBAM不同添加位置的结果

Table 1 Results of different add CBAM locations %

Location	Gun	Knife	Pliers	Wrench	Scissor	Map
CSP_1	95.45	86.43	86.89	83.52	81.61	86.78
CSP_2	97.12	85.56	87.47	84.98	82.67	87.56
CSP_3	96.14	85.23	88.45	85.17	83.24	87.65
CSP_4	97.45	87.77	89.49	86.49	83.71	88.98

下载: 导出CSV

表 2 改进策略的消融实验

Table 2 Ablation study Ablation experiments with improved strategies %

CBAM	Bottom-up	Loss	Gun	Knife	Pliers	Wrench	Scissor	Map
-	-	-	97.32	81.07	88.24	87.25	79.72	86.72
√	-	-	97.45	87.77	89.49	86.49	83.71	88.98
-	√	-	97.49	87.82	89.13	86.51	82.91	88.77
-	-	√	97.46	84.08	87.86	86.47	82.18	87.61
√	√	√	97.57	88.74	89.26	88.97	84.05	89.72

下载: 导出CSV

表 3 对比实验结果

Table 3 Comparative experimental results

Models	Map/(%)	FPS/(frame/s)
Fast R-CNN	80.23	52.8
RetinaNet	83.94	55.3
YOLOv3	85.93	56.9
YOLOv4	86.12	73.8
YOLOv5s	89.12	98.5
Guo’s^[26]	73.68	55
Mu’s^[27]	80.16	25
Dong’s^[28]	89.60	-
Ours	89.72	111.7

下载: 导出CSV

参考文献(32)

[1]	陈冰. 基于多能X射线成像的违禁物品自动识别[D]. 北京: 北京理工大学, 2018. CHEN B. Automatic Recognition of Prohibited Items Based on Multi-energy X-ray Imaging[D]. Beijing: Beijing Institute of Technology, 2018.
[2]	邰仁忠. X射线物理学[J]. 物理, 2021, 50(8): 501-511. https://www.cnki.com.cn/Article/CJFDTOTAL-WLZZ202108003.htm TAI R Z. X-ray physics[J]. Physics, 2021, 50(8): 501-511. https://www.cnki.com.cn/Article/CJFDTOTAL-WLZZ202108003.htm
[3]	McCarley J S, Kramer A F, Wickens C D, et al. Visual skills in airport-security screening[J]. Psychological Science, 2004, 15(5): 302-306. DOI: 10.1111/j.0956-7976.2004.00673.x
[4]	梁添汾, 张南峰, 张艳喜, 等. 违禁品X光图像检测技术应用研究进展综述[J]. 计算机工程与应用, 2021, 57(16): 74-82. DOI: 10.3778/j.issn.1002-8331.2103-0476 LIANG T F, ZHANG N F, ZHANG Y X, et al. Summary of research progress on application of prohibited item detection in X-ray images[J]. Computer Engineering and Applications, 2021, 57(16): 74-82. DOI: 10.3778/j.issn.1002-8331.2103-0476
[5]	Mery D, Mondragon G, Riffo V, et al. Detection of regular objects in baggage using multiple X-ray views[J]. Insight-Non-Destructive Testing and Condition Monitoring, 2013, 55(1): 16-20. DOI: 10.1784/insi.2012.55.1.16
[6]	Michel S, Mendes M, de Ruiter J C, et al. Increasing X-ray image interpretation competency of cargo security screeners[J]. International Journal of Industrial Ergonomics, 2014, 44(4): 551-560. DOI: 10.1016/j.ergon.2014.03.007
[7]	韩萍, 刘则徐, 何炜琨. 一种有效的机场安检X光手提行李图像两级增强方法[J]. 光电工程, 2011, 38(7): 99-105. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC201107023.htm HAN P, LIU Z X, HE W K, An efficient two-stage enhancement algorithm of X-ray carry-on luggage images[J]. Opto-Electronic Engineering, 2011, 38(7): 99-105. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC201107023.htm
[8]	Khan S U, Chai W Y, See C S, et al. X-ray image enhancement using a boundary division wiener filter and wavelet-based image fusion approach[J]. Journal of Information Processing Systems, 2016, 12(1): 35-45.
[9]	ZHAO B, Wolter S, Greenberg J A. Application of machine learning to x-ray diffraction-based classification[C]//Anomaly Detection and Imaging with X-Rays(ADIX) Ⅲ. International Society for Optics and Photonics, 2018, 10632: 1063205.
[10]	Gaus Y F A, Bhowmik N, Breckon T P. On the use of deep learning for the detection of firearms in x-ray baggage security imagery[C]//2019 IEEE International Symposium on Technologies for Homeland Security (HST), 2019: 1-7.
[11]	Franzel T, Schmidt U, Roth S. Object detection in multi-view X-ray images[C]//Joint DAGM (German Association for Pattern Recognition) and OAGM Symposium, 2012: 144-154.
[12]	王宇, 邹文辉, 杨晓敏, 等. 基于计算机视觉的X射线图像异物分类研究[J]. 液晶与显示, 2017, 32(4): 287-293. https://www.cnki.com.cn/Article/CJFDTOTAL-YJYS201704008.htm WANG Y, ZOU W H, YANG X M, et al. X-ray image illegal object classification based on computer vision[J]. Chinese Journal of Liquid Crystals and Displays, 2017, 32(4): 287-293. https://www.cnki.com.cn/Article/CJFDTOTAL-YJYS201704008.htm
[13]	Alom M Z, Taha T M, Yakopcic C, et al. The history began from alexnet: a comprehensive survey on deep learning approaches[J/OL]. arXiv preprint arXiv: 1803.01164, 2018.
[14]	WANG L, GUO S, HUANG W, et al. Places205-vggnet models for scene recognition[J/OL]. arXiv preprint arXiv: 1508.01667, 2015.
[15]	Ballester P, Araujo R M. On the performance of GoogLeNet and AlexNet applied to sketches[C]//Thirtieth AAAI Conference on Artificial Intelligence, 2016, 30(1): doi: https://doi.org/10.1609/aaai.v30i1.10171.
[16]	Haque M F, Lim H Y, Kang D S. Object detection based on VGG with ResNet network[C]//2019 International Conference on Electronics, Information, and Communication (ICEIC) of IEEE, 2019: 1-3(doi: 10.23919/ELINFOCOM.2019.8706476).
[17]	ZOU Z, SHI Z, GUO Y, et al. Object detection in 20 years: a survey[J/OL]. arXiv preprint arXiv: 1905.05055, 2019.
[18]	CHEN C, LIU M Y, Tuzel O, et al. R-CNN for small object detection[C]//Asian Conference on Computer Vision, 2016: 214-230.
[19]	Girshick R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[20]	R Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[21]	ZHANG Y, KONG W, LI D, et al. On using XMC R-CNN model for contraband detection within X-ray baggage security images[J]. Mathematical Problems in Engineering, 2020, 2020: 1-14.
[22]	Sigman J B, Spell G P, LIANG K J, et al. Background adaptive faster R-CNN for semi-supervised convolutional object detection of threats in x-ray images[C]//Anomaly Detection and Imaging with X-Rays (ADIX) V, 2020, 11404: 1140404.
[23]	Papageorgiou C P, Oren M, Poggio T. A general framework for object detection[C]//Sixth International Conference on Computer Vision (IEEE Cat. No. 98CH36271) of IEEE, 1998: 555-562.
[24]	LIU Z, LI J, SHU Y, et al. Detection and recognition of security detection object based on YOLO9000[C]//2018 5th International Conference on Systems and Informatics (ICSAI)of IEEE, 2018: 278-282.
[25]	Galvez R L, Dadios E P, Bandala A A, et al. YOLO-based Threat Object Detection in X-ray Images[C]//2019 IEEE 11th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management (HNICEM), 2019: 1-5.
[26]	郭守向, 张良. Yolo-C: 基于单阶段网络的X光图像违禁品检测[J]. 激光与光电子学进展, 2021, 58(8): 0810003. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202108007.htm GUO S X, ZHANG L. Yolo-C: one-stage network for prohibited items detection within X-ray images[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810003. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ202108007.htm
[27]	穆思奇, 林进健, 汪海泉, 等. 基于改进YOLOv4的X射线图像违禁品检测算法[J]. 兵工学报, 2021, 42(12): 2675-2683. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO202112015.htm MU S Q, LIN J J, WANG H Q, et al. An algorithm for detection of prohibited items in X-ray images based on improved YOLOv4[J]. Acta Armamentarii, 2021, 42(12): 2675-2683. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO202112015.htm
[28]	董乙杉, 李兆鑫, 郭靖圆, 等. 一种改进YOLOv5的X光违禁品检测模型[J/OL]. 激光与光电子学进展, [2022-02-21]. http://kns.cnki.net/kcms/detail/31.1690.TN.20220217.1141.008.html. DONG Y S, LI Z X, GU J Y, et al. An improved YOLOv5 model for X-ray prohibited items detection[J]. Laser & Optoelectronics Progress: [2022-02-21]. http://kns.cnki.net/kcms/detail/31.1690.TN.20220217.1141.008.html.
[29]	GE Z, LIU S, WANG F, et al. YOLOX: Exceeding Yolo series in 2021[J/OL]. arXiv preprint arXiv: 2107.08430, 2021.
[30]	WANG C Y, LIAO H, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 390-391.
[31]	Woo S, Park J, Lee J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[32]	MIAO C, XIE L, WAN F, et al. SiXray: a large-scale security inspection x-ray benchmark for prohibited item discovery in overlapping images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 2119-2128.

施引文献(3)

期刊类型引用(3)

1.	刘祺，曹林，田澍，杜康宁，宋沛然，郭亚男. 用于遥感图像变化检测的结构感知多尺度混合网络. 激光与光电子学进展. 2024(14): 323-333 . 百度学术
2.	闵锋，刘彪，况永刚，毛一新，刘煜晖. 基于空间自适应和内容感知的红外小目标检测. 红外技术. 2024(07): 735-742 . 本站查看
3.	陈怡馨，马曾. 无线网络信息差分隐私的动态可搜索加密仿真. 计算机仿真. 2024(10): 424-427+442 . 百度学术

其他类型引用(0)

资源附件(0)

图(6) / 表(3)

计量

文章访问数: 187
HTML全文浏览量: 53
PDF下载量: 25
被引次数: 3

0. 引言
1. 本文方法
1.1 总体框架
1.2 结构信息转换模块
1.3 基于通道维的Transformer
2. 实验结果与分析
2.1 数据集介绍
2.2 训练环境及实验设置
2.3 评价指标
2.4 消融实验
2.5 实验结果
3. 结论

基于改进YOLOX的X射线违禁物品检测

作者简介: 武连全（1979-），男，硕士，副教授，硕士生导师，主要从事警务指挥与战术、反恐处置与大数据应用研究。E-mail：wu_lianquan0402@126.com

计量

出版历程