Lightweight Multisource Object Detection Based on Group Feature Extraction
-
摘要:
为兼顾多源目标检测网络的精度与效率,将分组卷积作用于目标多模态特征中,并配合注意力多尺度结构以及改进的目标框筛选策略,设计了一种轻量级的红外与可见光目标检测模型。模型先以多种特征降维策略对输入图像进行采样,降低噪声及冗余信息的影响;其次,根据特征通道所属模态进行分组,并利用深度可分离卷积分别对红外特征、可见光特征以及融合特征进行提取,提升多源特征提取结构的多样性以及高效性;然后,针对各维度多模态特征,引入改进的注意力机制来增强关键特征,再结合邻域多尺度融合结构保障网络的尺度不变性;最后,利用优化后的非极大值抑制算法来综合各尺度目标预测结果,精确检测出各个目标。通过在KAIST、FLIR、RGBT公开数据集上的测试结果表明,所提模型有效提升了目标检测性能,并且相对于同类型多源目标检测方法,该模型也体现出较高的鲁棒性和泛化性,可以更好地实现目标检测。
Abstract:To balance the accuracy and efficiency of multisource object detection networks, a lightweight infrared and visible light object detection model with a multiscale attention structure and an improved object-box filtering strategy was designed by applying group convolution to multimodal object features. First, multiple feature dimensionality reduction strategies were adopted to sample the input image and reduce the impact of noise and redundant information. Subsequently, feature grouping was performed based on the mode of the feature channel, and deep separable convolution was used to extract infrared, visible, and fused features, to enhance the diversity and efficiency of extracted multisource feature structures. Then, an improved attention mechanism was utilized to enhance key multimodal features in various dimensions, combining them with a neighborhood multiscale fusion structure to ensure scale invariance of the network. Finally, the optimized non-maximum suppression algorithm was used to synthesize the prediction results of objects at various scales for accurate detection of each object. Experimental results based on the KAIST, FLIR, and RGBT public thermal datasets show that the proposed model effectively improves object detection performance compared with the same type of multisource object detection methods.
-
0. 引言
有机电致发光器件(Organic Light Emitting Device,OLED)具有发光亮度高、响应时间短、可视范围大和可柔性化等优点,被称为“梦幻般的显示器”,被视为液晶显示后的下一代主流显示器,并初步应用于装饰和室内照明[1-6]。近年来,高性能顶发射器件逐渐成为研究热点,诸多科研工作者投身于实现高性能器件的研究中,目前主要从两个方面入手:一是新材料的研发,如新型有机发光分子材料[7];二是新结构的开发,如超薄结构[8]、量子阱结构[9]和和微腔结构[10]等。在微腔结构方面,主要是通过理论计算改变有机结构层厚度,进而调节器件的微腔长度,获得不同模数的微腔,使器件处于不同微腔加强区,从而提升器件性能。
光学微腔是一种光学微型谐振腔,尺寸在光波长量级。有机微腔电致发光器件最早是日本九州大学在1993年完成的[11]。当前关于有机微腔发光的大部分研究致力于提升器件效率[12-14],而对具有微腔效应顶发射器件的色纯度及稳定性的研究存在不足。因此,本文在现有器件研究的基础上,通过引入二阶微腔结构[15-16],制备了一系列顶发射微型器件,验证二阶微腔长度范围内器件的光电性能,最终获得优化后的稳定绿光顶发射器件,实现标准绿光显示。
1. 实验
本文所制备的顶发射器件,微腔结构为简单的FP(Fabry-Perot)微腔结构[17-19],底部全反射电极采用Ag,顶部光出射端采用半透明的金属阴极Mg/Ag作为半反射镜。器件各膜层通过蒸镀设备依次完成,主要膜层及所用材料见表 1,其中阳极为ITO,空穴注入层(Hole Injection Layer, HIL)为有机材料F16CuPc和NPB,F16CuPc为掺杂料;空穴传输层(Hole Transport Layer, HTL)为有机材料NPB;电子阻挡层(Electron Blocking Layer, EBL)为有机材料TCTA;有机发光层(Emitting Layer, EML)为有机材料mCP和Ir(ppy)3,mCP为绿色发光基质,Ir(ppy)3掺杂料;电子传输层(Electron Transport Layer, ETL)为有机材料Bphen和Liq,Liq为掺杂料;光输出耦合层(Capping Layer, CPL)为有机材料Alq3。器件中涉及的有机材料分子结构如图 1所示。
表 1 器件主要膜层及所用材料Table 1. Layers and materials of deviceLayer Material anode ITO HIL Copper(II)1, 2, 3, 4, 8, 9, 10, 11, 15, 16, 17, 18, 22, 23, 24, 25-hexadecafluoro-29H, 31H-phthalocyanine(F16CuPc)
N, N'-Di-[(1-naphthyl)-N, N'-diphenyl]-1, 1'-biphenyl)-4, 4'-diamine (NPB)HTL N, N'-Di-[(1-naphthyl)-N, N'-diphenyl]-1, 1'-biphenyl)-4, 4'-diamine (NPB) EBL 4, 4', 4''-tris(carbazol-9-yl)-triphenylamine (TCTA) EML 1, 3-bis(9-carbazolyl)benzene(mCP)
Iridium, tris[2-(2-pyridinyl-kN)phenyl-kC](Ir(ppy)3)ETL 4, 7-Diphenyl-1, 10-phenanthroline(Bphen)
8-hydroxyquinoline lithium(Liq)cathode Mg/Ag CPL 8-Hydroxyquinoline aluminum salt(Alq3) 该器件采用云南北方奥雷德光电股份有限公司开发的硅基CMOS基板作为器件衬底,依次蒸镀各层有机材料,蒸发速率保持在0.1 nm/s,真空度保持在2×10-4 Pa。器件的亮度及光谱通过PR-655测量,电流和电压采用搭载Keithley 2400测试仪的测试系统进行测量。
2. 结果讨论
2.1 微腔长度对色纯度影响
一般来说,顶发射器件都存在微腔效应,器件发出的光谱强度I(λ)如式(1)[20]:
$$ I\left( \lambda \right) = \frac{{\left( {1 + {R_{\text{h}}}} \right)\left[ {1 + {R_{\text{f}}} + 2\sqrt {{R_{\text{f}}}} \cos \left( {\frac{{4{\rm{ \mathsf{ π} }}Z}}{\lambda }} \right)} \right]}}{{1 + {R_{\text{f}}}{R_{\text{h}}} - 2\sqrt {{R_{\text{f}}}{R_{\text{h}}}} \cos \left( {\frac{{4{\rm{ \mathsf{ π} }}L}}{\lambda }} \right)}}{I_0}\left( \lambda \right) $$ (1) 式中:Rf为全反射镜的反射率;Rh为半透明反射镜的反射率;I0(λ)为自由空间的光谱强度;L为器件微腔光学长度;Z为全反射镜与有机发光层之间的距离。其中,微腔的光学长度L计算式为:
$$ L = \sum {{n_{\text{m}}}{d_{\text{m}}}} + {n_{{\text{ITO}}}}{d_{{\text{ITO}}}} + \left| {\frac{{{\lambda _q}}}{{4{\rm{ \mathsf{ π} }}}}\sum\limits_i {{\phi _i}\left( \lambda \right)} } \right| = q\frac{{{\lambda _q}}}{2} $$ (2) 式中:nm、dm分别为有机材料的折射率和厚度;nITO、dITO分别为ITO的折射率和厚度;q(1, 2, 3, 4, …)是发射模的模(阶)数;λq是模(阶)数为q的共振发射波长;ϕt(λ)为光在有机界面/金属镜面之间的相移,i为阳极/有机界面或阴极/有机界面。由式(1)、(2)可知,通过调节有机材料膜层厚度,可以改变器件微腔长度,使腔模q的位置产生移动,从而改变微腔器件的出射光波长。为了使器件微腔的谐振波长与发光层电致发光谱的峰值波长相匹配以实现增益,利用公式(2)计算得到一阶腔长对应的有机层总厚度约为100 nm,二阶腔长对应的有机层总厚度约为250 nm。
通过调整空穴传输层和电子阻挡层厚度,实验中制作了5种不同微腔长度的器件A~E,如图 2所示。其结构为:Si Substrate/Ag/ITO/ NPB: F16CuPc(10 nm, 3%)/NPB(x nm)/TCTA(y nm)/ mCP: Ir(ppy)3(40 nm, 6%)/ Bphen: Liq(30 nm, 40%)/ Mg/Ag(12 nm)/Alq3(35 nm),x表示空穴传输层(NPB)的膜层厚度,y表示电子阻挡层(TCTA)的膜层厚度。其中x分别为30、30、60、20、120,y分别为20、15、20、15、40,器件有机层厚度依次为130 nm、125 nm、160 nm、115 nm、240 nm。
图 3为不同腔长器件EL光谱。器件A、B、C、D在524 nm处有一强峰,556 nm、552 nm、560 nm、560 nm处出现一弱峰,器件E为520 nm处唯一单峰。从图中可以看出,器件C→A→B→D→E长波一侧出现明显的窄化趋势,向短波一侧移动,出现蓝移,560 nm处的肩峰逐渐减弱至消失。这一现象是器件微腔效应导致的,根据腔量子电动力学效应,腔内光场的模式密度受到调制,在谐振波长处得到增强,而在其他波长处的受到抑制,光谱得到窄化[21]。微腔效应的强弱常通过半高宽(FWHM, full width at half maximum)来衡量,计算得到器件C→A→B→D→E半高宽从84 nm减小到33 nm,微腔效应逐渐增强。
不同腔长器件的发光性能如表 2所示。在A~E中,D在亮度、电流效率与外量子效率等方面表现较佳,B次之,C表现最差,而E色坐标偏移最小。这主要是因为,D位于一阶加强区,E位于二阶加强区,C远离加强区。可以看出,当器件腔长位于一阶加强区时,器件的光电效率会得到加强;当位于二阶加强区时,器件效率会低于一阶加强区[22-23],但器件色纯度明显高于一阶加强区,说明处于二阶加强区对器件的色纯度有显著的提升作用。
表 2 不同腔长器件的光电特性Table 2. Optoectronic performance of device with different cavity lengthsDevice Luminance/(cd/m2) Current efficiency/(cd/A) Peak wavelength/nm FWHM/nm External quantum efficiency/% CIEx, y Color shift[CIE 1931] A 6330 33.80 524 73 9.19% (0.3713, 0.6019) (0.1613, 0.1081) B 7439 39.73 524 70 10.59% (0.3601, 0.6110) (0.1501, 0.0990) C 2198 11.74 524 84 3.39% (0.3959, 0.5821) (0.1859, 0.1279) D 9123 48.72 524 66 12.75% (0.3436, 0.6243) (0.1336, 0.0857) E 5477 29.25 520 33 7.67% (0.2092, 0.7167) (0.0008, 0.0067) 通过进一步的测试发现,制作得到的器件色坐标都具有很好的稳定性,如图 4所示。A~E色坐标CIEx,CIEy在低电压阶段经过短暂上升,电压达到2.8 V后,色坐标保持平稳。从整个变化情况来看,器件E色坐标出现了明显的突变,CIEx骤降到0.2左右,CIEy骤升到0.71左右,出现该现象的原因是器件A~D分别在556 nm、552 nm、560 nm、560 nm处存在一弱峰,导致色坐标产生偏离,发光时表现出黄绿光,而器件E为唯一单峰,在器件正常启亮后就表现出近乎接近标准绿光(0.21, 0.71)显示,如图 4(c)所示。这一结果也再次表明微腔长度处于二阶加强区,对器件发光色纯度有明显的提升作用。
2.2 空穴传输层和电子阻挡层厚度对腔长影响
前述结果表明,当器件微腔长度位于二阶加强区时,器件的色纯度会得到明显提升。为了验证器件处于二阶加强区时,空穴传输层和电子阻挡层厚度是否对微腔长度改变起同等作用,制作了器件E1。在其他条件保持不变的情况下,空穴传输层厚度为40 nm,电子阻挡层厚度为120 nm。从表 3可以看出,E、E1在亮度、电流效率、外量子效率等性能方面表现相当,差异很小。通过光谱图(图 5)和色坐标(图 6)也可以看出,两者EL光谱基本重合,且CIEx、CIEy未发生较大改变。这一结果表明,空穴传输层与电子传输层厚度在微腔长度改变中作用相同,均能有效调节色纯度。
表 3 不同HTL & EBL厚度器件的光电特性Table 3. Optoectronic performance of device with different HTL & EBL thicknessDevice Luminance/(cd/m2) Current efficiency/(cd/A) Peak wavelength/nm FWHM/nm External quantum efficiency/% CIEx, y Color shift[CIE 1931] E 5477 29.25 520 33 7.67 (0.2092, 0.7167) (0.0008, 0.0067) E1 5261 28.09 520 32 7.58 (0.2079, 0.7173) (0.0021, 0.0073) 3. 结论
研究发现器件结构为Si Substrate/Ag/ITO/ NPB: F16CuPc(10 nm, 3%)/NPB(x nm)/TCTA(y nm)/ mCP: Ir(ppy)3(40 nm, 6%)/Bphen: Liq(30 nm, 40%)/ Mg/ Ag(12 nm)/Alq3(35 nm)的顶发射绿光器件,通过调节器件空穴传输层和电子阻挡层的厚度使器件处于第二阶微腔加强区,可以使光谱明显窄化,器件色纯度得到极大提升,进一步研究发现,空穴传输层与电子阻挡层在微腔长度改变中作用相同,均能有效调节色纯度。器件在腔长为240 nm时,能实现稳定的高色纯度绿光显示,正向出射绿光的色坐标达到了(0.2092,0.7167),接近标准绿光(0.21, 0.71),该结果对二阶腔长绿光器件的应用有较好的参考意义。
-
表 1 实验数据集构成
Table 1 Composition of experimental dataset
Configure KAIST FLIR RGBT Number of images 8600 11000 15000 Image size 512×512 512×512 640×480 Number of target categories 4 8 11 Train: Verification: Test 7:1:2 表 2 超参数设置
Table 2 Hyperparameter setting
Hyperparameter Value Batch size 4 Learning rate 0.01 Weight initialization Xavier Learning rate regulation Multistep Weight decay 0.005 Momentum 0.95 Weight adjustment strategy Adam Category loss calculation Cross Entropy Position loss calculation CIoU 表 3 基础特征提取结构对比
Table 3 Comparison of basic feature extraction structures
表 4 多源特征提取结构对比
Table 4 Comparison of multi-source feature extraction structures
Network Efficiency/fps Test accuracy/(%) mAP mAPs mAPm mAPl Dual branch extraction 17 76.2 57.1 76.5 85.3 Fusion extraction 33 74.9 55.6 75.1 82.8 Group extraction 30 77.5 58.3 77.8 86.9 表 5 注意力结构对比
Table 5 Comparison of attention structure
表 6 多尺度特征融合结构对比
Table 6 Comparison of multi-scale feature fusion structures
表 7 NMS改进前后对比
Table 7 Comparison of NMS before and after improvement
Network Efficiency/fps Test accuracy/(%) AP AP50 AP75 Before NMS optimization 27 60.5 87.5 60.4 After NMS optimization 27 61.0 88.8 61.3 表 8 同类型多源目标检测对比
Table 8 Comparison of same type multiple source object detection
表 9 FLIR数据集测试结果对比
Table 9 Comparison of FLIR dataset test results
-
[1] 杜紫薇, 周恒, 李承阳, 等. 面向深度卷积神经网络的小目标检测算法综述[J]. 计算机科学, 2022, 49(12): 205-218. DOI: 10.11896/jsjkx.220500260 DU Z W, ZHOU H, LI C Y, et al. A survey on small object detection algorithms for deep convolutional neural networks[J]. Computer Science, 2022, 49(12): 205-218. DOI: 10.11896/jsjkx.220500260
[2] 李科岑, 王晓强, 林浩, 等. 深度学习中的单阶段小目标检测方法综述[J]. 计算机科学与探索, 2022, 16(1): 41-58. LI K C, WANG X Q, LIN H, et al. A survey on single-stage small object detection methods in deep learning[J]. Journal of Computer Science and Exploration, 2022, 16(1): 41-58.
[3] LIANG Y, QIN G, SUN M, et al. Multi-modal interactive attention and dual progressive decoding network for RGB-D/T salient object detection[J]. Neurocomputing, 2022, 490: 132-145. DOI: 10.1016/j.neucom.2022.03.029
[4] 宋文姝, 侯建民, 崔雨勇. 基于多源信息融合的智能目标检测技术[J]. 电视技术, 2021, 45(6): 101-105. SONG W S, HOU J M, CUI Y Y. Intelligent object detection technology based on multi-source information fusion[J]. Television Technology, 2021, 45(6): 101-105.
[5] LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.
[6] 吴泽, 缪小冬, 李伟文, 等. 基于红外可见光融合的低能见度道路目标检测算法[J]. 红外技术, 2022, 44(11): 1154-1160. http://hwjs.nvir.cn/article/id/4bac684b-eed1-4894-900f-ed97489995e6 WU Z, MIAO X D, LI W W, et al. Low-visibility road object detection algorithm based on infrared visible light fusion[J]. Infrared Technology, 2022, 44(11): 1154-1160. http://hwjs.nvir.cn/article/id/4bac684b-eed1-4894-900f-ed97489995e6
[7] Afyouni I, Al Aghbari Z, Razack R A. Multi-feature, multi-modal, and multi-source social event detection: a comprehensive survey[J]. Information Fusion, 2022, 79: 279-308. DOI: 10.1016/j.inffus.2021.10.013
[8] 程腾, 孙磊, 侯登超, 等. 基于特征融合的多层次多模态目标检测[J]. 汽车工程, 2021, 43(11): 1602-1610. CHENG T, SUN L, HOU D C, et al. Multi-level multi-modal object detection based on feature fusion[J]. Automotive Engineering, 2021, 43(11): 1602-1610.
[9] ZHANG L, WANG S, SUN H, et al. Research on dual mode target detection algorithm for embedded platform[J]. Complexity, 2021, 2021(8): 1-8. http://openurl.ebsco.com/contentitem/doi:10.1155%2F2024%2F9874354?sid=ebsco:plink:crawler&id=ebsco:doi:10.1155%2F2024%2F9874354
[10] 邝楚文, 何望. 基于红外与可见光图像的目标检测算法[J]. 红外技术, 2022, 44(9): 912-919. http://hwjs.nvir.cn/article/id/60c5ef39-1d9c-4918-842f-3d86b939f3a6 KUANG C W, HE W. Target detection algorithm based on infrared and visible light images[J]. Infrared Technology, 2022, 44(9): 912-919. http://hwjs.nvir.cn/article/id/60c5ef39-1d9c-4918-842f-3d86b939f3a6
[11] 马野, 吴振宇, 姜徐. 基于红外图像与可见光图像特征融合的目标检测算法[J]. 导弹与航天运载技术, 2022(5): 83-87. MA Y, WU Z Y, JIANG X. Target detection algorithm based on feature fusion of infrared and visible light images[J]. Missile and Space Vehicle Technology, 2022(5): 83-87.
[12] ZHANG D, YE M, LIU Y, et al. Multi-source unsupervised domain adaptation for object detection[J]. Information Fusion, 2022, 78: 138-148. http://www.sciencedirect.com/science/article/pii/S1566253521001895
[13] CHEN S, MA W, ZHANG L. Dual-bottleneck feature pyramid network for multiscale object detection[J]. Journal of Electronic Imaging, 2022, 31(1): 1-16. http://www.nstl.gov.cn/paper_detail.html?id=58c6ec4e74c19b48febf51e68105aea0
[14] TANG B. ASFF-YOLOv5: Multielement detection method for road traffic in UAV images based on multiscale feature fusion[J]. Remote Sensing, 2022, 14(14): 3498-3499. http://www.mdpi.com/2072-4292/14/14/3498
[15] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[16] LI C, LIANG X, LU Y, et al. RGB-T object tracking: benchmark and baseline[J]. Pattern Recognition, 2019, 96: 106977. http://doc.paperpass.com/patent/arXiv180508982.html
[17] LIN T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//Computer Vision–ECCV 2014: 13th European Conference, 2014: 740-755.
[18] MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 116-131.
[19] HAN K, WANG Y, XU C, et al. GhostNets on heterogeneous devices via cheap operations[J]. International Journal of Computer Vision, 2022, 130(4): 1050-1069. DOI: 10.1007/s11263-022-01575-y
[20] Howard A, Sandler M, CHU G, et al. Searching for mobilenetv3[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 1314-1324.
[21] WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 11534-11542.
[22] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations, 2021: 331-368.
[23] Misra D, Nalamada T, Arasanipalai A U, et al. Rotate to attend: convolutional triplet attention module[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 3139-3148.
-
期刊类型引用(4)
1. 吕伽奇,丁帅,庞静珠,许小进. 基于改进LeNet-5网络的堆芯燃料组件编码识别. 东华大学学报(自然科学版). 2024(02): 121-128 . 百度学术
2. 毛羽,郑怀华,李隆,张傲. 基于热红外图像的光伏板热斑检测方法研究. 自动化仪表. 2024(05): 25-29+34 . 百度学术
3. 王晓君,孙梓林,王雁. 基于AMP架构的青霉素结晶与发酵检测系统设计. 仪表技术与传感器. 2024(05): 66-73 . 百度学术
4. 赵兴文. 机器学习在信用贷款评分中的应用. 福建电脑. 2023(02): 31-34 . 百度学术
其他类型引用(15)