Multi-scale Transformer Fusion Method for Infrared and Visible Images
-
摘要: 目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。
-
关键词:
- 图像融合 /
- Swin Transformer /
- 自注意力机制 /
- 多尺度 /
- 红外图像
Abstract: Mainstream fusion methods based on deep learning employ a convolutional operation to extract local image features; however, the interaction between an image and convolution kernel is content-independent, and the long-range dependency cannot be well modeled. Consequently, the loss of important contextual information may be unavoidable and further limit the fusion performance of infrared and visible images. To this end, we present a simple and effective fusion network for infrared and visible images, namely, the multiscale transformer fusion method (MsTFusion). We first designed a novel Conv Swin Transformer block to model long-range dependency. A convolutional layer was used to improve the representative ability of the global features. Subsequently, we constructed a multiscale self-attentional encoding-decoding network to extract and reconstruct global features without the help of local features. Moreover, we designed a learnable fusion layer for feature sequences that employed softmax operations to calculate the attention weight of the feature sequences and highlight the salient features of the source image. The proposed method is an end-to-end model that uses a fully attentional model to interact with image content and attention weights. We conducted a series of experiments on TNO and road scene datasets, and the experimental results demonstrated that the proposed MsTFusion transcended other methods in terms of subjective visual observations and objective indicator comparisons. By integrating the self-attention mechanism, our method built a fully attentional fusion model for infrared and visible image fusion and modeled the long-range dependency for global feature extraction and reconstruction to overcome the limitations of deep learning-based models. Compared with other state-of-the-art traditional and deep learning methods, MsTFusion achieved remarkable fusion performance with strong generalization ability and competitive computational efficiency.-
Keywords:
- image fusion /
- Swin Transformer /
- self-attentional mechanism /
- multi-scale /
- infrared image
-
0. 引言
对于一些复杂的系统,由于功能或机构的限制,单片FPGA难以实现全部功能[1]。在多片FPGA协同工作情况下,如何提高FPGA片间高速通信的稳定性逐渐成为这一领域的研究热点。传统的并行总线因占用资源多,噪声高等缺点,在高速数据传输领域已逐渐被淘汰。目前对于Xilinx 7系列FPGA而言,片间高速通信主要有两种方案。一种是通过GT系列串行高速收发器来实现,根据FPGA种类不同分为GTP、GTX、GTH、GTZ。其中线速率最低的GTP可以支持6.6 Gb/s。虽然此方案传输速率高,但由于每片FPGA的串行高速收发器数量有限,且高速传输对于PCB布局布线提出了很高的要求,因此存在一定的局限性。另一种方案是通过LVDS技术来实现[2]。该技术具有线速率高、抑制共模噪声、低功耗、抗干扰能力强等优点[3]。且通过配置BANK电压,可使FPGA提供大量支持LVDS标准的接口,吞吐率可达Gb/s级,因此该方案具有更加广阔的应用前景[4]。
本文提出了一种提高LVDS通信稳定性的校验协议,基于两片Xilinx FPGA平台搭建多路LVDS通信测试系统,并在不同温度条件下测试系统的误码率[5]。
1. FPGA片间通信系统搭建
本文分别利用两片Xilinx公司的Kintex-7和Artix-7 FPGA作为数据处理中心,通过9对LVDS信号线进行片间通信,如图 1所示。
程序测试主要分3步。第一步通过图 1中的Clock Channel进行同步时钟,其中涉及到差分信号和单端信号的转换以及时钟分频倍频;第二步通过Data Channel进行双向数据校验,其中涉及到串并转换、bit位对齐、Byte位对齐、通道对齐。因为每个通道经过串并转换都可以收发8 bit数据,共有8个数据通道,所以Data Channel是64 bit;最后进行单向数据传输,测试系统误码率。
系统硬件包括3部分,分别是K7 FPGA核心板、通信底板、A7 FPGA核心板。硬件测试平台实物如图 2所示。为了保证片间通信的稳定性,在绘制PCB时,布线方面要保证9组数据通道等长,且使用圆弧走线;在布局方面,要避开电源等强电磁干扰,且保证对应IO口间距尽量短。
2. 数据校验协议设计与试验
2.1 同步时钟
两片FPGA的主时钟属于非同源时钟,存在一定的相位差,因此在数据校验和通信之前,必须先进行同步时钟。
同步时钟包括发送和接受两部分。首先要通过K7的MMCM(mixed-mod clock manager)IP核分频生成20 MHz的同步时钟,然后经过OBUFDS转换成差分时钟输出[6]。同步时钟的作用只是对齐两片FPGA时钟的相位,因此频率无需过高,这有利于提高片间传输的稳定性。
如图 3所示,LVDS信号电平标准为2.5 V,周期T为50 ns[7]。因此在硬件方面,需要在试验开始前更改FPGA对应BANK的供电电压,以改变FPGA IO口的电平标准;在程序方面,需要通过XDC文件配置输出IO口模式为LVDS_25模式。
该差分信号需经过电磁环境复杂的底板传输后才能到达A7,如果时钟频率过高,PCB的布局布线不能满足高速信号的严格要求,就会导致误码。这也说明了采用多路LVDS信号传输比少量GT高速串行收发器传输的可靠性和适应性更好。
A7 FPGA接收到差分时钟后,首先利用IBUFDS对输入信号进行输入缓冲和差分转单端处理,以去除共模噪声的影响[8]。该时钟将作为接收端的系统主时钟使用,因此还需进入BUFG进行全局缓冲。然后利用MMCM对20 MHz的同步时钟进行倍频,得到600 MHz的串行时钟SCLK和150 MHz的并行时钟PCLK,完成同步时钟。这里需要注意的是FPGA接收时钟信号时,必须将引脚分配到MRCC(区域时钟的BUFIO,能驱动相邻BANK/时钟域的IO)或SRCC(区域时钟的BUFIO,能驱动所属BANK/时钟域的IO)的I/O口上才可以作为接收端主时钟使用[9]。
2.2 数据校验
2.2.1 通信原理
两片FPGA之间通信是双向的,各通道数据收发原理相同,如图 4所示。
首先由发送端生成8 bit测试数据,然后经过DDR(Double Data Rate)模式的OSERDESE2(并串转换器)把并行数据转成串行数据,最后用OBUFDS把单端信号转成差分信号输出[10]。这里需要给OSERDESE2提供并行时钟PCLK_TX和串行时钟SCLK_TX,这两个时钟分别接CLKDIV和CLK端口[11]。
差分信号经过底板传输后,由另一片FPGA的IBUFDS接收,并把差分信号转成单端信号。数据经过转换后需要进行三步对齐,如图 5所示。
首先通过IDELAYE2进行bit位对齐,然后通过ISERDESE2进行串并转换和Byte位对齐,最后进行通道对齐,直至还原出各通道的8 bit测试数据。在LVDS信号传输过程中,虽然可以消除共模噪声,但数字信号的抖动无法避免,如图 6所示。
从频域的角度分析,抖动频谱的中心就是信号的工作频率,其符合高斯分布。不是中心频率的信号,被称为相位噪声。抖动和相位噪声本质相同,分别是时域和频域分析的结果。
正弦波输出信号可以用如下公式表示:
$$ V(t) = [{A_0} + \varepsilon (t)\left] {{\rm{sin}}} \right[2{\rm{ \mathsf{ π} }}{f_0}t + \varphi (t)] $$ (1) 式中:A0为电压最大值;ε(t)为振幅噪声;f0为工作频率;φ(t)为相位噪声。在理想情况下,ε(t)和φ(t)均为0。但振荡器并不理想,相位噪声不能忽略。因此得到下面公式:
$$ V\left( t \right) = {A_0}\sin \left[ {\frac{{2{\rm{ \mathsf{ π} }}}}{{{T_0}}}\left( {t + \frac{{\varphi \left( t \right)}}{{2{\rm{ \mathsf{ π} }}{f_0}}}} \right)} \right] $$ (2) 当x=2π,则sin(x)=0,此时公式(2)可以表示为:
$$t = {T_0} + \Delta T = {T_0}\left( {1 - \frac{{\varphi \left( t \right)}}{{2{\rm{ \mathsf{ π} }}}}} \right)$$ (3) 所以抖动与周期的关系可以通过如下公式表示:
$$J\left( t \right) = \frac{{\Delta T}}{{{T_0}}} = \frac{{\varphi \left( t \right)}}{{2{\rm{ \mathsf{ π} }}}}$$ (4) 因此频率越高,抖动越大。当利用时钟信号采集串行数据时,就可能出现亚稳态。所以对串行数据进行相位调节是必要的。
另外在PCB布线时会出现数据线之间不等长的情况,或受外界温度变化的影响,从而在接收端产生相位差。因此无法准确地根据接收端的时钟沿采集到正确的串行数据。
本文采用IDELAYE2对串行数据进行相位调节,实现bit位对齐,以防止亚稳态的发生,保证采集到正确的bit,如图 7所示。
图 7中DDR Clock为接收端倍频后的串行时钟。因为采用DDR模式,因此串行时钟的每个跳边沿都应该和一个串行数据对齐。IDELAYE2可以不断调整串行数据的相位,最终使时钟跳变沿刚好对齐数据中心。
调整过程主要包括两个环节。首先向右不断调整IDELAYE2的tap值,使其出现tap1的情况。一旦出现此情况,则说明发生了亚稳态,这将导致后续Byte位对齐失败,记录此时的延迟值tap1;然后向左对数据通道不断调整,直至出现tap5的情况,此时再次出现Byte位对齐失败,记录此时的延时值tap5。最后取tap1和tap5的中值,即tap3作为该数据通道的最理想延时值,进而完成bit位对齐。时钟沿和数据通道中心对齐将会保证采集到最稳定的数据。
此处注意IDELAYE2需要IDELAYCTRL提供延时分辨率[12]。因为给IDELAYCTRL的参考时钟REFCLK是200MHz,根据如下公式可得IDELAYE2的延时分辨率为78.125 ps:
$${\rm{tap}} = \frac{1}{{{F_{\left( {{\rm{REFCLK}}} \right)}} \times 2 \times 32}}$$ (5) 式中:F(REFCLK)为参考时钟的频率;tap为调节延迟分辨率。其中参考时钟需要由同步时钟倍频而来,以保证时钟同源。一共有32个调节梯度可以选择,所以通过IDELAYE2最多可以将bit位延迟2.5 ns。另外,IDELAYE2一旦使用,将引入固定的基础延迟0.6 ns。
上述方法是通过调节数据通道的相位关系来解决信号抖动问题的。但在实际应用中,在保证硬件各信号通道严格等长的情况下,各数据通道相位相差不大,此时可调节串行时钟相位。因为发送端的时钟和数据相位关系如图 7中的tap1,而在接收端需要调节成tap3。那么此时只需要将接收端的串行时钟通过MMCM延迟90°,使跳边沿能采集到正确稳定的数据,避免亚稳态的产生。
进行Byte位对齐,首先需通过ISERDESE2(专用解串器)把串行信号转成并行信号,重新组成8 bit的并行数据。
图 8为DDR模式下的Byte位对齐过程。只要采集到的并行数据和测试数据不同,则继续拉高Bitslip,并进行对齐失败计数。每次Bitslip拉高,都会对并行数据的bit顺序进行调整[13]。如果连续7次对齐失败,则说明bit位对齐失败,返回IDELAYE2。基于此原理,需经过多次调整,最终完成字节对齐。另外还需要为ISERDESE2提供并行时钟PCLK_RX和串行时钟SCLK_RX。
待各通道Byte位均对齐成功后,将得到4路并行数据。最后进行通道对齐,不断调整4路8bit的数据顺序,将其拼接成32 bit的并行数据。如果此数据和测试数据相同,则说明数据对齐成功。
2.2.2 校验协议
基于上述原理,在常规的LVDS通信之前,需进行片间双向校验。校验流程如图 9所示。
同步时钟后,两片FPGA的8个数据通道进行数据对齐。首先K7 FPGA的前4路会发送32 bit的Test Data 1,A7 FPGA的前4路接收并进行对齐。如果对齐失败,将继续进行数据对齐;如果对齐成功,则说明A7前4路接收数据正常,将前4路的rx_locked拉高。然后通过后4路发送Test Data 2,K7的后4路接收并对齐。
如果K7的后4路对齐失败,将继续进行数据对齐;如果对齐成功,则说明K7的前4路发送正常,后4路接收正常,将前4路的tx_ready和后4路的rx_locked拉高。然后通过前4路发送Test Data 2,A7的前4路接收并对齐。
此时可直接使用第一轮校验的对齐策略来对齐Test Data 2。A7接收到Test Data 2后,则说明其后4路发送正常,将其后4路的tx_ready拉高。校验完成。
通过上述3轮数据对齐,完成一轮闭环校验,如图 10所示。该校验协议保证了K7端前4路发送正常,后4路接收正常,A7端前4路接收正常,后4路发送正常。从而保证两个终端之间双向8路通信正常。进而确保后续稳定的数据通信,以达到降低误码率的目的。
2.3 数据通信测试误码率
经过校验后,K7和A7两片FPGA的tx_ready和rx_locked都会拉高。随后进入数据通信阶段,8路数据通道开始传输数据,误码率测试方案如图 11所示。
PRBS(Pseudorandom binary sequence)被称作伪随机码,常用于高速串行通信的误码率测试。其码型由多项式确定,周期性重复。本文将借助伪随机码来测试误码率。
设计使用K7产生64 bit的伪随机码,然后分成8路通过LVDS的方式发送出去。由A7的8个数据通道接收并拼接数据,把拼接后的64 bit数据输入PRBS检测模块,该模块将输出误码累计个数。为了方便实验统计,还在A7端还加入了计时模块Timer。
因为温度的变化会影响数据传输的稳定性,导致出现亚稳态,使Byte位对齐失败。所以基于此方案,对测试系统进行高低温试验,以检测温度变化对片间通信误码率的影响。
3. 试验结果
本试验基于Vivado平台完成。串行时钟为600 MHz,并行时钟为150 MHz,板间同步时钟为20 MHz[14]。
为了直观地统计测试结果,在A7端利用ChipScope对error_cnt进行实时观察。图 12给出了系统在20℃环境下持续1 h的测试截图。
图 12中rx_locked和tx_ready均已拉高,说明系统已经过校验。prbs_data_r是A7端8个通道拼接而成的64 bit数据,把该数据输入到PRBS校验模块PRBS_CHECK,此模块输出的误码个数为error_cnt_r。hour_r、min_r、sec_r分别为小时、分钟、秒。为利用ChipScope触发hour_r为1的时刻。实验持续测试1 h,在20℃环境下未出现误码。
本试验在-30℃~50℃之间每隔10℃进行一组测试,最终得到9组测试结果,如表 1所示。结果表明,在各温度下测试该通信系统,均未出现误码。
表 1 不同温度下FPGA片间通信误码率测试结果Table 1. Test results of bit error rate of FPGA inter-chip communication at different temperaturesTemperature/℃ -30 -20 -10 0 10 20 30 40 50 Bit error rate 0 0 0 0 0 0 0 0 0 因为并行时钟是150 MHz,每检测一个并行数据需要6.7 ns,所以1 h测试期间共检测5.4×1011个数据。如果出现1个误码,经计算得出误码率为1.9×10-12。因此可以推断,在不同温度条件下,经过校验的FPGA片间通信误码率低于1.9×10-12。
4. 结语
本文基于LVDS技术,设计了一种FPGA片间通信校验协议。在常规的LVDS通信之前,经过多通道多轮校验,完成多通道数据对齐,补偿由于PCB布线和其他外界因素所带来的各路间的延迟。该校验协议有效防止了亚稳态的产生和数据丢失,从而保证后续双向通信稳定进行。试验结果证明,本校验协议可以有效降低误码率,提高通信的稳定性。下一步可以完善校验协议,对影响片间通信稳定性的其他外界因素进行试验,进一步降低误码率。
-
表 1 5种融合模型的客观对比结果
Table 1 The objective comparison results of five fusion model
Models Parameters SF VIF EN SD MI NCIE Fusion Layer Add 9.51591 0.36018 7.22888 47.80041 2.55456 0.80587 Ours 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607 STL Number 5 9.31619 0.35836 7.20091 48.01473 2.57833 0.80592 6 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607 7 9.40830 0.37508 7.22529 48.40002 2.49068 0.80564 Conv Layer No 9.39838 0.36835 7.21169 47.38488 2.45803 0.80556 Yes 9.84952 0.39648 7.23821 48.54178 2.61691 0.80607 表 2 不同融合方法计算效率对比结果
Table 2 The comparison results of computation efficiency for different fusion methods
s Method TNO Roadscene MDLatLRR 7.941×101 3.839×101 IFCNN 4.554×10-2 2.246×10-2 DenseFuse 8.509×10-2 4.001×10-2 RFN-Nest 1.777×10-1 8.609×10-2 FusionGAN 2.015 1.093 GANMcC 4.21 2.195 PMGI 5.445×10-1 2.928×10-1 SwinFuse 2.145×10-1 1.291×10-1 IFT 8.141×10-1 4.025×10-1 Ours 5.091×10-1 2.848×10-1 -
[1] Paramanandham N, Rajendiran K. Multi sensor image fusion for surveillance applications using hybrid image fusion algorithm[J]. Multimedia Tools and Applications, 2018, 77(10): 12405-12436. DOI: 10.1007/s11042-017-4895-3
[2] ZHANG Xingchen, YE Ping, QIAO Dan, et al. Object fusion tracking based on visible and infrared images: a comprehensive review[J]. Information Fusion, 2020, 63: 166-187. DOI: 10.1016/j.inffus.2020.05.002
[3] TU Zhengzheng, LI Zhun, LI Chenglong, et al. Multi-interactive dual- decoder for RGB-thermal salient object detection[J]. IEEE Transactions on Image Processing, 2021, 30: 5678-5691. DOI: 10.1109/TIP.2021.3087412
[4] 汪荣贵, 王静, 杨娟, 等. 基于红外和可见光模态的随机融合特征金子塔行人重识别[J]. 光电工程, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669. WANG Ronggui, WANG Jing, YANG Juan, et al. Random feature fusion of golden Tower for pedestrian rerecognition based on infrared and visible modes[J]. Opto-Electronic Engineering, 2020, 47(12): 190669. Doi: 10.12086/oee.2020.190669
[5] WANG Zhishe, XU Jiawei, JIANG Xiaolin, et al. Infrared and visible image fusion via hybrid decomposition of NSCT and morphological sequential toggle operator[J]. Optik, 2020, 201: 163497. DOI: 10.1016/j.ijleo.2019.163497
[6] LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746. DOI: 10.1109/TIP.2020.2975984
[7] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576 SUN Bin, ZHUGE Wuwei, GAO Yunxiang et al. Infrared and visible image fusion based on potential low-rank representation[J]. Infrared Technology, 2022, 44(8): 853-862. http://hwjs.nvir.cn/article/id/7fc3a60d-61bb-454f-ad00-e925eeb54576
[8] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.
[9] KONG Weiwei, LEI Yang, ZHAO Huaixun. Adaptive fusion method of visible light and infrared images based on non-subsampled shearlet transform and fast non-negative matrix factorization[J]. Infrared Physics & Technology, 2014, 67: 161-172.
[10] 姜迈, 沙贵君, 李宁. 基于PUCS与DTCWT的红外与弱可见光图像融合[J]. 红外技术, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954 JIANG Mai, SHA Guijun, LI Ning. Infrared and inferior visible image fusion based on PUCS and DTCWT [J]. Infrared Technology, 2022, 44(7): 716-725. http://hwjs.nvir.cn/article/id/ee43f5b8-9a1f-441c-9d95-e339989d8954
[11] WANG Zhishe, YANG Fengbao, PENG Zhihao, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]. Optik, 2015, 126(23): 4184-4190. DOI: 10.1016/j.ijleo.2015.08.118
[12] LIU Yu, CHEN Xun, PENG Hu, et al. Multi-focus imagefusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36: 191-207. DOI: 10.1016/j.inffus.2016.12.001
[13] ZHANG Hao, XU Han, TIAN Xin, et al. Image fusion meets deep learning: A survey and perspective[J]. Information Fusion, 2021, 76: 323-336. DOI: 10.1016/j.inffus.2021.06.008
[14] ZHANG Yu, LIU Yu, SUN Peng, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. DOI: 10.1016/j.inffus.2019.07.011
[15] LI Hui, WU Xiaojun. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614- 2623. DOI: 10.1109/TIP.2018.2887342
[16] LI Hui, WU Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023
[17] JIAN Lihua, YANG Xiaomin, LIU Zheng, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.
[18] ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12797-12804.
[19] WANG Zhishe, WANG Junyao, WU Yuanyuan, et al. UNFusion: a unified multi-scale densely connected network for infrared and visible image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3360- 3374.
[20] WANG Zhishe; WU Yuanyuan; WANG Junyao, et al. Res2Fusion: infrared and visible image fusion based on dense Res2net and double non-local attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-12.
[21] MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.
[22] MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.
[23] 王志社, 邵文禹, 杨风暴, 等. 红外与可见光图像交互注意力生成对抗融合方法[J]. 光子学报, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm WANG Zhishe, SHAO Wenyu, YANG Fengbao, et al. A generative antagonism fusion method for interactive attention of infrared and visible images [J]. Acta Photonica Sinica, 2022, 51(4): 318-328. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB202204029.htm
[24] LI Jing, ZHU Jianming, LI Chang, et al. CGTF: Convolution-Guided Transformer for Infrared and Visible Image Fusion [J]. IEEE Transactions on Instrumentation and Measurement. 2022, 71: 1-14.
[25] RAO Dongyu, WU Xiaojun, XU Tianyang. TGFuse: An infrared and visible image fusion approach based on transformer and generative adversarial network [J/OL].arXiv preprint arXiv: 2201.10147. 2022.
[26] WANG Zhishe, CHEN Yanlin, SHAO Wenyu, et al. SwinFuse: a residual swin transformer fusion network for infrared and visible images[J/OL]. arXiv preprint arXiv: 2204.11436. 2022.
[27] ZHAO Haibo, NIE Rencan. DNDT: infrared and visible image fusion via DenseNet and dual-transformer[C]// International Conference on Information Technology and Biomedical Engineering (ICITBE), 2021: 71-75.
[28] VS V, Valanarasu J M J, Oza P, et al. Image fusion transformer [J/OL]. arXiv preprint arXiv: 2107.09011. 2021.
[29] LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.
[30] TOET A. TNO Image Fusion Datase[DB/OL]. [2014-04-26].https://figshare.com/articles/TNImageFusionDataset/1008029.
[31] XU Han. Roadscene Database[DB/OL]. [2020-08-07].https://github.com/hanna-xu/RoadScene.
[32] LI Hui, WU Xiaojun, Kittle J. MDLatLRR: a novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733-4746.
-
期刊类型引用(11)
1. 李卓. 基于线结构光成像技术的定制产品包装视觉图像处理方法. 激光杂志. 2024(02): 208-213 . 百度学术
2. 徐立,刘亮,赵凤军. 灰度变换下多模态刚性医学图像分层增强仿真. 计算机仿真. 2024(04): 250-254 . 百度学术
3. 唐菀,刘鑫. 视觉注意模型的低照度图像感兴趣区域检测. 计算机仿真. 2024(05): 242-245+337 . 百度学术
4. 阚绪康,史格非,杨雪榕. 基于动态特征点滤除与关键帧选择优化的ORB-SLAM2算法. 计算机应用. 2024(10): 3185-3190 . 百度学术
5. 卢佳佳,蔡坚勇. 基于增强视觉质量的图像感兴趣区域检测研究. 计算机仿真. 2023(01): 234-238 . 百度学术
6. 孙宇辰,石逸夫,王查理,石可民. 一种视觉定位算法在社区低速车上的应用. 科技与创新. 2023(08): 168-170 . 百度学术
7. 来金强. 基于目标检测和动静点分离的视觉即时定位与地图构建技术. 机械制造. 2023(11): 80-84 . 百度学术
8. 刘文杰,刘小娇,付猛,姚玉波. 基于视觉SLAM的动态图像处理方法研究. 数字通信世界. 2022(06): 14-16 . 百度学术
9. 贾雨萌,刘甜甜,李振华. 一种改进的SLAM建图方法研究. 物联网技术. 2022(08): 71-73 . 百度学术
10. 张凤,王伟良,袁帅,孙明智. 动态环境下基于卷积神经网络的视觉SLAM方法. 沈阳工业大学学报. 2022(06): 688-693 . 百度学术
11. 王德欣. SLAM技术及其在测绘领域中的应用研究. 西部资源. 2022(05): 106-108 . 百度学术
其他类型引用(2)