面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法

廖光凤, 关志伟, 陈强

廖光凤, 关志伟, 陈强. 面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法[J]. 红外技术, 2025, 47(3): 367-375.
引用本文: 廖光凤, 关志伟, 陈强. 面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法[J]. 红外技术, 2025, 47(3): 367-375.
LIAO Guangfeng, GUAN Zhiwei, CHEN Qiang. An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion[J]. Infrared Technology , 2025, 47(3): 367-375.
Citation: LIAO Guangfeng, GUAN Zhiwei, CHEN Qiang. An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion[J]. Infrared Technology , 2025, 47(3): 367-375.

面向红外与可见光图像融合的改进双鉴别器生成对抗网络算法

基金项目: 

2021年天津市科技领军(培育)企业重大创新项目 22YDPYGX00050

天津市多元投入基金重点项目 21JCZDJC00800

天津市应用基础研究项目 22JCZDJC00390

天津市教委科研计划项目 2021KJ018

天津市科技局技术创新引导专项基金 23YDTPJC00980

详细信息
    作者简介:

    廖光凤(1999-),女,硕士研究生,主要从事智能网联汽车技术方面的研究。E-mail:751790304@qq.com

    通讯作者:

    陈强(1981-),男,博士,硕士生导师,主要从事环境感知技术方面的研究。E-mail:chen@tute.edu.cn

  • 中图分类号: TP183

An Improved Dual Discriminator Generative Adversarial Network Algorithm for Infrared and Visible Image Fusion

  • 摘要:

    针对现有的红外与可见光图像融合算法对全局和多尺度特征提取不充分,对不同模态图像的关键信息提取不精准的问题,提出了基于双鉴别器生成对抗网络的红外与可见光图像融合算法。首先,生成器结合卷积和自注意力机制,捕获多尺度局部特征和全局特征;其次,将注意力机制与跳跃连接结合,充分利用多尺度特征并减少下采样过程中的信息丢失;最后,两个鉴别器引导生成器关注红外图像的前景显著目标和可见光图像的背景纹理信息,使融合图像保留更多关键信息。在公开数据集M3FD和MSRS上的实验结果表明,与对比算法相比,6种评价指标结果显著提高,其中平均梯度(Average Gradient, AG)在两个数据集上相较于次优结果分别提高了27.83%和21.06%。本文算法的融合结果细节丰富,具有较好的视觉效果。

    Abstract:

    An infrared and visible image fusion algorithm, based on a dual-discriminator generative adversarial network, is proposed to address issues, such as the insufficient extraction of global and multiscale features and the imprecise extraction of key information, in existing infrared and visible image fusion algorithms. First, a generator combines convolution and self-attention mechanisms to capture multiscale local and global features. Second, the attention mechanism is combined with skip connections to fully utilize multiscale features and reduce information loss during the downsampling process. Finally, two discriminators guide the generator to focus on the salient targets of the infrared images and background texture information of visible-light images, allowing the fused image to retain more critical information. Experimental results on the public multi-scenario multi-modality (M3FD) and multi-spectral road scenarios (MSRS) datasets show that compared with the baseline algorithms, the results of the six evaluation metrics improved significantly. Specifically, the average gradient (AG) increased by 27.83% and 21.06% on the two datasets, respectively, compared with the second-best results. The fusion results of the proposed algorithm are rich in detail and exhibit superior visual effects.

  • 线性APD红外探测器可以实现主/被动多模的工作方式,在被动模式下进行红外热成像;主动模式利用光子飞行时间(Time of Flight, ToF)对目标进行二维测距或3D成像,获取目标强度信息和距离信息。2011年,法国CEA-Leti公司开发了阵列规模320×256、像元间距30 μm的线性碲镉汞(HgCdTe)APD探测器,可以实现主/被动双模式成像[1],30 m范围内距离分辨率30 cm。同年,以色列SCD公司报道了一款具有4种工作模式的读出电路[2],分别为标准红外热成像模式、低噪声成像模式、异步激光脉冲探测模式和激光测距模式,阵列规模640×512,像元间距15 μm。2016年,SCD公司在上一款电路基础上进行升级[3],面阵规模扩展至1280×1024,像元中心距缩小至10 μm,最大测距距离为18 km,对应距离分辨率为9 m。2018年,德国AIM公司分别基于HgCdTe和铟镓砷(InGaAs)开发了APD探测器组件[4-5],阵列规模640×512、像元间距为15 μm,系统可用于距离选通门控成像。2022年,东南大学报道了一款多功能红外焦平面读出电路[6],面阵规模64×64,像元中心距为30 μm,每个像元可实现标准热成像模式、微光成像模式,2×2像元共享实现异步激光脉冲探测模式和激光测距模式。

    目前国内多模式红外焦平面探测器读出电路尚未见到成熟产品报道,多功能读出电路并非将不同电路简单累加,因此,在有限像元面积内实现多种功能具有重要意义。本文采用电容反馈跨阻放大器(Capacitor Feedback Transimpedance Amplifier,CTIA)结构作为像元输入级,在30 μm的像元内集成了红外热成像模式、门控3D成像模式、激光测距模式和异步激光脉冲探测模式4种功能,4种模式共同复用CTIA电路,结构紧凑。激光测距模式和异步激光脉冲探测模式通过Krummenacher结构消除直流分量[7-9],仅检测脉冲信号,扩展ToF探测范围。本文提出一种适用于红外焦平面阵列、小像元读出电路的高精度时刻鉴别电路,提升ToF探测精度。

    读出电路系统架构如图 1所示。

    图  1  128×128读出电路系统结构
    Figure  1.  128×128 ROIC system structure

    读出电路包括128×128、30 μm中心距的像元阵列、128列处理电路(128列并行处理电路)、4路并行输出缓冲器、片上偏置电路以及行选、列选和数字控制模块等电路,通过片外全局斜坡信号实现像素级ToF探测,4路输出中有两路输出2D信号、两路输出3D信号,每路输出缓冲器对应64列像元与列处理电路。

    红外热成像模式:与普通热成像模式读出电路无异,像元输入级电路对光生电荷积分,按照一定顺序通过列Buffer、输出Buffer读出每个像元中的信号。

    门控3D成像模式:激光器向目标发射激光脉冲,脉冲信号在传输过程中,部分激光能量被散射或中间障碍反射,影响成像质量,通过控制探测器曝光时间,实现有选择性接收信号,从而对特定景深的区域进行成像,抑制前景或背景中障碍物或干扰源对成像的影响。门控3D成像模式下,可以同时获得目标距离信息和强度信息,如图 2所示,其中S为成像景深。

    图  2  门控成像原理
    Figure  2.  Gated imaging principle

    激光测距模式:激光测距模式下不受门控时间限制,可实现大动态范围测距。

    异步激光脉冲检测模式:该模式可用于预警、光斑搜索和跟踪等[2, 6]

    多模式读出电路的像元结构如图 3所示,主要包括CTIA输入级、Krummenacher回路、时刻鉴别电路、采样保持电路和输出缓冲器,采用CTIA结构作为信号探测电路,具有注入效率高、偏置稳定性好等优点。CTIA电路有两个反馈电容,C3D为ToF探测的感应电容,为了实现快速响应,提升探测器灵敏度,C3D容值很小,CINT为红外热成像模式的积分电容。

    图  3  多模式读出电路的像元电路结构
    Figure  3.  Pixel circuit structure of multi-mode readout integrated circuit

    红外热成像模式如图 4所示,开关SW导通、SW1断开,此时大电容CINT与小电容C3D并联,RST复位结束后光生电流在积分电容上积分,INT信号控制积分时间,积分结束后,行选开关导通,信号Vout_2D通过Buffer读出像元。

    图  4  红外热成像模式像元电路
    Figure  4.  Infrared thermal imaging mode pixel circuit

    门控3D成像模式如图 5所示,开关SW断开、SW1断开,此时仅有小电容C3D接入反馈环路,由于采用小电容感应的方案,激光脉冲未返回时,探测器背景电流可能将小电容提前积分至比较器翻转阈值,造成误触,严重制约了ToF探测的动态范围,通过控制探测器曝光时间可实现门控3D成像,同时获取特定门控范围内目标的强度信息和距离信息。

    图  5  门控3D成像模式像元电路
    Figure  5.  Gated 3D imaging mode pixel circuit

    激光测距模式如图 6所示,开关SW断开、SW1导通,Krummenacher电路接入反馈环路,Krummenacher结构可以滤除环境光直流分量,只检测激光脉冲交流信号,从而扩展ToF探测范围。

    图  6  激光测距模式像元电路
    Figure  6.  Laser ranging mode pixel circuit

    异步激光脉冲检测模式与激光测距模式复用一套电路,如图 7所示,探测器检测随机时刻到来的激光脉冲。

    图  7  异步激光脉冲检测模式像元电路
    Figure  7.  Asynchronous laser pulse detection mode pixel circuit

    门控3D成像模式和激光测距模式采用直接飞行时间探测技术(Direct Time of Flight,DToF),同时采用时间幅度转换器(Time to Amplitude Converter,TAC)标定ToF。以门控3D成像模式时序为例进行说明,如图 8所示,激光发射器向目标发射脉冲,同时参考斜坡信号开始上升,当反射脉冲到达接收阵列时,光生电流在小电容C3D上快速积分至时刻鉴别电路的阈值电压Vth,此时的参考斜坡电压信号Vout_3D被锁存,之后继续对剩余光生电流进行积分得到Vout_2D,经后续处理即可得到目标距离信息和强度信息。

    图  8  门控3D成像模式时序
    Figure  8.  Gated 3D imaging mode timing

    ToF可由公式(1)计算:

    $$ {\text{ToF}} = \frac{{{V_{{\text{out_3D}}}} - {V_{{\text{ref}}}}}}{{2 \cdot \alpha }} $$ (1)

    式中:α为参考斜坡信号斜率;Vout_3D为采样电路采到的参考斜坡电压值;Vref为时间参考基准斜坡电压值起始点。

    门控3D成像模式和激光测距模式由于采用了电容感应的方案,光子返回后需等待输出电压积分到比较器翻转阈值后才能触发锁存器锁存此时参考斜坡信号的电压值,导致计算得到的目标距离大于实际距离,通常比较器和锁存器的延时较为固定,如图 8所示,Tdelay通常为固定值,所以对ToF的精度影响小。

    CTIA作为前端信号探测电路测距时,由于小积分电容易受背景辐射和探测器暗电流影响,造成比较器误触发,如图 9中的1st所示,复位信号RST结束后探测器开始曝光,由于背景辐射过大,激光脉冲信号还未到来时,CTIA的输出电压信号已经到达比较器翻转阈值,采样到的VO1为无效信号,这一缺点严重制约了ToF探测范围,所以通常采用门控成像方式,控制探测器曝光时间,对特定景深的区域进行探测。

    图  9  ToF探测误差
    Figure  9.  ToF detection error

    除此之外,对相同距离的目标测距时,由于激光信号在传输过程中受不同环境光和目标反射率影响,回波信号大小不同,导致前端探测电路输出电压达到比较器翻转阈值电压有所差异,出现非线性的时刻鉴别误差,也称行走误差(Walk Error),时刻鉴别误差会影响ToF量化的精度,时刻鉴别误差可用图 9中的2nd、3rd和4th三种情况描述,对相同距离的物体进行探测时,脉冲信号同时返回,但回波脉冲幅度和背景干扰不同,导致采样到的参考斜坡信号不同,分别为VO2VO3VO4,从而引起ToF的量化出现差异。

    回波脉冲到来后触发时间鉴别电路采样得到的电压值Vout_3D是ToF与行走误差、电路固定延时的和,所以实际的ToF应该为(2):

    $$ {\text{ToF}} = \frac{{{V_{{\text{out_3D}}}}}}{{2 \cdot \alpha }} - {T_{{\text{walkerror}}}} - {T_{{\text{delay}}}} $$ (2)

    式中:Twalkerror为行走误差;Tdelay为比较器和触发器的固定延时,又因为ToF与探测距离的关系可知实际目标距离D应该为(3):

    $$ D = \frac{{\left( {\frac{{{V_{{\text{out_3D}}}}}}{{2 \cdot \alpha }} - {T_{{\text{walkerror}}}} - {T_{{\text{delay}}}}} \right) \cdot c}}{2} $$ (3)

    式中:c为光速。

    通常对于门控3D成像模式和激光测距模式,最关键的指标是ToF探测精度,也称时间分辨率,即探测器能够分辨的最小距离差或时间差。探测精度可推导如下,设两探测目标距离分别为D1D2,最小距离分辨率可表示为(4):

    $$ {\left( {{D_1} - {D_2}} \right)_{\min }} = \frac{{\frac{{{{\left( {{V_{3D1}} - {V_{3D2}}} \right)}_{\min }}}}{{2 \cdot \alpha }} - \Delta {T_{{\text{walkerror}}}}}}{{\frac{2}{c}}} $$ (4)

    式中:ΔTwalkerrorTwalkerror1Twalkerror2,表示两次测距的时刻鉴别误差的差值;(V3D1V3D2)minVLSB,即为参考斜坡信号的最小分辨率。由此可知,最小时间分辨率可表示为(5):

    $$ {\left( {{\text{To}}{{\text{F}}_1} - {\text{To}}{{\text{F}}_2}} \right)_{\min }} = \frac{{{V_{{\text{LSB}}}}}}{{2 \cdot \alpha }} - \Delta {T_{{\text{walkerror}}}} $$ (5)

    所以,时刻鉴别误差会直接影响探测精度,高精度ToF探测必须降低时刻鉴别误差。

    时刻鉴别电路对ToF量化精度起到关键作用,普通五管开环比较器作为时刻鉴别电路有着结构简单、功耗低和面积小等优点,适用于焦平面电路,但会引入严重的时刻鉴别误差,影响ToF探测精度。

    可以利用双阈值鉴别、恒比定时鉴别、峰值辅助校正等方法减小时刻鉴别误差[10-12],不过往往会导致电路复杂,版图面积和功耗过大。针对红外焦平面探测器读出电路,本文提出了一种高精度时刻鉴别电路,如图 10所示,与传统开环五管比较器相比,在输出端增加了反馈充电支路,充电支路可以有效提升比较器从低电平到高电平的翻转速度,增加反馈限流管M7减小了不同幅值输入电压导致比较器上翻速度不一致的问题,从而降低时刻鉴别误差。其工作原理如下,设有两个不同幅值激光脉冲,前端信号探测电路输出分别为,V1V2,且V1V2V1引起的比较器输出Vout1抬升速度大于V2引起的比较器输出Vout2抬升速度,比较器输出电压的抬升使得M7关断,Vout1使M7关断的速度大于Vout2,所以反馈充电支路可以减小由于输入幅度不同导致比较器上翻速度不一致的问题。

    图  10  改进型比较器
    Figure  10.  Improved comparator

    须保证通过M6的电流小于通过M5的电流,否则比较器将一直被充电至高电平而失去功能。

    由2.1节分析可知,背景干扰严重制约了ToF探测范围。图 3展示了Krummenacher结构的具体电路,其中流经M3的电流为流经M6的一半,M5为MOS电容,保证环路的稳定性。由文献[7-9]的分析可知,图 3的Krummenacher结构有两条信号反馈路径,第一条为M1和M2,可以等效电阻Rf;第二条为M1、M5和M4,可以等效为电感Lf。激光测距模式下,Krummenacher回路接入电路,等效电路如图 11所示,此时CTIA电路的反馈回路为积分电容C3D、等效电阻Rf和等效电感Lf并联,激光脉冲未到来时,背景直流分量通过等效电感Lf泄放,激光脉冲到来时,电路的输出电压Vctia上升。此时电路仅检测交流信号,并且电路可以完成脉冲检测后输出电压的自复位,但也由于电路的自复位特性,激光测距模式下很难获得目标的强度信息。

    图  11  激光测距模式等效电路
    Figure  11.  Laser ranging mode equivalent circuit

    对普通五管开环比较器和改进型比较器进行对比仿真,验证改进型比较器对行走误差的抑制作用。设电流脉冲幅度从150 nA以50 nA步进增加至500 nA,ToF设置为100 ns,此时,普通五管开环比较器的时刻鉴别误差约为10.38 ns,如图 12(a)所示;改进型比较器的时刻鉴别误差仅为4 ns,如图 12(b)所示,时刻鉴别误差降低了约61.3%。所以,改进型时刻鉴别电路可以有效降低时刻鉴别误差,提升3D门控成像模式和激光测距模式的ToF探测精度。

    图  12  时刻鉴别误差
    Figure  12.  Time discrimination error Ibg/nA time/μs

    为了更好观察激光测距模式对背景电流的抑制能力,激光测距模式对单个像元进行仿真。设背景电流在1~150 nA之间以10 nA步进增加,回波脉冲幅度为500 nA,脉宽8 ns,延时1 μs,模拟激光回波到来时刻。仿真结果如图 13所示,RST信号结束后读出电路处于待测模式,从图中可以看到待测脉冲没有到来之前,背景直流分量并没有将CTIA积分至比较器翻转阈值引起误触发,而是等到激光脉冲信号到来后CTIA输出电压才上升至比较器翻转阈值,所以Krummenacher结构可以有效滤除背景直流分量,扩展ToF探测范围。

    图  13  激光测距模式仿真
    Figure  13.  Laser ranging mode simulation

    图 14为激光脉冲未到来前电路输出电压随着背景直流电流变化的变化,背景电流从1 nA增加到150 nA,输出电压的变化仅有1.35 mV,相对于激光脉冲到来时280 mV的输出电压,变化率约0.48%,直流背景消除电路可以抑制不同背景对测距的干扰,有效扩展ToF探测范围,同时降低背景干扰引起的行走误差。

    图  14  Krummenacher回路滤除直流分量
    Figure  14.  Krummenacher feedback filters out the DC component

    对像元阵列第一行的1~9列像元输入脉冲电流,脉冲电流大小在200~500 nA之间以50 nA步进增加,设电流脉冲延时从180~20 ns之间以20 ns步进递减,以此来模拟不同的光子到达时刻,结果如图 15所示,Vout_2D_1Vout_2D_2Vout_3D_1Vout_3D_2,四路信号并行输出,同时获取目标强度信息与距离信息,经计算,读出电路输出的2D信号和3D信号的线性度大于99%。

    图  15  门控3D成像模式仿真
    Figure  15.  Gated 3D imaging mode simulation time/μs

    对像元阵列的第一行的1~11列像元输入光生电流,大小在300~500 pA之间以20 pA步进增加,仿真结果如图 16所示,其中MC为主时钟信号,Vout_2D_1Vout_2D_2分别为读出电路的两路并行输出,经计算,读出电路线性度大于99.6%,红外热成像模式下Vout_3D_1Vout_3D_2不输出信号。

    图  16  红外热成像模式仿真
    Figure  16.  Infrared thermal imaging mode simulation time/μs

    对电路输入脉冲信号,模拟随机时刻到来的激光脉冲,仿真结果如图 17所示,RST信号为低,代表读出电路复位结束,此时电路处于待测模式,当脉冲信号到来后,读出电路输出D_OUT电平为高,代表此时探测器探测到激光信号。

    图  17  异步激光脉冲检测模式仿真
    Figure  17.  Asynchronous laser pulse detection mode simulation

    幅值灵敏度和脉宽灵敏度是激光检测电路的两个重要指标。设激光脉冲宽度为8 ns,仿真电路幅值灵敏度,激光脉冲信号幅值从100 nA以10 nA步进增加至200 nA,仿真结果如图 18所示,当脉冲信号最小幅度为110 nA时,输出信号D_OUT可以发生跳变,所以在8 ns脉宽下,电路的幅值灵敏度约为110 nA;设激光脉冲幅值为200 nA,仿真电路的脉宽灵敏度,激光脉冲信号脉宽从1 ns以1 ns步进增加至8 ns,仿真结果如图 19所示,当脉冲信号最小脉宽为4 ns时,输出信号D_OUT可以发生跳变,所以在200 nA幅值下电路的脉宽灵敏度约为4 ns。

    time/μs

    图  18  激光检测电路幅值灵敏度
    Figure  18.  Amplitude sensitivity of laser detection circuit time/μs
    图  19  激光检测电路脉宽灵敏度
    Figure  19.  Pulse width sensitivity of laser detection circuit

    电路版图如图 20所示,左侧为128×128版图示意,右侧为单个像元版图,由于像元面积仅有30 μm,为了尽可能提高像元版图利用率,积分电容使用高层金属堆叠在有源区和poly上方;数字电路布局在像元最下方,尽可能与放大器、时刻鉴别电路等模拟电路隔开,降低串扰;不同层金属之间尽量垂直走线,无法垂直走线的地方尽可能不交叠,降低金属线间的寄生电容。

    图  20  电路版图
    Figure  20.  Circuit layout

    表 1对本文电路与已经报道的国内外先进电路进行对比,本文提出的多模式读出电路在30 μm中心距像元中集成了4种功能,具有一定实用价值。

    表  1  本文电路与国内外已经报道的先进电路对比
    Table  1.  The circuits in this paper are compared with the advanced circuits reported at home and abroad
    Literature [1] Literature [3] Literature [5] Literature [6] Ours
    Array size 320×256 1280×1024 640×512 64×64 128×128
    Pixel pitch/μm 30 10 15 30 30
    Supply Voltage/V - - - 3.3 3.3
    Technology CMOS 0.18 CMOS 0.18 - CMOS 0.35 CMOS 0.18
    Well capacity 3.6Me- 1Me- 120ke- 1.63Me- 3.74Me-
    Imaging mode 1)Infrared thermal imaging
    2)3D imaging
    1)Daylight imaging
    2)Low light level imaging
    3)Active imaging
    4)Asynchronous laser pulse detection
    1)Gated viewing
    2)Gated viewing(CDS)
    3)ITR snapshot
    1)Daylight standard imaging
    2)Low-light-level imaging
    3)Asynchronous laser pulse detection
    4)Two-dimensional laser range finder
    1)Infrared thermal imaging mode
    2)Gated 3D
    3)Laser ranging
    4)Asynchronous laser pulse detection
    Post-Silicon or Simulation Post-Silicon Post-Silicon Post-Silicon Post-Silicon Simulation
    下载: 导出CSV 
    | 显示表格

    本文提出一种线性APD红外焦平面阵列多模式读出电路,具备红外热成像模式、门控3D成像模式、激光测距模式和异步激光脉冲探测模式4种功能。激光测距模式引入Krummenacher结构抑制背景对测距范围和精度的影响,实现高精度、大动态ToF探测,进一步扩展了电路功能;提出一种改进型比较器作为时刻鉴别电路,降低ToF探测的时刻鉴别误差。

  • 图  1   红外与可见光图像融合方案

    Figure  1.   Infrared and visible image fusion scheme

    图  2   CCA机制

    Figure  2.   CCA mechanism

    图  3   PA机制

    Figure  3.   PA mechanism

    图  4   生成器结构

    Figure  4.   The architecture of generator

    图  5   RDB结构

    Figure  5.   The architecture of RDB

    图  6   鉴别器结构

    Figure  6.   The architecture of discriminator

    图  7   夜间光照充足条件下对比结果

    Figure  7.   Comparison of results at night with sufficient light

    图  8   夜间昏暗条件下对比结果

    Figure  8.   Comparison of results in low light conditions at night

    图  9   大雾条件下对比结果

    Figure  9.   Comparison of results under foggy conditions

    图  10   隧道情况下对比结果

    Figure  10.   Comparison of results in tunnel case

    图  11   白天对比结果

    Figure  11.   Comparison of results under daylight conditions

    图  12   M3FD数据集定量分析

    Figure  12.   Quantitative analysis on the M3FD Dataset

    图  13   MSRS数据集定量分析

    Figure  13.   Quantitative analysis on the MSRS Dataset

    表  1   M3FD数据集的定量分析

    Table  1   Quantitative comparisons on the M3FD

    EN MI SF SD Qabf AG
    DDcGAN 6.3775 2.7990 6.7409 24.1168 0.2589 2.3080
    DenseFuse 6.6955 2.9281 9.2404 30.8108 0.4814 3.2054
    LRRNet 6.4355 2.8201 10.6596 27.1722 0.4892 3.5832
    NestFuse 6.7967 3.4503 10.9647 32.8006 0.5277 3.6390
    RFN-Nest 6.8659 2.8897 7.5290 33.3992 0.3754 2.7471
    Ours 6.8400 3.8980 13.4326 35.3704 0.5833 4.6136
    下载: 导出CSV

    表  2   MSRS数据集的定量分析

    Table  2   Quantitative comparisons of on the MSRS

    EN MI SF SD Qabf AG
    DDcGAN 5.8754 2.4820 5.7872 22.3322 0.2685 1.8848
    DenseFuse 6.1857 2.6777 7.3881 29.0080 0.4794 2.5167
    LRRNet 6.1925 2.9334 8.4421 31.7756 0.4440 2.6286
    NestFuse 6.5043 3.6730 9.7030 38.1962 0.6286 3.0880
    RFN-Nest 6.1957 2.4469 6.1339 29.0760 0.3749 2.1015
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV

    表  3   消融实验的定量分析

    Table  3   Quantitative comparisons of ablation

    Models EN MI SF SD Qabf AG
    CCA+mask 6.4515 2.6611 9.4092 40.8056 0.5148 2.8907
    PA+mask 6.0226 2.1242 9.1762 37.3983 0.2622 2.4948
    PA+CCA 6.0910 2.1238 8.2665 32.3402 0.3747 2.3349
    Ours 6.6619 3.5331 11.4590 42.7672 0.6487 3.7383
    下载: 导出CSV
  • [1]

    ZHANG H, XU H, TIAN X, et al. Image fusion meets deep learning: a survey and perspective[J]. Information Fusion, 2021, 76: 323-336. DOI: 10.1016/j.inffus.2021.06.008

    [2] 谭明川, 聂仁灿, 张谷铖, 等. 基于深度学习的红外与可见光图像融合综述[J]. 云南大学学报(自然科学版), 2023, 45(2): 326-343.

    TAN M, NIE R, ZHANG G, et al. A review of infrared and visible image fusion based on deep learning[J]. Journal of Yunnan University (Natural Science Edition), 2023, 45(2): 326-343.

    [3]

    JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 1-15.

    [4]

    TANG L, YUAN J, ZHANG H, et al. PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.

    [5]

    MA J, TANG L, XU M, et al. STDFusionNet: an infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13.

    [6]

    Goodfellow I, Pouget Abadie J, Mirza M, et al. Generative adversarial nets[J/OL]. Advances in Neural Information Processing Systems, 2014: 2672-2680, https://arxiv.org/abs/1406.2661.

    [7]

    LIU J, FAN X, HUANG Z, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.

    [8]

    RAO D, XU T, WU X J. TGFuse: An infrared and visible image fusion approach based on transformer and generative adversarial network[J/OL]. IEEE Transactions on Image Processing, 2023, Doi: 10.1109/TIP.2023.3273451.

    [9]

    HUANG Z, WANG X, HUANG L, et al. Ccnet: Criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 603-612.

    [10]

    ZHAO H, KONG X, HE J, et al. Efficient image super-resolution using pixel attention[C]//Computer VisionECCV, 2020: 56-72.

    [11]

    Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI, 2015: 234-241.

    [12]

    Sandler M, Howard A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

    [13]

    ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 2472-2481.

    [14]

    SHI W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1874-1883.

    [15]

    QIN X, ZHANG Z, HUANG C, et al. U2-Net: Going deeper with nested U-structure for salient object detection[J]. Pattern Recognition, 2020, 106: 107404. DOI: 10.1016/j.patcog.2020.107404

    [16]

    MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995. DOI: 10.1109/TIP.2020.2977573

    [17]

    LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.

    [18]

    LI H, XU T, WU X J, et al. Lrrnet: A novel representation learning guided fusion network for infrared and visible images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 11040-11052. DOI: 10.1109/TPAMI.2023.3268209

    [19]

    LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI: 10.1109/TIM.2020.3005230

    [20]

    LI H, WU X J, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. DOI: 10.1016/j.inffus.2021.02.023

    [21]

    TANG L, YUAN J, MA J. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42. DOI: 10.1016/j.inffus.2021.12.004

图(13)  /  表(3)
计量
  • 文章访问数:  21
  • HTML全文浏览量:  1
  • PDF下载量:  8
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-18
  • 修回日期:  2024-07-21
  • 刊出日期:  2025-03-19

目录

/

返回文章
返回