Super-resolution Enhancement of Infrared Images Using a Lightweight Dense Residual Network
-
摘要: 现有的红外制导武器严重依赖操作手对目标的捕获,其捕获的精度与目标的纹理细节正相关。为了提升弱小区域的显示质量,满足现有导引头小型化、模块化、低成本的设计要求,本文设计了一种基于轻量级金字塔密集残差网络的图像增强模型,该模型在密集残差网络基础上通过密集连接层和残差网络来学习不同尺度图像之间的非线性映射,充分利用多尺度特征进行高频残差预测。同时,采用深度监督模块指导网络训练,有利于实现较大上采样因子的超分辨增强,提高其泛化能力。大量仿真实验结果表明本文所提出的超分辨模型能够获得高倍率的超分辨增强效果,其重建质量也优于对比算法。Abstract: Existing infrared-guided weapons heavily rely on operators to acquire targets, and the accuracy of acquisition is positively correlated with a target's texture details. To improve the display quality of weak small regions and meet the design requirements of miniaturization, modularization, and low-cost seekers, an image super-resolution(SR) reconstruction algorithm based on a pyramid dense residual network is proposed. The dense residual network is the basic framework of the proposed model. Through the dense connection layer and the residual network, the model can learn the non-linear mapping between images of different scales, and the multi-scale feature can be used to predict the high-frequency residual. In addition, using the deep supervision module to guide network training is conducive to the realization of SR reconstruction with a larger upper-sampling factor and improvements to its generalization ability. A large number of simulation results show that our proposed model outperforms comparison algorithms and that it has a high engineering application value.
-
Keywords:
- SR reconstruction /
- lightweight /
- infrared image /
- dense residual-network /
- loss function /
- deep supervision
-
0. 引言
电子倍增电荷耦合器件(Electron Multiply Charge Couple Device,EMCCD),是对传统CCD的功能升级,在信号电荷转移读出时,利用碰撞电离的物理机制,实现雪崩放大,从而越过读出噪声的门槛,降低等效读出噪声。这种方法解决了传统CCD在高速读出速率下,电荷检测放大器噪声降低至亚电子量级的技术难题,在1000倍增益下,等效读出噪声<1e-,理论上可以达到单光子的探测灵敏度,实现了对微弱光的高帧率和高信噪比成像探测。
2001年,TI公司的Hynecek[1]在虚相CCD工艺基础上增加了CCM(Charge Carrier Multiplier,电荷载流子倍增)结构,提出了栅分立虚相CCD(Split-Gate Virtual-Phase CCD,SGVPCCD)技术。同年,e2v公司Jerram[2]采用更为传统的CCD电极,提出了LLL CCD(Low-Light-Level CCD,低照度CCD)技术。这两条技术途径中,LLL CCD避免了SGVPCCD虚相电极倍增杂散电荷过多的问题,并且通过流水线的倍增形式,降低了倍增方差带来的非均匀性,成为EMCCD的主流技术,并发展了近20年。e2v公司从CCD65这第一款采用该技术的EMCCD开始,围绕前照、背照、减小噪声、减小时钟感生电荷、提高分辨率、提高读出速率等维度发展出了CCD97、CCD216、CCD201、CCD351(30 MHz读出速率)、CCD220(1300 fps)、CCD282(4 k×4 k)等多款器件。
EMCCD超高的探测灵敏度,使其在成像科学仪器领域中获得应用,比如超分辨[3-5]、单分子[6-8]、离子成像[9]、共聚焦显微镜[10-11]、量子[12]、荧光成像[13-14]等。此外,在激光主动成像[15]、高灵敏度星敏感器[16]、微光夜视等领域中也有较多研究与应用。
针对由华东光电集成器件研究所研制生产的一款640×512分辨率,帧转移结构的EMCCD器件,设计了一款相机。该款相机支持Camera Link和PAL视频输出、帧率25 fps、支持手动和自动电子倍增增益控制、TEC恒温控制、实时成像、尺寸55 mm×55 mm×70 mm。本文重点论述了相机工作时序和对应的代码,基于FPGA完成了对EMCCD的驱动、EMCCD输出信号的模数转换、PAL模拟视频编码和Camera Link数字视频编码的时序设计与实现,并完成了相关的成像测试工作。
1. EMCCD器件与相机结构
1.1 EMCCD器件结构
器件结构如图 1所示,包含有感光区、存储区、水平移位寄存器、增益寄存器和浮置扩散放大器(Floating Diffusion Amplifier,FDA)。其中,感光区有640×512个有效像素,上下各8个暗参考行,左右各12个暗列。存储区有664×528个存储单元,在感光区完成曝光后,存储转移下来的信号电荷。水平移位寄存器包含664组水平转移栅电极(RФ1、RФ2、RФ3),经过16组转角单元后进入664组增益寄存器(RФ1、RФDC、RФ2HV、RФ3),再经过16组过扫单元将信号电荷转移至浮置扩散区,将电荷转换成电压,最后经片上源跟随器电路放大读出。
1.2 EMCCD相机结构
640×512 EMCCD相机的设计目标是能在1×10-3 lx照度下,实现25 fps的动态连续成像,输出8 bit的PAL模式视频流和12 bit的Camera Link数字视频流。相机硬件电子学的部分由驱动电路、信号处理电路和电源电路构成。本文重点介绍产生工作时序的信号处理电路部分,这部分由FPGA、SRAM、Flash、PAL编码芯片组成,产生了EMCCD的工作时序、ADC的采样时序、SRAM帧缓存时序、BT.656编码时序和Camera Link编码时序。
2. 相机工作时序分析与实现
2.1 EMCCD工作时序
EMCCD的工作时序如图 2所示。器件首先进行曝光,此时IФ1、IФ2、SФ1、SФ2拉低,感光区的像素单元(掩埋型MOS电容器)对光子进行积分,完成光电转换。在一定曝光时间后,IФ1、IФ2、SФ1、SФ2高低电平交替528个周期,将感光区的信号电荷转移至存储区。在信号电荷水平读出之前,用一定的时间(一般大于行读出时间的两倍)来清空水平转移栅极下势阱内的残余电荷。接着,SФ1、SФ2高低交替1次,构成一行读出的起始,将存储区的信号电荷转移至水平移位寄存器(MOS电容器)中。经过680个RФ1、RФ2、RФ2HV、RФ3转移周期后,一行中每个像素的信号电荷按顺序到达FD,此处的PN结二极管电容在接收信号电荷前,由ФR进行复位,再将信号电荷转成电压,由后级源跟随器读出。
当前帧在水平读出时,感光区可以同时进行曝光,这种流水线操作的读出模式,使得成像延迟在1帧时间。
这里为了实现25 fps的成像帧频,曝光时间是帧频的倒数即40 ms,根据靶面分辨率和其它动作的时间要求,设置水平读出的像素时钟频率为11 MHz。根据图 2,EMCCD的工作时序包含多个状态,分别是空闲(IDLE)、第一个10 μs脉冲(FIRST_PULSE)、垂直转移(FRAME_READOUT)、最后一个脉冲(LAST_PULSE)、水平读出寄存器清空(LINE_REG_CLEAN)、行读出(LINE_READOUT)和曝光控制(EXPOSURE_CTRL),通过使能信号和结束信号来控制状态间的跳转。
2.2 模拟前端(Analog Front End,AFE)工作时序
EMCCD输出的模拟信号需通过AFE按顺序进行直流重建、相关双采样、增益控制、光学暗电平钳位和模数转换,以实现在数字域的处理和编码。涉及到的时序控制有相关双采样(SHP/SHD信号)、光学暗电平嵌位(CLPOB信号)、帧头行头的数据锁存。其中图 3中的SHP和SHD信号分别对复位信号和EMCCD输出信号进行采样,可以有效消除FD处复位带来的复位噪声(kTC噪声)[17]。此外,AFE为了能够在相对快速的同时获得高分辨率(10~13位),采用pipeline结构的ADC,图 3表明了当前采样值需要经过10个数据时钟后读出,所以在数据锁存时需要响应的延迟以保证像素数据的准确。
光学暗电平钳位在每行光学暗像素的间隔内,ADC的输出与设定的暗电平参考进行比较,其结果经滤波后移除信号链上的残余偏移,追踪CCD暗电平中的低频变量。
这段时序的代码与EMCCD的驱动时序同步,通过计数器与标志位标明帧同步、行同步和有效数据信号。
2.3 BT.656编码时序
模拟电视系统具有方便实时显示的优势,所以针对640×512分辨率,这里采用PAL制式作为模拟电视的输出,通过逐行变隔行和插值拉伸,输出720×576的模拟视频信号,方便调试与外场成像测试工作。
根据ITU-R BT.656标准,一个完整的PAL视频帧分为两场(表 1),共625行,每行1728个27 MHz像素时钟。每行(表 2)则由4个部分组成,EAV码、水平消隐、SAV码和有效数据(4:2:2 YCbCr数据)。对于顶场,有效数据行就是一帧图像的所有偶数行,而底场,有效数据行就是一帧图像的所有奇数行。
表 1 PAL视频帧的格式定义Table 1. PAL frame definitionLines Line Description 1~22 Field1-First Vertical Blanking(Top) 23~310 Field1-Active Video 311~312 Field1-Second Vertical Blanking(Bottom) 313~335 Field2-First Vertical Blanking(Top) 336~623 Field2-Active Video 624~625 Field2-Second Vertical Blanking(Bottom) 表 2 每行的数据结构Table 2. Line data structureEAV code Blanking Video SAV code Active Video FF 0 0 EAV Cb Y Cr Y 255 0 0 SAV Cb Y Cr Y 4 bytes 280 bytes 4 bytes 1440 bytes 水平消隐包含280个字节,Cb和Cr以0x80填充,Y以0x10填充。有效数据的顺序是Cb、Y、Cr、Y,其中Y是亮度信号,Cb、Cr是同地址的色差信号,YCbCr与RGB的转换公式如下:
$$ Y=16+0.527R+0.504G+0.098B $$ (1) $$ C_{\rm{b}}=128-0.148R-0.291G+0.439B $$ (2) $$ C_{\rm{r}}=128+0.439R-0.367G-0.071B $$ (3) 将R(0~255),G(0~255),B(0~255)转换至Y(16~235),Cb(16~240),Cr(016~240)。由于EMCCD输出灰度图像,对应RGB值均相同,所以有效数据中Y的填充对应AFE输出的高8位数据,Cb、Cr则为0x80。按照BT.656编码后的数字信号视频流经过ADV7391转换成模拟视频信号。
640×512逐行扫描EMCCD的输出信号按BT.656编码,需要进行逐行到隔行的转换,并按照每8行插值1行,一行中每8个像素插值1个像素的插值方法对图像进行拉伸。通过一片片外的SRAM将一帧图像进行缓存。代码设计在27 MHz的时钟下,每经过一个像素时钟,像素计数(pixel_cnt)加1,计数满1727后清零,行计数(line_cnt)加1,计数满624后清零。按照ITU-R BT.656的数据要求,对每个像素进行赋值,当需要写入Y数据时,SRAM读地址(sram_rd_addr)相应加1,读取SRAM中对应的数据。由于仅有一片SRAM,所以需要对其地址总线和数据总线进行分时的读写操作,在不读SRAM的时候,AFE的数据通过FIFO根据SRAM写地址(sram_ wr_addr)写入SRAM。
SRAM地址总线赋值如下,assign sram_addr = sram_rd_en? sram_rd_addr:sram_wr_addr。
2.4 Camera Link编码时序
Camera Link是专门针对机器视觉应用领域的串行通信协议,使用LVDS(低压差分信号)进行数据的传输和通信[18]。这里为了实现对相机原始数据的采集,分析器件的性能,图像信噪比等参数,采用Camera Link作为数字视频信号的接口,经采集卡在上位机软件上进行图像显示。
Camera Link协议的本质是Channel Link协议。主要包括5对差分信号线,其中4对为视频数据线,1对为同步的时钟信号。相机将28位并行数据信号按照7:1的比例将数据转换为4对差分对。Channel Link总线上除了传输视频数据外,还包括视频有效信号FVAL(帧有效)、LVAL(行有效)、DVAL(数据有效)。
一个Channel Link只支持28位数据,所以对于更多的信号,需要多个并行的Channel Link来拓展带宽。据此Camera Link分为Base、Medium和Full三种配置,分别对应1路、2路和3路,每8位(一个Byte)作为一个端口,Full配置对应了A~H个端口。由于这里研制的相机输出12 bit的数字信号,所以只需要Base配置,对应port A[0:7]和port B[0:3]。LVAL、FVAL、DVAL、Spare,以及12 bit数字信号与Camera Link 28位数据的映射关系如表 3所示,其中没有用到的信号位拉低。
表 3 Camera Link位分配Table 3. Camera Link Bit AssignmentTx Input Signal Name Pin Name LVAL TX/RX 24 FVAL TX/RX 25 DVAL TX/RX 26 Spare TX/RX 23 Port A0 TX/RX 0 Port A1 TX/RX 1 Port A2 TX/RX 2 Port A3 TX/RX 3 Port A4 TX/RX 4 Port A5 TX/RX 6 Port A6 TX/RX 27 Port A7 TX/RX 5 Port B0 TX/RX 7 Port B1 TX/RX 8 Port B2 TX/RX 9 Port B3 TX/RX 12 在硬件设计上直接利用FPGA的IO口实现LVDS的输出。同时,通过补零将12 bit的数字信号凑齐至28位,并增加一路7 bit的数据1100011来模拟时钟信号。由于Camera Link采集卡上的接收芯片只支持20~85 MHz的数据信号,而AFE的数据信号同步在11 MHz的时钟上,所以需要一个异步FIFO完成数据的同步。
datain3 < = {1'b0, 1'b0, 1'b0, 1'b0, 1'b0, data[7], data[6]};
datain2 < = {dval, fval, lval, 1'b0, 1'b0, 1'b0, 1'b0};
datain1 < = {1'b0, 1'b0, 1'b0, 1'b0, data[11:9]};
datain0 < = {data[8], data[5:0]};
clkin < = {1'b1, 1'b1, 1'b0, 1'b0, 1'b0, 1'b1, 1'b1};
待转换的28位数和7位时钟数据为txdata = {datain3, datain2, datain1, datain0, clkin},最后利用ALTLVDS_TX的IP核按照7:1对数据进行串行化构成Channel Link的输出格式。
3. 实验与分析
在实验室进行低照度条件下的实时成像,用色温2856 K的积分球光源模拟环境照度1×10-3 lx,采用USAF-1951目标靶,镜头25 mm/f1.4,EMCCD增益倍数1000倍,器件内部TEC制冷温度0℃。
相机实物与成像效果如图 4所示,通过模拟监视器和Cameralink采集软件显示视频图像。图 4右图中模拟视频和数字视频同步显示,PAL输出720×576分辨率,25 fps的8 bit视频流。图 5中CameraLink输出640×512分辨率,25 fps的12 bit视频流,选定区域内的空域信噪比为21.8 dB。
4. 结论
本文介绍了支持PAL视频输出和Camera Link输出的640×512分辨率EMCCD相机的关键时序设计与实现,通过对EMCCD驱动,AFE数据同步采集,帧缓存PAL编码和Camera Link串并转换,实现了EMCCD器件在1×10-3 lx照度条件下的25 fps动态连续成像,实验证明该相机能同时输出PAL模拟视频和Camera Link数字视频,并且尺寸较小,低照度条件下信噪比优势突出,能满足微光条件下对目标成像的应用需求。
-
表 1 不同模块性能分析
Table 1 Performance analysis of different modules
RL DC DS PSNR █ 29.8 █ 29.9 █ 29.7 █ █ 31.7 █ █ 31.0 █ █ 31.8 █ █ █ 32.5 表 2 不同算法的重建指标对比
Table 2 Comparison of reconstruction indexes of different algorithms
Images SRCNN EDSR Meta-SR GANSR SRMD Proposed 1 PSNR 32.087 32.237 32.297 32.347 32.507 32.777 SSIM 0.954 0.955 0.955 0.958 0.961 0.962 2 PSNR 22.907 23.507 23.187 23.547 23.187 23.827 SSIM 0.774 0.796 0.788 0.802 0.794 0.826 3 PSNR 24.147 25.617 24.467 25.477 24.567 26.287 SSIM 0.89 0.928 0.912 0.931 0.901 0.948 4 PSNR 32.767 32.697 32.777 32.787 33.047 33.087 SSIM 0.87 0.867 0.868 0.868 0.879 0.878 5 PSNR 29.297 30.207 29.557 30.167 29.567 30.487 SSIM 0.898 0.911 0.906 0.913 0.905 0.921 6 PSNR 28.657 28.557 28.557 28.697 28.627 29.037 SSIM 0.952 0.953 0.957 0.957 0.96 0.964 Average PSNR 28.307 28.807 28.467 28.837 28.577 29.247 SSIM 0.901 0.912 0.902 0.914 0.915 0.929 -
[1] 廖小华, 陈念年, 蒋勇, 等. 改进的卷积神经网络红外图像超分辨率算法[J]. 红外技术, 2020, 42(1): 075-80. http://hwjs.nvir.cn/article/id/hwjs202001011 LIAO Xiaohua, CHEN Niannian, JIANG Yong, et al. Infrared image super-resolution using improved convolutional neural network[J]. Infrared Technology, 2020, 42(1): 075-80. http://hwjs.nvir.cn/article/id/hwjs202001011
[2] 田广强. 一种新颖高效的红外动态场景多目标检测跟踪[J]. 红外技术, 2018, 40(3): 259-263. http://hwjs.nvir.cn/article/id/hwjs201803010 TIAN Guangqiang. A novel algorithm for efficient multi-object detection and tracking for infrared dynamic frames[J]. Infrared Technology, 2018, 40(3): 259-263. http://hwjs.nvir.cn/article/id/hwjs201803010
[3] 曾金发, 吴恩斯, 李能勇. 基于双核协同学习模型的红外目标跟踪算法[J]. 红外技术, 2018, 40(5): 438-443. http://hwjs.nvir.cn/article/id/hwjs201805006 ZENG Jinfa, WU Ensi, LI Nengyong. Infrared object-tracking algorithm based on dual-kernelized collaborative learning[J]. Infrared Technology, 2018, 40(5): 438-443. http://hwjs.nvir.cn/article/id/hwjs201805006
[4] 韩团军, 尹继武. 一种鲁棒的自适应更新策略的弹载计算机红外目标跟踪算法[J]. 红外技术, 2018, 40(7): 625-631. http://hwjs.nvir.cn/article/id/hwjs201807001 HAN Tuanjun, YIN Jiwu. Robust adaptive updating strategy for missile-borne infrared object-tracking algorithm[J]. Infrared Technology, 2018, 40(7): 625-631 http://hwjs.nvir.cn/article/id/hwjs201807001
[5] 艾志伟, 嵇建波, 李静, 等. 快速反射镜状态模型构建方法及其控制系统设计[J]. 红外技术, 2020, 42(1): 40-45. http://hwjs.nvir.cn/article/id/hwjs202001006 AI Zhiwei, JI Jianbo, LI Jing, et al. State model construction method for fast steering mirror and its control system design[J]. Infrared Technology, 2020, 42(1): 040-45. http://hwjs.nvir.cn/article/id/hwjs202001006
[6] DONG C, Loy C C, He K, et al. Learning a deep convolutional network for image super-resolution[C]//European Conference on Computer Vision, 2014: 184-199.
[7] Riegler G, Rther M, Bischof H. ATGV-Net: accurate depth super resolution[C]//Proc. Eur. Conf. Comput. Vis., 2016: 268-284.
[8] SHI Y, LI S, LI W, et al. Fast and Lightweight Image Super-resolution based on dense residuals two-channel network[C]//2019 IEEE International Conference on Image Processing (ICIP), 2019: 2826-2830.
[9] WANG Wei, JIANG Yongbin, LUO Yanhong, et al. An advanced deep residual dense network(DRDN) approach for image super-resolution[J]. International Journal of Computational Intelligence Systems, 2019, 12(2): 1592-1601. DOI: 10.2991/ijcis.d.191209.001
[10] WU Y, JI X, JI W, et al. CASR: a context-aware residual network for single-image super-resolution[J]. Neural Computing and Applications, 2019: 1-16. DOI: 10.1007/s00521-019-04609-8%3Fshared-article-renderer
[11] 杨明, 王璇, 高宏伟. 基于多级深度网络的高清晰度红外电子变倍算法[J]. 弹箭与制导学报, 2020, 40(4): 14-19. https://www.cnki.com.cn/Article/CJFDTOTAL-DJZD202004004.htm YANG Ming, WANG Xuan, GAO Hongwei. High-definition infrared electronic zooming algorithm based on multi-level deep network[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2020, 40(4): 14-19. https://www.cnki.com.cn/Article/CJFDTOTAL-DJZD202004004.htm
[12] HUI T, Loy C C, TANG X. Depth map super-resolution by deep multi-scale guidance[C]//Proc. Eur. Conf. Comput. Vis., 2016: 353-369.
[13] QIU Y, WANG R, TAO D, et al. Embedded block residual network: a recursive restoration model for single-image super - resolution[C]//Proceedings of the IEEE International Conference on Computer Vision, 2019: 4180-4189.
[14] CAO Y, HE Z, YE Z, et al. Fast and accurate single image super - resolution via an energy-aware improved deep residual network[J]. Signal Processing, 2019, 162: 115-125. DOI: 10.1016/j.sigpro.2019.03.018
[15] Anwar S, Barnes N. Densely residual Laplacian super-resolution[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence [2020-09-20](DOI: 10.1109/TPAMI.2020.3021088).
[16] WANG Z, Chen J, Hoi S C H. Deep learning for image super-resolution: a survey[J/OL]. IEEE Trans Pattern Anal Mach Intell.[2020-09-20]. https://ieeexplore.ieee.org/document/9185010 (doi: 10.1109/TPAMI.2020.2982166).
[17] LONG J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// Proc. Conf. Comput. Vis. Pattern Recognit, 2015: 3431-3440.
[18] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: Surpassing human-level performance on image net classification[C]//Proc. Int. Conf. Comput. Vis., 2015: 1026-1034.
[19] Lim B, Son S, Kim H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017: 136-144.
[20] HUI T W, Loy C C, TANG X. Depth map super-resolution by deep multi-scale guidance[C]//European Conference on Computer Vision, Springer, 2016: 353-369.
[21] Guei A C, Akhloufi M. Deep learning enhancement of infrared face images using generative adversarial networks[J]. Applied Optics, 2018, 57(18): 98-107. DOI: 10.1364/AO.57.000D98
[22] ZHANG X, LI C, MENG Q, et al. Infrared image super resolution by combining compressive sensing and deep learning[J]. Sensors, 2018, 18(8): 2587-2599. DOI: 10.3390/s18082587