Splicing Structure of Ultra-long Linear Infrared Detector
-
摘要: 随着红外遥感技术的发展,航天各类应用对红外探测器阵列规模的需求已经超出了目前单模块探测器研制极限,需要通过光学或者机械拼接方法解决该问题。结合国内外先进的机械拼接技术,针对8模块超长线列拼接红外探测器研制,本文提出了拼接结构的4个设计要点和对探测器成像的影响,结合设计要点详细介绍拼接结构具体设计过程以及设计结果,最后给出拼接结构的测试方法以及一种非接触的平面度测试方法和测试结果。Abstract: With the development of infrared remote sensing technology, the demand for infrared detector arrays in various aerospace applications has exceeded the current developmental limit of single-module detectors. This problem needs to be solved by optical or mechanical splicing methods. Based on an advanced mechanical splicing technology, this study presents four design points of splicing structure and their influence on detector imaging for the development of an 8-module ultra-long linear splicing infrared detector. The specific design process of the design points and design results of the splicing structure are introduced in detail. The method for testing a splicing structure and a non-contact flatness test method are described; the test results are presented.
-
Keywords:
- infrared detector /
- mechanical splicing /
- linear detector /
- flatness
-
0. 引言
图像去模糊技术是指将得到的模糊图像通过一定技术恢复出它所对应的清晰图像。目前图像去模糊在智能监控[1-2]、无人机[3]、遥感影像[4-5]以及医疗图像[6]等领域具有很重要的作用。由于拍摄设备晃动或者目标物体的运动,难免会获得模糊的图片,不利于后续的处理。因此,对图像去模糊技术的研究具有一定的现实意义。
传统的图像去模糊方法一般假设模糊核已知,利用模糊核与模糊图像进行反卷积得到清晰图像。此类方法为非机器学习的方法,其中起源较早、应用最为广泛的经典图像去模糊方法之一为LR(Lucy-Richardson)算法[7-8],它假设模糊图像服从泊松分布,通过最大似然估计迭代求解得到复原图像。在简单图像中,LR算法可以有效还原出清晰图像,但图像较复杂时,复原的图像容易产生振铃效应,随着迭代次数的增加,振铃效应趋于严重。
随着机器学习与图像处理技术的快速发展,尤其是2014年生成对抗网络[9](Generative Adversarial Networks,GAN)的出现,使得图像去模糊应用不再需要假设模糊核信息,因此,机器学习方法为图像去模糊的发展开阔了思路。GAN主要应用在图像超分辨率重建、迁移学习、图像修复等领域[10-13]。GAN中生成器所定义的损失函数等价于真实分布Pdata与生成器生成分布PG之间的JS(Jensen-Shannon)散度,优化过程中会产生梯度消失和模式崩溃的问题,导致训练不稳定,影响去模糊效果。Kupyn等人将条件生成对抗网络[14]应用到图像去模糊中,对Isola等人提出的Pix2Pix网络框架做出适当修改,提出Deblur GAN网络[15],是目前图像去模糊领域效果好的方法之一。相比传统GAN,用此方法去模糊后有更好的视觉体验,但在实验中发现,使用Deblur GAN复原图像时,会丢失部分细节信息。
针对上述问题,本文提出一种基于双判别器加权生成对抗网络(D2WGAN)的图像去模糊方法,在原始生成对抗网络的基础上,额外加入一个判别器,将KL(Kullback-Leibler)散度与反向KL散度进行结合,并引入加权的思想重构目标函数,期望通过调节权值系数来平衡正向和反向KL散度的占比,更好地复原出清晰图像。
1. 本文方法
1.1 D2WGAN网络结构
为提升图像去模糊的性能,本文提出基于双判别器加权生成对抗网络(D2WGAN)的图像去模糊方法,将真实分布Pdata与生成分布PG之间的KL散度和生成分布PG与真实分布Pdata之间的KL散度,即反向KL散度组合成一个目标函数。利用KL散度生成的数据会涵盖真实数据的多种模式,然而,也会产生一些真实数据中不存在的样本;而利用反向KL散度,生成的数据更倾向于真实数据的单一模式,会忽略其他模式,产生模式崩溃的问题[16]。因此,两者相互补充,具有互补特性。理论证明,反向KL散度与JS散度具有相同的性质[17],因此本文在引入新的判别器后,在正向KL散度权值为0,反向KL散度权值为1时,理应和GAN具有相似的结果。如若将KL散度与反向KL散度结合,其互补特性会缓解GAN中的模式崩溃问题,因此,图像去模糊的性能也必然会提升。
D2WGAN的模型结构如图 1所示,其输入不再是原始GAN的噪声数据,而是模糊图片。生成器会依据输入生成自己学习到的较为清晰的图像G(z),随后将生成器生成的图像G(z)以及模糊图像所对应的清晰图像x输入判别器D1、D2中。判别器D1对清晰图像x得高分,对生成器生成的图像G(z)得低分;判别器D2对生成器生成的图像G(z)得高分,对清晰图像x得低分。生成器的目的是使生成的G(z)图像同时欺骗判别器D1、D2,三者进行互相博弈,直到达到三者的平衡。G、D1和D2都为多层感知器,整个模型通过反向传播进行训练。
本质上,D2WGAN将x与G(z)之间的KL散度和反向KL散度进行加权融合,通过调节权值系数,从而达到更好的去模糊的效果。本文受双判别器生成对抗网络[16]的启发,构建D2WGAN损失函数如下:
$$ \mathop {\min }\limits_G \mathop {\max }\limits_{{D_1}, {D_2}} T(G, {D_1}, {D_2}) = \rho ({E_{x\sim {P_{{\text{data}}}}}}\log [{D_1}(x)] + {E_{z\sim {p_z}}}[ - {D_1}(G(z))]) \\ + \omega ({E_{x\sim {p_{_{{\text{data}}}}}}}[ - {D_2}(x)] + {E_{z\sim {p_z}}}\log [{D_2}(G(z))]) $$ (1) D2WGAN引入了两个超参数ρ和ω,其中ρ+ω=1,0≤ρ,ω≤1,引入加权思想,结合正向KL散度和反向KL散度的优势,使生成的模式多样化。
接下来验证D2WGAN算法在最优判别器下,通过最小化模型与真实数据之间的KL散度和反向KL散度,生成器可以恢复出真实数据。
首先在固定生成器G时,最优的判别器D1Δ(x)和D2Δ(x)为:
$$ D_1^\Delta (x) = \frac{{{p_{{\text{data}}}}(x)}}{{{p_G}(x)}} $$ (2) $$ D_2^\Delta (x) = \frac{{{p_G}(x)}}{{{p_{{\text{data}}}}(x)}} $$ (3) 其次在最优判别器基础上,最优生成器为:
$$ T(G, D_1^\Delta , D_2^\Delta ) = \int_x {\rho ({p_{{\text{data}}}}} (x)\log \frac{{{p_{{\text{data}}}}(x)}}{{{p_G}(x)}} + {p_G}(x)\frac{{{p_{{\text{data}}}}(x)}}{{{p_G}(x)}}) \\ + \omega ( - {p_{{\text{data}}}}(x)\frac{{{p_G}(x)}}{{{p_{{\text{data}}}}(x)}} + {p_G}(x)\log \frac{{{p_G}(x)}}{{{p_{{\text{data}}}}(x)}}){\text{d}}x $$ (4) 因ρ+ω=1,
$$ T(G, D_1^\Delta , D_2^\Delta ) = - 1 + \rho {\text{KL}}({P_{{\text{data}}}}\left\| {{P_G}} \right.) + \omega {\text{KL}}({P_G}\left\| {{P_{{\text{data}}}}} \right.) $$ (5) 理论证明在生成器能学习到最优判别器时,当且仅当PG=Pdata时,KL散度和反向KL散度为0,T(G, D1Δ, D2Δ)=-1,得到全局最小值,即生成模型学习到了真实数据分布。此时判别器无法区分生成分布与真实分布,对两分布都返回相同的得分为1。
1.2 生成器模型搭建
本文研究的生成器模型如图 2所示,主要任务是在输入模糊图像z时,学习清晰图像x的分布,生成x的近似分布G(z)。生成器模型具体搭建步骤如下:
1)对输入的3×256×256的模糊图片进行一次卷积核大小为7×7,卷积核数量为64,步长为1的卷积;一次实例正则化层和修正线性单元(Rectified Linear Unit,ReLU)激活函数。
2)两个卷积核数量分别为128、256对应的卷积核大小为3×3,步长为2的二维卷积,实例正则化和ReLU激活函数。
3)9个由一个卷积核大小为3×3,卷积核数量为256,步长为1的卷积层,一个标准化层和一个ReLU激活层,一个Dropout层随机失活比例为0.5组成的ResBlock块。
4)两个卷积核数量分别为128、64对应的卷积核大小为3×3,步长为1的反卷积,实例正则化和ReLU激活函数。目的是将卷积后的小尺寸高维度特征图恢复到原始的尺寸。
5)为提高运算速度,本文生成网络为全卷积网络,不使用全连接层和pooling层,最后一层经过一次卷积核大小为7×7,卷积核数量分别为3,步长为1的反卷积,使用Tanh作为激活函数。
因使用Batch Normalization[18]进行标准化训练可能会导致生成的图像有伪阴影,而且在图像去模糊中,去模糊效果依赖于模糊图像对应的清晰图像,本文使用Instance Normalization[19]进行归一化操作可以加速模型收敛,并且保持每个图像实例之间的独立。
1.3 判别器模型搭建
普通的判别器最后一层为全连接层,输出为输入样本来自真实数据的概率,即结果为一个实数。本文将普通的判别器换成了全卷积网络,采用PatchGAN[20]判别器,将输入映射为N×N的patch矩阵块,将得到的patch块求均值,为判别器最后的输出,这样在训练的时候能更好的恢复细节。其中每一个patch块代表了一个感受野,可以追溯到原图的某一个位置。文中两个判别器使用同一个网络模型,因损失函数不同,其优化方向也不同。判别器模型结构如图 3所示,网络结构如表 1所示,输入为256×256的三通道图像,经过5层卷积网络,卷积核大小均为4×4,输出为一个30×30的矩阵,代表着图像中一个比较大的感受野,相比于输出单个值的鉴别器效果更好。非线性激活函数使用带泄露修正线性单元(Leaky ReLU)[21],斜率设为0.2。
表 1 判别器网络结构Table 1. Discriminator network structureInput (256×256×3) 4×4,64,stride=2,LeakyReLU 4×4,128,stride=2,instanceNorm2d,LeakyReLU 4×4,256,stride=2,instanceNorm2d,LeakyReLU 4×4,512,stride=1,instanceNorm2d,LeakyReLU 4×4,1,stride=1 SoftPlus 1.4 损失函数
本文使用对抗性损失和内容损失结合的损失函数,其中对抗损失着重于恢复图像的纹理细节,感知损失着重于恢复图像的内容。损失函数表达式如下:
$$ L=L_{\mathrm{GAN}}+\lambda^{*} L_{\mathrm{X}} $$ (6) 式中:LGAN为对抗性损失;LX为内容损失;λ为比重参数,文中设置为100。
对抗损失函数使用两个判别器,这两个判别器的模型结构基本相同,因其训练时损失函数不同,所以这两个判别器会朝着不同的方向优化。第一个判别器损失函数为:
$$ \rho ({E_{x\sim {P_{{\text{data}}}}}}\log [{D_1}(x)] + {E_{z\sim {p_z}}}[ - {D_1}(G(z))]) $$ (7) 式中:0≤ρ≤1,该判别器主要侧重于真实数据。第二个判别器损失函数为:
$$ \omega ({E_{x\sim {p_{_{{\text{data}}}}}}}[ - {D_2}(x)] + {E_{z\sim {p_z}}}\log [{D_2}(G(z))]) $$ (8) 式中:0≤ω≤1,该判别器主要侧重于生成器生成的数据。两个判别器之间通过加权连接,两个参数之间关系为:ρ+ω=1。
内容损失函数:采用Johnson等人提出的感知损失[22],该损失函数严格来说也是一种L2损失,多用在图像风格转换中。将清晰图像和修复的模糊图像分别输入训练好的VGG-19网络[23],计算每一层特征图之间的误差,最终的累计误差就是感知损失,计算公式如下所示:
$$ {L_{\text{X}}} = \frac{1}{{{w_{i, j}}{H_{i, j}}}}\sum\limits_{x = 1}^{{w_{i, j}}} {\sum\limits_{y = 1}^{{H_{i, j}}} {{{\left( {{\phi _{i, j}}{{\left( {{I_S}} \right)}_{x, y}} - {\phi _{i, j}}{{\left( {{G_{\theta G}}\left( {{I_B}} \right)} \right)}_{x, y}}} \right)}^2}} } $$ (9) 式中:ϕi, j是VGG19网络在第i个最大池化层之前通过第j个卷积之后产生的特征图;wi, j和Hi, j是特征图的维度;IB是输入的模糊图像;IS是经过生成器模型产生的清晰图像。
2. 实验
2.1 数据集与训练细节
本文所使用的数据集为Nah等人提出的GOPRO数据集[24],由GOPRO相机拍摄的33段不同场景的清晰视频而来,其中的22段场景视频作为训练集,11段场景视频作为测试集。对每段视频相邻的7~13帧图像取平均值得到模糊图像,一共生成了3214对模糊-清晰图像,分辨率为1280×720。其中,训练数据有2103对,测试数据有1111对。
为了将每张模糊图像与清晰图像各个像素一一对应,在输入数据集前,首先将模糊图片与清晰图片合并为一张图片,如图 4所示。其次将输入的合并后的图片裁剪为1280×360,最后在裁剪后的图片上随机选取256×256大小的模糊图像与对应的清晰图像进行训练。
此次实验在Windows 10操作系统下进行,处理器为Inter Xeon E5-2620 v4,显卡为NVIDIA GeForce RTX 2080Ti,使用pycharm编辑器,使用PyTorch深度学习框架。训练迭代300次,初始学习率为0.0001,前150次迭代的学习率采用初始值,后150次迭代的学习率按线性衰减至0,选择Adam[25]优化算法,批量大小设置为8。
2.2 实验结果
GOPRO数据集中测试集为GoPro摄像机拍摄的11段视频,共1111张图像组成。本文在经过多次训练后,发现权值在ρ=0.1, ω=0.9时去模糊效果最好,实验结果如图 5所示,本文方法的去模糊效果较明显,可以有效地恢复图像的细节部分。
本文将D2WGAN算法与原始GAN、LR滤波及DeblurGAN方法的图像去模糊效果进行对比,结果如图 6所示。表 2为图 6中不同方法的峰值信噪比(peak signal to noise ratio,PSNR)与图像结构相似度(structural similarity,SSIM)。
图 6(b)中LR算法进行去模糊时,边缘的高频信息有所改善,但整体会出现锐化的现象,视觉体验一般;图 6(c)中GAN在复原图像时会出现棋盘伪影的现象;图 6(d)中DeblurGAN方法整体复原效果较好,但仍有部分细节没有复原出来。图 6(e)中本文方法去模糊的细节恢复较好,基本没有棋盘伪影、锐化过度等视觉效果,恢复的图像更加真实,而且从表 2的评价指标中可以看出,对比LR算法,本文方法有质的飞跃。
实验中LR滤波算法在迭代150次时处理一张图片平均用时约2.5 min,而本文测试集共1111张图片,如果使用LR滤波在1111张图片上测试,大约需要46 h,时间代价太大。因此本文只对GAN、DeblurGAN以及本文方法在GOPRO验证集上测量平均PSNR与SSIM值,结果如表 3所示。
表 3 不同方法在GOPRO验证集上的图像质量评价Table 3. Image quality evaluation of different methods on GOPRO validation setEvaluation indices GAN DeblurGAN D2WGAN PSNR/dB 25.82 27.15 28.98 SSIM 0.772 0.815 0.891 从表 3可以得知,相比DeblurGAN方法,本文方法在评价指标PSNR上提升了约6.7%,在SSIM上提升了约9%,其结果说明本文提出的双判别器加权生成对抗网络方法是有效的。
3. 结论
为解决现有方法在恢复模糊图像时仍存在的边缘模糊现象,本文在原始生成对抗网络的基础上,增加了一个判别器,引入加权的思想,提出基于双判别器加权生成对抗网络的图像去模糊方法。通过搭建生成器、判别器模型,引入双判别器对抗损失和感知损失来恢复图像的细节部分。实验中使用GOPRO数据集来训练模型,将本文方法与原始GAN、LR算法及DeblurGAN方法进行对比,发现本文方法可以有效地恢复出运动模糊图像的细节部分,且没有棋盘伪影、锐化等现象,提升了图像视觉效果,在评价指标PSNR与SSIM上有更好的表现。本文方法简单且通用,为图像去模糊的发展提供了一种新的思路。
-
表 1 两种机械拼接形式对比
Table 1 Comparison of two mechanical splicing forms
Component level Chip level Application Array device Linear device Electric-heating interface Independent Shared Imaging impact Seams No seams Volume and weight Large and weight Small and light Maintainability Easily replaceable Not easily replaceable Scalability Easy Not easy 表 2 不同殷钢热膨胀系数对应的最大应力
Table 2 Maximum stress corresponding to different thermal expansion coefficients of Invar
Thermal expansion coefficient 4.2e-6 4.4e-6 4.6e-6 4.8e-6 Maximum allowed value Chip/MPa 95.1 93.2 91.6 90.4 100 Multilayer ceramics/MPa 36.4 35.9 35.9 36.5 100 Filter/MPa 95.1 96.7 97.9 98.9 130 -
[1] 邱民朴, 马文坡. 空间红外推扫成像系统探测器光学拼接方法[J]. 航天返回与遥感, 2019, 40(6): 51-58. DOI: 10.3969/j.issn.1009-8518.2019.06.007 QIU Minpu, MA Wenpo. Optical butting of linear infrared detector array for space pushbroom imaging systems[J]. Spacecraft Recovery & Remote Sensing, 2019, 40(6): 51-58. DOI: 10.3969/j.issn.1009-8518.2019.06.007
[2] 吕玮东, 邓旭光, 练敏隆, 等. 空间用红外探测器拼接技术研究[J]. 红外技术, 2022, 40(11): 980-989. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202210001.htm LYU Weidong, DENG Xuguang, LIAN Minlong, et al. A study of infrared detector butted technology for space[J]. Infrared Technology, 2022, 40(11): 980-989. https://www.cnki.com.cn/Article/CJFDTOTAL-HWJS202210001.htm
[3] Alan W Hoffman, Elizabeth Corrales, Peter J Love, et al. 2k×2k InSb for astronomy[C]//Proc. of SPIE, 2004, 5499: 59-67.
[4] Peter J Love, Alan W Hoffman, Ken J Ando, et al. 2k×2k HgCdTe detector arrays for VISTA and other applications[C]//Proc. of SPIE, 2004, 5499: 68-77.
[5] Hall D N B, Luppino G, Hodapp K W, et al. A 4k×4k HgCdTe astronomical camera enabled by the James Webb Space Telescope NIR detector development program[C]//Proc. of SPIE, 2004, 5499: 1-14.
[6] Zucker M, Pivnik I, Malkinson E, et al. Long mid-wave infrared detector with time delayed integration[C]//Proc of SPIE, 2003, 4820: 580-592.
[7] 徐丽娜, 东海杰, 赵艳华, 等. 多谱段集成长线列拼接TDI红外探测器技术[J]. 上海航天, 2019, 36: 112-116. https://www.cnki.com.cn/Article/CJFDTOTAL-SHHT2019S2018.htm XU Lina, DONG Haijie, ZHAO Yanhua, et al. Multi-spectral intergraded long-liesplicing TDI infrared detector technology[J]. Aerospace Shanghai, 2019, 36: 112-116. https://www.cnki.com.cn/Article/CJFDTOTAL-SHHT2019S2018.htm
[8] 王成刚, 东海杰. 超长线列碲镉汞红外探测器拼接方式对比分析[J]. 激光与红外, 2013, 43(8): 4. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW201308017.htm WANG Chenggang, DONG Haijie. Butted manner analysis of long linear infrared focal plane detectors of MCT[J]. Laser & Infrared, 2013, 43(8): 4. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW201308017.htm
[9] 王成刚, 东海杰, 刘泽巍, 等. "高分五号"卫星多谱段集成TDI线列红外探测器[J]. 航天返回与遥感, 2018, 39(6): 80-84. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG201803012.htm WANG Chenggang, DONG Haijie, LIU Zewei, et al. Development of multispectral TDI linear infrared detector for GF-5 satellite[J]. Spacecraft Recovery & Remote Sensing, 2013, 43(8): 80-84. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG201803012.htm
[10] 梅强, 曹学强, 张博文, 等. 空间光学相机焦面拼接热变形对图像配准影响[J]. 航天返回与遥感, 2021, 42(5): 31-38. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG202105005.htm MEI Qiang, CAO Xueqiang, ZHANG Bowen, et al. Analysis of the effect of butting assembly thermal deformation on image registration[J]. Spacecraft Recovery & Remote Sensing, 2021, 42(5): 31-38. https://www.cnki.com.cn/Article/CJFDTOTAL-HFYG202105005.htm
[11] 王克军, 董吉洪, 李威, 等. 空间遥感器线阵与面阵探测器共基板焦面组件设计[J]. 红外与激光工程, 2022, 49(5): 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202005011.htm WANG Kejun, DONG Jihong, LI Wei, et al. Design of focal plane assembly of linear array and area array detector based on one substrate of space remote sensor[J]. Infrared and Laser Engineering, 2022, 49(5): 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202005011.htm
[12] 马军. 长线列长波红外探测器共面度评估模型[J]. 红外与激光工程, 2022, 51(3): 1-10. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203008.htm MA Jun. Coplanarity evaluation model of long linear LWIR detector[J]. Infrared and Laser Engineering, 2022, 51(3): 1-10. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ202203008.htm
[13] Richard Blank, Selmer Anglin, James W Beletic. H2RG focal plane array and camera performance update[C]//Proc. of SPIE, 2012, 8453: 845310(DOI: 10.1117/12.926752).
[14] BAI Yibin, William Tennant, Selmer Anglin. 4k×4k format 10 μm pixel pitch H4RG-10 hybrid CMOS silicon visible focal plane array for space astronomy[C]//Proc. of SPIE, 2012, 8453: 84530M.
[15] 张磊, 东海杰, 王春生, 等. 拼接红外探测器冷头设计[J]. 激光与红外, 2017, 47(5): 591-596. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW201705014.htm ZHANG Lei, DONG Haijie, WANG Chunsheng, et al. Design of cold head in mosaic infrared detector[J]. Laser & Infrared, 2017, 47(5): 591-596. https://www.cnki.com.cn/Article/CJFDTOTAL-JGHW201705014.htm
[16] 雍朝良, 林剑春, 赵明, 等. 空间大规模CMOS面阵焦平面拼接技术[J]. 红外与激光工程, 2012, 41(10): 2561-2566. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201210002.htm YONG Chaoliang, LIN Jianchun, ZHAO Ming, et al. Mosaic of spatial large scale CMOS focal plane array[J]. Infrared and Laser Engineering, 2012, 41(10): 2561-2566. https://www.cnki.com.cn/Article/CJFDTOTAL-HWYJ201210002.htm
-
期刊类型引用(4)
1. 崔丽群,李万欣. 改进Cascade R-CNN的X射线图像违禁品检测方法. 计算机仿真. 2025(03): 299-303 . 百度学术
2. 徐叶军. 基于多孔卷积神经网络的图像空间结构信息细节表征. 盐城工学院学报(自然科学版). 2024(01): 20-25 . 百度学术
3. 李立,易诗,刘茜,程兴豪,王铖. 基于密集残差生成对抗网络的红外图像去模糊. 红外技术. 2024(06): 663-671 . 本站查看
4. 张坤. 基于深度神经网络的图像技术在灰度图像彩色化进程中的应用研究. 自动化与仪器仪表. 2023(10): 27-30+35 . 百度学术
其他类型引用(5)