一种多分辨率特征提取红外图像语义分割算法

徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏

徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏. 一种多分辨率特征提取红外图像语义分割算法[J]. 红外技术, 2024, 46(5): 556-564.
引用本文: 徐慧琳, 赵鑫, 于波, 韦小牙, 胡鹏. 一种多分辨率特征提取红外图像语义分割算法[J]. 红外技术, 2024, 46(5): 556-564.
XU Huilin, ZHAO Xin, YU Bo, WEI Xiaoya, HU Peng. Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images[J]. Infrared Technology , 2024, 46(5): 556-564.
Citation: XU Huilin, ZHAO Xin, YU Bo, WEI Xiaoya, HU Peng. Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images[J]. Infrared Technology , 2024, 46(5): 556-564.

一种多分辨率特征提取红外图像语义分割算法

基金项目: 

安徽省教育厅重点项目 KJ2020A0289

淮南市科技计划项目 2020186

安徽省教育厅重点项目 2022AH050801

安徽理工大学青年教师科学研究基金 13200390

详细信息
    作者简介:

    徐慧琳(1999-),女,安徽安庆人,硕士研究生,研究方向:目标分割、目标检测。E-mail: 2021201730@aust.edu.cn

    通讯作者:

    赵鑫(1991-),男,山西运城人,讲师,博士,研究方向:机器视觉。E-mail: zhaoxin@aust.edu.cn

  • 中图分类号: TP391.41

Multi-resolution Feature Extraction Algorithm for Semantic Segmentation of Infrared Images

  • 摘要:

    针对现有图像语义分割算法在对低分辨率红外图像进行分割时存在准确率不高的问题,提出了一种多分辨率特征提取算法。该算法以DeepLabv3+为基准网络,添加了一组对偶分辨率模块,该模块包含低分辨率分支和高分辨率分支,以进一步聚合红外图像特征。低分辨率分支采用GPU友好的注意力模块捕获高层全局上下文信息,同时引入一个多轴门控感知机模块并行提取红外图像局部信息和全局信息;高分辨率分支采用跨分辨率注意力模块将低分辨率分支上学习到的全局特征传播扩散到高分辨率分支上以获取更强的语义信息。实验结果表明,该算法在数据集DNDS和MSRS上的分割精度优于现有语义分割算法,证明了提出算法的有效性。

    Abstract:

    A multi-resolution feature extraction convolution neural network is proposed for the problem of inaccurate edge segmentation when existing image semantic segmentation algorithms process low-resolution infrared images. DeepLabv3+ is used as the baseline network and adds a multi-resolution block, which contains both high and low resolution branches, to further aggregate the features in infrared images. In the low-resolution branch, a GPU friendly attention module is used to capture high-level global context information, and a multi-axis-gated multilayer perceptron module is added in this branch to extract the local and global information of infrared images in parallel. In the high resolution branch, the cross-attention module is used to propagate the global features learned on the low resolution branch to the high resolution branch, hence the high resolution branch can obtain stronger semantic information. The experimental results indicate that the segmentation accuracy of the algorithm on the dataset DNDS is better than that of the existing semantic segmentation algorithm, demonstrating the superiority of the proposed method.

  • 数字全息干涉计量作为一种检测精度高、实时性强的无损检测技术[1],广泛应用于应力场检测、形貌测量、形变测量、粒子场测试、数字显微全息、医学诊断等众多领域[2-4]。可见光与红外相比,可见光波段的数字全息凭借更高的检测精度、更低的实验难度等优势占据了绝大部分的应用场景;红外数字全息相比可见光数字全息,有较强的实验抗干扰能力、更好的非理想环境成像效果、可实现大尺寸物体检测等优点,近年来随着红外全息实验难点的攻克,红外数字全息也成为了研究热点。当前国外针对红外全息的研究中,Geltrude等人研究了红外数字全息在大目标检测上的应用[5];Pasquale等人将红外数字全息应用于建筑震动无损检测[6];Ferraro等人将红外数字全息应用于三维形貌测量[7];Pietro等人还将红外数字全息应用于火场搜救[8-12]。国内的研究主要集中于红外全息的基础特性研究以及红外全息图像处理等领域[13-15],在无损检测上钟杰等人利用红外数字全息测量粒子场[16];史宁昌、张慧慧等人将红外热成像技术应用于文物保护的研究[17-18]

    随着我国经济建设的不断发展,旧建筑的重建日益增多,对建筑物的拆除爆破过程合理控制,才能有效保证建筑物爆破的安全性。建筑物拆除爆破的位置、倒塌方向和爆破振动的有效控制是保证安全性的重点也是难点,目前拆除爆破技术能大体控制倒塌方向,但仍然存在控制精度难的问题[19]。爆破位置、爆破倒塌方向和爆破振动以应力场方向判断为核心,因此能够高精度、实时检测爆破面应力场是解决难题的关键;爆破现场环境恶劣,粉尘、振动等因素的影响极大提升了应力场检测难度。如果提出一种在粉尘环境仍能精确检测应力场的技术,在爆破领域将得到极大突破。

    数字全息干涉计量可实现数据的高精度、实时检测,而红外光相比可见光可极大减小气溶胶对光线的影响,结合上述优点本文提出一种基于红外数字全息技术的建筑爆破环境应力场检测方法,以自制光滑水泥板代替爆破面,自制扬尘气室模拟粉尘环境,沿水泥板切面竖直向下施加压力,分别以红外光和可见光作为光源测量应力场,对比测量结果,验证红外数字全息方法可在粉尘环境高精度测量受力面的应力场。

    全息技术是利用具有高相干性的两束物、参光进行干涉(通常采用同一激光光束进行分束得到物、参光,以满足高相干性的要求),使用全息干板或CCD等记录手段,对干涉条纹进行采集和记录,此过程称为全息的波前记录;用参考光照射拍摄的全息图,以再现出物体信息,称为波前再现。全息的记录过程就好似物、参光干涉时将物光信息通过干涉进行保存,而全息图的再现过程就好似利用参考光将封存的物光信息充分展现,两个过程也可称为干涉记录与衍射再现[20]

    红外全息就是将红外激光作为全息干涉计量的光源。红外全息的基本原理与以可见光为光源的全息技术原理相同,都是对全息基本原理的运用,即对波前信息的采集记录和重构再现。假设两光束分别为:

    物光波:

    $$ O(x, y)=O_0(x, y) \exp \left[\mathrm{j} \phi_{\rm o}(x, y)\right] $$ (1)

    参考光波:

    $$ R(x, y)=R_0(x, y) \exp \left[\mathrm{j} \phi_{\rm r}(x, y)\right]$$ (2)

    两光波重合处记录面的光场分布U(x, y)为:

    $$ U(x,y) =O(x,y)+R(x,y)$$ (3)

    此时记录面的光强即数字全息图I(x, y)为:

    $$ \begin{aligned} I(x, y)= & U(x, y) U^*(x, y)=|O|^2+|R|^2+O \cdot R^*+R \cdot O^* \\ =& |O(x, y)|^2+|R(x, y)|^2+ \\ & 2 O_0(x, y) R_0(x, y) \cos \left[\phi_{\mathrm{o}}(x, y)-\phi_{\mathrm{r}}(x, y)\right] \end{aligned} $$ (4)

    为了重构物光场O(x, y),可以先做傅里叶变换将全息图从空域变换到频域:

    $$ \begin{aligned} I(u, v)= & F\{I(x, y)\}=F\left\{R^* R\right\}+F\left\{O^* O\right\}+ \\ & F\left\{R^* O\right\}+F\left\{R O^*\right\} \end{aligned} $$ (5)

    与离轴全息的频谱类似,F{R*R}+F{O*O}出现在频域中的低频区域,称为“0”级频谱,而F{R*O}和F{RO*}对称地出现在频域的中、高频区域,分别称为“+1”级和“-1”级频谱。如果载频足够大,即物、参光的夹角足够大,各级频谱充分分离,在频域中选择合适的滤波器H(u, v),可以滤除除“+1”级频谱以外的其他级次:

    $$ I′(u,v)=H(u,v)I(u,v)=F{R^{*}O} $$ (6)

    再对滤波后的频谱作傅里叶逆变换,可以重构含有物光O(x, y)和共轭参考光R*(x, y)的光场U+OR(x, y):

    $$U_{+\mathrm{OR}}(x, y)=F^{-1}\left\{I^{\prime}(u, v)\right\}=R^* O $$ (7)

    式中:F-1{}表示作傅里叶逆变换。物光O(x, y)和参考光R(x, y)的相位差可以用下式重建:

    $$ \varphi(x, y)-\phi(x, y)=\arctan \left\{\frac{\operatorname{imag}\left[U_{+\mathrm{OR}}(x, y)\right]}{\operatorname{real}\left[U_{+\mathrm{OR}}(x, y)\right]}\right\} $$ (8)

    对比重建光场相位和光场相位差可得到施力点、各点应力大小对比、应力影响区域,即应力场情况。根据全息干涉计量原理,利用携带有待测信息的相干光(物光波)与另一束相干光(参考光波)相互干涉,将待测物信息反映在两束光波的光程差中,从而进行计量或检测;实验中对目标物体施加压力前后,结构面的改变引起光程差,对比施加压力前后的全息图,进行图像处理即可得到压力引起的改变量,为该实验的可行性提供了理论支撑。

    爆破粉尘具有颗粒小、质量轻的特点,粒度多处在0.001~0.10 mm之间,其中粒径小于10 μm的粉尘占总量的90%以上,在重力作用下,粒径小于10 μm的颗粒可长期漂浮于空中,粒径大于10 μm的颗粒能较快沉降[21]。因此,爆破后的测量主要受粒径小于10 μm的气溶胶影响。

    光在大气中传播时,由于光波所携带的能量与大气介质之间的相互作用,光在介质中被散射和吸收而衰减;红外辐射在大气中传播时,由于大气中各种气体分子和悬浮微粒与其相互作用,辐射能量也会明显地被衰减。在各吸收带之间的某个区域可能存在相对透明的“窗口”,辐射透射率比其它区域高,这种区域就是所谓的大气窗口。这些波段都可高透过率传输,如1~2.7 μm、3~5 μm、8~14 μm等,本实验中所用1.064 μm红外激光就属此范围[22-23]

    当红外辐射入射到气溶胶中,理论上红外辐射能量的衰减是由粉尘粒子的吸收和散射导致,但在干燥的粉尘环境下,粉尘中的固体微粒子极具稳定性,对红外辐射的吸收很微弱,因此粉尘中粒子对红外辐射的散射成为了红外辐射衰减的主要原因[24-26]

    红外激光在传播过程中,当粒子尺度a满足条件:$ a=\frac{2 {\rm{ \mathsf{ π} }} r}{\lambda}>0.3 $时或者是遇到与它波长相当的粒子时发生的散射,散射服从Mie散射。Mie散射的发生是由于大气中的粉尘、雾霾粒子、雾气等气溶胶粒子群的作用,Mie散射取决于入射光强度、粒子的半径大小、折射率等因素。

    由于爆破粉尘粒子的半径r(1 μm<r<10 μm),红外激光器的中心波长为1.064 μm满足Mie散射理论中粒子尺度$ a=\frac{2 {\rm{ \mathsf{ π} }} r}{\lambda}>0.3 $的条件,故粉尘中粒子散射服从Mie散射。

    本实验光路以Mach-Zehnder干涉光路为基础,实验光路如图 1所示,该实验使用的激光器:中心波长为1064 nm的在连续模式下工作的半导体红外激光器、波长为532.8 nm的He-Ne激光器,其中He-Ne激光器作为引导光源用于与红外光拟合后引导光路搭建,并作为可见光与红外光复杂环境下测量结果的对比;该红外光波长可极大降低粉尘环境对光束的影响,红外激光器最大可调功率为115.3 mW,横模模式为TEM00,光束发散角为1.5 mrad,光束直径为1.329 mm,相干长度为20 cm。使用的光学镜片均为普通透红外透镜,分束镜Ⅰ分光比为2:1,分束镜Ⅱ分光比为1:1,扩束镜放大倍率为20倍,针孔尺寸为15 μm,CCD分辨率为1920×1080,像素尺寸为2.9 μm,曝光时间设置为1.8 ms;选用7 cm×3 cm×1 cm的自制光滑水泥板为检测对象。

    图  1  实验光路图
    Figure  1.  Experimental light path diagram

    按光路图搭建实验光路,红外光肉眼不可见只能借助红外板观察,为降低实验难度,需先调节红外与可见光的拟合,拟合标准为过分束镜Ⅰ后的红外光与可见光完全重合,拟合完成后直接通过可见光搭建实验光路。需注意由于检测对象不透光,采用反射式实验光路,其表面光线为漫反射,反射效率低,选用光滑水泥板可增强实验效果;漫反射降低了物光光强,为使物参光光强相近,分束镜Ⅰ选择2:1的光束比以增强物光;将光束照射在检测对象中心,调节物参光使到达分束镜Ⅱ处的光强比为1:1,得到最佳条纹对比度;光滑水泥板7 cm×1 cm面为上下底面固定于施力架,竖直向下施加压力,7 cm×3 cm面为反射面,检测反射面的应力场变化情况,待光路稳定后再进行数据采集。先以红外光作为实验光源,采集不同压力下的全息图,考虑到压力过大会损坏待测对象,设定最大压力为35 N,分别采集0 N、10 N、35 N压力的全息图;打开扬尘器,在气室内模拟粉尘环境,设定CCD采集参数,间隔1 s采集一次,采集30次,分别采集以上3组不同压力在粉尘环境改变下的全息图。为突出红外光复杂环境下的检测优势,将He-Ne激光器作为光源并按以上步骤再次采集作为对比实验。

    将检测的光滑水泥块放置于反射式全息光路中,为了使实验条件相同,所有拍摄的实验对象都使用同一个物体,根据全息干涉计量原理,对物体施加压力前后,其表面形态会产生变化,以干涉条纹的形式记录,对比施压后、施加不同压力的全息图即可得到应力场变化,再通过图像处理方法得到对应的应力场分布。整个实验过程保持实验室环境恒定,水泥板下端水平,平整且受力均匀,施力点在水泥块上方中心偏左位置,施加压力时可从测力表实时读取施加压力数值。图 2分别是红外、可见光施压不同压力的干涉全息图。

    图  2  无粉尘环境不同压力全息图
    Figure  2.  Hologram of different pressures in dust-free environment

    图 2为红外和可见光在无粉尘环境下施加0 N、10 N、35 N压力的全息图,施加压力点为中心偏左位置;图 3图 2对应的相位差重建图。红外和可见光的全息图都可明显观察到施力点位置及施力点附近的条纹变化,条纹由施力点逐渐向外扩散,其他无压力处条纹没有明显改变,验证了红外数字全息法检测应力场的可行性。

    图  3  无粉尘环境不同压力相位差重建
    Figure  3.  Reconstruction of different pressure phase difference in dust-free environment

    全息图虽然能观察到应力的变化,但应力过小时条纹改变不明显,无法准确判断是否有应力影响,为了观察结果更加明显、准确,本实验通过算法重建应力改变前后的相位差,以更直观展现应力场情况。图 3中,对比10 N和35 N的相位差,随着压力增大,条纹数量增多、密度增大,通过条纹数量及密度可判断施力点、压力的相对大小,红外与可见光都得到了相同结果。由于两种光波长不同,实验记录的两类全息图有所变化,最终重建的相位差图样也存在一定差异。通过观察红外相位差图样可得出力传导方向与条纹延展方向一致,应力影响区域明显,可见光相位差的相位趋势与红外光相似,仍可判断出应力传导方向与条纹延展方向一致。

    图 4图 5分别为红外和可见光在不同粉尘浓度下压力为35 N的全息图,其他压力效果相近,因此不作赘述。极高粉尘浓度环境下,红外光能观察到条纹,对比度低,条纹变化量不明显,而可见光完全观察不到条纹;高粉尘浓度环境下,红外光的条纹很明显,对比度也有增加,可大致观察到条纹变化量,此时可见光可观察到些许条纹,但无法观察到条纹变化量;中粉尘浓度环境下,红外光条纹清晰,条纹变化量十分明显,可见光可观察到条纹变化量;随着浓度的降低,条纹更清晰,条纹变化量也更明显。由此可知,在同浓度粉尘环境下,红外光受粉尘影响更小。

    图  4  不同粉尘浓度环境下压力35N红外全息图
    Figure  4.  Pressure 35N infrared hologram under different dust concentration environments
    图  5  不同粉尘浓度环境下压力35 N可见光全息图
    Figure  5.  Pressure 35 N visible light hologram under different dust concentration environments

    图 6图 7分别是红外光和可见光在不同粉尘浓度环境下压力为35 N的重建相位差。当粉尘浓度过高时,红外相位差图样可观察到应力场轮廓,但仍能观察到施压点、压力相对大小、力传导方向及压力的影响区域,而可见光相位差图样无法观察到应力场分布;中浓度粉尘环境下,红外光相位差图样清晰,应力场分布明显,与无粉尘环境下的相位差重建图样基本相同,而可见光相位差图样只能观察到应力场轮廓。通过对比不同粉尘浓度下的红外和可见光相位差图样,证明了粉尘环境下红外光透过率更高,在粉尘环境下的实用性更强。

    图  6  不同粉尘浓度环境下压力35 N红外相位差重建
    Figure  6.  Pressure 35 N infrared phase difference reconstruction under different dust concentration environments
    图  7  不同粉尘浓度环境下压力35 N可见光相位差重建
    Figure  7.  Pressure 35 N visible light phase difference reconstruction under different dust concentration environments

    本文提出一种基于红外数字全息技术的建筑爆破环境应力场检测方法,通过对比无粉尘环境下红外与可见光的实验结果,验证了红外用于应力场检测的可行性,可由相位差重建图样判断出施压点位置、施加压力的相对大小及应力的影响区域,而可见光无法通过相位差图样直接判断出应力的影响区域,只能观察出施压点位置和施加压力的相对大小;对比不同粉尘浓度环境下的实验结果,验证了红外可用于粉尘环境检测应力场,且高浓度粉尘环境下仍能判断出施压点位置、施加压力的相对大小及应力的影响区域,而可见光无法在高浓度粉尘环境下得到理想结果,凸显了红外用于非理想环境检测的优势。由于实验中所使用的CCD分辨率不高,面元尺寸小,采集范围有限,部分信息缺失,存在一定的误差。

  • 图  1   DeepLabv3+网络结构

    Figure  1.   DeepLabv3+ network structure

    图  2   ASPP模块网络结构

    Figure  2.   ASPP network structure

    图  3   MRFE-CNN网络结构

    Figure  3.   MRFE-CNN network structure

    图  4   MRBlock结构

    Figure  4.   MRBlock structure

    图  5   多头注意力模块Multi-head EA(a)和GFA(b)

    Figure  5.   Multi-head EA (a) and GFA (b)

    图  6   MAGBlock结构

    Figure  6.   MAGBlock structure

    图  7   DNDS数据集部分图片展示。(a)为红外图像,(b)为真实语义标签

    Figure  7.   Some pictures of the DNDS. (a) infrared image, (b) real semantic label

    图  8   DNDS数据集各类标签数量

    Figure  8.   The number of labels in the DNDS

    图  9   训练指标比较。(a)LOSS变化曲线图,(b)MIOU变化曲线图

    Figure  9.   Comparison of training indicators. (a) LOSS curves graph, (b) MIOU curves graph

    图  10   测试集结果比较。(a)原图;(b)DeepLabv3+;(c)MRFE-CNN;(d)真实标签

    Figure  10.   Comparison of results. (a) Original image, (b) DeepLabv3+, (c) MRFE-CNN, (d) Real label

    图  11   训练指标比较。(a)LOSS变化曲线图,(b)MIOU变化曲线图

    Figure  11.   Comparison of training indicators. (a) LOSS curves graph, (b) MIOU curves graph

    图  12   测试集结果比较。(a)原图;(b)DeepLabv3+;(c)MRFE-CNN;(d)真实标签

    Figure  12.   Comparison of results. (a) Original image, (b) DeepLabv3+, (c) MRFE-CNN, (d) Real label

    表  1   实验硬件配置

    Table  1   Experimental hardware configuration

    CPU GPU Memory System
    2.60GHz Intel Xeon Platinum 8350C CPU NVIDIA RTX 3090 24GB Linux
    下载: 导出CSV

    表  2   MRBlock模块消融实验

    Table  2   Ablation experiment of MRBlock

    Models Residual Block Basic Block MAGBlock ASPP Input_feature MPA% MIOU%
    Model_1 - - - x_l 90.8 81.07
    Model_2 - - x_l+x_h 91.13 81.7
    Model_3 *1 - x_l+x_h 91.91 82.6
    Model_4 *2 - x_l+x_h 92.36 83.43
    Model_6 *2 x_l+x_h 92.72 84.1
    Model_7 *2 x_l 92.31 82.1
    Model_8 *2 x_h 91.1 83.7
    下载: 导出CSV

    表  3   流行算法性能比较

    Table  3   Performance comparison of popular algorithms

    Methods MPA% MIOU%
    FCN-8s 8.16 5.74
    FCN-16s 63.32 48.3
    FCN-32s 58.37 42.32
    U-Net 78.12 72.35
    DUC 78.35 69.61
    DeepLabv3+ 90.4 82.3
    MRFE-CNN 92.72(+2.32) 84.1(+1.8)
    下载: 导出CSV

    表  4   公共数据集MSRS性能比较

    Table  4   Performance comparison of MSRS

    Methods MPA% MIOU%
    DeepLabv3+ 68.43 56.37
    MRFE-CNN 71.82(+3.39) 58.14(+1.77)
    下载: 导出CSV
  • [1] 刘致驿, 孙韶媛, 任正云, 等. 基于改进DeepLabv3+的无人车夜间红外图像语义分割[J]. 应用光学, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm

    LIU Zhiyi, SUN Shaoyuan, REN Zhengyun, et al. Semantic segmentation of nocturnal infrared images of unmanned vehicles based on improved DeepLabv3+[J]. Journal of Applied Optics, 2020, 41(1): 180-185. https://www.cnki.com.cn/Article/CJFDTOTAL-YYGX202001031.htm

    [2] 夏威. 基于卷积神经网络的热红外图像语义分割研究[D]. 合肥: 安徽大学, 2020.

    XIA Wei. Thermal Image Semantic Segmentation Based on Convolutional Neural Networks[D]. Hefei: Anhui University, 2020.

    [3] 景庄伟, 管海燕, 彭代峰, 等. 基于深度神经网络的图像语义分割研究综述[J]. 计算机工程, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm

    JING Zhuangwei, GUAN Haiyan, PENG Daifeng, et al. Survey of research in image semantic segmentation based on deep neural network[J] Computer Engineering, 2020, 46(10): 1-17. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202208003.htm

    [4]

    ZHAO L, WANG M, YUE Y. Sem-aug: improving camera-lidar feature fusion with semantic augmentation for 3d vehicle detection[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 9358-9365. DOI: 10.1109/LRA.2022.3191208

    [5]

    WANG J, LIU L, LU M, et al. The estimation of broiler respiration rate based on the semantic segmentation and video amplification[J]. Frontiers in Physics, 2022, 10: 1-13.

    [6]

    XUE Z, MAO W, ZHENG L. Learning to simulate complex scenes for street scene segmentation[J]. IEEE Transactions on Multimedia, 2021, 24: 1253-1265.

    [7]

    WANG Y, TIAN S, YU L, et al. FSOU-Net: Feature supplement and optimization U-Net for 2D medical image segmentation[J]. Technology and Health Care, 2023, 31(1): 181-195. DOI: 10.3233/THC-220174

    [8] 郭尹. 基于深度学习的电力设备热红外图像语义分割方法研究[D]. 合肥: 安徽大学, 2022.

    GUO Yin. Research on Electrical Thermal Image Semantic Segmentation Method Based on Deep Learning[D]. Hefei: Anhui University, 2022.

    [9]

    LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.

    [10]

    Adrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI: 10.1109/TPAMI.2016.2644615

    [11]

    OLAF R, PHILIPP F, THOMAS B. U-Net: Convolutional networks for biomedical image segmentation[J]. CoRR, 2015, abs/1505.04597.

    [12]

    ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017: 2881-2890.

    [13]

    LIN G, MILAN A, SHEN C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1925-1934.

    [14]

    CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFS[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.

    [15]

    CHEN L C, ZHU Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 801-818.

    [16]

    Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.

    [17] 练琤, 张宝辉, 江云峰, 等. 基于语义分割的红外图像增强方法[J]. 红外技术, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML

    LIAN Zheng, ZHANG Baohui, JIANG Yunfeng, et al. An infrared image enhancement method based on semantic segmentation[J]. Infrared Technology, 2023, 45(4): 394-401. http://hwjs.nvir.cn/cn/article/id/012a14e0-e0f5-4854-94fa-7b0392f63498?viewType=HTML

    [18]

    WANG J, GOU C, WU Q, et al. RTFormer: efficient design for real-time semantic segmentation with transformer[J]. arXiv e-prints, 2022: arXiv: 2210.07124.

    [19]

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. arXiv, 2017. DOI: 10.48550/arXiv.1706.03762.

    [20]

    TU Z, TALEBI H, ZHANG H, et al. Maxim: Multi-axis MLP for image processing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5769-5780.

    [21]

    JADON S. A survey of loss functions for semantic segmentation[C]//IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). IEEE, 2020: 1-7.

    [22]

    Sandler M, Howard A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

    [23] 于营, 王春平, 付强, 等. 语义分割评价指标和评价方法综述[J]. 计算机工程与应用, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm

    YU Ying, WANG Chunping, FU Qiang, et al. Survey of evaluation metrics and methods for semantic segmentation[J]. Journal of Computer Engineering & Applications, 2023, 59(6): 13. https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202306005.htm

    [24]

    WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 1451-1460.

  • 期刊类型引用(3)

    1. 刘霈,张永安,张兵,高梓欣,碧文彬,付瑞锦. 红外全息技术的发展与应用. 激光与红外. 2025(02): 170-178 . 百度学术
    2. 张晶晶,李建素,党长营,陈颢文,杨钊. DC-UMnet网络解全息欠采样包裹相位的方法. 红外与激光工程. 2024(10): 270-280 . 百度学术
    3. 王刚,张永安,黄俊豪,刘德发,张亚萍,高梓欣,刘文杰. 红外光透水雾全息成像研究. 激光与红外. 2024(10): 1586-1593 . 百度学术

    其他类型引用(1)

图(12)  /  表(4)
计量
  • 文章访问数:  68
  • HTML全文浏览量:  24
  • PDF下载量:  41
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-08-10
  • 修回日期:  2023-09-21
  • 网络出版日期:  2024-05-23
  • 刊出日期:  2024-05-19

目录

/

返回文章
返回
x 关闭 永久关闭

尊敬的专家、作者、读者:

端午节期间因系统维护,《红外技术》网站(hwjs.nvir.cn)将于2024年6月7日20:00-6月10日关闭。关闭期间,您将暂时无法访问《红外技术》网站和登录投审稿系统,给您带来不便敬请谅解!

预计6月11日正常恢复《红外技术》网站及投审稿系统的服务。您如有任何问题,可发送邮件至编辑部邮箱(irtek@china.com)与我们联系。

感谢您对本刊的支持!

《红外技术》编辑部

2024年6月6日