Underwater Image Enhancement Algorithm Combining Transformer and Generative Adversarial Network
-
摘要:
由于水下环境的多样性和光在水中受到的散射及选择性吸收作用,采集到的水下图像通常会产生严重的质量退化问题,如颜色偏差、清晰度低和亮度低等,为解决以上问题,本文提出了一种基于Transformer和生成对抗网络的水下图像增强算法。以生成对抗网络为基础架构,结合编码解码结构、基于空间自注意力机制的全局特征建模Transformer模块和通道级多尺度特征融合Transformer模块构建了TGAN(generative adversarial network with transformer)网络增强模型,重点关注水下图像衰减更严重的颜色通道和空间区域,有效增强了图像细节并解决了颜色偏差问题。此外,设计了一种结合RGB和LAB颜色空间的多项损失函数,约束网络增强模型的对抗训练。实验结果表明,与CLAHE(contrast limited adaptive histogram equalization)、UDCP(underwater dark channel prior)、UWCNN(underwater based on convolutional neural network)、FUnIE-GAN(fast underwater image enhancement for improved visual perception)等典型水下图像增强算法相比,所提算法增强后的水下图像在清晰度、细节纹理和色彩表现等方面都有所提升,客观评价指标如峰值信噪比、结构相似性和水下图像质量度量的平均值分别提升了5.8%、1.8%和3.6%,有效地提升了水下图像的视觉感知效果。
-
关键词:
- 图像处理 /
- 水下图像增强 /
- Transformer /
- 生成对抗网络 /
- 多项损失函数
Abstract:Owing to the diversity of underwater environments and the scattering and selective absorption of light in water, acquired underwater images usually suffer from severe quality degradation problems, such as color deviation, low clarity, and low brightness. To solve these problems, an underwater image enhancement algorithm that combines a transformer and generative adversarial network is proposed. Based on the generative adversarial network, a generative adversarial network with transformer (TGAN) network enhancement model is constructed by combining the coding and decoding structure, global feature modeling transformer module based on the spatial self-attention mechanism, and channel-level multi-scale feature fusion transformer module. The model focuses on color and spatial channels with more serious underwater image attenuation. This effectively enhances the image details and solves the color-deviation problem. Additionally, a multinomial loss function, combining RGB and LAB color spaces, is designed to constrain the adversarial training of the network enhancement model. The experimental results demonstrate that when compared to typical underwater image enhancement algorithms, such as contrast-limited adaptive histogram equalization (CLAHE), underwater dark channel prior (UDCP), underwater based on convolutional neural network (UWCNN), and fast underwater image enhancement for improved visual perception (FUnIE-GAN), the proposed algorithm can significantly improve the clarity, detail texture, and color performance of underwater images. Specifically, the average values of the objective evaluation metrics, including the peak signal-to-noise ratio, structural similarity index, and underwater image quality measure, improve by 5.8%, 1.8%, and 3.6%, respectively. The proposed algorithm effectively improves the visual perception of underwater images.
-
0. 引言
根据世界卫生组织的统计,2016年道路交通伤害导致140万人死亡,已经是全球第八大死亡原因[1],道路交通安全已经成为人类不可忽视的安全威胁之一。为减少道路交通对人类造成的伤害,目前已经有多种传感器系统被应用于汽车辅助驾驶,以期在危险情况中及时对驾驶者做出提醒,如雷达、激光测距雷达、超声波和摄像机等技术。其中雷达、激光测距雷达和超声波等属于主动测量方案,在复杂环境下易受干扰;而基于摄像机的测量方案属于被动测量方法,抗干扰能力更强,在辅助驾驶和自动驾驶领域具有广阔的应用前景,已经成为计算机视觉领域的热门研究方向。
在夜间、雾霾等低可见度天气条件下,由于驾驶员的视线受阻,更易发生交通事故。红外线由于波长较长,具有穿透雾霾的能力,且所有温度高于绝对零度的物体都会产生红外辐射[2],故对红外线成像的红外相机具有全天候工作能力,特别在夜间、雾霾等对可见光相机成像具有严重干扰的天气条件下具有明显优势。因此,利用红外成像设备作为辅助观测手段以提高行车安全性的方法,得到了广大相关研究人员和国内各大汽车制造厂商的关注[3]。
目前,基于红外相机的车载辅助驾驶系统主要利用红外相机的全天候工作特性,帮助驾驶员在恶劣条件下观察路面情况,技术手段主要集中在行人检测与跟踪领域。如文献[3]-[4]介绍了车载夜视技术以及红外行人检测算法的发展现状,文献[5]介绍了一种基于YOLO模型的远红外车载图像快速行人检测方法,文献[6]提出了一种相关滤波框架下的红外图像行人跟踪方法,行人的位置估计需依靠驾驶员的经验判断。文献[7]使用激光雷达成像与红外成像融合的方式获取可视图像及深度信息,但成本较高。
基于立体视觉原理获取深度信息,仅需两个相机采集双目图像,然后利用双目视差原理计算目标深度,成本较低。但是在红外图像中,由于纹理细节较少,在可见光立体视觉中使用广泛的BM(Block Matching)和SGBM(Semi Global Block Matching)等传统稠密立体匹配算法不能很好地完成红外图像立体匹配。因此,本文结合道路场景的特点,设计了一种基于红外立体视觉的路况行人感知方法,该方法可以生成感兴趣目标处稠密的全局半稠密深度图。经实验验证,该方法在道路环境下可以有效地提供车前行人等目标的深度信息。
1. 双目测距模型
1.1 三角测量模型
本文双目测距模型如图 1所示,两相机光心O1、O2存在x、z方向明显位移dx、dz。考虑到实际系统的安装误差因素,两相机坐标系间同时存在y方向位移dy和绕x、y、z三轴的相对旋转α、β、γ。dx、dy、dz和α、β、γ共同构成相机的外部参数,可通过双目相机标定获得。
通过标定获得相机内部及外部参数后,本文采用线性三角测量法对空间点进行解算,如图 1,空间点N分别投影到两相机像平面π1、π2的n1、n2点处,投影关系可由式(1)表示,其中n1、n2用π1、π2像面坐标系下的齐次坐标表示,N用世界坐标系下的齐次坐标表示,P1、P2分别表示空间点N到像面π1、π2的投影关系,为3×4矩阵,由相机内、外部参数计算得到:
$$ {n_1} = {\mathit{\boldsymbol{P}}_1}N,\quad {n_2} = {\mathit{\boldsymbol{P}}_2}N $$ (1) 通过π1、π2像面上的一对匹配点n1↔n2,可根据式(2)[8]计算得到N点在世界坐标系下的齐次坐标。其中,xi、yi分别表示πi像面上N的像点ni的横、纵坐标,pij表示Pi矩阵的第j行(i=1, 2,j=1, 2, 3)。
$$\left[ {\begin{array}{*{20}{c}} {{x_1}p_1^3 - p_1^1} \\ {{y_1}p_1^3 - p_1^2} \\ {{x_2}p_2^3 - p_2^1} \\ {{y_2}p_2^3 - p_2^2} \end{array}} \right]N = 0$$ (2) 1.2 极线约束
极线约束是指双目图像中某一图像上的点必然对应于另一图像上的一条线,如图 1,直线O1N上任一点都成像于π1像面上的n1点处,而其在像面π2上的像位于直线e2n2上,即e2n2为n1的对极线,e2为光心O1在像面π2上的投影点,其数学关系可用式(3)表示:
$${\mathit{\boldsymbol{I}}_{{e_2}{n_2}}} = \mathit{\boldsymbol{I}}{n_1}$$ (3) 式中:${\mathit{\boldsymbol{I}}_{{e_2}{n_2}}}$表示直线e2n2;F为基本矩阵,可通过相机内、外部参数获得。
由于n2是N在像面π2的像点,故n2在直线${I_{{e_2}{n_2}}}$上,即$n_2^{\rm{T}}{I_{{e_2}{n_2}}} = 0$,所以一对匹配点n1↔n2满足式(4)关系。
$$n_2^{\rm{T}}\mathit{\boldsymbol{F}}{n_1} = 0$$ (4) 因此,可利用式(4)对初始匹配结果进行筛选,去除误匹配点。
2. 系统设计与搭建
2.1 系统方案设计
驾驶员在驾驶车辆时,一般需要观察车辆正前方和两侧路面情况以确保行车安全。因此,为了满足实际道路应用条件,本文设计了一种大视场红外双目立体视觉环境感知单元,有效视场角约为120°。由于目前红外相机成像单元分辨率普遍不高,以及红外相机镜头视场角等因素的制约,本文提出了一种双红外双目测量方案。方案设计如图 2所示,即使用两对双目相机分别覆盖左右两侧,组成等效120°测量视场。图 2中4只相机分别组成左视、右视双目相机组,两相机组的基线长度均设计为75 cm,两组双目相机测量视场构成120°等效测量视场。该方案将4只红外相机安装在同一直线上,将系统尺寸限制在100 cm×10 cm×10 cm内,有利于在不改变车辆结构的条件下安装使用。
2.2 实验系统平台
依据2.1节所述方案,搭建实验平台,如图 3所示,该平台由4只长波红外相机及广角镜头、嵌入式处理单元、外围电路、刚性载体和外壳组成。
2.3 红外棋盘格标定板
由于三角测量模型需要已知的相机内参和双目相机外参解算匹配点坐标,因此需对相机进行标定。目前应用最广泛的相机标定算法为张正友标定法[9],该方法需要单平面棋盘格作为标定板。由于红外辐射量和物体温度有关,物体温度越高,红外辐射越强,红外图像体现的是物体温度差异。根据红外成像原理,本文设计了一种红外棋盘格标定板(下称标定板),如图 4所示。
图 4(a)为该标定板的可见光图像,图 4(b)为红外图像。棋盘格白格为良导热材料制成,背层贴有电热片,黑格为隔热材料制成,背层无电热片,通电后白格区域电热片发热使其温度升高,黑格区域的隔热材质使其保持相对较低的温度,从而使棋盘格的红外图像具有与可见光图像相似的图像特征。本文设计的棋盘格可用于红外相机标定,可见光相机标定和红外、可见光相机联合标定。
3. 深度图生成方法
本文的路况行人感知问题研究定位于道路使用者中的行人和骑行者等目标。由于人体具有较为明显的温度、边缘特征,因此可以此为依据在双目相机左、右图像中寻找感兴趣区域,并在感兴趣区域中进行特征点提取、配准并最终生成可视化半稠密深度图。
3.1 图像幂次变换
图像幂次变换是指通过对图像灰度值的k次幂变换,使灰度值较大的位置得到增强,而灰度值较小的位置得到抑制。图像幂次变换可用式(5)表示:
$${i_{{\rm{new}}}} = M{\left( {\frac{{{i_{{\rm{old}}}}}}{{{i_{\max }}}}} \right)^k}$$ (5) 式中:iold、inew为图像上任一点转换前、后灰度值;imax为原图像的最大灰度值;M为处理后的图像最大灰度值,指数k越大,图像增强效果越明显,本文应用场景中k值的取值范围为1.6~2.0。
由于红外图像是对红外热辐射的成像,温度高的物体成像位置灰度值大,温度低的物体成像位置灰度值小。一般红外场景中的人体温度较高,背景温度较低,对应红外图像中,行人目标位置灰度值较大,背景位置灰度值较小,通过图像幂次变换,可有效增强行人目标,抑制背景。如图 5(b),相对原图(图 5(a)),其背景得到明显抑制,行人目标得到增强。
3.2 感兴趣区域提取
由于行人、骑行者的竖向边缘较多[10],因此可以使用Sobel边缘检测算法检测图像中的竖向边缘,如图 5(c)(为了便于观察,图像有亮度增强)所示,图中实线框内为行人目标,虚线框内为无效目标,利用目标灰度约束可以剔除大部分无用边缘信息,如图 5(d)所示,图像中剩余的轮廓信息主要集中在行人位置处。由于轮廓位置所占图像面积较小,仅将该位置作为特征提取区域不利于提取到足够多的特征点,因此使用图像膨胀算法对图 5(d)所示基于灰度约束的边缘提取图像进行处理,得到图 5(e)所示感兴趣区域(Region of interest, ROI),通过在左右图像ROI区域内提取和匹配特征点,可有效减少特征点提取和匹配数量,减少误匹配数量,提高算法运行效率。
3.3 特征点检测与匹配
由于红外图像缺乏一般可见光图像中丰富的纹理细节特征,仅在目标轮廓边缘等梯度变化较大的地方存在明显图像特征,因此本文采用SURF(Speeded-Up Robust Features)算法[11]在ROI区域对图像进行特征提取。SURF算法基于图像边缘检测特征点,且运行速度快,经实验验证,其在长波红外图像上具有良好的特征点提取效果。利用SURF算法在ROI区域进行特征点检测和匹配的效果如图 6(a)所示,图中线段的端点为特征点位置,其两端为一对初始匹配点,可以看出其中存在明显错误匹配点。利用式(4)对匹配点进行筛选,结果如图 6(b)所示,图中线段连接的匹配点为筛选后的匹配点,可见图 6(a)中的明显错误匹配点被有效剔除。
3.4 半稠密深度图估计
获取筛选后匹配点后,利用三角测量模型可以解算匹配点对应的空间点坐标,获取原始稀疏深度图(如图 7(a))。由于原始深度图是稀疏的,因此其直接用于显示效果较差。本文采用种子填充法(Seed-Filling)标记图 5(e)中不同连通域,在各连通域中选取原始深度图对应区域中的所有有效深度值的中值作为该区域的代表深度值,得到半稠密深度图,如图 7(b)。
由于ROI图像中不同连通域表示场景中的不同目标,同一目标的不同位置的深度值是相近的,因此使用代表深度值估计整个目标的深度是可行的,且代表深度值的中值选取策略可以有效避免少量错误匹配点产生的异常深度值对目标深度估计的影响。
3.5 深度图显示
为便于观察,本文采用从浅到深的渐变颜色表示0~30 m内的距离远近。距离越远,颜色越深;距离越近,颜色越浅。图 8给出了6组夜间路面测试结果,对照图和显示图依次对应。其中对照图经过幂次变换对背景进行了抑制,显示图在对照图的基础上引入了渐变颜色表示图像中目标的深度信息,并在图像右侧给出了颜色图例。图 8中6组显示图中包含不同距离的行人、跑步者、骑行者等目标。可以看出,行人、跑步者、骑行者等目标均得到较好的颜色标记,参考颜色图例可以判断目标的相对远近,从而为驾驶员在夜间驾驶提供良好的辅助观测信息。
4. 测距精度实验
为验证系统测距精度,本文在夜间室外环境下,采用合作目标对左、右视双目相机分别进行精度实验,合作目标为一个2×2红外棋盘格,如图 9所示。以左视双目相机为例,合作目标参考位置如图 10所示,取3个方向,每个方向5~30 m范围内的18个点(图中未全部画出)验证系统测距精度。合作靶标的位置约定真值由精度为2+2 ppm的全站仪间接测得,以左相机为基准点,利用全站仪分别测量左相机和合作靶标的中心角点坐标,通过计算得到合作靶标中心距左相机基准点的距离约定真值。将系统测距结果和约定真值作比较,图 11给出了系统测距误差,系统测距结果在30 m范围内绝对误差均小于1 m,相对误差小于3%;15 m范围内绝对误差小于0.5 m,相对误差小于1.5%。考虑到本文的路况行人感知方法的主要应用场景为向驾驶者提供辅助观测信息,系统的测距精度满足实用需求。
5. 结论
本文设计了一种基于红外立体视觉的路况行人感知方法。针对红外图像纹理细节少,传统稠密双目立体匹配算法效果差的问题。本文首先提取图像ROI,然后在其中提取特征点并匹配以生成原始稀疏深度图,最后结合ROI和原始稀疏深度图估计ROI内稠密的全局半稠密深度图。并设计了实验系统对该方法进行实验验证。实验结果表明,该方法具有良好的行人等目标的检测效果,在系统约120°观测视场角内,目标深度感知相对误差在15 m范围内优于1.5%,30 m范围内优于3%,满足实际应用场景。
-
图 7 不同方法在测试集Test-1上的定性对比(a)水下图像;(b)CLAHE;(c)RGHS;(d)UDCP;(e)IBLA;(f)UWCNN;(g)FUnIE-GAN;(h)DGD-cGAN;(i)本文方法;(j)参考图像
Figure 7. Qualitative comparison of different methods on Test-1. (a)Underwater images; (b)CLAHE; (c)RGHS; (d)UDCP; (e)IBLA; (f)UWCNN; (g)FUnIE-GAN; (h)DGD-cGAN; (i)Our method; (j)Reference images
表 1 在测试集Test-1上的消融实验结果
Table 1 Experimental results of ablation study on Test-1
Models PSNR SSIM BL 19.2556 0.7014 BL+GFMT 21.6849 0.7635 BL+MSFFT 22.3719 0.7813 BL+LossLAB 21.4161 0.7281 TGAN 24.0546 0.8257 表 2 不同方法在测试集Test-1上的定量对比
Table 2 Quantitative comparison of different methods on Test-1
Methods PSNR SSIM CLAHE 18.4342 0.7653 RGHS 18.2053 0.7672 UDCP 14.0555 0.5650 IBLA 19.9222 0.7487 UWCNN 18.1209 0.7420 FUnIE-GAN 22.7413 0.8112 DGD-cGAN 17.3954 0.6955 TGAN 24.0546 0.8257 表 3 不同方法在测试集Test-2的定量对比
Table 3 Quantitative comparison of different methods on Test-2
Methods UCIQE UIQM NIQE CLAHE 0.4516 3.1570 6.5814 RGHS 0.4673 2.4674 6.4705 UDCP 0.4216 2.0992 5.7852 IBLA 0.4731 2.3331 5.7619 UWCNN 0.3508 3.0378 6.7935 FUnIE-GAN 0.4314 3.0997 6.2796 DGD-cGAN 0.3689 3.1810 7.2689 TGAN 0.4846 3.2963 5.7743 -
[1] YANG M, HU J T, LI C Y, et al. An in-depth survey of underwater image enhancement and restoration[J]. IEEE Access, 2019, 7: 123638-123657. DOI: 10.1109/ACCESS.2019.2932611
[2] ANWAR S, LI C Y. Diving deeper into underwater image enhancement: a survey[J]. Signal Processing: Image Communication, 2020, 89: 115978. DOI: 10.1016/j.image.2020.115978
[3] Islam M J, XIA Y, Sattar J. Fast underwater image enhancement for improved visual perception[J]. IEEE Robotics and Automation Letters, 2020, 5: 3227-3234. DOI: 10.1109/LRA.2020.2974710
[4] 晋玮佩, 郭继昌, 祁清. 基于条件生成对抗网络的水下图像增强[J]. 激光与光电子学进展, 2020, 57(14): 141002. JIN W P, GUO J C, QI Q. Underwater image enhancement based on conditional generative adversarial network[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141002.
[5] Hitam M S, Awalludin E A, Yussof W N J H W, et al. Mixture contrast limited adaptive histogram equalization for underwater image enhancement[C]//International Conference on Computer Applications Technology (ICCAT), 2013: 1-5.
[6] HUANG D M, WANG Y, SONG W, et al. Shallow-water image enhancement using relative global histogram stretching based on adaptive parameter acquisition[C]//24th International Conference on MultiMedia Modeling (MMM), 2018(10704): 453-465.
[7] Drews Paulo, Nascimento E, Moraes F, et al. Transmission estimation in underwater single images[C]//IEEE International Conference on Computer Vision Workshops (ICCVW), 2013: 825-830.
[8] PENG Y T, Cosman P C. Underwater image restoration based on image blurriness and light absorption[J]. IEEE Transactions on Image Processing, 2017, 26(4): 1579-1594. DOI: 10.1109/TIP.2017.2663846
[9] LI C Y, Anwar S, Porikli F. Underwater scene prior inspired deep underwater image and video enhancement[J]. Pattern Recognition, 2020, 98: 107038-107038. DOI: 10.1016/j.patcog.2019.107038
[10] Gonzalez Sabbagh S, Robles Kelly A, Gao S. DGD-cGAN: a dual generator for image dewatering and restoration[J]. arXiv preprint arXiv: 2211.10026, 2022.
[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 1049-5258.
[12] LI C, Wand M. Precomputed real-time texture synthesis with markovian generative adversarial networks[C]//Computer Vision–ECCV, 2016: 702-716.
[13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recog-nition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 7780459.
[14] WANG H, CAO P, WANG J, et al. Uctransnet: rethinking the skip connections in u-net from a channel-wise perspective with transformer[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(3): 2441-2449.
[15] Ulyanov D, Vedaldi A, Lempitsky V. Instance normalization: the missing ingredient for fast stylization[J]. arXiv preprint arXiv: 1607.08022, 2016.
[16] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv: 2010.11929, 2020.
[17] Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//Computer Vision–ECCV, 2016: 694-711.
[18] PENG L T, ZHU C L, BIAN L H. U-shape transformer for underwater image enhancement[C]//Computer Vision–ECCV, 2023: 290-307.
[19] LI C Y, GUO C L, REN W Q, et al. An underwater image enhancement benchmark dataset and beyond[J]. IEEE Transactions on Image Processing, 2020, 29: 4376-4389. DOI: 10.1109/TIP.2019.2955241
[20] Korhonen J, You J. Peak signal-to-noise ratio revisited: Is simple beautiful[C]//Fourth International Workshop on Quality of Multimedia Experience, 2012: 37-38.
[21] Horé A, Ziou D. Image quality metrics: PSNR vs. SSIM[C]//20th International Conference on Pattern Recognition, 2010: 2366-2369.
[22] YANG M, Sowmya A. An underwater color image quality evaluation metric[J]. IEEE Transactions on Image Processing, 2015, 24(12): 6062-6071. DOI: 10.1109/TIP.2015.2491020
[23] Panetta K, GAO C, Agaian S. Human-Visual-System-Inspired Underwater Image Quality Measures[J]. IEEE Journal of Oceanic Engineering, 2016, 41(3): 541-551. DOI: 10.1109/JOE.2015.2469915
[24] Mittal A, Soundararajan R, Bovik A. Making a "Completely Blind" image quality analyzer[J]. IEEE Signal Processing Letters, 2013, 20(3): 209-212. DOI: 10.1109/LSP.2012.2227726