Asymmetric Infrared and Visible Image Fusion Based on Contrast Pyramid and Bilateral Filtering
-
摘要: 为了同时保留红外图像的特征信息和可见光图像的细节信息,提出了一种基于对比度金字塔的非对称红外与可见光图像融合方法。首先,使用对比度金字塔对红外与可见光图像进行高频与低频信息分解,然后对高频部分采用绝对值取大方法进行融合,对于低频部分采用基于双边滤波的方法对红外与可见光图像进行非对称的处理;其次,使用对比度金字塔的逆变换得到融合后图像。对融合图像进行主观视觉和客观指标评价,结果表明该算法在突出目标特征信息和保留细节特征方面表现优异。Abstract: This study proposes an asymmetric infrared and visible image fusion method based on a contrast pyramid to save the feature information of infrared image and the detail information of visible image simultaneously. First, the contrast pyramid is used to decompose the high-frequency and low-frequency information of the infrared and visible images; then, the high-frequency part is fused by taking the largest absolute value, and the low-frequency part is processed differently by the method based on bilateral filtering. Second, the inverse transform of the contrast pyramid was used to obtain the fused image. Subjective visual and objective index evaluations were conducted on the fused image. The results show that the algorithm performs well in highlighting the target feature information and retaining detailed feature information.
-
Keywords:
- image fusion /
- infrared image /
- visible image /
- contrast pyramid /
- bilateral filter
-
0. 引言
高光谱遥感是指在电磁波谱的紫外、可见光、近红外和中红外区域,利用成像光谱仪获取窄而连续的光谱图像数据[1]。由于包含丰富的光谱信息使得高光谱图像(hyperspectral image,HSI)能够捕捉复杂的地物分布,因此HSI被广泛应用于深林植被保护、水质检测和地质勘测等[2]。然而,由于大气分子影响使图像存在椒盐噪声,以及光谱高维性所带来的冗余,给遥感图像实现准确的分类带来了极大挑战。
现有的遥感图像分类技术大致可分为基于像元的分类方法和基于联合空间特征和光谱信息分类的方法[3]。前者主要是通过同类地物光谱之间的相似性特征进行分类,一般采用支持向量机(support vector machine,SVM)、逻辑回归和反向传播神经网络等[4]。它们基于光谱特征的相似性进行特征提取、选择和分类,由于易受噪声和光谱冗余影响,分类精度普遍较低。而后者主要基于相似区域将空间信息和光谱信息进行结合从而提高分类精度,如利用形态学扩展、超像素分割和二维卷积网络(two dimensional convolutional neural network, 2DCNN)等[5]。它们主要依赖于对高光谱图像中的空间特征信息提取,并与光谱特征相结合从而提高分类精度。其中卷积网络以其自动挖掘特征的优势,摆脱了人工提取特征的困难,获得了研究者的广泛关注。如文献[6]提出了联合使用最大池和平均池的组合型二维网络以避免忽略相邻像素特征之间的相关性,有效地提高了网络的分类性能。但为了获得更好的特征提取,该方法需要堆叠深层的卷积层,增加了网络的复杂性与不可解释性。因此,文献[7]结合哈希特征来改善网络,通过使用哈希函数和二进制哈希码来改进语义特征的提取,以增强网络的可解释性。但未考虑光谱波段之间的相关性,且由于光谱信息的高维性,将导致计算量增大。为此,文献[8]提出使用三维卷积神经网络(three dimensional convolutional neural network, 3DCNN)作为分类器,以实现对空间和光谱特征的同时提取,在采用较少参数的同时显著提升了分类精度。但受限于固定大小的卷积核,未能对地物边界像元的特征进行较好提取,带来空间信息利用不足的问题。而文献[9]结合10层卷积层和1层全连接层构造了混合分类网络,通过联合使用一维、二维和三维的小卷积核来多尺度地提取光谱和空间特征,显著提升了分类结果。文献[10]设计了一种结合二维、三维卷积核的混合卷积网络,旨在提高对主成分分析(principal component analysis,PCA)降维后高光谱图像空谱特征的提取能力,同时降低了模型的复杂度,取得了较好的分类精度。但该模型需对不同数据集进行不同程度的降维,泛化能力不足,且空间和光谱特征融合仅限于三维卷积核,没有充分利用光谱信息和空间特征以及未考虑小样本对该模型分类的影响。
基于上述问题,本文提出了一种多特征融合下基于混合卷积胶囊网络(hybrid convolutional capsule network with multi-feature fusion,MFF-HCCN)的高光谱分类策略。首先,使用主成分分析和非负矩阵分解(non-negative matrix factorization,NMF)对HSI数据集进行降维;然后,使用简单非迭代聚类(Simple Non-Iterative Clustering,SNIC)算法和余弦聚类算法进行图像分割和聚类融合;最后,将融合后的数据集通过改进的混合卷积胶囊网络(hybrid convolutional capsule network,HCCN)进行分类。
1. MFF数据预处理
高光谱图像的光谱特征具有高维性和冗余性,导致计算量大、分类困难,在分类前一般采用PCA与NMF对高光谱数据集进行特征提取[11]。PCA依赖于采用最大化方差去相关性,以保留数据集信息的主要成分,但降维数据可正可负,造成PCA的基在原始数据方面不具有直观的物理意义[12]。虽然NMF分解结果为非负,具有可解释性和明确的物理意义,但进行高光谱图像的光谱解混时,易受噪声影响陷入局部最优[13]。为此,综合考虑二者的性能后,提出了一种PCA和NMF联合的多特征融合(multi-feature fusion,MFF)算法。
1.1 数据降维
给定一个高光谱图像数据$ {{\boldsymbol{H}}_{W \times H \times B}} = \left\{ {{{\boldsymbol{x}}_1}, {{\boldsymbol{x}}_2}, \cdots , {{\boldsymbol{x}}_n}} \right\} $,$ {{\boldsymbol{x}}_i} \in {\mathbb{R}^{W \times H \times B}} $,i=1, 2, …, n。其中,xi为HSI的第i个像元,n为高光谱像元数量,W和H分别为高光谱图像空间维的宽与高,B为光谱维波段数目。NMF的基本思想可以简述为对于任意给定的非负矩阵,总能找到一对非负加权基向量矩阵和非负加权系数矩阵相乘的形式。即可使用公式(1)对高光谱数据集降维到三维,得到$ {{\boldsymbol{I}}_{W \times H \times 3}} = \left\{ {{{\boldsymbol{x}}_1}, {{\boldsymbol{x}}_2}, {{\boldsymbol{x}}_3}} \right\} $。
$$ {{\boldsymbol{H}}_{(W \times H) \times B}} = {\boldsymbol{V}_{(W \times H) \times r}}{{\boldsymbol{W}}_{r \times B}} $$ (1) 式中:H(W×H)×B为高光谱数据;V(W×H)×r和Wr×B分别对应加权矩阵和加权系数矩阵;r为降维的特征数目。
虽然NMF能够较好地保留HSI的特征,但原始信息缺失较大,需要使用PCA对HSI进行降维。因此,使用PCA对HSI进行降维,分别得到前5主成分IW×H×5={PC1, PC2, …, PC5}和前16主成分IW×H×16={PC1, PC2, …, PC16}。图 1为以Pavia University数据集为例的PCA降维的各个成分之间的方差比例,数据的前5主成分和前16主成分信息分别保留在98%和99%以上。
1.2 超像素SNIC分割与聚类
超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,它能够提取图像局部特征,获取图像的冗余信息[14]。而为获取高光谱图像各类地物分布情况,使用文献[15]所提的SNIC分割算法对NMF所降维的三维图像进行分割。该算法是传统简单线性迭代聚类算法(simple linear iterative clustering, SLIC)的改进算法,它以单次迭代和强制性连接取代了SLIC的K-means聚类分割,能够更快、更有效地对物体边界分割。SNIC将图像由RGB颜色空间转化为颜色分明的CIELAB颜色空间,在迭代过程中以初始中心像元的4邻域或8邻域像元作为一个超像素,其距离计算公式如公式(2)所示。
$$ {d_{i, j}} = \sqrt {\frac{{||{{\boldsymbol{x}}_i} - {{\boldsymbol{x}}_j}||_2^2}}{s} + \frac{{||{{\boldsymbol{c}}_i} - {{\boldsymbol{c}}_j}||_2^2}}{m}} $$ (2) 式中:x=(x, y)T表示像元的空间位置;c=(l, a, b)T表示像元在CIELAB空间的颜色通道;s和m分别为第i个像元与第j个像元之间的空间距离和颜色距离的归一化因子。同时,m也称为紧密度参数,m值越高,超像素越紧凑,但边界贴合度越差,反之亦然。
使用NMF分解后的三维成分进行超像素分割而非PCA降维后的前3主成分,是因为NMF将数据集HW×H×B分解为三维的矩阵,能够较好地保留个别地物的分布情况。从图 2的Pavia University降维图可以看出,使用NMF降维后的图 2(a)比使用PCA降维的图 2(b)地物边界保留更加完整、清晰。然后,为保证分割图保留较为完整信息,将分割后的图像与高光谱数据集IW×H×5按像元空间位置进行合并,得到一个具有五维光谱通道的立方体图,如图 2(c)所示。
图 2(c)中的超像素可表示为Ik={x1k, x2k, x3k, x4k, x5k},k=1, 2, …, K。其中K表示超像素的个数。取每个超像素内所有像元光谱均值作为当前超像素的光谱值,并以每个超像素作为一个节点$ {{\boldsymbol{o}}_k} = \left\{ {{\boldsymbol{\bar x}}_1^k, {\boldsymbol{\bar x}}_2^k, {\boldsymbol{\bar x}}_3^k, {\boldsymbol{\bar x}}_5^k, {\boldsymbol{\bar x}}_5^k} \right\} $,即:
$$ {\boldsymbol{\bar x}}_i^k = \frac{1}{p}\sum\nolimits_{i = 0}^{p - 1} {{{\boldsymbol{x}}_i}} \; $$ (3) 式中:i={0, 1, …, p-1}为每个超像素所包含的像元个数;k={1, 2, …, K}为第k个超像素。因此,得到一个节点向量$ {\boldsymbol{O}} = \left\{ {{\boldsymbol{o}}_1^{\text{T}}, {\boldsymbol{o}}_2^{\text{T}}, \cdots , {\boldsymbol{o}}_K^{\text{T}}} \right\} $,同时也得到了一个均值化后的HSI图像数据$ {{\boldsymbol{I'}}_{W \times H \times 5}} $。
对于地物分布的初始聚类,$ {{\boldsymbol{I'}}_{W \times H \times 5}} $拥有丰富的光谱信息。为了得到更为精确的粗分类,以光谱波段之间的夹角作为相似性度量,引入余弦聚类算法对$ {{\boldsymbol{I'}}_{W \times H \times 5}} $进行无监督分类。余弦聚类中的距离公式如下所示:
$$ {r_{\text{U}}} = \frac{1}{n}\sum\limits_{i \in n, j \in n, i \ne j} {\left( {\frac{{{{\boldsymbol{x}}_i}}}{{\sigma _{{{\boldsymbol{x}}_i}}^{(0)}}}} \right)\left( {\frac{{{{\boldsymbol{x}}_j}}}{{\sigma _{{{\boldsymbol{x}}_j}}^{(0)}}}} \right)} $$ (4) 式中:$ \sigma _{{{\boldsymbol{x}}_i}}^{(0)} = \sqrt {\frac{1}{n}\sum\nolimits_{i = 1}^n {{\boldsymbol{x}}_i^2} } $,$ \sigma _{{{\boldsymbol{x}}_j}}^{(0)} = \sqrt {\frac{1}{n}\sum\nolimits_{j = 1}^n {{\boldsymbol{x}}_j^2} } $,$ \sigma _{{{\boldsymbol{x}}_i}}^{(0)} $和$ \sigma _{{{\boldsymbol{x}}_j}}^{(0)} $为两个样本波段之间的标准差,范围在-1和1之间,其系数的距离计算如下:
$$ d_{\mathrm{U}}=1-r_{\mathrm{U}}, \quad d_{\mathrm{U}} \in[0, 2] $$ (5) 以像元间光谱波段的夹角余弦距离度量像元的相似性,取代传统的欧式距离度量,并做K-means聚类得到的聚类结果作为图像的初始分类标签Cini={L1, L2, …, Lini}。其中,Li表示类标签,ini表示初始聚类得到标签数量。
1.3 多特征融合
仅使用单一的IW×H×16虽然保留较为完整的光谱信息并去除了一定的冗余噪声,但同谱异物、异物同谱问题仍然突出,所以这里使用$ {{\boldsymbol{I'}}_{W \times H \times 5}} $取代IW×H×16光谱维的前5主成分可以在一定程度上增加同类地物像元之间的相似性和异物之间的差异性。然而SNIC算法在进行图像分割时会产生一定的误差,因此在此基础上加入IW×H×3和标签集Cini,这将有效提高异物像元之间的差异性,具体如公式(6):
$$ {{\boldsymbol{I}}_{W \times H \times 20}} = {{\boldsymbol{I'}}_{W \times H \times 11}} + {{\boldsymbol{I'}}_{W \times H \times 5}} + {{\boldsymbol{I}}_{W \times H \times 3}} + {{\boldsymbol{C}}_{{\text{ini}}}} $$ (6) 对所获得的IW×H×20进行归一化处理得到$ {{\boldsymbol{I'}}_{W \times H \times 20}} $,易于分类处理。归一化处理函数如下:
$$ {\boldsymbol{D'}} = \frac{{{{\boldsymbol{D}}_i} - \min \left\{ {\boldsymbol{D}} \right\}}}{{\max \left\{ {\boldsymbol{D}} \right\} - \min \left\{ {\boldsymbol{D}} \right\}}} $$ (7) 式中:D为给定的待归一化的数据集;Di为D的元素;D′为归一化后的结果。
2. 分类网络
高光谱数据集经过以上预处理后,可以得到一个具有空谱融合特征的20维数据集。为了进一步提高对空间和光谱特征的利用率,首先使用4种不同尺度的三维卷积核对数据集进行空谱特征提取,然后使用3种不同尺度的二维卷积核进一步提取局部空间特征,最后通过具有方向特性的胶囊网络进行分类。
2.1 HCCN网络
已知输入数据集为$ {{\boldsymbol{I'}}_{W \times H \times 20}} \in {\mathbb{R}^{W \times H \times 20}} $,从$ {{\boldsymbol{I'}}_{W \times H \times 20}} $立方体中创建3D邻域块$ {\boldsymbol{P}} \in {\mathbb{R}^{Q \times Q \times 20}} $,Q为输入图像的宽和高。为了能够充分利用图像的空间信息,以重叠的3D块作为输入,并以中心像素的标签作为该立方块的类别标签。故在整个数据集$ {{\boldsymbol{I'}}_{W \times H \times 20}} $中总共生成了(W-Q+1)(H-Q+1)个3D邻域块。其中,每一块P所对应的中心位置为(α, β),P的空间大小为Q×Q。因此每一块3D邻域块可由其中心表示,即宽的范围为α-(Q-1)/2~α+(Q-1)/2,高的范围为β-(Q-1)/2~β+(Q-1)/2,光谱波段数为20。然后将所得的邻域块输入到三维卷积网络中。
在三维卷积过程中,第i层第j个特征图在空间位置(x, y, z)处的特征值$ {\boldsymbol{v}}_{i, j}^{x, y, z} $可由公式(8)得到:
$$ {\boldsymbol{v}}_{i, j}^{x, y, z} = f(\sum\limits_{\tau = 1}^{{d_{t - 1}}} {\sum\limits_{\lambda = - \eta }^\eta {\sum\limits_{\rho = - r}^r {\sum\limits_{\sigma = - \delta }^\delta {{\boldsymbol{w}}_{i, j, \tau }^{\sigma , \rho , \lambda } \times {\boldsymbol{v}}_{i - 1, \tau }^{x + \sigma , y + \rho , z + \lambda }} } } } + {b_{i, j}})\; $$ (8) 式中:f为ReLU激活函数;bi, j为第i层第j个特征图的偏置;di-1为第(i-1)层特征图的数量和用于生成第i层第j个特征图卷积核wi, j的深度,2r+1、2δ+1和2η+1分别为卷积核wi, j的宽度、高度和光谱通道数。
首先,为了加强对不同空间尺度特征提取,在三维卷积层中使用3×2×3、2×3×3、2×1×3和1×2×7四种不同大小的三维卷积核,可以得到一系列具有空谱特征的立方体特征图。然后,将所得的特征立方体图根据其光谱通道数变换为二维特征图,分别使用3种不同尺度的3×3、2×2和1×1二维卷积核进行滤波处理,如公式(9)所示。并将每个滤波器输出的二维特征图平铺为一维向量并进行叠加如公式(10)所示。
$$ {\boldsymbol{v}}_{i, j}^{x, y} = f({b_{i, j}} + \sum\limits_{\tau = 1}^{{d_{i - 1}}} {\sum\limits_{\rho = - r}^r {\sum\limits_{\sigma = - \delta }^\delta {{\boldsymbol{w}}_{i, j, \tau }^{\sigma , \rho } \times v_{i - 1}^{x + \sigma , y + \rho }} } } ) $$ (9) $$ {{\boldsymbol{v}}_0} = \mathop \cup \limits_{h = 2, 3, 5} {{\boldsymbol{v}}_{h \times h}} $$ (10) 式中:h为使用的二维卷积核的宽和高大小;vh×h为二维卷积层输出特征图整形后的结果。$ {{\boldsymbol{v}}_0} = \left\{ {{\boldsymbol{v}}_0^1, {\boldsymbol{v}}_0^2, \cdots , {\boldsymbol{v}}_0^{{n_2}}} \right\} $表示叠加后的特征值;n2表示输入的向量个数。
将叠加后的v0输入到胶囊网络中进行特征提取,获得一组具有大小和方向的向量[16]。胶囊卷积是传统神经网络的一种改进形式,它具有平移不变性以及可以自动选择图像的位置、大小和方向等特征并做特征的聚类以强化相似性,输出一种更具有表达力的特征向量。因此,使用胶囊网络接收多尺度卷积层输出的特征可以有效提高对不同特征的提取和判别能力,以提升模型的分类性能。图 3展示了胶囊网络内部神经元的加权组合过程。
首先,将输入向量v0通过权重$ {\boldsymbol{W}} = \left\{ {{{\boldsymbol{w}}_{1j}}, {{\boldsymbol{w}}_{2j}}, \cdots , {{\boldsymbol{w}}_{{n_2}j}}} \right\} $获得一组新的输入神经元$ {\boldsymbol{U}} = \left\{ {{{\boldsymbol{U}}_{j|1}}, {{\boldsymbol{U}}_{j|2}}, \cdots , {{\boldsymbol{U}}_{j|{n_2}}}} \right\} $如公式(11)所示。然后,通过公式(12)乘上耦合系数$ {\boldsymbol{c}} = \left\{ {{c_{1j}}, {c_{2j}}, \cdots , {c_{{n_2}j}}} \right\} $以增加异物特征的差异性并求和输出胶囊sj。最后通过压缩激活函数获得一组压缩后的胶囊向量,如公式(13)所示。
$$ \boldsymbol{U}_{j \mid i}=\boldsymbol{W}_{i j} \cdot \boldsymbol{v}_{i}, \quad i=1, 2, \cdots, \quad n_{2}, \quad j \in N $$ (11) $$ {{\boldsymbol{s}}_j} = \sum\limits_i {{c_{ij}} \cdot {{\boldsymbol{U}}_{j|i}}} $$ (12) $$ {{\boldsymbol{u}}_j} = \frac{{{{\boldsymbol{s}}_j}}}{{||{{\boldsymbol{s}}_j}||}} \cdot \frac{{||{{\boldsymbol{s}}_j}|{|^2}}}{{1 + ||{{\boldsymbol{s}}_j}|{|^2}}} $$ (13) 式中:i为图像中的特征位置;j为任意向量神经元。$ \frac{{{{\boldsymbol{s}}_j}}}{{||{{\boldsymbol{s}}_j}||}} $使向量单位化,即将sj的模长压缩为1。$ \frac{{||{{\boldsymbol{s}}_j}|{|^2}}}{{1 + ||{{\boldsymbol{s}}_j}|{|^2}}} $表示sj的模长越大,其代表的特征就越强。
对于所获得的每一个胶囊属于一个类,使用胶囊向量的模值长度表示对应像元的类概率。因此使用公式(14)边缘损失作为整个网络的损失函数:
$$ {L_{\text{M}}} = \sum\limits_{j = 1}^{cn} {\left[ {{T_j}\max {{\left( {0, {a^ + } - ||{{\boldsymbol{u}}_j}||} \right)}^2} + \lambda \left( {1 - {T_j}} \right)\max {{\left( {0, ||{{\boldsymbol{u}}_j}|| - {a^ - }} \right)}^2}} \right]} $$ (14) 式中:a+=0.9,a-=0.1,λ=0.25,如果像元属于第j类,Tj=1。参数a+表示输出的向量||uj||的长度大于a+时,则可以确定该像元属于第j类;参数a-表示||uj||小于a-时,则像元不属于第j类。λ为控制权值大小的参数,以达到当像元误判时停止初始化学习。
所提HCCN分类如图 4以Pavia University数据集为例所示,其各层参数如表 1所示。
表 1 Pavia University数据集卷积分类各层的参数Table 1. Parameters of each layer of convolutional classification of Pavia University datasetNetwork layer (type) Convolution kernel Stride Parameter Output Input layer
Conv3D layer1
Conv3D layer2
Conv3D layer3
Conv3D layer4
Reshape1
Conv2D layer1
Reshape2
Conv2Dlayer2
Reshape3
Conv2Dlayer3
Reshape
Concatenate
Capsule
Output layer
(3, 2, 3, 16)
(2, 3, 3, 16)
(2, 1, 3, 64)
(1, 2, 7, 64)
(1, 1, 64)
(2, 2, 64)
(3, 3, 64)
(1, 1, 1)
(1, 1, 1)
(1, 1, 1)
(1, 1, 1)
(1, 1)
(1, 1)
(1, 1)
0
304
4624
6208
57408
0
32832
0
131136
0
294976
0
0
9216
(11, 11, 20)
(9, 10, 18)
(8, 8, 16)
(7, 8, 14)
(7, 7, 8)
(7, 7)
(7, 7)
(49, 64)
(6, 6)
(36, 64)
(5, 5)
(25, 64)
(110, 64)
(9, 16)
9表 1中卷积核的前3个数为核的大小,第四个数为核的数量。输出大小表示每层输出特征图的大小。如第一层卷积层的卷积核的参数为(3, 2, 3, 16),分别表示卷积核大小为3×2×3和核的数量为16。输出为(9, 10, 18),表示输出的特征图大小为9×10×18。
2.2 MFF-HCCN算法步骤
MFF-HCCN算法主要分为以下几步:
步骤1:使用PCA对HSI数据集进行降维,获取前5主成分IW×H×5和前16主成分IW×H×16并使用NMF获取HSI的前3成分IW×H×3。
步骤2:使用SNIC分割算法对IW×H×3进行分割,并对超像素内像元的前5主成分进行平均得到$ {\boldsymbol{I}'_{W \times H \times 5}} $。以每个超像素为结点通过公式(4)的余弦聚类得到聚类标签Cini。
步骤3:以$ {\boldsymbol{I}'_{W \times H \times 5}} $取代IW×H×16的前5主成分,并融合IW×H×3和Cini获得IW×H×20。
步骤4:对IW×H×20使用公式(7)进行归一化处理,并输入到改进的混合卷积胶囊网络HCCN中进行分类处理。
MFF-HCCN算法的结构图如图 5所示。
3. 仿真分析与讨论
3.1 实验数据
实验以3种公开的遥感数据集Indian Pines、Pavia University和WHU-Hi-Longkou来检验算法分类效果。
1)Indian Pines数据集[7]。该数据集是通过AVIRIS传感器于1992年6月获取的来自美国印第安纳州北部农业区的具有220个波段的高光谱遥感图像,光谱波段范围为0.4~2.5 μm。该图像大小为145×145像素,空间分辨率约为20 m。该数据去除了水吸收和低信噪比波段后为200个波段数据,总共划分为16类真实地物,如表 2所示。
表 2 Indian Pines数据集的地物类别和样本数Table 2. Land cover classes and numbers of samples in Indian Pines datasetNo. Class name Numbers of samples 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16Alfalfa
Corn-notill
Corn-min
Corn
Grass-pasture
Grass-trees
Grass-pasture-mowed
Hay-windrowed
Oats
Soybean-notill
Soybean-mintill
Soybean-clean
Wheat
Woods
Buildings-grass-trees-crives
Stone-steel-towers46
1428
830
237
483
730
28
478
20
972
2455
593
205
1265
386
93Total 10249 2)Pavia University数据集[7]。该数据集是通过ROSIS传感器于2001年获取的Pavia大学的场景图,具有115个光谱波段,光谱波段范围在0.43~0.86 μm,所获图像大小为610×340像素,空间分辨率大约为1.3 m,真实标记地物划分为9类。实验选取103个波段用于分类,如表 3所示。
表 3 Pavia University数据集的地物类别和样本数Table 3. Land cover classes and numbers of samples in Pavia University datasetNo. Class name Numbers of samples 1
2
3
4
5
6
7
8
9Asphalt
Meadows
Gravel
Trees
Painted metal sheets
Bare soil
Bitumen
Self-blocking bricks
Shadows6631
18649
2099
3064
1345
5029
1330
3682
947Total 42776 3)WHU-Hi-Longkou数据集[17]。该数据集是通过搭载Headwall Nano-Hyperspec成像传感器的无人机于2018年7月获取的中国湖北省龙口镇农业场景图,具有270个光谱波段,光谱波段范围在400~1000 nm,所获图像大小为550×400像素,空间分辨率约为0.463 m,真实标记地物划分为9类,如表 4所示。
表 4 WHU-Hi-Longkou数据集的地物类别和样本数Table 4. Land cover classes and numbers of samples in WHU- Hi-Longkou datasetNo. Class name Numbers of samples 1
2
3
4
5
6
7
8
9Corn
Cotton
Sesame
Broad-leaf soybean
Narrow-leaf soybean
Rice
Water
Roads and houses
Mixed weed34511
8374
3031
63212
4151
11854
67056
7124
5229Total 204542 3.2 参数设置
在对高光谱图像进行分类时,使用SNIC将Indian Pines数据集分割为200个超像素。考虑到没有标记地物的影响,初始聚类数目为18类。当对Pavia University数据集进行分类时,SNIC将其分割为800个超像素,初始聚类数目为11类。同样,在对WHU-Hi-Longkou数据集进行分割时,将其分割为500个超像素,初始聚类数目为11类。SNIC的紧密度参数m设置为10。模型batch size设置为128,初始学习率为0.001,衰减速率为1×10-6。网络训练迭代次数为300次,网络输入大小为11×11×20。
为了验证所提策略在分类方面的高效性,与以下策略进行对比:SVM、PCA-SVM、MFF-SVM、3DCNN[8]、PCA-3DCNN、MFF-3DCNN、PCA- HybridSN[10]。其中,带有PCA的分类策略表示使用相同20维的PCA降维数据集,用于对比所提MFF算法的有效性。PCA-HybridSN和所提策略MFF-HCCN使用相同大小的batch和网络输入。SVM使用径向基函数,惩罚系数为100。实验分类结果的评估准则使用总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系数进行评估。
3.3 仿真结果分析
在Indain Pines分类实验中,随机选取数据集的10%和90%分别作为训练样本和测试样本,仿真结果如表 5所示。首先对比SVM和PCA-SVM以及3DCNN和PCA-3DCNN分类情况,易见未降维的分类策略所获得的分类精度优于使用PCA降维的分类策略。这是由于Indain Pines数据集具有低的空间分辨率和高的光谱分辨率,“同谱异物,异物同谱”现象较为严重,所以此时大多分类策略主要利用数据集光谱维波段的差异性来对地物像元进行精准分类。而PCA线性降维破坏了光谱波段间的非线性相关关系,降低了像元间的光谱差异性,导致分类精度下降。与此同时,通过对比还可以发现使用3DCNN分类策略优于SVM分类策略,这是因为3DCNN在进行卷积操作时能够有效地提取局部空间特征,从而进一步提高分类精度。接着使用MFF-SVM和MFF-3DCNN分类策略与前面所述的分类策略进行对比,可以发现相比于PCA降维和未降维的分类策略,后两种分类策略的OA、AA和Kappa都获得了显著的提升。因为所提的MFF算法使用SNIC算法将相似且相邻的地物像元划分到多个小区域,并对每个超像素进行均值化从而提高了同类地物像元的相似性和异物地物像元的差异性。而且MFF算法又对均值化的图像融合多种光谱特征进一步提高了地物像元的差异性,减少了SNIC误分割带来的影响。最后将所提MFF-HCCN分类策略与最新的PCA-HybridSN分类策略相比,可见所提策略在OA、AA和Kappa精度上分别提升了2.472%、1.924%和2.814%,表明了所提策略能够有效地利用空谱特征。这是因为相比于PCA-HybridSN分类策略,所提的MFF-HCCN分类策略在二维卷积层使用了3种不同尺度的二维卷积核。通过对三维卷积层输出的特征图多尺度的局部特征提取,从而提高了对空谱特征的利用率。与此同时,所提分类策略又使用胶囊网络作为输出层,通过对二维卷积层输出的特征转换为具有大小和方向的胶囊向量作为输出,可以提高对地物像元的判别能力。当然,在训练时间方面,所提策略相对于3DCNN和HybridSN网络使用较多的卷积层和胶囊网络,复杂度较高,所以在相同20维光谱特征下,所提分类策略训练时间较长。图 6为Indian Pines数据集的伪彩色图和其真实地物标记图。图 7展示了不同分类策略在10%训练样本下的分类结果,可以发现所提方法分类效果最佳,而且使用MFF算法的分类策略相比其他策略图像更为平滑。
表 5 各算法在Indian Pines数据集10%训练样本下的分类结果比较Table 5. Comparison of the classification results of each algorithm under 10% training samples of the Indian Pines datasetSVM PCA-SVM MFF-SVM 3DCNN PCA-3DCNN MFF-3DCNN PCA-Hybrid SN MFF-HCCN OA(%)
AA(%)
Kappa×10080.369
75.027
77.49365.431
54.874
59.30689.442
86.284
87.96491.09
90.443
89.74386.101
80.647
84.13492.926
94.204
91.94396.758
95.871
96.30999.230
97.795
99.123Train times/s 590.3 275.2 275.2 248.2 733.4 在Pavia University分类实验中,选取数据集的2%和98%分别作为训练集和测试集,仿真结果如表 6所示。易知在Pavia University数据集下,所使用分类策略的精度相比于Indian Pines数据集时都表现出更好的分类效果,这是因为Indian Pines数据集存在数据不平衡问题,而Pavia University则有着较高的空间分辨率和较少的地物类别。首先对比SVM、PCA-SVM、3DCNN和PCA-3DCNN四种分类策略,可以发现PCA-3DCNN分类精度最高,PCA-SVM分类精度最低。这是由于3DCNN能够同时提取空间和光谱特征,提高了地物像元类别的判断能力。然而光谱的高维性也使得了3DCNN的空间特征和光谱信息不能较好地结合,适当地降维提高网络对空谱特征的提取,因此PCA-3DCNN获得了更好的分类效果。然后将MFF-SVM和MFF-3DCNN策略分别与SVM和PCA-3DCNN策略对比,发现使用MFF算法的分类策略在分类精度方面都得到显著提升,证明了基于SNIC分割的MFF算法可以有效地融合空谱特征。最后将所提MFF-HCCN策略与PCA-HybridSN策略对比,发现前者可以取得更好的分类精度,其OA、AA和Kappa系数相比于PCA-HybridSN策略分别提高了1.312%、1.317%和1.743%。表明所提MFF-HCCN能够更好地对高分辨率、高光谱图像进行地物分类,其主要原因是该策略通过聚类融合、卷积提取和胶囊判别有效地挖掘了地物的空谱特征。图 8和图 9展示了使用不同分类策略在2%训练样本下的分类结果图,可以发现所提方法图像更为平滑,误分类较为集中,这是由于使用超像素分割和均值化的结果。
表 6 各算法在Pavia University数据集2%训练样本下分类结果比较Table 6. Comparison of the classification results of each algorithm under 2% training samples of the Pavia University datasetSVM PCA-SVM MFF-SVM 3DCNN PCA-3DCNN MFF-3DCNN PCA-HybridSN MFF-HCCN OA(%)
AA(%)
Kappa$ \times $10091.913
88.899
89.20478.147
64.517
69.41795.274
93.946
93.69993.338
90.960
91.13795.840
94.157
94.47597.674
96.386
96.90497.941
97.304
97.26799.253
98.621
99.010Train times/s - - - 366.6 256.2 256.2 212.9 574.4 在WHU-Hi-Longkou分类试验中,随机选取数据集的0.5%和99.5%作为训练集和测试集,仿真结果如表 7所示。由表 7可知,所提分类策略的总体分类精度分别优于PCA-3DCNN和PCA-HybridSN分类。同时,通过对比也可以发现,WHU-Hi-Longkou数据集是一种高空间分辨率和高光谱分辨率的影像,相比传统基于像元的SVM分类策略,基于卷积神经网络的分类策略在分类时由于融合了空间信息,因此分类精度普遍较高。对比MFF-SVM和SVM分类策略,可以发现,MFF预处理方法使用SNIC分割方法在一定程度上融合了一定程度的空间信息,使得同类像元相似性增大,异类像元差异性加大,更易于SVM分类器判别。图 10为WHU-Hi-Longkou数据集的伪彩色图和地物标记图。图 11为0.5%训练样本下各个分类策略的分类结果图。
表 7 各算法在WHU-Hi-Longkou数据集0.5%训练样本下分类结果比较Table 7. Comparison of the classification results of each algorithm under 0.5% training samples of the WHU-Hi-Longkou datasetSVM PCA-SVM MFF-SVM 3DCNN PCA-3DCNN MFF-3DCNN PCA-HybridSN MFF-HCCN OA(%)
AA(%)
Kappa$ \times $10095.036
83.133
93.43788.933
58.389
85.38898.032
94.894
97.40094.233
83.464
92.40998.336
98.736
95.16398.759
96.309
98.36998.716
97.233
98.31599.024
97.278
98.718Train times/s - - - 491.2 382.1 382.1 353.9 816.3 为了衡量所提策略在不同训练样本下的鲁棒性,这里使用总体分类精度OA作为判断标准,如图 12所示。其中横坐标表示不同训练样本的数目比例,纵坐标表示对应的OA精度,可以发现无论是Indian Pines数据集或是Pavia University数据集或是WHU-Hi-LongKou数据集,各个分类策略的OA曲线图均随训练样本的增加呈平稳上升的趋势,显然更多的训练集能有助于分类精度的提升。所提MFF-HCCN分类策略在不同数据集的不同样本情况下,保持了稳定的效果,分类精度始终优于其他策略。值得注意的是,所提策略在极少训练样本下仍能够取得较好的分类精度,如在Indian Pines数据集下仅使用2%的训练样本仍能够获得90.503%的总体分类精度,分别比SVM、PCA-SVM、MFF-SVM、3DCNN、PCA-3DCNN、MFF-3DCNN和PCA-HybridSN高24.052%、32.534%、16.088%、28.452%、22.205%、12.715%和13.48%。与此同时,当采用Pavia University数据集的0.2%样本作为训练样本时,所提策略的总体精度为88.217%,相比于其他分类策略分别提高了10.041%、15.588%、2.82%、15.923%、1.886%、4.229%、6.143%。而对于WHU-Hi-LongKou数据集,仅使用数据集的0.1%作为训练样本,总体分类精度可达97.296%,明显优于其他分类策略。可见,所提策略在小样本场景下依然适用,这是因为使用了SNIC分割算法、多尺度二维卷积核和胶囊网络能有效提升对图像局部空间特征的提取能力,从而能实现小样本情况下高光谱图像分类精度的提高。
4. 结论
针对现有高光谱图像分类方法中空间和光谱利用率不足的问题,提出了一种多特征融合下基于混合卷积胶囊网络的高光谱图像分类策略。首先针对传统PCA降维未能利用空间特征,设计了基于超像素的PCA和NMF联合降维的MFF算法,以有效地将空间特征融入到降维的数据集中。同时通过将多种特征相融合来降低误分割带来的误差,以及避免超像素内像元均值化导致像元光谱维过于简单产生卷积网络过拟合的现象。然后,设计一种多核的混合卷积分类网络,通过使用多尺度二维核对三维卷积输出的特征图进行特征提取,进一步提高了对空谱特征的利用。最后,使用胶囊对卷积网络输出的局部特征进行胶囊变换,输出具有大小和方向的胶囊,以提高不同类别像元的判别精度。实验在传统的Indian Pines和Pavia University公共数据集下对比所提分类策略与传统分类策略分类情况,结果表明,该策略在总体精度、平均精度和Kapp系数方面均表现最佳,而且当使用较少训练样本时所提策略依然能够取得较高的分类精度,证明了所提策略利用空谱特征提高分类精度的有效性。与此同时,为了体现所提分类策略的应用价值,在近年精准农业方面的WHU-Hi-LongKou数据集上进行仿真,实验证明该分类策略具有良好的分类性能和泛化能力。
-
表 1 不同融合方法的客观指标对比
Table 1 Comparison of objective indicators between different fusion methods
Image Object indicators LP Wavelet DTCWT Proposed method House AG 0.0190 0.0174 0.0176 0.0220 IE 7.11 6.55 6.65 7.14 EI 0.192 0.173 0.178 0.225 Road AG 0.0190 0.0167 0.0163 0.0198 IE 7.17 6.36 6.48 7.12 EI 0.196 0.170 0.171 0.206 Ship AG 0.00830 0.00750 0.00770 0.0105 IE 6.02 5.02 5.14 6.30 EI 0.0850 0.0761 0.0789 0.108 -
[1] Waxman A M, Gove A N, Fay D A, et al. Color night vision: opponent processing in the fusion of visible and IR imagery[J]. Neural Networks, 1997, 10(1): 1-6. http://www.onacademic.com/detail/journal_1000034198621910_6953.html
[2] XIANG T, YAN L, GAO R. A fusion algorithm for infrared and visible images based on adaptive dual-channel unit-linking PCNN in NSCT domain[J]. Infrared Physics & Technology, 2015, 69: 53-61. http://www.onacademic.com/detail/journal_1000037435766010_b6cd.html
[3] ZHAO J, GAO X, CHEN Y, et al. Multi-window visual saliency extraction for fusion of visible and infrared images[J]. Infrared Physics & Technology, 2016, 76: 295-302. http://smartsearch.nstl.gov.cn/paper_detail.html?id=4f0b14c597a48653341d44502ab3dc75
[4] YAN L, CAO J, Rizvi S, et al. Improving the performance of image fusion based on visual saliency weight map combined with CNN[J]. IEEE Access, 2020, 8(99): 59976-59986. http://ieeexplore.ieee.org/document/9044861
[5] Lewis J J, Robert J. O'Callaghan, Nikolov S G, et al. Pixel- and region-based image fusion with complex wavelets[J]. Information Fusion, 2007, 8(2): 119-130. DOI: 10.1016/j.inffus.2005.09.006
[6] 赵立昌, 张宝辉, 吴杰, 等. 基于灰度能量差异性的红外与可见光图像融合[J]. 红外技术, 2020, 42(8): 775-782. http://hwjs.nvir.cn/article/id/hwjs202008012 ZHAO Lichang, ZHANG Baohui, WU Jie, et al. Fusion of infrared and visible images based on gray energy difference[J]. Infrared Technology, 2020, 42(8): 775-782. http://hwjs.nvir.cn/article/id/hwjs202008012
[7] 崔晓荣, 沈涛, 黄建鲁, 等. 基于BEMD改进的视觉显著性红外和可见光图像融合[J]. 红外技术, 2020, 42(11): 1061-1071. http://hwjs.nvir.cn/article/id/c89c0447-6d07-4a75-99f6-1bf8681cf588 CUI Xiaorong, SHEN Tao, HUANG Jianlu, et al. Infrared and visible image fusion based on bemd and improved visual saliency[J]. Infrared Technology, 2020, 42(11): 1061-1071. http://hwjs.nvir.cn/article/id/c89c0447-6d07-4a75-99f6-1bf8681cf588
[8] 李辰阳, 丁坤, 翁帅, 等. 基于改进谱残差显著性图的红外与可见光图像融合[J]. 红外技术, 2020, 42(11): 1042-1047. http://hwjs.nvir.cn/article/id/6e57a6fb-ba92-49d9-a000-c00e7a933365 LI Chenyang, DING Kun, WENG Shuai, et al. Image fusion of infrared and visible images based on residual significance[J]. Infrared Technology, 2020, 42(11): 1042-1047. http://hwjs.nvir.cn/article/id/6e57a6fb-ba92-49d9-a000-c00e7a933365
[9] ZHOU Z, WANG B, LI S, et al. Perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with Gaussian and bilateral filters[J]. Information Fusion, 2016, 30: 1-13. DOI: 10.1016/j.inffus.2015.11.002
[10] Toet A. Image fusion by a ratio of low-pass pyramid[J]. Pattern Recognition Letters, 1989, 9: 245-253. DOI: 10.1016/0167-8655(89)90003-2
[11] Akerman A. Pyramidal techniques for multisensor fusion[C]// Proceedings of SPIE the International Society for Optical Engineering, 1992, 1828: 124-131.
[12] LI Huafeng, QIU Hongmei, YU Zhengtao, et al. Infrared and visible image fusion scheme based on NSCT and low-level visual features[J]. Infrared Physics and Technology, 2016, 76: 174-184. DOI: 10.1016/j.infrared.2016.02.005
[13] 彭进业, 王珺, 何贵青, 等. 基于非下采样Contourlet变换和稀疏表示的红外与可见光图像融合方法[J]. 兵工学报, 2013, 34(7): 815-820. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO201307003.htm PENG Jinye, WANG Jun, HE Guiqing, et al. Fusion method for visible and infrared images based on non-subsampled Contourlet transform and sparse representation[J]. Acta Armamentarii, 2013, 34(7): 815-820. https://www.cnki.com.cn/Article/CJFDTOTAL-BIGO201307003.htm
[14] Pajares G, Jesús Manuel de la Cruz. A wavelet-based image fusion tutorial[J]. Pattern Recognition, 2004, 37(9): 1855-1872. DOI: 10.1016/j.patcog.2004.03.010
[15] 朱攀, 刘泽阳, 黄战华. 基于DTCWT和稀疏表示的红外偏振与光强图像融合[J]. 光子学报, 2017, 46(12): 213-221. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB201712028.htm ZHU Pan, LIU Zeyang, HUANG Zhanhua. Infrared polarization and intensity image fusion based on dual-tree complex wavelet transform and sparse representation[J]. Acta Photonica Sinica, 2013, 34(7): 815-820. https://www.cnki.com.cn/Article/CJFDTOTAL-GZXB201712028.htm
-
期刊类型引用(4)
1. 陈材,韩潇,杨三强,邓浩,蒋疆,祁俊峰. 空间反射镜选区激光熔化成形工艺研究. 航天制造技术. 2025(01): 72-78 . 百度学术
2. 王连强,刘洋,王灵杰,曾雪锋,周頔,张德浩. 可快速、大批量研制的金属基铍铝反射镜分级设计方法. 军民两用技术与产品. 2025(02): 43-49 . 百度学术
3. 张楚鹏,杨贤昭,陈肖. 轻量化铝反射镜拓扑优化与加工试验研究. 应用光学. 2024(05): 1034-1041 . 百度学术
4. 张成成,何斌,吕阳,聂婷,贺玉坤. 小卫星空间跟踪遥感相机二维摆镜组件优化设计. 仪器仪表学报. 2022(07): 54-62 . 百度学术
其他类型引用(3)