YOLOv5-LR: A Rotating Object Detection Model for Remote Sensing Images
-
摘要: 真实遥感图像中,目标呈现任意方向分布的特点,原始YOLOv5网络存在难以准确表达目标的位置和范围、以及检测速度一般的问题。针对上述问题,提出一种遥感影像旋转目标检测模型YOLOv5-Left-Rotation,首先利用Transformer自注意力机制,让模型更加注意感兴趣的目标,并且在图像预处理过程中采用Mosaic数据增强,对后处理过程使用改进后的非极大值抑制算法Non-Maximum Suppression。其次,引入角度损失函数,增加网络的输出维度,得到旋转矩形的预测框。最后,在网络模型的浅层阶段,增加滑动窗口分支,来提高大尺寸遥感稀疏目标的检测效率。实验数据集为自制飞机数据集CASIA-plane78和公开的舰船数据集HRSC2016,结果表明,改进旋转目标检测算法相比于原始YOLOv5网络的平均精度提升了3.175%,在吉林一号某星推扫出的大尺寸多光谱影像中推理速度提升了13.6%,能够尽可能地减少冗余背景信息,更加准确检测出光学遥感图像中排列密集、分布无规律的感兴趣目标的区域。Abstract: In a real remote sensing image, the target is distributed in any direction and it is difficult for the original YOLOv5 network to accurately express the location and range of the target and the detection speed is moderate. To solve these problems, a remote sensing image rotating target detection model, YOLOv5-Left-Rotation, was proposed. First, the transformer self-attention mechanism was used to make the model pay more attention to the targets of interest. In addition, Mosaic data were enhanced in the image preprocessing, and the improved Non-Maximum Suppression algorithm was used in post-processing. Second, an angle loss function was introduced to increase the output dimensions of the network, and the prediction box of the rotating rectangle was obtained. Finally, in the shallow stage of the network model, a sliding window branch was added to improve the detection efficiency of large-sized remote sensing sparse targets. The experimental datasets were the self-made aircraft dataset CASIA-plane78 and the public ship dataset HRSC2016. The results show that the average accuracy of the improved rotating target detection algorithm is improved by 3.175% compared with that of the original model, and the reasoning speed is improved by 13.6% in a large multispectral image swept by a Jilin-1 satellite. It can optimally reduce the redundant background information and more accurately detect the densely arranged and irregularly distributed areas of objects of interest in optical remote sensing images.
-
Keywords:
- remote sensing images /
- sliding window /
- attention mechanism /
- rotating object detection /
- YOLOv5
-
0. 引言
红外弱小目标跟踪的目的是从包含噪声污染、虚警与漏检等不确定性的红外测量数据中估计感兴趣目标的轨迹信息。红外小目标具有隐蔽性强、威胁性大、难以防御等特点[1]。因此,红外弱小目标跟踪的研究在侦察、制导以及预警等军用领域具有重要意义[2]。红外弱小目标跟踪(如远空无人机)的难点在于:①红外视频图像信噪比、对比度低,动态范围窄,目标存在场景复杂多变,目标不易发现;②弱小目标本身占用像素量少,缺乏纹理、颜色以及形状等特征信息,并且强度与背景接近时易产生漏检和虚警;③当传感器与目标机动,图像背景由静态转变为动态时,目标背景变化率大,目标轨迹呈非线性。
目标检测方面,基于单帧图像的红外弱小目标检测算法受到了广泛关注。为了有效抑制噪声,基于人类视觉的检测算法如多尺度的局部对比度测量(Local Contrast Measure, LCM)[3]以及多尺度绝对平均灰度差(Multi-Scale absolute average gray difference, MSAAGD)算法[4]通过给定多个边界框来检测场景中大小未知的目标,并且能抑制场景中的杂波。文献[5]则基于目标边界框模型,通过局部图像块中值以及极值确定分割弱小目标的最小阈值,与之前的算法相比具有更高的精度和更快的运算速度。然而当目标掩盖于杂波时,在图像中不具有显著性,强度也可能弱于杂波,此时需要通过目标跟踪算法来处理检测算法在检测过程中造成的漏检和虚警。
在目标跟踪方面,根据跟踪与检测的顺序分为检测前跟踪(Track Before Detect, TBD)和跟踪前检测(Detect Before Track, DBT)。对于前者,薛秋条等人基于随机有限集(Random Finite Set, RFS)[6]使用跳跃马尔可夫系统的概率假设密度(Probability Hypothesis Density,PHD)滤波[7]来跟踪红外场景中的机动目标,Kim D Y等人[8]则在此基础上采用精度更高的GLMB滤波器对红外弱小目标进行跟踪。TBD跟踪模式保留了图像所有的信息,在检测红外弱小目标时能减少目标信息的损失。但当目标强度小于掩盖其的复杂背景并且幅值波动时,其跟踪效率会降低。另一方面,在计算目标点与观测值的似然函数时计算量巨大,不利于实时跟踪。在DBT跟踪模式上,为了适应复杂多变的弱小目标跟踪场景,文献[9]提取感兴趣区域(Region of Interest, ROI)的目标灰度、对比度以及运动信息作为量测,再利用卡尔曼滤波作为目标预测手段,最后融合不同量测对应的权重来进行鲁棒跟踪。文献[10]则是使用支持向量机(Support Vector Machine, SVM)获取感兴趣的红外弱小目标候选区域,再通过伯努利滤波跟踪红外弱小目标,最后将长度较短的航迹识别为杂波,提取长度最长的轨迹作为目标轨迹。但卡尔曼滤波和伯努利滤波作为单目标跟踪器无法处理数据关联更为复杂的多目标跟踪场景。董小虎等人[11]通过图像灰度一致性对跟踪场景进行分类,根据跟踪场景选用不同的检测器获取目标量测,最后用带标签的PHD滤波跟踪多个红外弱小目标。然而PHD滤波由于泊松RFS的假设,其均值等于方差,在目标数量增长时,对目标数量的估计效果下降。
为了自适应地联合跟踪估计复杂场景下的红外弱小目标的位置与数量,本文工作如下:①根据图像的信息熵、图像灰度离散系数以及峰值信噪比等多个统计量确认跟踪场景,自适应地选择检测器。首先利用图像的信息熵、离散系数等特征对图片进行加权分类,再根据图像的复杂程度分别采用方向梯度直方图(Histogram of Oriented Gradient, HOG)特征[12]显著算法以及小边界框滤波算法检测弱小目标位置;②选取目标位置、灰度以及局部模板直方图作为量测,并根据这3类特征分别建立似然函数,增加跟踪的稳定性;③将未知检测概率的CPHD滤波器与GLMB结合,实时估计检测概率,并结合一种适用于图像的自适应新生算法完成航迹起始以达到稳定跟踪的目的。
1. 红外弱小目标的数学模型
1.1 红外弱小目标定义及表示
根据国际光学工程学会(SPIE)的定义:红外弱小目标尺寸占据画面小于15%,大小约为2×2~9×9个像素[13]。包含弱小目标的红外图像中任意像素灰度值F(x, y)定义为:
$$ F(x, y)=F_{\mathrm{T}}(x, y)+F_{\mathrm{B}}(x, y)+n(x, y) $$ (1) 式中:FT(x, y)≥0,FB(x, y)≥0分别代表目标和背景的灰度值;n(x, y)是服从高斯分布的零均值高斯白噪声。红外弱小目标像素灰度分布自然地建模为高斯分布:
$$ F_{\mathrm{T}} \approx a \exp \left\{-\frac{1}{2}\left[\frac{\left(x-x_0\right)}{\delta_x^2}+\frac{\left(y-y_0\right)}{\delta_y^2}\right]\right\} $$ (2) 式中:a表示目标像素峰值;(x0, y0)表示目标中心点的坐标;δx、δy则分别表示该像素点在水平、垂直方向上的标准差。
1.2 标签随机有限集多目标转移与似然函数
给定一个拓扑空间X⊆Rd, d≥1,RFS X是在其所有有限子集F (X)上取值的随机变量[6],其状态x∈X是随机且无序的。考虑一个离散可数空间L={αi: i∈N},其中N是正整数集,集合中的元素αi是互异的。标签随机有限集(Labeled Random Finite Set, LRFS)就是定义在状态空间和离散标签空间的笛卡尔积$ \mathbb{X} \times \mathbb{L} $上的有限值集,即在$ \mathbb{X} \times \mathbb{L} $取值的随机变量。
在本文常用数学函数上,内积记为$\langle f, g\rangle \triangleq \int f(x) g(x) \mathrm{d} x$,多目标指数表示为$h^X=\prod_{x \in X} h(x)$。其中,h是一个实值函数并规定hφ=1。广义克罗内克德尔塔函数定义为:
$$ \delta_Y(X)= \begin{cases}1, & \text { if } X=Y \\ 0, & \text { otherwise }\end{cases} $$ (3) 并且包含函数定义为:
$$ 1_Y(X)= \begin{cases}1, & \text { if } X \subseteq Y \\ 0, & \text { otherwise }\end{cases} $$ (4) 令$ \mathcal{L}: \mathbb{X} \times \mathbb{L} \rightarrow \mathbb{L}$为映射$ \mathcal{L}((x, l)) = l $,集合X的标签集表示为$ \mathcal{L}(\boldsymbol{X})=\{\mathcal{L}(\boldsymbol{X}): \boldsymbol{x} \in \boldsymbol{X}\} $。那么空间$ \mathbb{X} \times \mathbb{L} $上的有限子集X有各异的标签当且仅当$\delta_{|\boldsymbol{X}|_c}\left(|\mathcal{L}(\boldsymbol{X})|_c\right)=1$。这里算子|·|c表示集合的基数。
根据以上定义,标签单目标状态可描述为$\boldsymbol{x}=(x, l) \in \mathbb{X} \times \mathbb{L}$。通俗来讲,k时刻出现的每个标签是一个有序对l=(tb, i)。其中,tb≤k表示状态新生的时间,i是用于区分同一时间出现不同状态互异的标签。在当前时刻k令B表示新生标签空间,那么在k+1新生标签属于空间B+={(k+1, i): i∈N},并因此有L∩B+=φ。在k+1时刻所有状态属于空间记为L+=L∪B+。为紧凑表示,采用下标“+”来替代下一时间索引。
在标签多目标贝叶斯密度中,给定多目标转移密度f+和多目标似然g+,标签多目标状态的概率密度函数π的贝叶斯预测更新迭代过程为:
$$ \pi\left(\boldsymbol{X}_{+}\right)=\int f_{+}\left(\boldsymbol{X}_{+} \mid \boldsymbol{X}\right) \pi(\boldsymbol{X}) \delta \boldsymbol{X} $$ (5) $$ \pi_{+}\left(\boldsymbol{X}_{+} \mid Z_{+}\right)=\frac{g_{+}\left(Z_{+} \mid \boldsymbol{X}_{+}\right) \pi\left(\boldsymbol{X}_{+}\right)}{\int g_{+}\left(Z_{+} \mid \boldsymbol{X}_{+}\right) \pi\left(\boldsymbol{X}_{+}\right) \delta \boldsymbol{X}_{+}} $$ (6) 式中:公式(5)和(6)为文献[6]定义的集合积分,f(X+|X)和g+(Z+|X+)分别为多目标转移密度和多目标似然。
在预测阶段,针对从上一时刻存活到当前时刻的LRFS XS+和同时新生的LRFS XB+,给定单目标转移密度f(x+|x, l)δl(l+)和生存概率ps(x, l),多目标转移密度由以下式子给出:
$$ f_{+}\left(\boldsymbol{X}_{+} \mid \boldsymbol{X}\right)=f_{S+}\left(\boldsymbol{X}_{S+} \mid \boldsymbol{X}\right) f_{B+}\left(\boldsymbol{X}_{B+}\right) $$ (7) $$ \begin{aligned} & f_{S+}\left(X_{S+} \mid X\right)=\Delta\left(X_{S+}\right) \Delta(X) 1_{\mathcal{L}(X)}\left(\mathcal{L}\left(X_{S+}\right) \times\right. \\ & {\left[\varPhi_{S+}\left(X_{S+} \mid \cdot\right)\right]^X+\left[1-1_{\mathcal{L}\left(X_{S+}\right)}(l)\right]\left(1-p_S(x, l)\right)} \end{aligned} $$ (8) $$ \begin{aligned} \varPhi_{S+}\left(X_{S+} \mid x, l\right) & =\sum\limits_{\left(x_{+}, l_{+}\right) \in X_{S+}} \delta_l\left(l_{+}\right) p_s(x, l) f_{S_{+}}\left(x_{+} \mid x, l\right) \\ & +\left[1-1_{\mathcal{L}\left(X_{S+}\right)}(l)\right]\left(1-p_S(x, l)\right) \end{aligned} $$ (9) $$ f_{B+}\left(X_{B+}\right)=\Delta\left(X_{B+}\right) \omega_B\left(\mathcal{L}\left(X_{B+}\right)\right)\left[p_{B+}\right]^{X_{B+}} $$ (10) $$ \omega_B(L)=\left[1-r_{B_{+}}\right]^{\mathbb{B}_{+}-L} 1_{\mathbb{B}_{+}}(L)\left[r_{B_{+}}\right]^L $$ (11) 式中:pB+、ωB以及rB+为给定的滤波参数。
在更新阶段,针对多目标量测Z,给定检测概率为pD(x, l)似然和g(z|x, l)的量测$z \in \mathbb{Z}$,对应标签多目标集合X的多目标似然为:
$$ g(Z \mid \boldsymbol{X}) \propto \sum\limits_{\theta \in \Theta(\mathcal{L}(\boldsymbol{X})(x, l) \in \boldsymbol{X}} \prod \psi_Z^{(\theta(l))}(x, l) $$ (12) $$ \begin{aligned} & \psi_Z^{(\theta(l))}(x, l)=\delta_0(\theta(l)) q_{\mathrm{D}}(x, l) \\ & +\left(1-\delta_0(\theta(l))\right) \frac{p_{\mathrm{D}}(x, l) g\left(z_{\theta(l)} \mid x, l\right)}{\kappa\left(z_{\theta(l)}\right)} \end{aligned} $$ (13) 式中:κ(·)是泊松强度函数;Θ是单射θ: L→{0:|Z|}中所有正数的集合。泊松强度分别由平均杂波强度λc以及范围为图像尺度的均匀分布$\mathcal{U}(\mathbb{Z})$表示,即:$ \kappa = {\lambda _c}\mathcal{U}({{\mathbb{Z}}}) $。
2. 复杂环境红外弱小目标鲁棒跟踪算法
本文红外弱小目标跟踪总体框架以及细节如图 1所示,整个跟踪流程分为预处理、目标检测以及目标跟踪3个模块。
2.1 红外图像序列预处理与检测
在预处理模块,首先除去与弱小目标特征相似的坏点,再根据红外图像的特征信息判断其复杂性。文献[14]通过计算红外图像的信息熵,并以此为依据对红外图像进行分类。但若场景存在背景抖动以及目标机动的现象时,单纯地使用信息熵不能客观地判断场景复杂性。因此,本文计算红外图像信息熵E、离散系数(Coefficient of Variation, CoV)[15]来描述红外图像灰度分布特征,其对应的类型判别阈值分别设为Te,TCov;计算两帧图像间的峰值信噪比(Peak Signal to Noise Ratio, PSNR)以及结构相似性(Structural Similarity, SSIM)[16]用于衡量背景变化率,并且对应的分类阈值设为TPSNR,TSSIM。最终给定全局阈值TG对当前图像进行分类。由于缺乏对两帧图像间的PSNR进行量化分析的标准,因此考虑前后两个时刻PSNR的差分作为图像背景运动的依据。其中,diff表示差分算子,详细的操作细节由算法1给出。
在目标检测阶段,若图像场景判定为简单场景,此时场景中背景类型单一,弱小目标受杂波干扰较小,直接提取目标HOG特征;若图像场景判定为复杂场景,则采用的快速小目标边界框滤波器[5]提取弱小目标位置以及对应的图像遮罩。经过滤波后的图像仍然可能存在一些杂波,需要对图像进行阈值化处理与连通域分析得到红外图像最终的位置与图像遮罩,整体流程如图 1所示。
Algorithm 1: Classification algorithm for infrared image
输入:图像序列Ik,分类判别阈值Te,TCov,TPSNR,TSSIM,Tglobal,类型累计索引idx1,idx0
1. 计算图像Fk(x, y)的信息熵E(b)、Cov、PSNR以及SSIM
2. Tmp1= E(b) > Te;
3. Tmp2=Cov > TCov;
4. Tmp3=abs(diff(PSNR))>TPSNR;
5. Tmp4= abs(diff(SSIM))>TSSIM;
6. Tmp=ω1Tmp1+ω2Tmp2+ω3Tmp3+ω4Tmp4;
7. IF Tmp > Tglobal
判定图像为复杂图像;
idx1=idx1+1;
更新判定阈值:$T_{\text {global }}=\max \left(0, T_{\text {global }} \cdot\left(1-\frac{\mathrm{idx} 1}{\mathrm{idx} 1+\mathrm{idx} 0}\right) \cdot \alpha\right);$
else
判定图像为简单图像;
idx0=idx0+1;
更新判定阈值:$T_{\text {global }}=\min \left(1, T_{\text {global }} \cdot\left(1+\frac{\mathrm{idx} 0}{\mathrm{idx} 1+\mathrm{idx} 0}\right) \cdot \alpha\right);$
End
输出:红外图像Fk(x, y)的类型Classimg
2.2 红外弱小目标模型与量测模型
1.2节给出了弱小目标在贝叶斯框架下状态预测更新的一般范式,而对于未标签的单目标状态可表示为x=[p, Ix]T,p=[px, pxx, py, pyy]为目标的运动学特征,下标x,y以及xx,yy分别表示目标在x与y方向上的位置与速度,符号“T”表示转置。Ix表示目标所在点灰度值。那么量测可建模为z=[pz, Iz]T,pz=[pxz, pyz]表示量测点所在的位置,Iz表示量测点对应的灰度值。为了尽可能利用图像中的目标信息,对k时刻的红外图像Fk(x, y),以像素坐标(i0, j0)为中心,尺寸为M×N的局部直方图定义为[17]:
$$ \begin{gathered} H(b)=\sum\limits_{i=-\frac{M}{2}}^{\frac{M}{2}} \sum\limits_{j=-\frac{N}{2}}^{\frac{N}{2}} F\left(i_0+i, j_0+j\right) \\ F\left(i_0+i, j_0+j\right) \in\left[b \frac{K}{B}, (b+1) \frac{K}{B}\right] \\ b=0, \cdots, B-1 \end{gathered} $$ (14) 式中:F(i0+i, j0+j)为模板内像素的灰度值;B是灰度级区间数;K是区间内像素点值的动态范围。
弱小目标灰度由目标本身能量和场景噪声如大气光强度,含雾量决定,目标直方图由模板内前景与背景灰度同时决定。因此假设位置、灰度以及局部直方图 3类特征在统计上相互独立,将单目标似然函数拆分成3类特征对应似然函数的乘积:
$$ \begin{gathered} g(\boldsymbol{x} \mid z, l)=g(\boldsymbol{x} \mid z)=p\left(\boldsymbol{x}_p \mid z_p\right) \times \\ p\left(\boldsymbol{x}_I \mid z_I\right) \mathrm{e}^{(-(1-B(x \mid z)))} \end{gathered} $$ (15) $$ p\left(\boldsymbol{x}_p \mid \boldsymbol{z}_p\right)=\left(2 \pi \sigma_p\right)^{-\frac{1}{2}} \mathrm{e}^{-\frac{1}{2 \sigma_p^2}\left(z_p-x_p\right)^2} $$ (16) $$ p\left(\boldsymbol{x}_I \mid \boldsymbol{z}_I\right)=\left(2 \pi \sigma_I\right)^{-\frac{1}{2}} \mathrm{e}^{-\frac{1}{2 \sigma^2}\left(z_I-x_I\right)^2} $$ (17) $$ B(\boldsymbol{x} \mid z)=\sum\limits_{b=0}^{B-1} \sqrt{H_x(b) H_z(b)} $$ (18) 式(15)中:下标p,I分别表示状态向量以及量测向量对应的位置分量以及灰度值分量;0≤B(x|z)≤1为Bhattacharyya系数[18],用于衡量公式(18)求解出目标与量测对应的局部直方图的相似性。
2.3 自适应的广义标签多伯努利滤波
在目标跟踪阶段,采用自适应的GLMB滤波实现弱小目标跟踪。在1.2节中规定的检测概率pD(x, l)通常取值为常数,与传感器抖动,画面模糊而造成检测概率时变这一实际情况不匹配。对此,采用未知检测概率的CPHD[19]估计检测器的平均检测概率,再将其输入到GLMB滤波器中。而对目标新生的先验信息估计,则采用基于量测驱动[20]的自适应新生算法,使滤波器快速收敛。由于CPHD滤波器的低复杂度,检测概率可以有效快速地在滤波迭代中估计。而GLMB滤波作为跟踪器则可以输出目标轨迹。
2.3.1 自适应新生的广义标签多伯努利滤波
假设当前时刻多目标密度为GLMB密度为:
$$ \pi(\boldsymbol{X})=\varDelta(\boldsymbol{X}) \sum\limits_{(I, \xi) \in F(L) \times \Xi} \omega^{(I, \xi)} \delta_I(\mathcal{L}(\boldsymbol{X}))\left[p^{\xi}\right]^\boldsymbol{X} $$ (19) 式中:$I \in \mathcal{F}(\mathbb{L})$表示标签集中的标签;ξ∈Ξ为历史关联,每个pξ(·, l)表示目标在状态空间$\mathbb{X}$上的状态分布,并且$\int p^{\xi}(x, l) \mathrm{d} x=1$,每个非负权重ω(I, ξ)满足:
$$ \sum\limits_{I \in F(\mathbb{L})} \sum\limits_{\xi \in \Xi} \omega^{(I, \xi)}(L)=1 $$ (20) 在得到当前时刻的量测数据后,对目标的后验状态进行联合估计,更新的GLMB密度表示为[21]:
$$ \begin{aligned} & \pi_{+}\left(\boldsymbol{X}_{+} \mid Z_{+}\right) \propto \Delta\left(\boldsymbol{X}_{+}\right) . \\ & \sum\limits_{I, \xi, I_{+}, \theta_{+}} \omega^{(I, \xi)} \omega_{Z_{+}}^{\left(I, \xi, I_{+}, \theta_{+}\right)} \delta_{I_{+}}\left[\mathcal{L}\left(\boldsymbol{X}_{+}\right)\right]\left[p_{Z_{+}}^{\left(\xi, \theta_{+}\right)}\right]^{\boldsymbol{X}_{+}} \end{aligned} $$ (21) 式中:在得到下一时刻量测集Z+后,I+∈F(L+),ξ+∈Ξ+为下一时刻标签集中的标签和历史关联映射中的历史关联。并且式(21)中的各个因子表示为:
$$ \begin{aligned} & \omega_{Z_{+}}^{\left(I, \xi, I_{+}, \theta_{+}\right)}=1_{\Theta_{+}\left(I_{+}\right)}\left(\theta_{+}\right)\left[1-\bar{P}_S^{\xi}\right]^{I-I_{+}} \times \\ & \quad\left[\bar{P}_S^{\xi}\right]^{I-I_{+}}\left[1-r_{B, +}\right]^{\mathbb{B}_{+}-I_{+}} r_{B, +}^{\mathbb{B}_{+} \cap I_{+}}\left[\bar{\psi}_{Z_{+}}^{\left(\xi, \theta_{+}\right)}\right]^{I_{+}} \end{aligned} $$ (22) $$ \bar{P}_S^{\xi}(l)=\left\langle p^{\xi}(\cdot, l), p_S(\cdot, l)\right\rangle $$ (23) $$ \bar{\psi}_{Z_{+}}^{\left(\xi, \theta_{+}\right)}\left(l_{+}\right)=\left\langle\bar{p}_{+}^{\xi}\left(\cdot, l_{+}\right), \psi_{Z_{+}}^{\theta_{+}\left(l_{+}\right)}\left(\cdot, l_{+}\right)\right\rangle $$ (24) $$ \begin{aligned} & \bar{p}_{+}^{\xi}\left(x_{+}, l_{+}\right)=1_{\mathbb{B}+}\left(l_{+}\right) p_{B, +}\left(x_{+}, l_{+}\right)+ \\ & 1_{\mathbb{L}+}\left(l_{+}\right) \frac{\left\langle p_S\left(\cdot, l_{+}\right) f_{+}\left(x_{+} \mid \cdot l_{+}\right), p^{(\xi)\left(\cdot l_{+}\right)}\right\rangle}{\bar{P}_S^{\xi}\left(l_{+}\right)} \end{aligned} $$ (25) $$ p_{Z_{+}}^{\left(\xi, \theta_{+}\right)}\left(x_{+}, l_{+}\right)=\frac{\bar{p}_{+}^{\xi}\left(x_{+}, l_{+}\right)}{\psi_{Z_{+}}^{\theta_{+}\left(l_{+}\right)}\left(l_{+}\right)} $$ (26) 给定GLMB滤波密度,可以提取估计的多目标状态和轨迹[21]。采用吉布斯采样联合预测更新的方法,选取GLMB滤波密度的重要分量(高权重分量)。在标准的GLMB滤波迭代中,新生集合XB+以及检测概率pD是假设已知的。然而,在现实应用中这些先验信息通常是未知的。在提出的自适应GLMB滤波器中,检测概况是从一个独立运行的鲁棒CPHD滤波器中估计的。此外,文献[20]认为量测z∈Z与当前时刻上存在的对象关联的概率越低,下一个时刻上由新生对象生成的概率就越高。但在图像量测中,跟踪场景大小是固定的,除了目标存在场景中的第几个时刻,新生的目标更有可能从图像边缘中新生,对此本文提出一种适应于图像量测的自适应新生算法。
在给定公式(26)的GLMB密度后,量测z的关联概率可以表示为:
$$ r_U(z)=\sum\limits_{I \in \mathbb{F}(L)} \sum\limits_{\theta \in \Xi_{I, k}} 1_\theta(z) w^{(I, \theta)} $$ (27) 式中:ΞI, k当前时刻标签集I的关联映射集。包含函数1θ(z)确保了权重总和仅考虑将测量z分配给其轨道之一的那些假设。那么基于当前时刻量测z的下一时刻新生强度为:
$$ r_{B+}(z)=\min \left(r_{B, \max }, \frac{1-r_U(z)}{\sum\limits_{\xi \in Z} 1-r_{U(\xi)}} \cdot \lambda_{B+}\right) $$ (28) 式中:λB+是下一时刻新生目标的期望值;rB, max∈[0, 1]是最大新生强度。由于在图像中目标更有可能从图像边缘中新生,因此公式(28)改写为:
$$ r_{B+}(z)=\min \left(r_{B, \max }, \frac{1-r_U(z)}{\sum\limits_{\xi \in Z} 1-r_{U(\xi)}} \cdot \lambda_{B+} \cdot r_{\text {edge }}(z)\right) $$ (29) $$ r_{\text {edge }}(z)=\left(\min \sqrt{\left(p_z-x_{\text {center }}\right)^2}\right) / \max (M, N) $$ (30) 式中:xcenter为图像的中心点;pz为量测位置分量;M和N表示图像尺寸;redge为新生强度的控制遮罩,形状如图 2新生强度控制遮罩所示。
由文献[21]可知,GLMB自适应新生模型为标签多伯努利(Labeled Multi-Bernoulli, LMB)的形式:
$$ {\pi _{B, + }} = \left\{ {r_B^l, p_B^l} \right\}_{l = 1}^{\left| Z \right|} $$ (31) 即当前时刻的新生量由上一时刻的量测决定。然而,当场景从第1到第t(t≥2)时刻目标不出现或都发生漏检时,自适应新生模块将无法传递新生信息导致航迹起始失败。为了处理这一情况,本文在目标未出现或漏检时采用固定点新生算法,在存在量测时采用基于量测驱动的自适应新生,见算法2。
Algorithm 2: Adaptive new born algorithm
输入:上一时刻的GLMB密度,当前时刻量测集Z+,时间索引k
1. If |Z+|==0 & & k==1
按照固定参数进行新生;
else
根据公式(27)~(30)计算量测关联密度rU(z)、新生强度rB, +(z)以及强度控制参数redge(z);
End
输出:输出新生模型πB, +
2.3.2 基于CPHD滤波估计检测概率
由于CPHD滤波器在单目标空间上估计目标状态,避免了目标与量测数据关联时产生的巨大计算,本文采用未知检测概率的CPHD[19]估计图像序列目标检测概率。
令(Δ)=[0, 1]表示未知检测概率的空间,定义增广状态空间为:
$$ \underline{\mathbb{X}} = \mathbb{X} \times {\mathbb{X}^{\left( \varDelta \right)}} $$ (32) 下划线符号始终用于表示在增广状态空间上定义的函数或变量,即:$ \underline x = \left[ {x, a} \right] \in \underline{\mathbb{X}} $为增广状态。其中,x∈$X$为标签的单目标状态,a∈$X$(Δ)=[0, 1]为增广的检测概率。函数积分$ \underline f :\mathbb{X} \to \mathbb{R} $可表示成:
$$ \int_{\underline{\mathbb{X}} } {\underline f } \left( {\underline x } \right){\text{d}}\underline x = \int_{{\mathbb{X}^{\left( \varDelta \right)}}} {\int_\mathbb{X} {\underline f } } \left( {x, a} \right){\text{d}}x{\text{d}}a $$ (33) 增广的单目标生存概率和转移密度定义为:
$$ {\underline p _{S, + }}\left( {\underline x } \right) = {\underline p _{S, + }}\left( {x, a} \right) = {p_S}\left( x \right) $$ (34) $$ {f_ + }\left( {{{\underline x }_ + }\left| {\underline x } \right.} \right) = f\left( {{x_ + }\left| x \right.} \right)f\left( {{a_ + }\left| a \right.} \right) $$ (35) 新生目标由增广状态的强度$ {\underline \gamma _ + }\left( {{{\underline x }_ + }} \right) = \underline \gamma \left( {{x_ + }, {a_ + }} \right) $和基数分布$ {\rho _{{X_{B + }}}}\left( n \right) $给出。增广状态的单目标似然和检测概率分别表示为:
$$ {\underline p _{D + }}\left( {\underline x } \right) = {\underline p _{D + }}\left( {x, a} \right) = a $$ (36) $$ {\underline g _ + }\left( {z\left| {\underline x } \right.} \right) = {g_ + }\left( {z\left| {x, a} \right.} \right) = {g_ + }\left( {z\left| x \right.} \right) $$ (37) 给定当前时刻的PHD$ \underline v $和基数分布ρ,CPHD滤波的预测步为[19]:
$$ \begin{gathered} {\underline v _ + }\left( {{x_ + }, {a_ + }} \right) = \underline \gamma \left( {{x_ + }, {a_ + }} \right) + \hfill \\ \int {\int_0^1 {{p_{S, + }}\left( {{x_ + }} \right)} } f\left( {{x_ + }\left| x \right.} \right)f\left( {{a_ + }\left| a \right.} \right)\underline v \left( {x, a} \right){\text{d}}a{\text{d}}x \hfill \\ \end{gathered} $$ (38) $$ {\rho _ + }\left( n \right) = \sum\limits_{j = 0}^n {{\rho _{{X_{B + }}}}\left( n \right)\left( {n - j} \right)} \sum\limits_{l = j}^\infty {C_j^l\rho \left( l \right){{\left( {1 - \phi } \right)}^{l - j}}{\phi ^j}} $$ (39) 在得到下一时刻的量测集Z+,PHD和基数分布的更新公式为[19]:
$$ {\rho _ + }\left( n \right) = \frac{{\underline \Upsilon _ + ^0\left[ {{{\underline \upsilon }_ + };{Z_ + }} \right]\left( n \right) \cdot {\rho _ + }\left( n \right)}}{{\left\langle {\underline \Upsilon _ + ^0\left[ {{{\underline \upsilon }_ + };{Z_ + }} \right], {\rho _ + }\left( n \right)} \right\rangle }} $$ (40) $$ \begin{gathered} {\underline \upsilon _ + }\left( {{x_ + }, {a_ + }} \right) = [\left( {1 - a} \right)\frac{{\underline \Upsilon _ + ^1\left[ {{{\underline \upsilon }_ + };{Z_ + }} \right], {\rho _ + }\left( n \right)}}{{\left\langle {\underline \Upsilon _ + ^0\left[ {{{\underline \upsilon }_ + };{Z_ + }} \right], {\rho _ + }\left( n \right)} \right\rangle }} + \hfill \\ \sum\limits_{z \in {Z_ + }} {{{\underline \psi }_{z, + }}\left( {x, a} \right)} \frac{{\underline \Upsilon _ + ^1\left[ {{{\underline \upsilon }_ + };{Z_ + } - \left\{ z \right\}} \right], {\rho _ + }\left( n \right)}}{{\left\langle {\underline \Upsilon _ + ^0\left[ {{{\underline \upsilon }_ + };{Z_ + }} \right], {\rho _ + }\left( n \right)} \right\rangle }}]\underline \upsilon \left( {x, a} \right) \hfill \\ \end{gathered} $$ (41) 最终,平均检测概率$ {\bar p_{D, + }} $由每个目标估计的检测概率加权平均得到。
3. 仿真实现
为验证本文算法的有效性,采用国防科技大学和中国航天科工二院共同制作的《红外序列图像中小飞机目标检测跟踪数据集》[22]。根据跟踪场景的类型,按照文献的描述,选取第4、6、8、9、13、15、17、18、20以及22号数据的前250帧为代表进行跟踪测试。所测试数据集部分图像如图 3所示,对应的场景描述以及算法1给出的分类结果如表 1所示。
表 1 红外弱小目标数据集信息表Table 1. Infrared small target data set information sheetDataset Average SCR SCR Variance Description Type 4 3.75 3.646 Close range, two targets, sky background, intersecting flight Simple 6 5.11 1.571 Moving near and far, single target, ground background Simple 8 6.07 0.159 Moving far and near, single target, ground background Complex 9 6.29 17.086 Moving near and far, single target, ground background Complex 13 1.98 0.886 Target moving near and far, single target, weak target, ground background Complex 15 3.42 0.965 Single target, target maneuvering, ground background Complex 17 1.09 0.353 Target moving near and far, single target, weak target, ground background Complex 18 3.32 0.165 Target moving far and near, single target, ground background Complex 20 3.01 1.485 Single target, target maneuvering, sky background Complex 22 2.20 0.150 Target moving far and near, single target, ground background Complex 在表 1中数据采集的主要环境背景及数据的信杂比(signal-to-cluster ratio, SCR)定义为[22]:
$$ {\text{SCR}} = \frac{{\left| {{\mu _{{\text{tg}}}} - {\mu _{{\text{img}}}}} \right|}}{{{\delta _{{\text{img}}}}}} $$ (42) 式中:μtg表示目标所在区域均值;μimg为图像平均均值;δimg表示图像均值标准差。
3.1 图像预处理与检测结果分析
表 1最后一列为算法2计算后得到的分类结果,可以发现尽管数据集13、17以及22的平均SCR很低,算法却仍旧判定其为复杂类型,判断依据如图 4、图 5所示。图 4的4张子图分别为数据集17每张图像的信息熵、离散系数的倒数、PSNR以及SSIM的差分。这里给定图像类型判定阈值Te=6,TCov=4.5,TPSNR=5,TSSIM=0.3。不难看出数据17的信息熵和离散系数都大于判定阈值,尽管该场景SCR不大,但图像包含信息量过大,背景复杂。此外,PSNR和SSIM的差分序列波动较大,说明场景背景变化率大。在图像判定上,给定4个参数的权重{ωi}i=14={0.2, 0.2, 0.3, 0.3};判定阈值TG=0.5,算法2中的α为缩放因子,取值为0.01。每帧图像的复杂度分布如图 5所示,红色的虚线为图像类型判定全局阈值,蓝色的直线为算法2得到的图像分类决定值。图像数据表明当图像序列复杂类型数量占优时,全局判定阈值也会因此更新而逐渐下降,倾向于把整个跟踪场景判定为复杂场景。
在目标检测的设置上,图 6中的检测模块见算法2,其中,Tseg=μimg+5δimg,Tmin_seg=μimg-2δimg。图像在经过阈值分割后得到二值化图像后进行连通域分析,去除不符合弱小目标面积(2×2~9×9)的连通域。如图 6所示,本文算法能有效对弱小目标前景进行分割。
3.2 弱小目标跟踪算法结果分析
在GLMB滤波中,目标转移模型和量测模型均为线性高斯模型,定义为:
$$ {f_ + }\left( {{x_ + }\left| x \right.} \right) = N\left( {{x_ + };F\left( {x, w} \right), Q} \right) $$ (43) $$ g\left( {z\left| x \right.} \right) = N\left( {z;Hx, R} \right) $$ (44) 式中:N(·;m, P)是均值为m协方差为P的高斯密度;Q=diag([0.1, 0.01, 0.1, 0.01, 10])2为过程噪声协方差;R=diag([1, 1, 10])2为量测协方差;F为状态转移矩阵;H为量测提取矩阵。给定采样时间T=1 s,有:
$$ \boldsymbol{F} = \left( {\begin{array}{*{20}{c}} {{A_4}}&0 \\ 0&1 \end{array}} \right) $$ $$ {\boldsymbol{A}_4} = \left( {\begin{array}{*{20}{c}} 1&T&0&0 \\ 0&1&0&0 \\ 0&0&1&T \\ 0&0&0&1 \end{array}} \right) $$ $$ \boldsymbol{H} = \left( {\begin{array}{*{20}{c}} 1&0&0&0&0 \\ 0&0&1&0&0 \\ 0&0&0&0&1 \end{array}} \right) $$ 在滤波参数的布置上,每个目标的生存概率pS=0.99,最大假设数为1000,在服从泊松分布的杂波强度κ=λcU(Z)中,λc=10为单位面积内的杂波数,U(Z)=1/MN为均匀分布的概率密度。新生密度为贝塔高斯混合的形式:
$$ \underline \gamma \left( {x, a} \right) = \sum\limits_{j = 1}^J {{\omega ^j}\beta \left( {a;{s^j}, {t^j}} \right)N\left( {x;{m^j}, {P^j}} \right)} $$ 式中:J,ωj,sj,tj,mj,Pj,j=1, …, J为给定的模型参数。每个目标的检测概率a建模为贝塔分布,记为β(a; s, t)。本文将贝塔初始的参数设定为s=0.8,t=0.2,即其初始均值为0.8。P=diag([10, 2, 10, 2, 10])2为新生目标的协方差,m为新生目标的均值,J为新生目标的个数由新生强度决定。
对于检测器的检测效果设置漏检平均占比(Average Miss Detection Rate, AMDR)以及虚警平均占比(Average False Alarm Rate, AFAR)。AMDR为漏检帧数占总跟踪帧数的比率。单帧的虚警占比为由非目标产生的量测数占场景当前量测数的比率,AFAR则为所有帧数虚警占比的算数平均。为了衡量跟踪性能,对于单目标,采用均方根误差[23](Root Mean Squared Error, RMSE)衡量目标定位精度;将RMSE的标准差记为Rstd衡量跟踪的稳定性;引入文献[14]中的规定求解跟踪的成功率(Accuracy Rate, AR)以及准确率(Precision Rate, PR)。其中,成功跟踪定义为估计的目标位置位于以标签集为中心,大小为9×9像素的标注框中,AR则定义为成功检测的帧数占该数据集总帧数的比率。准确跟踪则是将标注框大小缩减至3×3。对于多目标跟踪,采用最优子模式分配(Optimal Sub-pattern Assignment,OSPA)[24]来同时衡量目标定位精度与目标数量精度。OSPA衡量的是估计状态随机集与真实目标随机集之间的误差,分别对目标位置和速度的估计进行评估。其中,OSPA度量的阶数设置为1,截断距离为30。
LRFS根据近似方法不同分为对应的联合估计算法分别为(Joint Generalized Labelled multi-Bernoulli, JGLMB)以及(Joint Labelled multi-Bernoulli, JLMB)[20],假设本文算法改进算法分别记为JGLMBAD和JLMBAD。其中,对比算法采用未改进的自适应新生算法,本文算法采用改进的自适应新生算法。图 7展示了本文算法和对比算法在不同红外场景下的跟踪效果。其中,真实目标被其质心张成的9×9大小的红色矩形框标注,作为对照的JLMB和JGLMB算法分别使用蓝色实线矩形框和绿色虚线矩形框标注,而本文所提算法JLMBAD和JGLMBAD分别用黄色和紫色矩形框标注。图 8对比的是多目标跟踪场景中本文算法与对比算法的OSPA误差。其中,从上到下分别是整体误差、位置误差以及基数误差。图 9是基数分布对比图,黑色实线为真实目标基数分布,蓝色虚线为本文算法估计分布,红色虚线则为对照算法基数分布。JGLMBAD滤波每个场景100次蒙特卡罗的实验平均跟踪性能如表 2所示。
表 2 本文算法在不同数据集下的跟踪结果Table 2. Tracking results of the proposed algorithm on different datasetsDataset AMD AFA AR PR Rstd, x Rstd, y 6 8% 2% 95.2% 93.6% 0.43761 0.86444 8 8% 9.5% 97.2% 89.2% 5.3831 2.6797 9 10% 11% 98.8% 92.4% 0.8031 0.8671 13 2% 0% 100% 98.8% 0.5980 0.6135 15 2% 8% 97.2% 86.4% 1.1927 0.6202 17 10.8 6% 100% 67.6% 1.2950 0.9641 18 1.2% 0% 99.6% 99.6% 0.6654 0.5817 20 0% 0% 100% 100% 0.2274 0.2453 22 21.6% 28.4% 96.8% 84.8% 1.2324 0.71792 图 7展示的分别是数据集4、8、9、15、18以及22的跟踪场景,数据集4为多目标跟踪场景,其余场景皆为单目标跟踪场景。在多目标对比场景中所有算法均能稳定目标,但在目标分离后由于传感器机动,JGLMB和JLMB出现了不同程度的目标偏离,本文所提出的算法则稳定跟踪目标。在单目标对比场景中,数据集8为传感器高机动场景,数据集15以及18为目标机动场景。在数据集8第58~66帧出现画面模糊与目标位置突变。通过对比可以发现,本文所提出算法在传感器机动时偏离目标位置较小。在数据集15第35帧中,JLMB出现漏估,JGLMB出现偏移。数据集18由于目标机动,所有滤波器均出现偏移,通过数据集18可以发现,JGLMB和JLMB偏移量更大。
综合对比表 2,本文所提出的算法在所有单目标场景都具有95%以上的成功跟踪率,尤其是在场景22虚警率及漏检率都较高的情况下均能顺利实现跟踪。在跟踪准确度上场景15、17由于目标机动且背景变化较快,因此跟踪精度有所下降。
为了对比本文提出算法与对比算法在时间上效能。本文在CPU型号为AMD Ryzen 7 5800H,内存为16 GB的笔记本上运行了不同的滤波算法,使用了包含两个目标的数据集4和单个目标的数据集8。从表 3可以发现,当目标仅为一个时,本文所提出算法均优于对比算法。LMB关于量测的时间复杂度为\$O(|Z|3) [25],本文引入CPHD估计检测概率,其由于初等对称函数的性质复杂度同为O(|Z|3)。但对比算法由于对场景检测概率的错误估计会导致其关联更多的虚警。因此,量测Z基数增长引起的时间增长大于LMB与GLMB叠加引起的时间耗损。而当目标不唯一时,由于产生的量测量增加,CPHD滤波部分带来的运算时间会使得本文算法运算量增加。因此,在数据集4中,本文提出的JGLMBAD算法要略慢于原始算法。而与GLMB滤波不同,其中的LMB滤波不传播多目标假设,因此在目标数量较多时,具有更快的运算时间。因此,JLMBAD算法与JLMB算法运算速度均快于JGLMB类算法。
表 3 每个滤波器的平均耗时Table 3. Average time cost of every filters Dataset Filter JLMB JLMBAD JGLMB JGLMBAD 4 3.8125 3.2813 7.625 8.8175 8 2.2031 1.951 2.625 1.6563 最后对比图 8~图 9,从位置误差上分析,标准JGLMB在对目标进行估计时需要一段时间收敛,而JGLMBAD得益于改进的自适应新生算法,能在一开始就收敛到真实目标的位置上。其次,在140~180帧目标间距离接近的这个区间,本文算法位置精度更高。除此之外,本文算法过估计与漏检发生的频次更低。
4. 结论
为了解决红外弱小目标跟踪场景中出现的漏检、虚警和随机噪声等不确定性导致目标跟踪困难的问题,本文将图像预处理、目标检测与目标跟踪整合在一起,通过计算图像信息熵、灰度离散程度等特征自适应地选择检测算法。并且,在原有的自适应GLMB滤波跟踪基础上,本文对自适应新生算法进行了改进,使其更适用于视频跟踪环境。本文所提出的追踪算法在多个红外视频序列上进行了实验验证,结果表明该算法能够有效地检测和跟踪红外弱小目标,并且具有较高的精度和鲁棒性。然而,本文所提出的追踪算法也存在计算量较大,对于实时性要求较高的场景不太适合等不足。
-
表 1 CASIA-plane78数据集不同检测方法对比
Table 1 Comparison of different detection methods in CasIA-Plane78 dataset
Methods mAP/% FPS Faster R-CNN 87.9 16.3 YOLOv4 89.1 59.8 YOLOv5 93.5 117.6 Ours 96.7 106.4 表 2 HRSC2016数据集不同检测方法对比
Table 2 Comparison of different detection methods in HRSC2016 dataset
Methods mAP/% FPS RR-CNN 79.6 5.06 R3Det 89.2 12.13 YOLOv5 95.5 126.58 Ours 98.3 104.17 -
[1] ZHANG X, CHEN G, LI X, et al. Multi-oriented rotation-equivariant network for object detection on remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.
[2] WANG Yi, Syed M A B, Mahrukh K, et al. Remote sensing image super-resolution and object detection: Benchmark and state of the art[J]. Expert Systems with Applications, 2022, 197: 116793. DOI: 10.1016/j.eswa.2022.116793
[3] XI Y Y, JI L Y, YANG W T, et al. Multitarget detection algorithms for multitemporal remote sensing data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.
[4] WANG Y Q, MA L, TIAN Y. State-of-the-art of ship detection and recognition in optical remotely sensed imagery[J]. Acta Automatica Sinica, 2011, 37(9): 1029-1039.
[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90. DOI: 10.1145/3065386
[6] WANG W, FU Y, DONG F, et al. Semantic segmentation of remote sensing ship image via a convolutional neural networks model[J]. IET Image Processing, 2019, 13(6): 1016-1022. DOI: 10.1049/iet-ipr.2018.5914
[7] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI: 10.1109/TPAMI.2015.2389824
[8] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[9] FANG F, LI L, ZHU H, et al. Combining faster r-cnn and model-driven clustering for elongated object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 2052-2065. DOI: 10.1109/TIP.2019.2947792
[10] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Proc of the European Conference on Computer Vision, 2016: 21-37.
[11] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: unified, real time object detection[C]//Computer Vision and Pattern Recognition, 2017: 6517-6525.
[12] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//IEEE conference on Computer Vision and Pattern Recognition, 2017: 6517-6525.
[13] Redmon J, Farhadi A. Yolov3: An incremental improvement[C]//IEEE conference on Computer Vision and Pattern Recognition, 2018, arXiv: 1804.0276.
[14] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection [C]//IEEE conference on Computer Vision and Pattern Recognition, 2020. arXiv: 2004.10934.
[15] ZHU Wentao, LAN Xianchao, LUO Huanlin, et al. Remote sensing aircraft target detection based on improved faster R-CNN[J]. Computer Science, 2022, 49(6A): 378-383. DOI: 10.11896/jsjkx.210300121
[16] LI D, ZHANG J. Rotating target detection for tarpaulin rope based on improved YOLOv5[C]// 5th International Conference on Artificial Intelligence and Big Data (ICAIBD), 2022: 299-303.
[17] YANG X, YANG J R, YAN J C, et al. SCRDet: Towards more robust detection for small, cluttered and rotated objects[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 8232-8241.
[18] WANG B R, LI M. A structure to effectively prepare the data for sliding window in deep learning[C]// IEEE 6th International Conference on Signal and Image Processing (ICSIP), 2021: 1025-2018.
[19] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[J/OL]. Computer Science, 2010, https://arxiv.org/abs/2010.11929.
[20] LAN Lingxiang, CHI Mingmin. Remote sensing change detection based on feature fusion and attention network[J]. Computer Science, 2022, 49(6): 193-198.
[21] LIU Z, WANG H, WENG L, et al. Ship rotated bounding box space for ship extraction from high-resolution optical satellite images with complex backgrounds[J]. IEEE Geoscience & Remote Sensing Letters, 2017, 13(8): 1074.
[22] LI Y, LI M, LI S, et al. Improved YOLOv5 for remote sensing rotating object detection[C]//6th International Conference on Communication, Image and Signal Processing (CCISP), 2021: 64-68.
[23] Institute of Automation. Chinese Academy of Sciences Remote sensing artificial intelligence algorithm competition platform[EB/OL]. https://www.rsaicp.com/portal/dataDetail?id=34.
-
期刊类型引用(2)
1. 贺昊辰,王琨,王纲,李苏芙,周霁宇,陈泽欣. 基于GROOVE-YOLO的电表铅封螺钉旋转检测算法. 现代制造工程. 2025(03): 99-106+114 . 百度学术
2. 刘冰冰,胡耀国,闫鹏,张青林. 改进YOLOv5s算法的遥感图像旋转目标检测. 激光杂志. 2024(12): 49-57 . 百度学术
其他类型引用(1)