光电侦察吊舱对海广域搜索方法

方喜波

光电侦察吊舱对海广域搜索方法

方喜波

凯迈（洛阳）测控有限公司，河南洛阳 471009

详细信息

作者简介:
方喜波（1978-），男，湖北新洲人，硕士，高级工程师，主要研究方向为红外成像、光电系统等。E-mail: fangxbrww@163.com

中图分类号: TN965
计量
- 文章访问数: 324
- HTML全文浏览量: 49
- PDF下载量: 78
出版历程
- 收稿日期: 2018-06-18
- 修回日期: 2018-06-27
- 刊出日期: 2021-11-19

Searching Method of the Wide Area of Optical Recon Pod for Sea Targets

FANG Xibo

CAMA (LuoYang) Measurements & Controls Co, Ltd, Louyang 471009, China

摘要

摘要: 光电侦察吊舱对海搜索方式与搜索范围是直升机对海搜索效率与搜索力配置研究的基础。基于直升机及其光电侦察吊舱的性能特点，提出了直升机对海搜索的两种基本搜索方式和覆盖面积；建立了直升机搜索面积计算模型，为直升机系统采用不同的搜索方式进行搜索时计算其搜索效率和搜索力的配置提供了决策依据。为了易于搜索区域发现感兴趣的目标，同时介绍了针对扫描搜索区域图像拼接的处理方法。
- 光电侦察吊舱 /
- 伺服控制 /
- 图像拼接
Abstract: The search efficiency of a sea target helicopter can be studied based on the searching method and search width of the optical recon pod of the helicopter. According to the characteristic performance of the optical recon pod and helicopter, two basic methods of searching and covering square are proposed for the helicopter to search the sea target. According to the developed search covering square, the commander can determine how to configure the recourses to attain the optimal efficiency. In addition, the processing method for image stitching for the scanned search area is introduced to identify the target of interest in the easy search area.
- optical recon pod /
- servo control /
- image stitching

HTML全文

0. 引言

高分辨率遥感图像与无人机航拍图像中的目标检测在智慧交通、城市建设、军事应用等领域具有举足轻重的作用。而近年来，随着深度学习在视觉领域的应用，虽然目标检测得以快速发展，但基于无人机和遥感图像的小目标检测仍是一大难点。

目前基于卷积神经网络（convolution neural net-work，CNN）的深度学习特征提取方案，已经广泛应用于目标检测的各个领域。Pascal VOC^[1]与MS COCO^[2]这些基线数据集的出现对于目标检测的发展与应用起到了至关重要的作用，并随之出现了以RCNN^[3]、Faster-RCNN^[4]、Mask-RCNN^[5]、以及SPP-Net^[6]为代表的Two-Stage检测算法，此类算法精度较高但是速度慢，为此Redmon等人提出了以YOLO（You Only Look Once^[7-10]）与SSD^[11]为代表的One-Stage算法。Yolo算法的诞生极大地促进了目标检测的应用与发展，目前已经更新到YOLO v8。以上算法均采用通用框架因此对于常规数据集中目标检测的泛化效果较好，但对于小目标检测，因其目标尺度较小，会在特征提取过程中出现特征丢失的情况。

特征金字塔结构在近年来的小目标检测中被广泛应用。为了提升小目标检测能力，Zhu^[12]和Dong^[13-14]等主要关注浅层特征提取，构建了自下而上的特征提取网络，与常规特征提取网络不同，此类网络同时融合了浅层特征与高层特征的语义信息。Zhang^[15-16]等采用自上而下的特征提取方式，通过构建特征提取网络结构分别负责上采样与下采样，并在两个网络结构之间构建连接以实现不同层信息流的交叉融合，构成特征金字塔网络（feature pyramid network，FPN），有效提升了对小目标的表征能力。Cheng^[17]等在FPN的基础上在特征融合过程中采用1×1卷积操作降维，实现跨通道的特征整合，并且可以降低参数，以实现多尺度目标检测。

在注意力领域，受处理序列信息的Transformer网络启发，Dosovitskiy^[18]等人提出了一种用于图片处理的Transformer模型，Vaswani^[19]等人在此基础上进一步提升，在小目标检测领域Zhu^[20]等人利用改进的Transformer检测头在小目标检测数据集VisDrone上取得了最先进（state of the art, SOTA）的表现，VIT（vision transformer）的参数量过大，因此Liu^[21]等人设计了Swin-Transformer采用滑动窗口的方式对每一个窗口进行局部化计算。

常规场景的目标检测已取得了很好的效果，但相较于常规场景的目标检测，基于高分辨率遥感图像与无人机航拍图像的小目标检测因为目标尺度小、目标分布密集、背景复杂等特点，导致常规的检测模型难以达到理想的检测效果。并且目前小目标检测算法几乎只关注于精度提升而并不考虑模型的参数量增加相对于精度提升的边际效应，缺乏实用性。

因此，本文针对高分辨率遥感图像与无人机航拍图像的小目标的尺度特性，与基线算法的结构特点，提出了一种小目标检测算法：加速视觉变换器改进YOLOv8算法（fast vision transformer-YOLO v8，FVIT-YOLO v8），该算法主要特性有：

改进双向多尺度特征融合网络，在常规提取的过程中，通过增加连结结构实现跨特征层融合，会加强浅层神经网络的语义特征提取与不同层特征的融合。

对YOLO v8s预测层进行改进，去除原网络中用于预测大目标的层，同时增加用于小目标检测的P2层，以增强对小目标检测识别的效果。

添加基于Transformer的全局注意力机制，在Transformer Encoder特征图输入阶段采用网格化处理并reshape为序列输入，大幅降低了参数量并在Encoder层加入平均池化层弱化复杂背景影响。

1. FVIT-YOLO v8算法

1.1 YOLO v8s概述

YOLO v8s作为目前最新的YOLO系列网络，其网络简化结构如图 1所示，在主干网络部分依旧沿袭YOLO v5系列的跨阶段部分连接（cross stage partial，CSP）思想，采用C2f模块实现了进一步的轻量化；在特征金字塔（feature pyramid network，FPN）结构上使用了PAN-FPN结构；在检测头部分采用Decoupled-Head检测头，并且使用了Anchor-Free的思想；在损失函数方面YOLO v8使用VFL Loss作为分类损失，使用DFL Loss+CIOU Loss作为回归损失；并抛弃了以往的IOU匹配或者单边比例的分配方式，而是使用了任务对齐分配（task-aligned assigner）匹配方式。

图 1 YOLO v8模型结构简图

Figure 1. Schematic diagram of YOLO v8 model structure

下载: 全尺寸图片幻灯片

1.2 FVIT-YOLO v8介绍

本文改进的FVIT-YOLOv8的网络结构如图 2所示，主要由YOLO v8s主干网络（BackBone），双向多尺度融合交叉FPN（Neck），全局动态自注意力机制轻量化视觉变化器（light vision transformer, LVIT）以及轻量化检测头（Head）组成。在主干特征提取网络中我们沿用了YOLO v8s的BackBone，在Neck部分我们重新设计了一种双向多尺度融合交叉FPN用于小目标特征提取，并且在FPN内部加入本文改进的轻量化Transformer Encoder结构提升网络对于全局特征的注意力，最后在预测层加入专用于小目标检测的P2层并移除原网络中的P4、P5层，使FVIT-YOLO v8适用于高分辨率遥感图像与无人机航拍图像的小目标检测。

图 2 FVIT-YOLO v8小目标检测算法网络结构

Figure 2. Network structure of the improved YOLO v8s small target detection algorithm

下载: 全尺寸图片幻灯片

1.3 多尺度加权融合交叉FPN——CROSS-FPN

多尺度特征融合是小目标检测的重要手段，本文在YOLO v8原FPN（如图 1所示）基础上重新设计了多尺度加权融合交叉FPN网络结构如图 3，本文在改进FPN中加入F算子，算子结构如图 3所示，其中红色箭头表示特征输入，蓝色箭头表示特征输出，在特征输入下采样过程中使用步长为2的3×3卷积对输入特征进行卷积，其他方向采样则使用1×1卷积进行降维输入，最终通过F算子实现跨特征层融合，再将融合特征通过1×1卷积进行通道整合并二次降维输出。相对于YOLO v8s直接从N5层到N4、N3、N2的上采样，我们将N5层的特征信息传入F算子，通过1×1卷积降维，在降低参数的同时，也使得N4层获取了更为丰富的通道特征信息。

图 3 多尺度加权融合交叉FPN网络结构

Figure 3. The network architecture of small object multi-scale fusion cross FPN with multilevel feature integration

下载: 全尺寸图片幻灯片

在预测层，本文首先基于DOTA数据集^[22]对高分辨率遥感图像与无人机航拍图像的小目标的特点进行了分析，再参考小目标定义与数据集分布的阈值范围，将YOLO v8的预测层进行重新设计，剔除了原始模型中关注大目标的预测层，并且增加了P2层获取融合特征进行小目标的预测，在提升数据集精度的同时，还降低了一部分的参数量，最终的改进FPN在DOTA数据集上实现了3%的精度提升，相对于原网络（YOLO v8s）降低了69.1%的参数量。

具体步骤如下：

输入图像为640×640时，通过多次特征提取经历C₁、C₂、C₃、C₄、C₅下采样，再经过N₅、N₄、N₃、N₂的上采样，形成双向特征融合网络，下采样过程特征图从320×320像素减到20×20像素，每经历一次特征提取，特征图像变为原图的1/4。在进行上采样时以N₄层为例，首先通过1×1的卷积将N₅与C₄的特征输出作降维处理，对于C₃的输出采用3×3的卷积进行处理，通过F算子接收来自这三层的跨特征层信息做交叉融合，将融合特征通过1×1卷积操作进行降维输出，N₃与N₂层同理。在预测层同样使用F算子进行通道整合输出操作，相较于原网络融合了更多的跨通道特征，并且根据数据集样本分布情况，针对小目标检测剔除了原网络中的P₄、P₅层并增加了针对小目标检测所调优的P₃检测层，在降低原始网络参数量的同时较大幅度增加了网络对于小目标的表征与检测能力。本文在做跨通道信息交互时多次采用1×1的卷积操作，在整合通道的同时也起到了降维与减少计算与参数量的作用。

C₁、C₂、C₃、C₄、C₅对应主干网络的不同层次的特征，对应下采样倍率2、4、8、16、32，使用F算子进行多尺度的融合交叉连接，融合3种不同层次的特征，使用stride为2和上采样加卷积的操作实现特征尺度对齐，1×1卷积实现不同层次的特征融合，并引入了C₂特征进一步融合浅层特征加强空间建模能力，将F算子引入自下而上的特征融合，在最后的预测层阶段，本文舍弃了原始的P₄、P₅层，并增加了P₂层负责检测更大输出特征层尺度上的小目标，并保持原有的P₃层进行bbox的预测。图 3中的特征图以P₃与N₄为例，可以使用公式(1)与公式(2)来表示融合计算:

$$ \begin{aligned} & P_3= \\ & \operatorname{Conv}\left(\frac{\operatorname{Conv}\left(\omega_1 \cdot N_4^{\text {out }}\right)+\operatorname{Conv}\left(\omega_2 \cdot N_3^{\text {out }}\right)+\operatorname{Conv}\left(\omega_3 \cdot P_2^{\text {out }}\right)}{\omega_1+\omega_2+\omega_3+\varepsilon}\right) \end{aligned} $$

(1)

$$ \begin{aligned} & N_4= \\ & \operatorname{Conv}\left(\frac{\operatorname{Conv}\left(\omega_1{ }^{\prime} \cdot C_4^{\text {out }}\right)+\operatorname{Conv}\left(\omega_1{ }^{\prime} \cdot N_5^{\text {out }}\right)+\operatorname{Conv}\left(\omega_1{ }^{\prime} \cdot C_3^{\text {out }}\right)}{\omega_1+\omega_2+\omega_3+\varepsilon}\right) \end{aligned} $$

(2)

式中：ω₁与ω₁′代表不同权值，采用上角标用以区分不同特征处理的通道，使用下角标数值区分不同层的输入，因采用跨特征加权融合操作使得同一层可能含有多个输出，因此上式涉及输出通道均已用红色箭头于图 2表示。Conv表示卷积操作；ε为融合加权超参数，此处设为0.001。

因为本文在设计F算子进行跨通道特征融合时，出现了混叠效应，所以在进行特征层下采样的过程中并未使用1×1的卷积进行降维操作，而是采用3×3的卷积处理下采样的输出特征，这种方法可以有效消除横向连接与下采样特征融合过程中产生的混叠效应。

1.4 C2f模块

对于原网络中的C2f结构如图 4所示。首先输入的信息流经过CBS模块，该模块由Conv、BatchNorm和后面的SiLU组成。相对于YOLOv5，YOLOv8将Conv操作换成了3×3的卷积，Bottleneck与YOLOv5相同，但第一个conv的卷积核大小从1×1更改为3×3。从这些信息中，我们可以看到YOLO v8开始回归到2015年提出的ResNet^[23]网络，在C2f中所有Bottleneck的输出都通过残差结构在Concat层进行整合，可以通过调节N（Bottleneck堆叠个数），来增加网络的深度，类似YOLO v7中的ELAN结构融合了丰富的梯度流信息。

图 4 C2f模块结构

Figure 4. The structure of the C2f module

下载: 全尺寸图片幻灯片

1.5 Transformer encoder模块的轻量化及C2f模块改进

本文将YOLO v8s的C2f模块采用经过轻量化改进的Transformer Encoder模块进行替换。近两年Vision Transformer（VIT）发展迅速，并且为图像处理领域带来了新的思路，受其启发本文在设计网络时将Transformer结构与原网络进行融合，并且对于Transformer中的一些结构进行调整，在提升精度的同时，很大程度减少了网络参数量。VIT^[24]中的多头注意力机制结构相较于YOLOv8 Neck结构中的C2f结构，其对全局特征的感知要优于C2f中的残差结构。因考虑本网络输入窗口较小，因此本文并未进行position embedding操作，同时Transformer在计算注意力矩阵的过程中会增加网络的参数量并且与序列长度相关，而原始Transformer中的patch操作会产生大量序列，因此本文采用网格化划分替代patch操作以降低参数量。因遥感图像背景复杂，本文在LN层后加入了平均池化操作可以一定程度上弱化背景影响并降低参数，经过上述改进在提升精度1.4%的同时模型整体参数量减小到5.41 M，参数量仅为原模型的48%。

Transformer架构基于一种自注意力机制，该机制可以有效学习序列中各个元素之间的关系，与递归的处理序列元素并且只关注于短期的上下序列之间关系的网络相反，Transformer可以关注到完整的序列信息，与其他注意力机制相比，如硬注意力，需要蒙特卡洛采样来确定位置，其本质上是随机的，ViT模型在计算效率和精度方面比目前最先进的CNN几乎高出4倍。

Transformer Encoder中有多个块，每个块由3个主要处理元素组成：Layer Norm、Multi-head Attention Network（MHSA）、Multi-Layer Perceptrons（MLP），其中Layer Norm使训练过程保持稳定，并让模型适应训练图像之间的变化。

在多头注意力机制中，每个头都有自己的投影矩阵W_i^Q、W_i^K、W_i^V，它们分别计算使用这些矩阵投影的特征值的注意力权重。多头注意力网络（MHSA）是负责从给定的嵌入式视觉标记生成注意力图的网络。这些注意力图有助于网络将注意力集中在图像中的目标区域。MLP（多层感知机）是一个两层的分类网络，最后是GELU（Gaussian Error Linear Unit）。MLP模块也称为MLP头，用作ViT的输出。在此输出上应用softmax可以提供图像分类标签。

自注意力机制动态建模能捕获图像的全局特征，能大幅度提升目标检测器的小目标的检测能力。对于用做图像分类的Transformer，其工作流程如下：首先通过Embedding将图片进行变换，将输入原图处理成诸多固定大小的N个Patches，如果输入图片大小为640×640，按16×16大小的Patch进行划分，可以得到，N＝(H×W)/p²＝6420/162＝1600，N同时也代表了序列的长度，进而将处理好的序列输入encoder中进行处理最后通过MLP输出特征。但在特征图分辨率较大的情况下，硬件设备难以承受自注意力巨大的计算量成本。在这个问题上，本文提出了网格化（Grid）特征图的方法，将计算特征图以Grid size为10的大小依次划分开，进而对网格特征图进行Reshape处理为1×64的序列，特征图网格化输出网格个数所对应的通道即为序列的个数，并对处理后的序列进行Encoder。对于Encoder操作，本文在K、V获取时使用平均池化的方法，将10的窗口大小池化到5，进一步减少计算量，并且加强了对于背景的处理能力，之后送入MLP学习注意力机制后的高维空间关系，最后通过反Reshape和反Grid操作还原为原特征图大小，其原理示意如图 5所示。

图 5 轻量化Transformer网络结构

Figure 5. Lightweight transformer network architecture

下载: 全尺寸图片幻灯片

1.6 Loss函数

本文算法使用YOLOv8损失函数进行损失计算，主要由2部分组成，分别是分类分支和回归分支。分类分支使用二分类交叉熵损失函数（BCE Loss）进行计算；回归分支损失采用Distribution Focal Loss（DFL Reg_max默认为16）+CIoU Loss来计算，且只计算正样本的回归损失，3个Loss使用加权平均进行计算，其权值分别为λ₁（dfl loss）、λ₂（cls loss）、λ₃（box loss）。

计算公式为：

$$ \begin{aligned} & L_{\mathrm{loss}}=\lambda_1 l_{\mathrm{dfl}}+\lambda_2 l_{\mathrm{cls}}+\lambda_3 l_{\mathrm{box}} \\ & l_{\mathrm{dfl}}=-\left[\left(p_{i+1}-p\right) \log \left(S_i\right)+\left(p-p_i\right) \log \left(S_{i+1}\right)\right] \\ & l_{\mathrm{cls}}=-\sum\limits_{i=1}^N \hat{y}_i \ln \left(y_i\right)+\left(1-\hat{y}_i\right) \ln \left(1-y_i\right) \\ & l_{\mathrm{box}}=1-I_{\mathrm{oU}}+\frac{\rho^2}{c^2}+\alpha v \end{aligned} $$

其权值分别为λ₁＝1.5、λ₂＝0.5、λ₃＝7.5。δ_i与y_i表示置信度对某个类别的真实概率；p则表示预测概率值；I_OU为预测框与真实框的交并比；ρ为预测框与真实框中心点的距离；c为预测框与真实框交并矩形对角线长度；α为影响因子，它决定v预测框与真实框宽高比相似度的权重。

现阶段的bbox表示大多是通过对bbox方框狄拉克分布结果进行建模而形成的单一分布。狄拉克分布可以认为在一个点概率密度为无穷大，其他点概率密度为0，这是一种极端地认为离散标签是绝对正确的。然而，在复杂场景下特别是DOTA遥感数据集中，很多检测目标的边界因背景的复杂性致使目标边界并非十分明确。DFL loss^[25]通过采用任意分布来建模边界框，而后使用softmax函数对离散变量进行回归，通过将狄拉克分布的积分形式转化为一般积分形式来实现对于bbox边界框的表示，可以解决边界识别问题。

2. 实验设置

2.1 实验环境与实验参数

本文实验使用Ubuntu20.04操作系统，采用Pytorch1.10深度学习框架，CUDA版本为11.3，显卡GPU采用NVIDIA GeForce RTX 2080Ti显存11G。训练过程中采用随机梯度下降算法（stochastic gradient descent，SGD）训练300 epoch。初始learning rate设为0.01，batchsize设为8。在训练初期的3个epoch采用warm up进行训练，并在最后10个epoch关闭Mosaic操作。

2.2 数据集及预处理

本文使用的是DOTA1.0数据集。DOTA1.0数据集由不同传感器所采集的2806幅航拍图像所构成。由于传感器的差异导致图像的画幅有所区别，图像的大小为800×800像素~4000×4000像素之间，而一般数据集如PASCAL-VOC和MSCOCO图像尺寸都在1000×1000像素之间。DOTA数据集，包含的图像在尺度、方向与形状上都存在差距，图像经由航天图像判读专家选取15个重要类别使用旋转框进行标注，包括：飞机、船舶、储罐、棒球场、网球场、游泳池、地面田径场、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉口、足球场和篮球场。DOTA数据集是遥感图像小目标检测的重要基线模型。数据集的类别分布如图 6所示。

图 6 DOTA1.0数据集不同类别标签数

Figure 6. The number of different category tags in the DOTA1.0 dataset

下载: 全尺寸图片幻灯片

DOTA数据集中小目标物体占据绝大多数，如图 7所示，可以根据水平边界框的高度将数据集中的所有实例分为3部分：小范围为10~50像素占总数据集的57%，中范围为50~300像素占总数据集的41%，大范围为300像素以上仅占数据集比例的2%。对于小型交通工具像素一般在20像素，而一座大桥可能所占像素点可以达到1200像素，但此类目标在数据集中所占比例比较小，因此模型必须足够灵活，才能够很好地同时处理微小目标与大目标。

图 7 DOTA1.0数据集目标标注框尺度分布

Figure 7. DOTA1.0 data set target label box scale distribution

下载: 全尺寸图片幻灯片

2.3 数据处理

DOTA数据集共包含训练集1411张、验证集459张、测试集910张。标注的图像实例为188282个。对于小目标的定义，COCO数据集中采用绝对定义，将32×32像素及其以下目标定义为小目标，相对定义概念是将目标所占比例小于图像0.1的目标定义为小目标，如图 7所示，显然DOTA数据集中小目标在以上定义标准下均符合小目标定义。

目前很多算法在进行数据预处理时将数据集通过设置一定的Gap，将原图切分成1024×1024像素的图像，从而扩展数据集，但这种方式破坏了原始数据集的特性，使得原有图像在输入的时候实际上被放大了，降低了网络提取特征的难度，并且不同的Gap同样会对网络检测效果产生影响，这种方式虽然会大幅提升检测精度但同时也破坏了数据集的原始特性，因此本文对原数据集仅进行Resize处理，将其缩放为640×640像素图像进行网络输入，因比例问题造成的空白采用灰条补全，相较于多数1000×1000像素及其以上的网络输入大幅降低了推理时间。

3. 实验结果与分析

本文所改进的基准模型为YOLO v8s模型，模型参数11.2Params(M)、28.6FLOPS(B)。为证明本文所提出改进算法的有效性和轻量化效果，本文在DOTA数据集上进行了消融实验与对比试验，并在VisDrone数据集上进行迁移实验，验证算法对于不同小目标数据集的泛化性。

3.1 消融实验

实验结果如表 1所示从上至下依次为YOLO v8s原算法、YOLO v8s加改进Transformer算法（LVIT）、YOLO v8s加改进多尺度加权融合交叉FPN算法（CROSS-FPN）、YOLO v8s同时加入LVIT与CROSS-FPN（FVIT-YOLO v8）的实验结果。

表 1 消融实验结果

Table 1. Ablation results

Methods	mAP/(%)	Parameters/(M)	FPS
YOLO v8s	45.6	11.2	42.3
YOLO v8s+LVIT	46.0	16.8	48.7
YOLO v8s+CROSS-FPN	48.6	3.46	60.2
YOLO v8s+LVIT+CROSS-FPN	50.0	5.41	46.0

下载: 导出CSV

| 显示表格

由表 1可知与YOLO v8相比，CROSS-FPN在基本不增加运算成本的条件下，大幅提升了检测速度，并且将FPS提升至60.2帧，同时还将mAP提升了3.0%，同时加入LVIT后mAP提升了1.4%，总体网络精度同比增长4.4%，网络参数量降低为原始的48%，虽然运算成本有了一定的增加，但模型总量依然较小，并且检测速度也能满足实时性的要求。

图 8为本文改进算法的对比检测效果，可以看出改进的多尺度加权融合交叉FPN网络（CROSS-FPN）对于精度的影响更多，而添加全局注意力之后的网络检测出了YOLO v8s无法检测的小型交通工具，验证了本文改进的有效性。

图 8 改进算法图像检测效果对比

Figure 8. Comparison of detection effects of the improved algorithm

下载: 全尺寸图片幻灯片

3.2 对比实验

由表 2可知，本文提出的FVIT-YOLOv8算法在DOTA数据集的每一个类别上都实现了精度的提升，值得注意的是在棒球场、桥梁、储油罐目标检测中mAP分别提升了10.7%、10.4%、10.8%。对于桥梁目标因其横纵比原因导致检测难度大大提升，并且也同时存在背景模糊的问题。本文算法在实现相对于原网络轻量化的同时也相对提升了对各类目标的检测精度，相对于其他算法本文提出算法也表现出了良好的效果，基本持平TPH-YOLO v5，但后者的整体参数量为本算法的9倍。

表 2 不同算法识别准确率对比

Table 2. Comparison of recognition accuracy of different algorithms %

	SSD	R-FCN^[26]	Faster R-CNN	YOLO v2^[10]	YOLO v4	YOLO v5s	TPH-YOLOv5	YOLO v8s	(Ours)FVIT-YOLO v8
Plane	57.8	39.6	74.7	76.9	69.2	68.3	72.6	71.2	73.3
Baseball field	32.7	46.1	66.4	33.9	49	48.9	56.4	42.6	53.3
Bridge	16.1	3	14	22.7	16.2	15.9	25	9.3	19.7
Athletic field	18.7	38.5	63.7	34.9	29.3	28.4	34.7	33.3	37.6
Small vehicle	0.1	9.1	8.8	38.7	49.2	48	53.7	55.2	58.9
Large vehicle	36.9	3.7	38	32	71.2	70	77.6	78.7	79.6
Ship	24.7	7.5	13.2	52.4	48.2	46.4	61.3	58.3	63.9
Tennis court	81.1	42	84.6	61.7	88.7	88.1	90.2	90.2	91.7
Basketball court	25.1	50.4	53.2	48.5	35.7	34.6	41.9	36.4	38.4
Oil tank	47.4	67	17.4	33..9	23.5	22.5	38.6	28.9	39.7
Soccer field	11.2	40.3	57.3	29.3	33.6	32	36.3	33.6	36.1
Roundabout	31.5	51.3	28.2	36.8	14.6	14.2	16.9	12.6	16.4
Port	14.1	11.1	56.3	36.4	65.2	64.4	72.7	69.5	72.5
Swimming pool	9.1	35.6	25.7	38.3	42.7	40.8	49.4	37.8	43.1
Helicopter	0	17.5	27.8	11.6	28.8	27.8	32.8	26.1	26.7
mAP/(%)	29.9	30.8	42	39.2	44.2	43.2	50.7	45.6	50

下载: 导出CSV

| 显示表格

3.3 检测结果可视化

如图 9本文选取了不同场景下的检测效果图，可见本文改进算法FVIT-YOLO v8在检测精度与检出数量上均超过了YOLO v8s原网络并且对比(e)与(f)图，FVIT-YOLO v8还检出了YOLO v8s未检出的游泳池。

图 9 YOLO v8s与FVIT-YOLO v8在不同场景的目标检测结果对比

Figure 9. Comparison of object detection results of YOLO v8s and FVIT-YOLO v8 in different scenarios

下载: 全尺寸图片幻灯片

为验证算法改进的有效性，本文通过对比GradCAMPlusPlus，GradCAM，XGradCAM三种工具对本网络模型的Heat MAP可视化效果，最终采用GradCAM^[27]对网络的第9层输出进行可视化操作，其中conf_threshold为0.6，按置信度排序取前2%的数据进行热力图计算，在反向传播中本文将score+box同时进行反向传播，进而进行梯度求和。如图 10，其中热力图可反映网络的感兴趣区域，其颜色越深表示其注意程度越强，可以看出在进行网络改进之后本文算法对检测目标的注意力更为集中与准确，对比(a) 与(b)可以看出，FVIT-YOLO v8相较YOLO v8s对环岛的注意力更为准确，同时也大幅降低了对其他无关目标的关注。对比(c)与(d)图可以看出，对于飞机的关注FVIT-YOLOv8要优于YOLO v8s。

图 10 YOLO v8s与FVIT-YOLO v8在不同场景热力图对比

Figure 10. Heatmap comparison of YOLO v8s and FVIT-YOLO v8 in different scenarios

下载: 全尺寸图片幻灯片

3.4 基于VisDrone数据集泛化性实验

本文基于VisDrone^[28]数据集进行迁移实验，用于评估FVIT-YOLO v8对小目标数据集的泛化性能，VisDrone数据集为无人机航拍数据集，主要类别为车辆与行人，属于小目标数据集。如表 3所示FVIT-YOLO v8在VisDrone数据集上实现了8.2%的精度提升，这表示FVIT-YOLO v8在无人机航拍小目标检测方面也实现了在网络参数量大幅降低的情况下，精度有较大提升，表现出对不同数据较强的泛化性。

表 3 基于VisDrone数据集的消融实验

Table 3. Ablation experiment of VisDrone dataset

Methods	mAP/(%)
YOLOv8s(baseline)	39.5
YOLOv8s+CROSS-FPN	46.2
YOLOv8s+CROSS-FPN+LVIT	47.7

下载: 导出CSV

| 显示表格

本文同时也在Visdrone数据集中进行了检测效果对比试验，对于Tph-YOLO v5本文使用了其包含P2层与Transformer的算法进行对比试验，结果如表 4所示。通过表 4可以看出本文算法在众多算法中表现良好，并且很好地兼顾了轻量化与精确度。验证了本算法对不同数据良好的泛化性。

表 4 基于VisDrone数据集的不同算法识别准确率

Table 4. Algorithm comparison experiment on VisDrone dataset

Methods	mAP/(%)
RetinaNet^[29]	21.37
RefineDe^t[30]	28.76
DetNet59^[31]	29.23
Cascade-RCNN^[32]	31.91
FPN^[33]	32.20
Light-RCNN^[34]	32.78
CornetNet^[35]	34.12
Faster-RCNN	38.20
YOLO v5s	34.70
Tph-YOLO v5	42.10
Ours(FVIT-YOLO v8)	47.70

下载: 导出CSV

| 显示表格

4. 结论

针对遥感图像及无人机拍摄图像的目标检测，本文在改进YOLO v8s模型基础上进行改进，形成了FVIT-YOLOv8算法。该算法提出了一种双向多尺度融合交叉FPN网络，在检测层根据数据集小目标分布情况进行了针对化调整，集成了基于Transformer的自注意力机制，同时对其进行轻量化处理。FVIT-YOLO v8相比于YOLO v8s，参数量下降了52%；精度在DOTA数据集上提升了4.4%，在VisDrone数据集上提升了8.2%，可促进遥感图像及无人机拍摄图像的小目标检测算法的工程化应用。

图 1 光电侦察吊舱组成框图

Figure 1. Optical recon pod composition diagram

下载: 全尺寸图片幻灯片

图 2 光电侦察吊舱仿真图

Figure 2. Optical recon pod simulation diagram

下载: 全尺寸图片幻灯片

图 3 推扫单帧覆盖的面积示意图

Figure 3. A map of the area covered by a single frame

下载: 全尺寸图片幻灯片

图 4 连续推扫搜索示意图

Figure 4. Continuously swipe search schematics

下载: 全尺寸图片幻灯片

图 5 侧方搜索区域示意图

Figure 5. Side search area diagram

下载: 全尺寸图片幻灯片

图 6 基于光电转塔方位角度的图像拼接示意图

Figure 6. Image stitching diagram based on the orientation angle of the photoelectric turret

下载: 全尺寸图片幻灯片

图 7 基于特征点的图像拼接流程

Figure 7. A splicing flowchart based on a feature point

下载: 全尺寸图片幻灯片

图 8 基于特征点的图像拼接的实验结果

Figure 8. Experimental results of image stitching based on feature points

下载: 全尺寸图片幻灯片

表 1 红外热像仪的视场与俯仰方向推扫角速度Ω关系

Table 1 IR-angle of view and pitch-sweep angular velocityΩ relation

IR view	Pitch angle sweep Ω
Big view field （16.5°×13.3° f＝33 mm）	4.3°/s
Medium view field （8.3°×6.6° f＝66 mm）	2.15°/s
Small view field （4.15°×3.3° f＝13 2 mm）	1.1°/s

下载: 导出CSV

表 2 可见光摄像机视场与俯仰方向推扫角速度Ω关系

Table 2 OE-angle of view and pitch-sweep angular velocityΩ relation

OE view	Pitch angle sweep Ω
Big view field （18°×10° f＝17 mm）	9.42°/s
Small view field （3°×1.67° f＝102 mm）	1.57°/s

下载: 导出CSV

表 3 红外热像仪的视场、直升机的飞行速度和吊舱的俯仰角度关系表

Table 3 The relationship table of view field of IR、flight speed of the helicopter and pitching angle of the pod

IR view	Seep of the plane
IR view	240 km/h	100 km/h	50 km/h	The ceiling pitch angle range
Big view field （16.5°×13.3° f=33 mm）	+110° to -20°	+110° to -20°	+110° to -20°	+110° to -20°
Medium view field （8.3°×6.6° f＝66 mm）	+110° to -20°	+110° to -20°	+110° to -20°	+110° to -20°
Small view field （4.15°×3.3° f=132 mm）	+110° to +32°	+110° to -20°	+110° to -20°	+110° to -20°

下载: 导出CSV

参考文献(5)

[1]	李承选, 朱斌. 国外舰载红外搜索跟踪系统[J]. 国防科技, 2005(8): 38-41. https://www.cnki.com.cn/Article/CJFDTOTAL-GFCK200508013.htm LI Chengxuan, ZHU Bin. Ship-borne infrared search and tracking system abroad[J]. National Defense Technology, 2005(8): 38-41. https://www.cnki.com.cn/Article/CJFDTOTAL-GFCK200508013.htm
[2]	谭安胜, 贺凯, 郭江龙. 舰载无人机光电载荷对海搜索方式与搜索宽度[J]. 指挥控制与仿真, 2011(6): 32-33. https://www.cnki.com.cn/Article/CJFDTOTAL-QBZH201106004.htm TAN Ansheng, HE Kai, GUO Jianglong. The Search Method and Search Width of Optical Payload of Ship-borne UAV for Sea Target[J]. Command Control and Simulation, 2011(6): 32-33. https://www.cnki.com.cn/Article/CJFDTOTAL-QBZH201106004.htm
[3]	谭安胜. 舰载无人机光电载荷对海上目标搜索决策分析[J]. 指挥控制与仿真, 2010(4): 22-32. https://www.cnki.com.cn/Article/CJFDTOTAL-QBZH201004004.htm TAN Ansheng. The analysis of Ship-borne UAV's photoelectric load to the sea target search decision[J]. Command Control and Simulation, 2010(4): 22-32. https://www.cnki.com.cn/Article/CJFDTOTAL-QBZH201004004.htm
[4]	谭安胜, 叶丹, 赵金强. 驱护舰编队对潜防御效率与决策分析[J]. 军事运筹与系统工程, 2006(4): 65-69. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYC200604014.htm TAN Ansheng, YE Dan, ZHAO Jinqiang. Analysis of submarine defense efficiency and decision-making by escort fleets[J]. Military Operations and Systems Engineering, 2006(4): 65-69. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYC200604014.htm
[5]	苏宇. 基于特征点的图像拼接技术研究[D]. 西安: 西安电子科技大学, 2008. SU Yu. Research on Image Mosaic Based on Feature Points[D]. Xi'an: Xi'an University of Electronic Science and Technology, 2008.

施引文献

资源附件(0)

图(8) / 表(3)

计量

文章访问数: 324
HTML全文浏览量: 49
PDF下载量: 78
被引次数: 0

0. 引言
1. FVIT-YOLO v8算法
1.1 YOLO v8s概述
1.2 FVIT-YOLO v8介绍
1.3 多尺度加权融合交叉FPN——CROSS-FPN
1.4 C2f模块
1.5 Transformer encoder模块的轻量化及C2f模块改进
1.6 Loss函数
2. 实验设置
2.1 实验环境与实验参数
2.2 数据集及预处理
2.3 数据处理
3. 实验结果与分析
3.1 消融实验
3.2 对比实验
3.3 检测结果可视化
3.4 基于VisDrone数据集泛化性实验
4. 结论

0. 引言
1. FVIT-YOLO v8算法
1.1 YOLO v8s概述
1.2 FVIT-YOLO v8介绍
1.3 多尺度加权融合交叉FPN——CROSS-FPN
1.4 C2f模块
1.5 Transformer encoder模块的轻量化及C2f模块改进
1.6 Loss函数
2. 实验设置
2.1 实验环境与实验参数
2.2 数据集及预处理
2.3 数据处理
3. 实验结果与分析
3.1 消融实验
3.2 对比实验
3.3 检测结果可视化
3.4 基于VisDrone数据集泛化性实验
4. 结论

参考文献(5)

施引文献

资源附件(0)

光电侦察吊舱对海广域搜索方法

作者简介: 方喜波（1978-），男，湖北新洲人，硕士，高级工程师，主要研究方向为红外成像、光电系统等。E-mail: fangxbrww@163.com

计量

出版历程