1 引言
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天候、全天时的遥感数据获取能力,目前已经成为高分辨率对地观测的重要手段之一,广泛应用于测绘、军事、灾害、地质、农业、林业等领域,具有极高的实际应用价值.SAR图像分类是SAR技术应用研究中最为重要且基础的问题之一(例如,军事上需要对目标类别进行判断,区分不同目标以便进行精准打击),因此SAR图像分类已成为多个领域的研究热点.传统上,SAR信号数据的处理方法以模型驱动为主,主要通过算法的闭式求解,实现增强特征、聚焦等信号处理过程,但这种模型驱动的方法很难实现SAR的目标分类.深度学习提升了信号特征提取能力,涌现出大量优秀的深度目标分类成果.文献[
1,
2]证明了深度学习在图像处理上的有效性,改变了人们对传统图像处理的认知.由于深度学习在目标分类上性能卓越,促使一些研究人员开始用深度学习方法对SAR图像进行目标分类.Mei等人
[3]提出:传统方法在PolSAR图像分类过程中不能充分利用其丰富的特征,于是将ResNet(Residual Network)模型用在PolSAR图像分类中.Geng等人
[4]提出:使用DRENNs(Deep Recurrent Encoding Neural Networks)模型对SAR原始图像进行处理,得到用于分类的特征图,通过NFCAE(Nonnegative and Fisher Constrained AutoEncoders)进行分类.上述方法是将SAR复数数据转化为灰度图像数据,不能实现从SAR原始数据输入到最终结果分类的端到端复数处理,丢失了复数数据最重要的特征——相位信息特征
[5,6].
相位信息作为SAR的重要特征
[7],是应用中的关键组成部分,因此,SAR目标分类有必要充分考虑从相位信息中提取特征.原始SAR回波数据本质上包含了丰富的相位信息,用深度神经网络强大的特征提取能力提取相位信息,需要将原始的SAR复数数据作为网络输入,将实值域下的深度网络扩展到复数域.Xiao等人
[8]提出一种新颖的复数域像素细化并行映射网络,高效利用复数数据的相位信息,在PolSAR数据分类的效率和准确率上取得较好效果.Sun等人
[9]利用复数CNN网络提取复数域的特征,提出将SE(Squeeze and Excitation)模块应用到复数网络中,在MSTAR数据集上获得极高识别率.研究者们意识到复数特征对SAR图像目标识别的重要作用
[10],交叉卷积一定程度上解决了复数特征丢失的问题,但从网络整体处理过程看,复数交叉网络同样一定程度上丢失了SAR数据的本质复数特征.综上所述,上述方法
[3,4,8,9]都不可避免地在网络末端经过全连接网络层,对实部和虚部进行全连接操作,得到求和后的实数值,将复数数据特征转化为实数类别向量,最终通过实数分类标签计算损失函数进行反向传播,即使在特征提取上保持复数数据
[8,9],最终损失函数的计算丢失了SAR数据复数特性.
为更加充分利用SAR数据的复数特点,避免丢失过多复数特征,提高识别率.本文提出一种端到端的全复数域多层级复数深度神经网络(Complex-valued mUltI-Stage convolutIonal Neural nEtworks,CUISINE)架构,将复数在网络中的计算进行进一步扩展,在整个网络的最末端损失函数计算上使用复数域.同时为了更高效地提取复数特征,在复数交叉卷积的基础上提出一种可分离的复数卷积模块,更高效提取复数数据的内部特征.
本文的创新点归纳如下:
(1)为了充分提取复数域下的特征,保留SAR的数据内部机理,提出端到端的全复数域卷积神经网络,从数据输入到卷积计算再到分类标签实现全域复数计算.复数类别标签和损失函数的使用充分保留和提取了SAR复数据域下的特征,降低了相位误差对SAR成像图像质量的影响,可提高严重相位误差下目标识别的准确率.
(2)全复数域的计算,增加了数据处理的规模,为满足SAR数据在实际应用中高效、快速的分类需求,在复数交叉卷积基础上,提出了深度高效可分离的复数卷积新模块,在充分提取复数域数据特征的同时对模型进行压缩,提高模型的特征提取效率.
(3)面对SAR数据目标多变,不规则的特点,提出复数多层级特征提取模块,既保持了复数数据特征的完整性,又增加了模型对多尺度目标的适应能力,提高模型的泛化能力,增强了模型的抗干扰能力.
2 相关工作
2.1 复数神经网络
自然图像利用自然光进行三色图成像,RGB值为实数,称为实数图像.微波图像基于目标散射特性采用回波信号处理进行成像,每个像素点既具有幅度特性又包含相位特性,因此称之为复数图像.深度神经网络模型在计算机视觉领域的目标分类
[1]、目标检测
[11,12]、语义分割
[13,14]等多个基础问题上均表现出卓越性能,其在计算机视觉实数图像上的突出表现,证明了网络模型强大的特征提取能力.相对于深度神经网络模型在实值图像上的突出表现,其在复数域图像的处理理论和方法都相对较少,现有的复数图像深度处理方法可以分为两类:(1)将复数数据预处理为实数图像;(2)采用双分支分别对实部数据和虚部数据进行处理.上述两种处理方法均会造成重要相位信息丢失,不能充分挖掘复数图像中包含的相位信息,因此,有必要研究针对复数图像处理的复数神经网络.随着对复数神经网络的不断深入研究,以复数交叉网络为基础的复数神经网络应用越来越广泛,并在SAR复数影像处理
[15]、医学领域
[16]等方面表现出卓越性能,展现出复数神经网络在处理复数数据上的特殊潜力.Trabelsi等人
[10]为了方便利用复数表示的优势,提出复数交叉卷积模块、复数批量归一化模块、复数权重初始化模块等一系列与实值深度网络对应的复数网络模型组件,其中复数交叉卷积网络模块(Complex cross-Convolution,Cs-Conv)是其他组件的基础,其计算过程如
图1所示.
复数特征图模块以 作为输入,由实部和虚部组成,其中,实部特征图为 ,虚部特征图为 , 、 和 分别表示复数特征图的高、宽和通道数.卷积核同样采用复数的形式,即 ,其中 和 分别为复数卷积核的实部和虚部, 、 和 分别代表卷积核的宽、高及输出复数特征图的通道数.将输入特征图 的实部特征图 和虚部特征图 分别与复数卷积核 的实部卷积核 和虚部卷积核 进行交叉卷积操作,复数交叉卷积的公式为
根据复数卷积公式,复数交叉卷积的计算过程为: 作为输出的实部特征图, 作为输出的虚部特征图,最后输出的结果保持复数值.利用复数交叉网络的构建,避免将输入复数数据转化为实数数据,也避免对复数数据的实部和虚部进行单独处理,保持了复数数据原有结构,合理利用复数数据独特的相位信息.为了增加复数特征的非线性,同样可以使用 (modification of RELU)、 (Complex RELU)和 等多种复数激活函数进行非线性激活,其中 激活函数是增加模型非线性最常用的复数激活函数,计算过程是对复数特征的实部和虚部分别进行实值处理,公式为
随着越来越多的复数神经网络组件被提出,在各种处理复数数据的任务中,复数神经网络被更多研究人员采用,复数特征在复数处理上表现出更多潜力.Cole等人
[17]通过对复数卷积神经网络的研究,实现核共振成像重建,加快扫描成像时间,并发现与相同参数量的实数卷积网络相比,复数网络在各种基础网络架构和数据集上提供了更好的重建效果.Quan等人
[18]提出ℂDnet(Complex-valued Denoising network)网络,旨在研究复数卷积神经网络在图像去噪方面的潜力,通过实验表明复数去噪卷积网络与实值去噪网络相比更具有竞争力,在训练样本与测试样本噪声模型不一致条件下鲁棒性更好.
Mullissa等人
[19]提出了多流复数全卷积网络(multistream Complex Valued-deSpeckNet,CV-deSpeckNet),用于PolSAR的去散斑,能够用更少的样本进行训练,具有更高泛化能力,比最先进的PolSAR去斑方法具有更高准确性.多个研究已经证明了复数网络在泛化能力、处理效率以及评测指标上比实值网络有更好效果.在SAR复数图像分类领域中,文献[
8]将复数网络用于SAR复数数据的分类任务上,直接将SAR复数数据作为模型的输入,通过在SAR复数数据上提取相位特征,效率和正确率都取得了很好结果,但需要在网络末端通过Cs-CNN(Complex cross-Convolution Neural Network)网络将复数特征的实部(幅值)和虚部(相位)进行线性组合映射到实数域中.文献[
20]以复数SAR图像作为网络输入,极大提高SAR图像的识别率,但同样需要在网络中对复数特征的实部和虚部的平方和进行开方,将其映射到实数域中.综上所述,虽然上述复数分类网络性能取得不错提升,但在网络中对特征进行了实值处理,不能实现整体网络端到端的全流程复数化处理.本文在同样采用复数网络处理SAR复数图像的基础上,将网络架构做了更加充分的复数化计算扩展,实现了端到端全复数域的SAR复数图像分类,充分利用复数SAR图像处理在效率和泛化能力上的优势.
2.2 图像目标分类
在计算机视觉研究领域,图像目标分类是重要基础任务之一,在其他视觉任务中扮演着重要角色,如目标检测、语义分割等.图像分类整体流程如
图2所示,首先对输入图像进行预处理,转化为适合网络的数据形式,并使用数据增强来扩充数据集样本数量,增加网络的泛化能力,再将增强后的数据输入到深度目标分类网络中.分类网络包括2个阶段:(1)以卷积网络
[21]或自注意力机制
[22]为基础,通过多层级网络对输入图片进行深度特征提取;(2)全连接网络.全连接网络将提取特征映射为长度与类别数目一致的向量中,实现类别的概率预测.在类别预测上,通常将网络的输出通过softmax函数转化为每个类别的对应概率,概率最大的数值对应的类别即为预测类别.
图像分类中一个难点问题是目标图像中的物体大小不一,容易对小物体分类不准确.多尺度感受野是目前图像分类算法常使用的技术,在Szegedy等人
[2]提出的Inception网络中使用了多尺度感受野技术,如
图3所示.多尺度感受野使用多个尺度的卷积核和最大池化对输入的特征进行处理,使网络可以综合考虑不同尺度的信息.由于不同支路的感受野不同,聚合不同支路提取的特征包含了多尺度信息,增加模型对多尺度目标的适应能力,提高了模型的泛化能力和抗干扰能力.
多尺度感受野虽然可以增加对多尺度目标的识别能力,但同时由于采用了大小不同的卷积核,使模型的计算量成倍增加.为提高计算效率,Chollet等人
[23]在Xception网络中将深度可分离卷积用于Inception模块,使用更少的参数量来获取丰富的特征表示.深度可分离卷积分为逐深度卷积(depthwise convolution)和逐点卷积(pointwise convolution),逐深度卷积只对特征图的空间信息进行计算,不同的通道单独进行卷积操作,不进行信息交互.如
图4所示,为了表述简便,以输入3通道的特征为例,逐深度卷积将输入特征图
在通道维度上拆分为3个单通道特征图
,再分别将这3个单通道特征图与大小为
(这里以
的卷积核为例)的单通道卷积核进行卷积,保持输出的特征图仍为3个单通道的特征图,拼接得到特征图
.使用逐点卷积对不同通道的信息进行交互,逐点卷积即为
卷积,其不考虑空间上周围像素的影响,对不同通道上的像素进行线性组合,实现特征图升维或降维处理.输入特征图
与
个
卷积核进行卷积,对所有通道进行线性组合,生成新的特征图
.深度可分离卷积使用逐深度卷积和逐点卷积代替普通卷积,在尽量保持网络性能的前提下,缩减了网络的参数规模.
3 本文方法
3.1 整体架构
本文提出的全复数域多层级复数深度神经网络整体结构如
图5所示,图中输入的SAR数据通过经典的复数交叉卷积
[10]得到复数特征,为表述更直观,特征通道数设为2,实际应用中可取任意通道数.网络充分利用复数数据的相位信息,整个网络在构建时将复数特征图的实部特征和虚部特征进行一体化处理,以便充分保留复数域的相位特征.网络主体由3部分组成:(1)复数多尺度逐通道卷积;(2)复数逐点卷积;(3)复标签损失函数.复数多尺度逐通道卷积和复数逐点卷积用于复数域下的特征提取.为了应对SAR数据目标多变、不规则的特点,在复数域特征提取中创新性地提出了复数多尺度逐通道卷积与复数逐点卷积结合的结构,该结构受实数域深度可分离卷积网络的启发,利用多个尺度的卷积核提取更丰富的特征区分不同目标,采用深度可分离卷积降低网络规模.复数域特征最终以复数的形式输入到复标签损失函数计算网络中,区别于其他实值神经网络模型,本文的损失函数计算采用全复数形式,全连接计算和标签损失函数计算均为复数.复数域特征首先经过复数全连接层得到不同类别的复数输出,输出结果与复数分类标签进行损失函数计算,通过计算与复数分类标签距离来判断类别归属,复数域上距离最短的复数元素对应的位置即为分类类别.
图5 端到端全复数域多层级复数深度神经网络(CUISINE) |
Full size|PPT slide
3.2 复数多尺度逐通道卷积
针对SAR数据目标多变、不规则的特点,将实数网络中广泛应用的多尺度卷积思想进行复数化扩展,便于网络提取更多尺度的复数域信息,提高网络在面对复杂分类目标时的鲁棒性和泛化能力.网络的输入为复数交叉网络提取的复数特征(
图5特征的通道数以2通道为例),将输入复数特征图
的实部和虚部特征图的每个通道特征图进行拆分,得到
个实部单通道特征图
和虚部单通道特征图
,则复数单通道特征图为
,
为通道编号.利用
个大小为
单通道复数卷积核分别对复数单通道特征图进行复数交叉卷积,提取卷积核空间尺度为
的复数特征图.复数多尺度逐通道卷积采用4种不同大小的空间尺度,分别为
、
、
和
,多个尺度的卷积核以复数逐深度卷积,提取4个包含不同尺度信息的复数特征图,由于不同尺度特征对分类结果的权重不尽相同,设计并使用不同权重
、
、
和
对特征进行融合,权重
、
、
和
设计为可学习的权重,通过网络自动学习得到最优组合方式,以便得到包含多个尺度信息的复数特征图.使用不同尺度卷积核对不同通道卷积,输出复数单通道特征图
,
为通道编号,
为不同尺度的卷积核编号,加权融合后的结果为
计算多尺度逐通道卷积后,每个通道复数特征图中保持了复数数据结构.不同的复数通道,会经过多尺度特征提取,最终将不同通道的多尺度特征进行叠加组合成新的逐通道多尺度复数特征 .
3.3 复数逐点卷积
复数多尺度逐通道卷积虽然可以增加网络对多变目标的识别能力,同时存在通道间信息交互缺乏和计算量倍增的问题.将复数特征图的实部特征图和虚部特征图使用不同卷积核进行卷积,破坏了复数特征图实部和虚部之间的复数结构.而基于复数交叉网络构成复数逐点卷积时,网络的参数量是实数卷积的2倍,而计算量是实数卷积的4倍,随着特征图的通道数增加,网络计算量迅速增加.本文方法不仅保留了实部特征图和虚部特征图之间的复数关系,且参数量和计算量与同结构的实数卷积相等,在功能上等同于实数逐点卷积,对不同通道的信息进行交互,使用共享权重的卷积核,使整个网络的计算在复数域内.如
图5中复数逐点卷积部分所示,将逐通道多尺度复数特征
拆分为实部特征和虚部特征,利用维度大小相同的
个
卷积核分别对实部特征图
和虚部特征图
进行卷积,得到具有
个通道的复数特征图.使用
卷积核,极大减少网络的计算量,同时卷积核采用权重共享方式,分别对实部特征图和虚部特征图进行卷积计算,并且保证实部特征图和虚部特征图对应通道位置.复数特征图
通过复数逐点卷积后的输出特征图,其空间位置为
,通道位置为
的数据数值计算方式见
式(4):
其中, 是第 个 卷积核的第 个通道数值, 和 为复数数据的幅值和相位, 为输入特征图通道数.
利用实部特征图和虚部特征图权重共享的 卷积方法,使复数逐点卷积网络符合式(3)的计算,满足复数计算规则.为了通道特征融合更加充分,采用2层复数逐点卷积结构进行通道融合,2层可以使用不同的通道个数,分别取通道数 和通道数 .2层复数逐点卷积间加入复数激活函数 增加网络的非线性.最终将得到的 个单通道复数特征图进行拼接,组合成逐点复数特征 .
3.4 复标签损失函数
复数多尺度逐通道卷积和复数逐点卷积实现了复数特征提取,充分提取复数数据实部和虚部之间的关系,保留复数数据特征的完整性.为实现端到端的复数网络架构,还需要将复数特征 映射到复数标签分类空间,计算复标签的损失函数. 通过复数全连接网络进行复标签映射,复数特征中对应位置的值构成一个复数单元 ,将 展开成 个复数单元,复数全连接层每一个结点都与 特征的所有结点相连,将提取的特征进行综合,通过2层复数全连接映射到 的分类空间(以MSTAR数据集10类分类目标为例),网络输出为 .
同时对类别标签进行复数化处理,使网络全过程保留复数计算的完整性.首先对类别进行one-hot编码,再将每一类one-hot标签中的1值变为复数 ,实现标签的复数化.以10类中的第一类为例,类别one-hot编码后的标签为 ,将其中第一位的1变为复数标签为 ,得到类别标签的复数表示形式.假设网络输出为 ,对应的标签为第 类,通过复数距离计算损失函数 :
使用 进行整个网络的反向梯度求导,更新模型参数.在推理判断时,计算网络输出复数 的每个元素与 计算距离,距离最小的元素所在位置为对应的分类类别,分类计算公式为
通过复数标签的损失计算和模型推理,使本文提出的网络架构从复数数据输入到最终类别判断,完整保持了复数数据的结构和相位信息,充分利用了SAR的相位特征.
4 实验与结果分析
4.1 数据集介绍
通过多组实验验证提出的CUISINE模型复数特征提取能力、泛化能力以及轻量化特性.本文选择MSTAR(Moving and Stationary Target Acquisition and Recognition)数据集
[24]验证CUISINE全复数域网络的性能.MSTAR数据集是美国空军实验室发布的地面军用车辆目标的高分辨率SAR数据集.该数据集的传感器是桑迪亚国家实验室的高分辨率X波段聚光SAR传感器,分辨率为
,数据集本身包含两类数据,一类为幅值图像,另一类为复数图像数据,对应二维复数图像在方位向经过快速傅里叶变换后转至距离压缩域,其中距离单元对应的方位向数据均具有实部和虚部.目前,MSATR数据集在SAR地面目标识别领域中广泛应用,如
图6所示,左列为自然图像,中列为实部图像,右列为虚部图像,实部图像和虚部图像组成SAR复数图像.MSTAR标准数据集共10类目标数据,分别为2S1(自行榴弹炮)、BRDM2(装甲侦察车)、BMP2(步兵战车)、BTR60(装甲运输车)、BTR70、D7(推土机)、T62(坦克)、T72、ZIL131(货运卡车)、ZSU23/4(自行高炮),每种SAR目标类型在训练集和测试集中的数量详见
表1所示.训练集和测试集的选取与参考文献[
5,
6,
25]相同,以保证测试公平,训练数据集是雷达俯仰角为17°时获得的目标图像数据,共计2 747个样本,测试数据集是雷达俯仰角为15°时获得的目标图像数据,共计2 426个样本.对原始MSTAR数据进行前期处理,提取出尺寸为
的区域生成SAR数据集.在制作数据集过程中,为了有效利用SAR目标的相位信息,制作包含SAR目标实部和虚部的复数数据集.
类别 | 训练集 | 测试集 |
样本数量 | 俯仰角/(°) | 样本数量 | 俯仰角/(°) |
2S1 | 299 | 17 | 274 | 15 |
BMP2 | 233 | 17 | 196 | 15 |
BDRM2 | 298 | 17 | 274 | 15 |
BTR60 | 256 | 17 | 195 | 15 |
BTR70 | 233 | 17 | 196 | 15 |
D7 | 299 | 17 | 274 | 15 |
T62 | 299 | 17 | 273 | 15 |
T72 | 232 | 17 | 196 | 15 |
ZIL131 | 299 | 17 | 274 | 15 |
ZSU23/4 | 299 | 17 | 274 | 15 |
在SAR实际系统中,由于运动误差、载荷、地形等因素的影响,得到SAR数据中不可避免存在一些相位误差,如果不对回波数据进行准确相位补偿,得到的SAR数据会含有较大相位误差,在回波成像的图像上分布偏离MSTAR中的数据分布,合成的图像也会出现散焦.如
图7所示,加入相位误差后的SAR幅值图与未加入相位误差的SAR幅值图特征有明显区别.无论使用实数网络还是复数网络,分类结果会受到严重影响,导致正确率急剧下降.因此,只使用MSATR原始数据(相位误差为0 rad)进行网络模型训练,在实际应用中泛化性能不高.
本文采用相位误差函数注入式仿真模拟方法,在回波数据距离压缩域进行方位向相位误差模拟,即在距离压缩、距离移动校正方位慢时间域,沿方位慢时间仿真模拟一维相位函数,函数形式为抛物线,因此0~30 rad为抛物线值,通过相位误差模拟仿真,可实现散焦效果仿真,一般抛物线形式的相位误差,将造成显著散焦影响.为得到泛化能力强的网络模型,需要加入带相位误差的数据扩充数据集,训练数据集和测试数据集的数据规模如
表2所示.训练数据包含MSTAR原始训练集(0 rad)2 747个数据,同时,为了解决原始数据集容易过拟合的问题,在原始训练集的基础上加入相位误差(10 rad、15 rad、20 rad、25 rad)扩充训练集,误差以5 rad为间隔,在方位向上加入对应的相位误差,每个加入误差后的数据集为2 747个.数据的总训练集由原始训练集和加入相位误差的数据集共同组成,共计2 747×5=13 735个数据样本.测试集也和训练集一样不仅包含原始未加入相位误差的测试集(0 rad)的2 426个数据样本,还包含加入相位误差(10 rad、15 rad、20 rad、25 rad、30 rad、35 rad、40 rad、50 rad)的测试集,共计有2 426×9=21 834个数据样本,分别对不同相位误差进行单独测试.
相位误差/rad | 0 | 10 | 15 | 20 | 25 | 30 | 35 | 40 | 50 |
训练集 | 2 747 | 2 747 | 2 747 | 2 747 | 2 747 | — | — | — | — |
总计 | 13 735 |
测试集 | 2 426 | 2 426 | 2 426 | 2 426 | 2 426 | 2 426 | 2 426 | 2 426 | 2 426 |
本文所有实验中,除相位误差外不使用任何数据增强方式,只验证网络模型对相位误差的鲁棒性和对具有相位误差数据集的识别效果.所有实验均使用相同的硬件设备和软件参数设置.显卡型号为A100,软件版本为CUDA 11.4和pytorch 1.12.1.为验证本文提出的网络泛化能力和识别能力,与针对SAR数据的CNN(Convolutional Neural Networks)
[25]、A-ConvNet(All-Convolutional Networks)
[26]、FEN(Feature Extraction Network)
[27]、CCNN(Complex-valued Convolutional Neural Network)
[28]、MS-CVnets(Multi-Stream Complex-Valued networks)
[5]、CV-Net(Complex-Valued convolutional neural Networks)
[6]等算法,在相同的条件下进行实验对比.对比网络的规模、计算量和识别能力,通过消融实验验证本文提出网络的性能.
4.2 识别能力验证实验
本文使用准确率作为识别能力的评判标准,将提出的CUISINE网络模型与CNN、A-ConvNet、FEN、CCNN、MS-CVNets、CV-Net等模型进行比较,准确率定义为
其中,TP为所有类别的所有正确预测样本数量;TOL为所有预测的样本数量,即测试集数据总量.
模型在各个相位误差下的对比实验结果如
表3所示.相比于CNN,具有相同层数的复数网络CCNN在各个相位误差的数据集上都有提升,尤其在相位误差比较大的数据集上提升更明显,相位误差为0 rad的测试集上,识别率从97.24%提升至98.19%,提升了0.95%;相位误差40 rad的测试集上SAR识别率由69.33%提升至79.43%,提升了10.1%,实验表明复数交叉结构的使用能通过对相位信息的利用提升SAR目标识别率.本文提出的网络CUISINE在无相位误差(0 rad)测试集上的识别率达到99.42%,相比于CCNN网络提升了1.23%,较为明显,在相位误差较大的测试集上表现更好,甚至在相位误差为50 rad的数据集上正确率达到88.05%,相比于CCNN网络提升了25.11%,实验表明本文提出网络模型结构在处理SAR数据上更有效.CNN、A-ConvNet、FEN、CCNN、MS-CVNets、CV-Net这些网络在相位误差较大(40 rad、50 rad)的测试集上的识别率均小于80%,在实际应用中针对含相位误差SAR数据的泛化性能不高.而本文的网络在50 rad相位误差的测试集上正确率达到了88.05%,接近90%,在40 rad相位误差的测试集上94.27%,超过90%,可以考虑用于实际的SAR目标识别.从对比实验结果看,本文提出的CUISINE网络模型在各个测试集的SAR目标分类正确率都高于其他网络,随着相位误差的增加,正确率提升越明显.从0~50 rad相位误差的测试集,CCNN的识别率从98.19%下降到62.94%,降低了35.25%,而本文提出的CUISINE网络的识别率从99.42%下降到88.05%,仅下降了11.37%,实验表明本文提出的网络受相位误差影响较小.相位误差的加入改变了SAR成像后图像数据的分布,增加了SAR图像分类难度,相较于复数网络,实数网络(CNN、A-ConvNet、FEN)受图像变化影响更大,由于相位误差的引入不影响回波功率密度函数,因此,回波样本在数据域统计分布不受相位误差影响,复数网络(CCNN、MS-CVNets、CV-Net、CUISINE)能利用相位信息提取有利于SAR目标分类信息,随着相位误差增大,识别率下降相对较小.对SAR复数数据相位信息的利用,有利于网络减小相位信息对SAR目标的影响,提高具有严重相位误差SAR目标识别率.通过上述实验表明,本文提出的面向SAR目标分类的端到端全复数域卷积神经网络模型,在数据处理和分类标签上均实现复数计算,充分提取回波数据域的内在特征,因此,受相位误差影响更小,具有很强的泛化能力,在相位误差很大的极端情况下也能表现出较好性能.本文提出的网络在实际应用的复杂环境下有更好表现,能应对实际情况中一些比较极端情况.
相位误差/rad | 0 | 10 | 15 | 20 | 25 | 30 | 35 | 40 | 50 |
CNN1 | 97.24 | 97.07 | 96.87 | 95.71 | 93.24 | 88.09 | 79.31 | 69.33 | 54.70 |
A-ConvNet1 | 97.20 | 96.13 | 95.57 | 94.11 | 90.60 | 79.97 | 65.50 | 47.40 | 23.30 |
FEN1 | 99.63 | 99.09 | 99.05 | 98.56 | 93.95 | 94.77 | 87.68 | 76.01 | 50.04 |
CCNN2 | 98.19 | 97.61 | 97.94 | 97.57 | 96.13 | 93.03 | 87.55 | 79.43 | 62.94 |
MS-CVNets2 | 98.02 | 98.31 | 98.39 | 98.52 | 97.28 | 95.42 | 91.14 | 85.45 | 69.47 |
CV-Net2 | 98.85 | 98.97 | 99.13 | 99.13 | 98.47 | 97.11 | 94.31 | 89.16 | 74.69 |
CUISINE* | 99.42 | 98.93 | 98.89 | 99.05 | 98.35 | 97.69 | 96.58 | 94.27 | 88.05 |
| 注:上标“1”表示幅值图像输入,上标“2”表示复数图像输入,“*”表示本文提出的方法. |
同时模型还在各个类分别做了实验,在相位误差为0 rad测试集的混淆矩阵如
图8所示,对BTR60、D7、T62、T72、ZIL131、ZSU23/4等目标的召回率达到了100%,对2S1、BMP2、BRDM2、BTR70等目标的召回率分别为97.81%、96.94%、99.63%、99.45%.
4.3 网络轻量化验证
评价模型大小的指标有:计算量、参数量、访存量、内存占用等,这些指标从不同维度评价了模型的大小.本文选择参数量和计算量这2个常用指标进行模型规模对比.参数量是模型中的参数总和,跟模型在磁盘中所需的空间大小直接相关,参数量一方面会影响内存占用,另一方面会影响程序的初始化时间.计算量是模型所需的计算次数,反映模型对硬件计算单元的需求,计算量一般用Ops(计算次数)表示,由于最常用的数据格式为float32,因此,常用FLOPs(浮点运算次数)表示.输入 大小的复数图像,复数卷积核的大小为 ,其参数量计算方式为 ,对应的浮点运算量计算方式为 .
如
图9所示,蓝色表示模型的参数量(单位为M),红色表示模型处理大小为
的单张复数图片浮点运算量(单位为MFLOPs,即
次浮点运算单位).MS-CVNets、CV-Net的计算量远远大于其他网络模型,超过1 000 MFLOPs,为了图像表述清晰,在
图9中浮点运算量使用
进行处理.由于复数交叉卷积的运算方式,相同设计结构的CCNN参数量(9.44 M)是CNN参数量(4.58 M)的2倍,但浮点运算量(320.08 M)是CNN浮点运算量(83.32 M)的4倍左右.CNN和CCNN的网络规模对比说明,复数网络浮点运算量受参数规模的影响更大,在搭建复数网络时,更需要注意网络规模.本文提出的CUISINE网络相比于实数CNN网络的参数量和浮点运算量都有所增加,但对SAR目标的识别率提高更明显,特别是在存在相位误差情况下(如
表3所示),网络模型的泛化能力得到极大提高.相比于CNN网络模型的规模,CUISINE网络并不占优势,但其参数量仅为8.23 M,输入大小为
复数图像的浮点运算仅为226.87 M,也属于小规模的网络模型,对SAR复数数据有极快的处理速度.本文提出的CUISINE网络使用多尺度卷积提高SAR目标的识别率,增加网络规模,但使用复数深度可分离网络,缩减了网络规模.
实数网络模型的参数量和计算量普遍小于复数网络,但没有对相位信息进行利用,SAR目标的识别率随着相位误差的增加严重下降.复数网络模型能利用相位信息减小相位误差的影响,但会增加网络规模,计算成本随参数量增加迅速升高,有必要降低复数网络的规模和计算量.轻量型的网络规模和计算量能保证本文模型处理SAR数据的速度,满足实际应用中的实时性需求.相比于实数网络模型,复数网络模型的浮点运算量受网络参数量的影响更大,因此,在搭建SAR复数分类模型时,需要考虑高效的网络结构,减小网络参数量.
4.4 消融实验
为进一步证明本文提出网络结构的有效性,利用加入相位误差(0 rad、10 rad、15 rad、20 rad、25 rad)的扩充训练集进行消融实验.对本文提出的复数深度可分离卷积、多尺度卷积、复数分类标签3个点进行消融实验.在消融实验中,不断向基础复数交叉卷积网络加入复数深度可分离模块,多尺度卷积以及复数标签.利用扩充的数据集对这些模型进行训练,并记录各个相位误差(10 rad、15 rad、20 rad、25 rad、30 rad、35 rad、40 rad、50 rad)测试集上的SAR目标识别率结果,在各个测试集上的结果如
表4所示.随着各个模块不断加入,相位误差为0 rad的数据集SAR分类正确率为92.87%~99.42%,相位误差为50 rad的数据集SAR分类正确率为62.08%~88.05%.各个相位误差的测试集上,SAR目标分类正确率有明显提升,随着模块不断增加,网络受相位误差的影响不断降低.从表中可以看出,复数标签的使用在各个测试集识别率分别提高1.52%、1.24%、1.73%、2.02%、2.35%、3.46%、3.88%、4.49%、7.18%,SAR目标分类的正确率提高明显,且随着相位误差的增加,提升更加明显,表明全复数域的网络结构能更充分利用SAR的目标相位,对SAR目标区分有很大影响.随着上述模块不断加入,4组消融实验在相位误差0 rad和50 rad测试集上的SAR目标识别率之间的差距分别为30.79%、18.51%、17.03%、11.37%,表明本文使用的模块,能减小相位误差对SAR分类识别率的影响,使模型在实际应用中泛化能力增强.
模型结构/rad | 0 | 10 | 15 | 20 | 25 | 30 | 35 | 40 | 50 |
复数卷积 | 92.87 | 93.73 | 93.69 | 92.13 | 89.74 | 85.28 | 79.72 | 74.53 | 62.08 |
复数卷积+可分离 | 96.70 | 96.78 | 95.96 | 95.26 | 94.19 | 92.00 | 89.86 | 86.44 | 78.19 |
复数卷积+可分离+多尺度 | 97.90 | 97.69 | 97.16 | 97.03 | 96.00 | 94.23 | 92.70 | 89.78 | 80.87 |
复数卷积+可分离+多尺度+复数标签* | 99.42 | 98.93 | 98.89 | 99.05 | 98.35 | 97.69 | 96.58 | 94.27 | 88.05 |
上述消融实验表明,随着不断加入本文使用的网络模块,在各个相位误差(10 rad、15 rad、20 rad、25 rad、30 rad、35 rad、40 rad、50 rad)测试集上,SAR目标分类上均有不同程度提升,相位误差较大的SAR目标识别成功率明显提高,改善网络受相位误差的影响,证明CUISINE模型的网络结构在处理SAR复数数据时效果明显.
5 结论
为利用复数SAR数据的相位误差,提高SAR目标的分类正确率,本文提出全复数域的CUISINE网络.面对SAR数据目标多变、不规则的特点,在SAR复数分类网络上提出复数多尺度卷积的架构,引入多尺度信息,增加模型对多尺度目标的适应能力,提高模型的泛化能力,增强模型抗干扰能力.为满足SAR数据在实际应用中高效、快速的分类需求,提出复数深度可分离网络架构,对模型进行压缩,加快模型处理速度.同时,通过引入复数标签,使整个网络实现端到端的复数计算,即模型从输入到输出的运算过程中,各个阶段的特征均保持为复数.使用复数交叉网络结构,不必对SAR复数图像的实部和虚部进行单独处理,保留复数数据实部和虚部的关系,保持复数数据结构的完整性.使用复数标签,不必在网络末端将复数数据转化为实数输出,减少相位信息丢失,增加区分SAR目标类别的有效信息.上述方法的使用,能更加充分地利用相位信息,提高SAR目标的识别率.本文提出的网络在处理SAR数据时,受相位误差的影响更小,表明网络泛化能力和抗干扰能力更强,甚至在相位误差为50 rad的SAR测试集的分类正确率达到88.05%,增加网络在实际应用中的可能性.同时,使用复数深度可分离模块结构减小了模型规模和浮点运算量,保证处理SAR复数图像的速度.
本文提出的复数网络架构为神经网络数据处理复数SAR数据的方法,可以为其他复数数据处理提供参考和借鉴,同时,可以为视频、图像、文本处理提供参考,后续将继续研究复数网络在其他数据上的表现,例如将图像数据进行离散傅里叶变化转化为复数处理,进一步探究复数网络的机理和性能.
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}