Boundary Feature Fusion and Foreground Guidance for Camouflaged Object Detection

LIU Wen-xi, ZHANG Jia-bang, LI Yue-zhou, LAI Yu, NIU Yu-zhen

ACTA ELECTRONICA SINICA ›› 2024, Vol. 52 ›› Issue (7) : 2279-2290.

PDF(1676 KB)
CIE Homepage  |  Join CIE  |  Login CIE  |  中文 
PDF(1676 KB)
ACTA ELECTRONICA SINICA ›› 2024, Vol. 52 ›› Issue (7) : 2279-2290. DOI: 10.12263/DZXB.20230668
PAPERS

Boundary Feature Fusion and Foreground Guidance for Camouflaged Object Detection

Author information +

Abstract

Camouflage object detection aims to detect highly concealed objects hidden in complex environments, and has important application value in many fields such as medicine and agriculture. The existing methods that combine boundary priors excessively emphasize boundary area and lack the ability to represent the internal information of camouflaged objects, resulting in inaccurate detection of the internal area of the camouflaged objects by the model. At the same time, existing methods lack effective mining of foreground features of camouflaged objects, resulting in the background area being mistakenly detected as camouflaged object. To address the above issues, this paper proposes a camouflage object detection method based on boundary feature fusion and foreground guidance, which consists of several stages such as feature extraction, boundary feature fusion, backbone feature enhancement and prediction. In the boundary feature fusion stage, the boundary features are first obtained through the boundary feature extraction module and the boundary mask is predicted. Then, the boundary feature fusion module effectively fuses the boundary features and boundary mask with the lowest level backbone features, thereby enhancing the camouflage object’s boundary position and internal region features. In addition, a foreground guidance module is designed to enhance the backbone features using the predicted camouflage object mask. The camouflage object mask predicted by the previous layer of features is used as the foreground attention of the current layer features, and performing spatial interaction on the features to enhance the network’s ability to recognize spatial relationships, thereby enabling the network to focus on fine and complete camouflage object areas. A large number of experimental results in this paper on four widely used benchmark datasets show that the proposed method outperforms the 19 mainstream methods compared, and has stronger robustness and generalization ability for camouflage object detection tasks.

Key words

camouflaged object detection / boundary prior / foreground guidance / boundary features / boundary mask / spatial interaction

Cite this article

Download Citations
LIU Wen-xi , ZHANG Jia-bang , LI Yue-zhou , LAI Yu , NIU Yu-zhen. Boundary Feature Fusion and Foreground Guidance for Camouflaged Object Detection[J]. Acta Electronica Sinica, 2024, 52(7): 2279-2290. https://doi.org/10.12263/DZXB.20230668

1 引言

伪装是自然界中普遍存在的生物现象,生物体通过融入周围环境来保护自己免受捕食者伤害.由于伪装机制,生物体与其周围环境之间的对比度极低,使人类或其他动物在没有借助特殊训练或辅助工具的情况下很难察觉它们的存在.近年来,伪装目标检测引起计算机视觉领域的广泛关注,在多个领域中具有应用前景,例如,稀有物种发现1、医学图像分析2、农业害虫检测3、工业视觉检测4~6.
伪装目标检测方法可分为传统方法和基于深度学习的方法两大类.传统的伪装目标检测方法依赖手工设计的特征,例如,颜色7、3D凸度8.这些方法虽能取得一定效果,但容易受噪声、光照等因素影响,导致无法正确检测伪装目标.基于深度学习的伪装目标检测方法利用数据驱动,从大量数据中学习良好的特征表示和丰富的特征嵌入,利用学习到的特征区分伪装目标与图像背景.
近几年,结合边界先验信息的伪装目标检测方法910通过构造边界先验引导网络关注伪装目标的边界,取得较好检测性能.但这些方法仍存在如下2个问题:(1)已有方法使用预测的边界掩码加权主干特征,这种做法尽管可以强调目标的边界信息,但弱化了对伪装目标内部信息的表征能力,使网络对伪装目标轮廓和内部关注失去平衡,导致网络对伪装目标的内部区域检测不准确,出现误检和漏检情况;(2)已有方法缺乏对伪装目标前景特征的有效挖掘,现有方法采用简单特征融合提升表征能力,但特征拼接或相加操作并不能显著加强模型对前景的有效关注.为得到精细而完整的检测结果,需要设计更高效方式提升伪装目标的表征能力,同时抑制背景特征的干扰.
图1所示,边界特征包含丰富的伪装目标边界及其内部区域的先验信息,因此,针对上述问题,本文提出将边界特征与主干特征有效融合解决现有方法中边界掩码弱化伪装目标内部信息表征能力的问题.其次,网络深层次的主干特征能较好预测伪装目标的整体,说明深层的伪装目标掩码作为前景注意力引导浅层网络更精细地预测伪装目标.因此,本文提出一种基于边界特征融合和前景引导的伪装目标检测方法,该方法主要由4个阶段构成:特征提取阶段、边界特征融合阶段、主干特征增强阶段和预测阶段.
图1 边界特征热力图和网络深层特征预测的伪装目标掩码示例图
(a) 原始图像 (b) 真值图 (c) 边界特征热力图 (d) 深层特征预测掩码 (e) 本文方法

Full size|PPT slide

在边界特征融合阶段,首先,边界特征提取模块(Boundary Feature Extraction Module,BFEM)融合由特征提取阶段提取的最低层次和最高层次主干特征,获得边界特征,并预测边界掩码.
然后,对最低层次的主干特征设计了边界特征融合模块(Boundary Feature Fusion Module,BFFM),将其与边界特征和边界掩码有效融合.同时,加强伪装目标边界位置及内部区域的特征,解决已有方法强调边界信息而弱化了对伪装目标内部信息的表征问题.对其他层次的主干特征设计了边界引导模块(Boundary Guided Module,BGM),将边界掩码与其他层次主干特征融合,在语义信息更丰富的高层次特征中有效指导目标区域的边界划分.
在主干特征增强阶段提出前景引导模块(Foreground Guided Module,FGM),利用前一层特征预测的伪装目标掩码作为当前层特征的前景注意力,并对特征执行空间交互11,提升网络对空间关系的识别能力,使网络关注精细而完整的伪装目标区域,在提升伪装目标表征能力的同时抑制背景干扰.
最后,在预测阶段逐级融合4层主干特征,输出预测的伪装目标掩码.大量实验表明,本文方法能够获取更准确的伪装目标细节,显著提高伪装目标检测性能.
综上所述,本文的主要贡献如下:
(1)提出一种新颖的基于边界特征融合和前景引导的网络用于伪装目标检测,由特征提取阶段、边界特征融合阶段、主干特征增强阶段和预测阶段构成.通过边界特征融合和前景引导使得网络关注整个伪装目标.
(2)设计了边界特征融合模块,将边界特征和边界掩码与最低层次的主干特征有效融合,加强伪装目标边界位置及内部区域的特征.
(3)设计了前景引导模块,利用前一层特征预测的伪装目标掩码增强主干特征,并执行空间交互,提升网络对空间关系的识别能力,使网络关注精细而完整的伪装目标区域,有效抑制来自背景特征的干扰.
(4)在4个公开数据集上的实验表明,本文提出的方法在定量指标和定性分析上均优于对比方法,充分验证了本文方法的鲁棒性和泛化能力.

2 相关工作

2.1 伪装目标检测

传统的伪装目标检测方法利用手工设计的特征作为先验知识,区分伪装目标前景和背景.然而,由于手工设计的特征表达能力有限,这些传统方法在复杂情况下无法获得良好性能.
随着深度神经网络的发展,基于深度学习的伪装目标检测方法性能超过了传统方法.由于伪装目标检测与显著性检测任务12~14存在一定相似性,因此,一些早期基于深度学习的方法通过直接引入主流显著性检测网络15实现伪装目标检测.但显著性目标与背景区分度高,而伪装目标与背景区分度低,因此,2个任务存在差异性,直接引入主流显著性检测网络并不完全适用于伪装目标检测.
近年来,研究人员构建了伪装目标检测相关数据集,一些基于多尺度特征和感受野融合的方法被逐渐提出.Fan等人16构建了大型伪装目标检测数据集COD10K,并提出了方法SINet(Search Identification Network)以逐步定位和搜索方式识别目标物体.在此基础上,他们提出了网络SINetV217,通过相邻连接解码器和分组反转注意力来检测伪装目标.Mei等人18和Xu等人19使用每个主干特征预测伪装目标掩码,并逐级融合主干特征以逐步细化结果.刘研等人20通过逐级采样级联聚合解码来捕获丰富的场景上下文信息.Sun等人21通过双分支全局上下文模块产生多尺度特征表示.Zhu等人22通过将X形连接引入标准编码器-解码器架构,逐步融合多尺度特征.Xiang等人23设计了深度特征聚合模块,用于融合高层次的特征.Pang等人24通过对输入图像进行放大和缩小提取不同尺寸特征,逐步融合特征以产生更准确结果.这些方法都融合多层次特征,将高层次特征的语义信息融入到低层次特征,提升伪装目标的表征能力.
最近,一些基于多任务学习的方法被陆续提出,通过生成与伪装目标相关的额外先验信息指导伪装目标检测任务.Lv等人25提出联合学习框架,同时定位、分割和排序伪装物体.Jia等人26设计了一种判别掩码,使网络关注对判别性区域和边界区域的学习.此外,还有基于知识蒸馏的方法,郑云飞等人27引入多尺度池化金字塔表示模块,提升网络的知识表示和学习能力,在不增加资源开销前提下,有效提升伪装目标检测性能.
这些基于多尺度特征、感受野融合、多任务学习和知识蒸馏的方法相比传统方法在一定程度上提升了伪装目标检测的性能,但缺乏对伪装目标前景特征的有效挖掘.这些方法都采用简单的特征融合提升表征能力,特征拼接或相加操作,并不能加强网络对伪装目标前景的有效关注.

2.2 边界感知学习

已有伪装目标检测任务91028~30通过边界标签指导网络学习边界先验信息,有效提升检测性能.Zhai等人28通过循环图推理过程,充分利用有用的信息.Ji等人29使用选择性边缘聚集获得初始边缘先验,可以缓解弱边界的模糊问题.Chen等人30设计了边界引导的融合模块用于探索伪装目标区域与其边界间的互补关系.Zhou等人31用一个边界引导模块对边界进行建模,获取边界增强特征并指导解码器路径中的检测过程.Zhu等人10通过边界引导器将边界信息嵌入粗特征图中,精确突出伪装物体的边界.Sun等人9通过探索与伪装目标相关的边界语义指导网络学习.
这些方法通过在网络中输出边界掩码,并使用边界标签进行监督学习,获得与伪装目标相关的边界先验信息.这些方法仅对边界先验信息进行简单利用,虽然可以强调伪装目标的边界部分,但弱化了模型对伪装目标内部信息的表征能力,使网络对伪装目标轮廓和内部关注失去平衡,导致网络对伪装目标的内部区域检测不准确.

3 本文方法

为避免模型过度关注伪装目标的边界而弱化模型对伪装目标内部信息的表征能力,有效挖掘伪装目标前景特征,本文提出了一种基于边界特征融合和前景引导的方法.其整体网络结构如图2所示,由4个阶段构成,包括特征提取阶段、边界特征融合阶段、主干特征增强阶段和预测阶段.
图2 基于边界特征融合和前景引导的伪装目标检测网络整体结构图

Full size|PPT slide

在特征提取阶段,使用Res2Net-5032从输入图像中提取多层次的主干特征 Fi i=1,2,3,4).在边界特征融合阶段,边界特征提取模块融合最低层次主干特征 F1和最高层次主干特征 F4,生成边界特征 Fb并预测边界掩码 Mb.对最低层次的主干特征 F1,通过边界特征融合模块将边界特征和边界掩码与其融合.接着,边界引导模块将边界掩码 Mb分别与其他层次的主干特征 F2 F3 F4融合.在主干特征增强阶段,前景引导模块将前一层主干特征输出的伪装目标掩码与当前层特征进行融合,并执行空间交互11.最后,在预测阶段,分别使用1×1卷积层、批标准化和ReLU(Rectified Linear Unit)激活函数组成的卷积块压缩4个主干特征的通道数,通过上下文聚合模块9逐级融合4个层次特征,通过1×1卷积层输出最终的掩码 Mi i=1,2,3).

3.1 边界特征提取模块

本文设计了边界特征提取模块,不仅生成伪装目标边界掩码,还能提取富含伪装目标边界及其内部区域先验信息的边界特征.由于低层次和高层次特征分别包含丰富的细节和语义信息,如图3所示,边界特征提取模块对低层次特征 F1和高层次特征 F4进行融合,对伪装目标边界进行准确建模.
图3 边界特征提取模块结构图

Full size|PPT slide

该模块首先分别使用1×1卷积块压缩 F1 F4的通道数,将 F4上采样后与 F1沿通道维度拼接,经过通道注意力层,得到边界特征 Fb.再将 Fb输入到2个3×3卷积块,经过1×1卷积层将其压缩为边界掩码 Mb.具体公式如下:
Fb=SEConcatConvB1×1F1,UpConvB1×1F4
(1)
Mb=Conv1×1ConvB3×3ConvB3×3Fb
(2)
其中, ConvBk×k表示使用 k×k卷积层、批标准化和ReLU激活函数组成的卷积块, Up表示双线性插值上采样, Concat(,)表示沿通道维度拼接操作, SE表示通道注意力层, Conv1×1表示卷积核为1×1的卷积层.
本文的边界特征提取模块与BSANet10(Boundary-guided Separated Attention Network)和BGNet9(Boundary-Guided Network)存在2个方面不同:首先,本文的模块额外使用边界特征在后续步骤与主干特征融合;其次,该模块引入注意力机制突出重要特征通道,使生成的边界特征包含丰富的边界先验信息.

3.2 边界特征融合模块

边界先验信息可帮助网络准确定位伪装目标,已有方法9使用预测的边界掩码加权主干特征,这种做法弱化了模型对伪装目标内部信息的表征能力,使网络对伪装目标轮廓和内部关注失去平衡,导致其对复杂背景中的伪装目标检测能力不足.针对这个问题,本文设计了边界特征融合模块,将边界特征提取模块生成的边界特征 Fb和边界掩码 Mb与最低层次主干特征 F1有效融合,同时,加强伪装目标边界位置及内部区域的特征,准确定位目标物体区域.
边界特征融合模块结构如图4所示,首先将预测的边界掩码加权主干特征 F1,得到包含伪装目标轮廓信息的特征表示,再通过跳跃连接与 F1相加得到初步引导特征 Fg.同时,边界特征 Fb通过卷积块压缩通道数得到 Fb' Fb' Fg沿通道维度拼接后经过融合单元进行通道上的特征融合.接着,再用 Fb'与融合后的特征叠加进行空间上的融合,得到 Ff.而后,为充分保留并利用边界特征, Fb'进行通道调制后与 Ff再次沿通道维度拼接,通过3×3卷积层融合,得到 Ff'.最后,为防止在融合过程中丢失细节, F1通过跳跃连接与融合特征 Ff'相加,最终得到融合边界及其内部区域先验信息的特征 F1b,并作为边界特征融合模块的最终输出.具体公式如下:
Fg=MbF1F1
(3)
Fb'=ConvB3×3(Fb)
(4)
Ff= FusionConcatFg,Fb'Fb'
(5)
Ff'=Conv3×3ConcatFf,SEFb'
(6)
F1b=Ff'F1
(7)
其中,“ ”表示逐元素乘法,“ ”表示逐元素加法, ConvB3×3表示3×3卷积块, Concat(,)表示沿通道维度拼接, Fusion表示融合单元,由2个3×3卷积层、2个Swish激活函数、1个通道注意力层和1×1卷积层组成, SE表示通道注意力层, Conv3×3表示3×3卷积层.
图4 边界特征融合模块结构图

Full size|PPT slide

3.3 边界引导模块

对于较高层次的主干特征 Fi i=2,3,4),本文将其与边界掩码融合以增强高层次主干特征中伪装目标边界的特征表示,在语义信息更丰富的高层次特征中有效指导目标区域的边界划分.边界引导模块结构如图5所示,首先,对边界掩码进行下采样后加权主干特征 Fi,再通过跳跃连接与 Fi相加,接着,经过卷积块融合得到特征 Fig.为进一步增强对有效特征的关注,将 Fig依次经过通道注意力和空间注意力,得到 Fib作为边界引导模块的最终输出.具体公式如下:
Fig=Conv B3×3DownMbFiFi
(8)
Fib=SASEFig
(9)
其中,“ ”表示逐元素乘法,“ ”表示逐元素加法, Down表示双线性插值下采样, ConvB3×3表示3×3卷积块, SE表示通道注意力层, SA表示空间注意力层.
图5 边界引导模块结构图

Full size|PPT slide

3.4 前景引导模块

本文受递归门控卷积11启发,进一步设计了前景引导模块.其中,多感受野空间交互原理如图6所示,用复制特征的方式代替原来递归门控卷积拆分通道的做法.并通过不同卷积核大小的卷积块获得具有不同感受野的特征,再将原特征依次与不同感受野的特征执行空间交互,提升网络空间关系的识别能力,进一步促进网络关注精细而完整的伪装目标前景区域,有效挖掘伪装目标前景特征.具体来说,本文设计的基于多感受野空间交互的前景引导模块结构如图7所示.
图6 多感受野空间交互原理图

Full size|PPT slide

图7 前景引导模块结构图

Full size|PPT slide

首先,将图2右侧所示的前一层次特征在预测阶段输出的掩码 Mi+1i=1,2)上采样后加权特征 Fib,加权后的特征通过跳跃连接与 Fib相加,再经过3×3卷积块得到特征 Fif.接着,将特征 Fif经过1×1卷积块得到 f1 f1复制3份后分别经过3×3、5×5、7×7的卷积块,以获得具有不同感受野的特征,记为 fj j=2,3,4).具体公式如下:
Fif=Conv B3×3UpMi+1FibFib
(10)
f1=Conv B1×1Fif
(11)
f2=Conv B3×3f1
(12)
f3=Conv B5×5f1
(13)
f4=Conv B7×7f1
(14)
其中, ConvBk×k表示 k×k卷积块,“ ”表示逐元素乘法,“ ”表示逐元素加法, Up表示双线性插值上采样.
接着, f1 f2分别乘上各自的权重参数后执行逐元素乘法,经过1×1卷积块,再通过跳跃连接与 f1 f2相加得到第一次空间交互特征 f2'.其中, f1 f2的权重参数都约束在0~1,且2个权重参数相加为1 . f2相比 f1感受野更大, f2中每个像素都包含了 f1中同一位置像素与周围3×3大小相邻像素的信息,因此,逐元素乘法能明确地引入 f1中每个像素与同一位置相邻像素之间的相互作用,而权重参数则可以调整这两者之间相互作用的权重.
同理,将 f2' f3执行第二次空间得到特征 f3',将 f3' f4执行第三次空间得到特征 f4'.与第一次空间交互不同的是, f3中每个像素都包含了 f2'中相同位置像素周围5×5范围相邻像素的信息,感受野更大,因此, f2' f3的空间交互能够引入更大的空间交互范围. f3' f4的空间交互再次增大空间交互作用范围.最后,再通过跳跃连接将 Fif f4'相加,得到前景引导模块的输出特征 Fifg.具体公式如下:
f2'=ConvB1×1 (σ(α1 ) f1(1-σ(α1 )) f2 )σ(α1 ) f1(1-σ(α1 )) f2
(15)
f3'=ConvB1×1 (σ(α2 ) f'2(1-σ(α2 )) f3 )σ(α2 ) f2'(1-σ(α2 )) f3
(16)
f4'=ConvB1×1 (σ(α3 ) f3'(1-σ(α3 )) f4 )σ(α3 ) f3'(1-σ(α3 )) f4
(17)
Fifg=f4'Fif
(18)
其中, αn n=1,2,3)表示可学习的参数, σ表示Sigmoid函数, σ(αn)表示权重参数.

3.5 预测阶段

预测阶段如图2所示,首先将4个层次特征 F1fg F2fg F3b F4b各自经过一个1×1卷积块压缩通道数,得到特征 Fir.为了逐步融合4个层次的特征并输出最终掩码,本文使用上下文聚合模块9挖掘上下文语义信息.上下文聚合模块融合相邻2个层次特征得到 Fic.i=3时,该模块的输入为 F3r F4r,当 i={1,2}时,该模块的输入为 Fir Fi+1c.
图2最右侧所示,输出的特征 Fic各自经过1×1卷积层作为预测模块,输出掩码 Mi.其中, M2 M3分别作为主干特征增强阶段中2个前景引导模块的输入.

3.6 损失函数

网络模型的总体损失函数如下:
Ltotal =i=13LBCEwMi,Gc+LIOUwMi,Gc+λLdice Mb,Gb
(19)
其中, Ltotal表示为总的损失函数, Mi表示网络预测的伪装目标掩码, Gc表示输入图像对应的标签, Mb表示网络预测的边界掩码, Gb表示输入图像对应的边界标签. LBCEw表示加权二元交叉熵损失33 LIOUw表示加权交并比损失33 Ldice表示Dice系数损失34 λ表示 Ldice损失的权重.

4 实验

4.1 数据集和实验细节

本文实验共使用4个数据集,包括CHAMELEON35、CAMO36、COD10K16以及NC4K25.遵循Fan等人17的训练集设置,选取CAMO数据集中1 000张伪装目标图像和COD10K数据集中3 040张伪装目标图像组合作为训练集,其余图像用于测试.训练过程将所有输入图像大小调整为416×416,并且使用了随机左右翻转、随机裁剪、随机旋转、颜色增强、添加随机噪声来增加训练数据的多样性.初始学习率设置为 5×10-5,批次大小为8,训练轮次设置为50轮.本文方法的模型参数为116.357 M,推理速度为29 ms/帧,每秒达34帧,满足一般实时应用的需求.

4.2 客观指标对比

为验证所提方法的伪装目标检测性能,本文使用S度量37(Structure measure, Sα)、E度量38(mean E-measure, Eφ)、加权F度量39(weighted F-measure, Fβω)和平均绝对误差(Mean Absolute Error,MAE)作为客观评价指标.为了验证本文方法的性能,本文与19种主流方法进行比较,包括SINet16(Search Identification Network)、PFNet18(Positioning and Focus Network)、MGL28(Mutual Graph Learning)、UGTR40(Uncertainty-Guided Transformer Reasoning)、LSR25(Localize, Segment and Rank)、C2FNet21(Context-aware Cross-level Fusion Network)、SINetV217、ERRNet29(Edge-based Reversible Re-calibration Network)、CubeNet22、BgNet30(Boundary-guided Network)、FAPNet31(Feature Aggregation and Propagation Network)、OCENet41(Online Confidence Estimation Network)、BSANet10(Boundary-guided Separated Attention Network)、BGNet9(Boundary-Guided Network)、Liu20、DBFN23(Double-Branch Fusion Network)、GRN19(Guided multi-scale Refinement Network)、ZoomNet24和SegMaR26(Segment, Magnify and Reiterate).表1为在CHAMELEON、CAMO、COD10K和NC4K4个测试集上本文方法与现有的19种方法的实验结果对比.从表1中可以看出本文方法表现出优异的伪装目标检测性能.
表1 在测试集上的结果
方法 CHAMELEON CAMO COD10K NC4K
Sα Eφ Fβω MAE Sα Eφ Fβω MAE Sα Eφ Fβω MAE Sα Eφ Fβω MAE
SINet 0.872 0.936 0.806 0.034 0.745 0.804 0.644 0.092 0.776 0.864 0.631 0.043 0.808 0.871 0.723 0.058
PFNet 0.882 0.931 0.81 0.033 0.782 0.841 0.695 0.085 0.800 0.877 0.660 0.040 0.829 0.887 0.745 0.053
MGL 0.893 0.917 0.812 0.031 0.775 0.812 0.673 0.088 0.814 0.851 0.666 0.035 0.833 0.867 0.739 0.053
UGTR 0.888 0.910 0.794 0.031 0.784 0.822 0.684 0.086 0.817 0.852 0.666 0.036 0.839 0.874 0.746 0.052
LSR 0.890 0.935 0.822 0.030 0.787 0.838 0.696 0.080 0.804 0.880 0.673 0.037 0.840 0.895 0.766 0.048
C2FNet 0.888 0.935 0.828 0.032 0.796 0.854 0.719 0.080 0.813 0.890 0.686 0.036 0.838 0.897 0.762 0.049
SINetV2 0.888 0.942 0.816 0.030 0.820 0.882 0.743 0.070 0.815 0.887 0.680 0.037 0.847 0.903 0.770 0.048
ERRNet 0.877 0.927 0.805 0.036 0.761 0.817 0.660 0.088 0.780 0.867 0.629 0.044
CubeNet 0.873 0.928 0.786 0.037 0.788 0.838 0.682 0.085 0.795 0.865 0.643 0.041
BgNet 0.894 0.943 0.823 0.029 0.831 0.884 0.762 0.065 0.826 0.898 0.703 0.034 0.855 0.908 0.784 0.045
FAPNet 0.893 0.940 0.825 0.028 0.815 0.865 0.734 0.076 0.822 0.888 0.694 0.036 0.851 0.899 0.775 0.047
OCENet 0.897 0.940 0.833 0.027 0.802 0.852 0.723 0.080 0.827 0.894 0.707 0.033 0.853 0.902 0.785 0.045
BSANet 0.895 0.946 0.841 0.027 0.794 0.851 0.717 0.079 0.818 0.891 0.699 0.034 0.841 0.897 0.771 0.048
BGNet 0.901 0.943 0.85 0.027 0.812 0.870 0.749 0.073 0.831 0.901 0.722 0.033 0.851 0.907 0.788 0.044
Liu 0.882 0.937 0.829 0.029 0.808 0.877 0.750 0.070 0.820 0.892 0.710 0.031 0.845 0.903 0.786 0.044
DBFN 0.892 0.944 0.831 0.03 0.822 0.878 0.749 0.069 0.821 0.893 0.698 0.034
GRN 0.862 0.934 0.816 0.036 0.766 0.841 0.737 0.09 0.798 0.873 0.691 0.039
ZoomNet 0.902 0.943 0.845 0.023 0.820 0.877 0.752 0.066 0.838 0.888 0.729 0.029 0.853 0.896 0.784 0.043
SegMaR 0.906 0.951 0.860 0.025 0.815 0.874 0.753 0.071 0.833 0.899 0.724 0.034 0.841 0.896 0.781 0.046
本文方法 0.907 0.949 0.861 0.024 0.835 0.886 0.775 0.065 0.842 0.905 0.739 0.029 0.862 0.911 0.801 0.041
注:加粗/下划线表示性能第一、第二的数据,“—”表示对比方法的论文中没有提供对应数据.

4.3 视觉效果对比

图8展示了本文提出方法与其他方法视觉效果的直观比较.如图8所示,本文所提出的方法取得了优异的检测结果,这些结果在各种复杂情况下都非常接近真实值,表明本文方法能处理各种复杂情况,具有优异的检测性能和良好泛化能力.
图8 不同方法的视觉效果对比
(a) 原始图像 (b) 真值图 (c) 本文方法 (d) ZoomNet (e) BGNet (f) SINetV2 (g) SINet

Full size|PPT slide

如海马,本文方法能准确识别出完整的目标轮廓,而其他方法不能识别出完整海马的头部,甚至在其他区域还会误检出背景区域.对于伪装目标带有细长肢体的情况,本文方法准确检测出目标的肢体和触角,而其他方法未检测出完整的肢体和触角.在处理大目标物体、小目标物体以及多目标物体时,本文方法能精准检测出物体的轮廓和数量,其他方法则无法达到相同的检测效果.

4.4 消融对比

在数据集CAMO和NC4K上进行了消融对比实验,评估每个模块的作用,结果如表2所示.其中,实验(1)对应的基准网络仅包含特征提取阶段和预测阶段,不使用本文提出的边界特征提取取模块、边界特征融合模块、边界引导模块和前景引导模块.实验(2)~(4)验证了同时使用边界特征和边界掩码的必要性.实验(2)和实验(3)分别代表仅使用边界特征或边界掩码.实验(4)同时使用边界特征和边界掩码.实验(5)将本文方法中的边界特征融合模块替换为边界引导模块.实验(6)和实验(7)分别表示将本文方法的边界特征提取模块替换为文献[9]和文献[10]的相应模块,由于文献[9]与文献[10]未使用边界特征,因此,将边界特征融合模块替换为边界引导模块.实验(8)表示使用本文提出的所有模块.
表2 消融实验结果
方法 CAMO NC4K
实验 边界特征提取模块

边界引导

模块

边界特征融合模块

前景引导

模块

Sα Eφ Fβω MAE Sα Eφ Fβω MAE
(1) × × × × 0.816 0.866 0.743 0.074 0.857 0.904 0.788 0.044
(2) × 不使用边界掩码 × 0.822 0.873 0.752 0.068 0.858 0.906 0.792 0.043
(3) 替换为边界引导模块 × 0.823 0.876 0.760 0.070 0.859 0.908 0.794 0.042
(4) × 0.827 0.880 0.761 0.070 0.860 0.910 0.796 0.043
(5) 替换为边界引导模块 0.828 0.882 0.766 0.068 0.860 0.909 0.796 0.042
(6) 替换文献[9]的模块 替换为边界引导模块 0.821 0.872 0.751 0.072 0.859 0.906 0.794 0.043
(7) 替换文献[10]的模块 替换为边界引导模块 0.821 0.868 0.753 0.071 0.859 0.907 0.794 0.043
(8) 0.835 0.886 0.775 0.065 0.862 0.911 0.801 0.041
注:用加粗表示性能第一的数据.
将实验(2)、实验(3)与实验(1)对比可得出,单独使用边界特征或边界掩码均能使网络检测效果提高.实验(4)与实验(2)、实验(3)相比验证了同时使用边界特征和边界掩码能进一步提高输出掩码的 Sα Eφ Fβω指标.
实验(5)与实验(6)、实验(7)说明了本文提出的边界特征提取模块相比文献[9]与文献[10]的相应模块,引入注意力机制突出重要特征通道,一定程度上提高了伪装目标检测效果.实验(4)与实验(8)对比可得出,本文提出的前景引导模块将前一层特征预测的伪装目标掩码作为当前层特征的前景注意力,并对特征执行空间交互,提升网络对空间关系的识别能力及伪装目标检测性能.
为进一步说明边界特征融合模块和前景引导模块的作用,本文展示了低层次特征的热力图视觉效果对比.如图9所示,图9a)和(b)分别表示输入的原始图像和真值图,图9c)表示将边界特征融合模块替换为边界引导模块,图9d)表示未使用前景引导模块,图9e)表示本文方法.图9c)的热力图中高激活值都出现在目标物体的边界部分,这说明简单用边界掩码加权主干特征,过度关注边界会导致网络弱化对伪装目标内部信息的表征能力.
图9 本文方法的热力图视觉效果对比
(a) 原始图像 (b) 真值图 (c) BFFM→BGM (d) w/o FGM (e) 本文方法

Full size|PPT slide

图9d)的热力图与图9c)进行对比看出在使用了边界特征融合模块后,网络可以准确定位目标物体区域,而不仅仅只关注目标物体的边界,但目标物体周围的区域依然存在高激活值,说明边界特征融合模块定位的目标区域较粗糙.对比图9e)的结果可以看出,前景引导模块能够帮助网络细化图9d)中网络定位出的粗糙目标区域,将特征中的高激活值收缩到更为精细且完整的目标区域.
为了验证在前景引导模块中使用前一层次特征预测掩码的有效性,本文对网络使用3个不同层次特征预测掩码进行评估,结果如表3所示.从表3可以看出3个不同层次特征预测的掩码指标越来越高,并且从图10中可以看出,用前一层次特征预测的掩码能指导当前特征的学习和预测,不断细化网络预测掩码.
表3 3个层次特征预测掩码指标
不同层次特征预测掩码 CAMO NC4K
Sα Eφ Fβω MAE Sα Eφ Fβω MAE
深层特征预测掩码 0.827 0.879 0.751 0.070 0.848 0.901 0.766 0.048
较深层特征预测掩码 0.834 0.885 0.77 0.066 0.859 0.908 0.792 0.043
浅层特征预测掩码(本文方法) 0.835 0.886 0.775 0.065 0.862 0.911 0.801 0.041
图10 3个层次特征预测的伪装目标掩码示例图
(a) 原始图像 (b) 真值图 (c) 深层特征预测掩码 (d) 较深层特征预测掩码 (e) 浅层特征预测掩码

Full size|PPT slide

5 结论

本文提出一种基于边界特征融合和前景引导的伪装目标检测方法,从有效融合伪装目标边界及其内部区域的先验信息和有效挖掘伪装目标前景特征两方面解决问题.通过边界特征提取模块和边界特征融合模块使边界特征与低层次主干特征有效融合,让网络准确定位伪装目标.通过前景引导模块在关注前景的基础上对多层次特征进行空间交互,使网络关注精细而完整的伪装目标前景区域,强化网络对伪装目标的表征,有效挖掘伪装目标前景特征.在公开数据集上的实验结果验证了本文所提方法的有效性和泛化能力.

References

1
PÉREZ-DE LA FUENTE R, DELCLÒS X, PEÑALVER E, et al. Early evolution and ecology of camouflage in insects[J]. Proceedings of the National Academy of Sciences, 2012, 109(52): 21414-21419.
2
刘金平, 吴娟娟, 张荣, 等. 基于结构重参数化与多尺度深度监督的COVID-19胸部CT图像自动分割[J]. 电子学报, 2023, 51(5): 1163-1171.
LIU J P, WU J J, ZHANG R, et al. Toward automated segmentation of COVID-19 chest CT images based on structural reparameterization and multi-scale deep supervision[J]. Acta Electronica Sinica, 2023, 51(5): 1163-1171. (in Chinese)
3
LIU L, WANG R J, XIE C J, et al. PestNet: An end-to-end deep learning approach for large-scale multi-class pest detection and classification[J]. IEEE Access, 2019, 7: 45301-45312.
4
李维刚, 叶欣, 赵云涛, 等. 基于改进YOLOv3算法的带钢表面缺陷检测[J]. 电子学报, 2020, 48(7): 1284-1292.
LI W G, YE X, ZHAO Y T, et al. Strip steel surface defect detection based on improved YOLOv3 algorithm[J]. Acta Electronica Sinica, 2020, 48(7): 1284-1292. (in Chinese)
5
师奕兵, 罗清旺, 王志刚, 等. 基于多元接收线圈的管道局部缺陷检测方法研究[J]. 电子学报, 2018, 46(1): 197-202.
SHI Y B, LUO Q W, WANG Z G, et al. Research on the detection of local defects of pipes based on dual receivers‍[J]. Acta Electronica Sinica, 2018, 46(1): 197-202. (in Chinese)
6
陶显, 侯伟, 徐德. 基于深度学习的表面缺陷检测方法综述[J]. 自动化学报, 2021, 47(5): 1017-1034.
TAO X, HOU W, XU D. A survey of surface defect detection methods based on deep learning[J]. Acta Automatica Sinica, 2021, 47(5): 1017-1034. (in Chinese)
7
HUERTA I, ROWE D, MOZEROV M, et al. Improving background subtraction based on a casuistry of colour-motion segmentation problems[C]//Iberian Conference on Pattern Recognition and Image Analysis. Cham: Springer, 2007: 475-482.
8
PAN X, CHEN Y W, FU Q, et al. Study on the camouflaged target detection method based on 3D convexity[J]. Modern Applied Science, 2011, 5(4): 152.
9
SUN Y, WANG S, CHEN C, et al. Boundary-guided camouflaged object detection[EB/OL]. (2022-07-02)[2023-07-12].
10
ZHU H W, LI P, XIE H R, et al. I can find you! Boundary-guided separated attention network for camouflaged object detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022: 3608-3616.
11
RAO Y M, ZHAO W L, TANG Y S, et al. HorNet: Efficient high-order spatial interactions with recursive gated convolutions[EB/OL]. (2022-07-28)[2023-07-12].
12
罗会兰, 袁璞, 童康. 基于深度学习的显著性目标检测方法综述[J]. 电子学报, 2021, 49(7): 1417-1427.
LUO H L, YUAN P, TONG K. Review of the methods for salient object detection based on deep learning[J]. Acta Electronica Sinica, 2021, 49(7): 1417-1427. (in Chinese)
13
陈星宇, 叶锋, 黄添强, 等. 融合小型深度生成模型的显著性检测[J]. 电子学报, 2021, 49(4): 768-774.
CHEN X Y, YE F, HUANG T Q, et al. Saliency detection combined with small-scale deep generation model[J]. Acta Electronica Sinica, 2021, 49(4): 768-774. (in Chinese)
14
王正文, 宋慧慧, 樊佳庆, 等. 基于语义引导特征聚合的显著性目标检测网络[J]. 自动化学报, 2023, 49(11): 2386-2395.
WANG Z W, SONG H H, FAN J Q, et al. Semantic guided feature aggregation network for salient object detection‍[J]. Acta Automatica Sinica, 2023, 49(11): 2386-2395. (in Chinese)
15
LIU J J, HOU Q B, CHENG M M, et al. A simple pooling-based design for real-time salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2019: 3917-3926.
16
FAN D P, JI G P, SUN G, et al. Camouflaged object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2020: 2774-2784.
17
FAN D P, JI G P, CHENG M M, et al. Concealed object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6024-6042.
18
MEI H Y, JI G P, WEI Z Q, et al. Camouflaged object segmentation with distraction mining[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2021: 8768-8777.
19
XU X Q, CHEN S H, LV X, et al. Guided multi-scale refinement network for camouflaged object detection[J]. Multimedia Tools and Applications, 2023, 82(4): 5785-5801.
20
刘研, 张开华, 樊佳庆, 等. 渐进聚合多尺度场景上下文特征的伪装物体检测[J]. 计算机学报, 2022, 45(12): 2637-2651.
LIU Y, ZHANG K H, FAN J Q, et al. Progressively aggregating multi-scale scene context features for camouflaged object detection[J]. Chinese Journal of Computers, 2022, 45(12): 2637-2651. (in Chinese)
21
SUN Y J, CHEN G, ZHOU T, et al. Context-aware cross-level fusion network for camouflaged object detection‍[EB/OL]. (2022-05-26)[2023-07-12].
22
ZHU G M, LU X K, GUO Y Y, et al. CubeNet: X-shape connection for camouflaged object detection[J]. Pattern Recognition, 2022, 127: 108644.
23
XIANG J J, PAN Q, ZHANG Z R, et al. Double-branch fusion network with a parallel attention selection mechanism for camouflaged object detection[J]. Science China Information Sciences, 2023, 66(6): 162403.
24
PANG Y, ZHAO X, XIANG T Z, et al. Zoom in and out: A mixed-scale triplet network for camouflaged object detection[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2022: 11586-11596.
25
LV Y, ZHANG J, DAI Y, et al. Simultaneously localize, segment and rank the camouflaged objects[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 11591-11601.
26
JIA Q, YAO S L, LIU Y, et al. Segment, magnify and reiterate: Detecting camouflaged objects the hard way[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2022: 4713-4722.
27
郑云飞, 王晓兵, 张雄伟, 等. 基于金字塔知识的自蒸馏HRNet目标分割方法[J]. 电子学报, 2023, 51(3): 746-756.
ZHENG Y F, WANG X B, ZHANG X W, et al. The self-distillation HRNet object segmentation based on the pyramid knowledge[J]. Acta Electronica Sinica, 2023, 51(3): 746-756. (in Chinese)
28
ZHAI Q, LI X, YANG F, et al. Mutual graph learning for camouflaged object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 12997-13007.
29
JI G P, ZHU L, ZHUGE M C, et al. Fast camouflaged object detection via edge-based reversible re-calibration network[J]. Pattern Recognition, 2022, 123: 108414.
30
CHEN T Y, XIAO J, HU X G, et al. Boundary-guided network for camouflaged object detection[J]. Knowledge-Based Systems, 2022, 248: 108901.
31
ZHOU T, ZHOU Y, GONG C, et al. Feature aggregation and propagation network for camouflaged object detection[J]. IEEE Transactions on Image Processing, 2022, 31: 7036-7047.
32
GAO S H, CHENG M M, ZHAO K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2): 652-662.
33
WEI J, WANG S H, HUANG Q M. F³Net: Fusion, feedback and focus for salient object detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington: AAAI, 2020, 34(7): 12321-12328.
34
XIE E, WANG W, WANG W, et al. Segmenting transparent objects in the wild[C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 696-711.
35
SKUROWSKI P, ABDULAMEER H, BŁASZCZYK J, et al. Animal camouflage analysis: Chameleon database[J]. Unpublished Manuscript, 2018, 2(6): 7.
36
LE T N, NGUYEN T V, NIE Z L, et al. Anabranch network for camouflaged object segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56.
37
FAN D P, CHENG M M, LIU Y, et al. Structure-measure: A new way to evaluate foreground maps[C]//2017 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE, 2017: 4558-4567.
38
FAN D P, JI G P, QIN X, et al. Cognitive vision inspired object segmentation metric and loss function[J]. Scientia Sinica Informationis, 2021, 51(9): 1475.
39
MARGOLIN R, ZELNIK M L, TAL A. How to evaluate foreground maps?[C]//2014 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 248-255.
40
YANG F, ZHAI Q, LI X, et al. Uncertainty-guided transformer reasoning for camouflaged object detection[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE, 2021: 4126-4135.
41
LIU J W, ZHANG J, BARNES N. Modeling aleatoric uncertainty for camouflaged object detection[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision (MACV). Piscataway: IEEE, 2022: 2613-2622.

Funding

National Natural Science Foundation of China(U21A20472)
National Key Research and Development Program of China(2021YFB3600503)
Major Science and Technology Project of Fujian Province(2021HZ022007)
Natural Science Foundation of Fujian Province(2021J01612)
Industry-Academy Cooperation Project of Fujian Province(2021H6022)
PDF(1676 KB)

6162

Accesses

0

Citation

Detail

Sections
Recommended

/