电子学报 ›› 2022, Vol. 50 ›› Issue (1): 195-206.DOI: 10.12263/DZXB.20201256

• 学术论文 • 上一篇    下一篇

基于前景感知视觉注意的半监督视频目标分割

付利华1, 赵宇1,2, 姜涵煦1, 赵茹1, 吴会贤1, 闫绍兴1   

  1. 1.北京工业大学信息学部,北京 100124
    2.北京航空航天大学计算机学院,北京 100191
  • 收稿日期:2020-11-06 修回日期:2021-01-20 出版日期:2022-01-25 发布日期:2022-01-25
  • 作者简介:付利华 女. 1976年9月出生,四川安岳人. 2005年在西北工业大学计算机学院获得工学博士学位. 现为北京工业大学信息学部副教授.主要研究方向为智能信息处理、图像处理和计算机视觉. E-mail: fulh@bjut.edu.cn
    赵 宇(通信作者) 男. 1994年8月出生,河北唐山人. 2020年在北京工业大学信息学部获得工学硕士学位.现为北京航空航天大学计算机学院博士研究生.主要研究方向为图像处理和计算机视觉. E-mail: yzhao0812@foxmail.com
  • 基金资助:
    北京市自然科学基金(4173072)

Semi-Supervised Video Object Segmentation Based on Foreground Perception Visual Attention

FU Li-hua1, ZHAO Yu1,2, JIANG Han-xu1, ZHAO Ru1, WU Hui-xian1, YAN Shao-xing1   

  1. 1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China
    2.School of Computer Science and Engineering,Beihang University,Beijing 100191,China
  • Received:2020-11-06 Revised:2021-01-20 Online:2022-01-25 Published:2022-01-25

摘要:

半监督视频目标分割是计算机视觉领域中的一个研究热点.传统半监督视频目标分割方法的网络模型缺乏对相似目标的判别力,且传统的掩码传播方式对模型的指导能力较弱.本文提出一种基于前景感知视觉注意的半监督视频目标分割方法.三流孪生编码器将输入图像映射到同一特征空间,使得相同目标具有相似的特征.基于前景感知的视觉注意将编码器输出的特征进行相似度匹配,并利用分割掩码突显前景特征,形成前景感知视觉注意,以此关注给定的分割目标,提升模型对待分割目标的判别力.基于残差细化的解码器采用残差学习的思想,融合当前帧图像的低阶特征,逐步改善分割细节.在公开基准数据集上的实验结果表明,本文方法可以较好地解决相似目标容易产生混淆等问题,并能较为准确地跟踪给定的分割目标.

关键词: 视频目标分割, 孪生网络, 特征空间, 前景感知, 视觉注意力

Abstract:

Semi-superised video object segmentation(SVOS) is a research hotspot in the field of computer vision. Most semi-supervised video object segmentation methods lack the ability to discriminate similar object, and the traditional mask propagation method is weak in guiding the model. This paper proposes a semi-supervised video object segmentation method based on foreground perception visual attention. The three-stream Siamese encoder maps the input frame to the same feature space, so that the same objects have similar features. Visual attention based on foreground perception calculates the similarity of encoder features and highlights the foreground through the mask, so as to focus on the given object and improve the model discrimination. The decoder based on residual refinement fuses the low-level features of the current frame to gradually improve the segmentation details. Experiments on public benchmark datasets show that the proposed method can deal with the similar confusion of the object and track the given object accurately.

Key words: video object segmentation, siamese network, feature space, foreground perception, visual attention

中图分类号: