电子学报 ›› 2020, Vol. 48 ›› Issue (4): 625-630.DOI: 10.3969/j.issn.0372-2112.2020.04.001

• 学术论文 •    下一篇

基于孪生网络的快速视频目标分割

付利华, 赵宇, 孙晓威, 卢中山, 王丹, 杨寒雪   

  1. 北京工业大学信息学部, 北京 100124
  • 收稿日期:2018-12-19 修回日期:2019-05-08 出版日期:2020-04-25 发布日期:2020-04-25
  • 通讯作者: 赵宇
  • 作者简介:付利华 女,1976年9月出生,四川安岳人.2005年在西北工业大学计算机学院获得工学博士学位.现为北京工业大学信息学部副教授,主要研究方向为智能信息处理、图像处理和计算机视觉.E-mail:fulh@bjut.edu.cn
  • 基金资助:
    北京市自然科学基金(No.4173072)

Fast Video Object Segmentation Based on Siamese Networks

FU Li-hua, ZHAO Yu, SUN Xiao-wei, LU Zhong-shan, WANG Dan, YANG Han-xue   

  1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China
  • Received:2018-12-19 Revised:2019-05-08 Online:2020-04-25 Published:2020-04-25

摘要: 视频目标分割是计算机视觉领域中的一个研究热点,传统基于深度学习的视频目标分割方法在线微调深度网络,导致分割耗时长,难以满足实时的需求.本文提出一种快速的视频目标分割方法.首先,参数共享的孪生编码器子网将参考流和目标流映射到相同的特征空间,使得相同的目标具有相似的特征.然后,全局特征提取子网在特征空间中匹配给定目标相似的特征,定位目标对象.最后,解码器子网将目标特征还原,并通过连接目标流的低阶特征,提供边缘信息,最终输出目标的分割掩码.在公开基准数据集上的实验表明,本文方法的分割速度有大幅度提升,同时具有较好的分割效果.

关键词: 视频目标分割, 计算机视觉, 深度学习, 孪生网络, 特征空间

Abstract: Video object segmentation (VOS) is a research hotspot in the field of computer vision.Traditional VOS based on deep learning fine-tunes the deep network online,which leads to long time-consuming segmentation and is difficult to meet real-time requirements.Therefore,we propose a fast VOS method.First,the weight-shared siamese encoder subnet maps the reference stream and the target stream to the same feature space;so that the same objects have similar features.Then,the global feature extraction subnet matches the features similar to the given object to locate the object.Finally,the decoder subnet restores the object features and gets edge information by connecting the low-level features of target stream to output the mask.Experiments on public benchmark datasets show that our method improves the speed significantly and achieves good performance.

Key words: video object segmentation, computer vision, deep learning, siamese network, feature space

中图分类号: