电子学报 ›› 2021, Vol. 49 ›› Issue (10): 2032-2040.DOI: 10.12263/DZXB.20200620

• 学术论文 • 上一篇    下一篇

基于帧间高级特征差分的跨场景视频前景分割算法

张锦1,2, 李阳2, 任传伦3, 黄炼4, 王帅辉2, 段晔鑫1,2, 潘志松2, 谢钧2   

  1. 1.陆军军事交通学院镇江校区,江苏 镇江 212003
    2.陆军工程大学指挥控制工程学院,江苏 南京 210007
    3.华北计算技术研究所,北京 100083
    4.海军装备部驻上海地区军事代表局,上海 200129
  • 收稿日期:2020-06-28 修回日期:2020-12-03 出版日期:2021-10-25 发布日期:2021-10-25
  • 作者简介:张 锦 男,1985年生,湖南邵东人.2009年获海军工程大学核科学与技术专业硕士学位,其后在陆军军事交通学院镇江校区工作.目前在陆军工程大学攻读博士学位.研究方向为人工智能、图像处理. E-mail:zhang_jin_1115@163.com
    李 阳 男,1984年生,河北廊坊人.2007年、2010年、2018年分别在北京航空航天大学、解放军理工大学、陆军工程大学获学士、硕士和博士学位.现为陆军工程大学讲师,主要研究方向为人工智能、机器视觉与图像检索. E-mail:solarleeon@outlook.com
    潘志松(通信作者) 男,1973年生,江苏南京人.2003年获南京航空航天大学博士学位.现为陆军工程大学教授、博士生导师.主要研究方向为人工智能、模式识别. E-mail:panzs@nuaa.edu.cn
    谢 钧 男,1973年生,四川成都人.2005年获南京大学博士学位.现为陆军工程大学教授、博士生导师.主要研究方向为智能信息处理、无线网络. E-mail:xiejun73@189.cn
  • 基金资助:
    国家自然科学基金(61806220)

Cross-Scene Foreground Segmentation Algorithm Based on High-Level Feature Differencing Between Frames

Jin ZHANG1,2, Yang LI2, Chuan-lun REN3, Lian HUANG4, Shuai-hui WANG2, Ye-xin DUAN1,2, Zhi-song PAN2, Jun XIE2   

  1. 1.Zhenjiang Campus,Army Military Transportation University of PLA,Zhenjiang,Jiangsu 212003,China
    2.Command and Control Engineering College,Army Engineering University of PLA,Nanjing,Jiangsu 210007,China
    3.North China Institute of Computer Technology,Beijing 100083,China
    4.Shanghai Military Representative Bureau,Navy Equipment Department of PLA,Shanghai 200129,China
  • Received:2020-06-28 Revised:2020-12-03 Online:2021-10-25 Published:2021-10-25

摘要:

当前基于深度学习的有监督前景分割方法得益于大量待分割场景的标注信息,其性能大幅超越传统的无监督方法.然而,获取高精度的像素级标注需要耗费大量的人力和时间成本,这严重限制了有监督算法在无标注场景的部署应用.为解决对场景监督信息依赖的问题,设计了一种与传统的帧间差分法相融合的跨场景深度学习架构,即帧间高级特征差分算法.该算法重点围绕时域变化等跨场景共性知识的迁移,在不依赖待分割场景监督信息的前提下实现高精度分割.面向五类不同模式的困难场景开展实验,本文算法的平均F值达到0.8719,超越了当前最高性能的有监督算法FgSegNet_v2(相同的跨场景条件下)和最佳的无监督算法SemanticBS.本文算法对QVGA视频(320×240)的处理速度达到35帧/s,具有较好的实时性.

关键词: 前景分割, 迁移学习, 帧间差分法, 跨场景学习, 深度学习

Abstract:

Benefiting from large amounts of ground-truths of to-be-segmented scenarios, deep-learning based and supervised foreground segmentation algorithms generally outperform conventional unsupervised methods. However, pixel-wise annotation is a tedious task, especially when it comes to the annotation of foreground moving objects. This seriously limits the deployment of a supervised algorithm in a wide range of scenes without ground-truths. To address the dependence on supervised information of to-be-segmented unseen scenes, we design an inter-frame high-level feature differencing algorithm with a deep learning architecture via integrating the traditional frame differencing method. The proposed algorithm leverages the transfer of cross-scene common knowledge, such as temporal changes, so as to achieve high performance for the scene in the absence of supervised information of to-be-segmented scenes. We evaluate our method on five challenging scenes with different patterns. The average F-Measure of our algorithm is 0.8719, which surpasses the current highest-performance (supervised) algorithm (FgSegNet_v2) under the cross-scene learning condition and the best unsupervised algorithm SemanticBS. Our method which can process a QVGA (320 × 240) video at 35 frames per second shows favorable real-time performance.

Key words: foreground segmentation, transfer learning, frame differencing algorithm, cross-scene learning, deep learni

中图分类号: