电子学报 ›› 2020, Vol. 48 ›› Issue (4): 800-807.DOI: 10.3969/j.issn.0372-2112.2020.04.022

• 学术论文 • 上一篇    下一篇

基于多流架构与长短时记忆网络的组群行为识别方法研究

王传旭, 胡小悦, 孟唯佳, 闫春娟   

  1. 青岛科技大学信息科学技术学院, 山东青岛 266001
  • 收稿日期:2019-07-15 修回日期:2019-12-17 出版日期:2020-04-25 发布日期:2020-04-25
  • 作者简介:王传旭 男,1968年1月出生,山东邹城人.教授、硕士生导师.1990年、2000年和2007年分别在石油大学(华东)、石油大学(北京)工业自动化和中国海洋大学获应用电子技术学士、硕士学位和博士学位.主要从事计算机视觉方面的有关研究.E-mail:Wangchuanxu_qd@163.com;胡小悦 女,1993年8月出生,山东济南人.2016年毕业于青岛工学院信息学院,取得学士学位,现为青岛科技大学信息学院在读硕士研究生,从事计算机视觉方面的有关研究.E-mail:1783910733@qq.com;孟唯佳 女,1995年4月出生,山东济南人.2017年毕业于山东师范大学应用化学系,取得学士学位,现为青岛科技大学信息学院在读硕士研究生,从事计算机视觉方面的有关研究.E-mail:386345026@qq.com;闫春娟 女,1969年1月出生,山东莱阳人.1991年毕业于中国石油大学物理勘探系,取得学士学位,2000年至今在青岛科技大学信息学院通信教研室工作,从事信息与通信系统方面的有关研究.E-mail:qdyancj@163.com
  • 基金资助:
    国家自然科学基金(No.61672305)

Research on Group Behavior Recognition Method Based on Multi-Stream Architecture and Long Short-Term Memory Network

WANG Chuan-xu, HU Xiao-yue, MENG Wei-jia, YAN Chun-juan   

  1. Institute of Information Science and Technology, Qingdao University of Science and Technology, Qingdao, Shandong 266001, China
  • Received:2019-07-15 Revised:2019-12-17 Online:2020-04-25 Published:2020-04-25

摘要: 提出一种基于多流架构与长短时记忆网络的上下文建模框架,旨在克服组群行为识别的两个难点,其一对复杂场景中多视觉线索进行信息融合;其二对情景人物进行建模,以获得长视频上下文关系.并且,对基于全局信息和基于局部信息的识别结果进行决策融合,判定最终组群行为属性.该算法在CAD1和CAD2上分别取得93.2%和95.7%平均识别率.

关键词: 组群行为识别, 多视觉线索融合, 交互上下文建模, 全局-局部模型, 长短时记忆网络

Abstract: This paper proposes a context modeling framework based on multi-stream architecture and LSTM,which aims to overcome two difficulties for group behavior recognition.One is to fuse information from multiple visual cues in complex scenes,the other is to model situational characters to get the long-term temporal context in the video.In addition,decision fusion is performed on the behavior recognition results based on global information and local information to determine the final group behavior attributes.The algorithm achieved 93.2% and 95.7% average recognition rates on CAD1 and CAD2 respectively.

Key words: group behavior recognition, fusion of multiple visual cues, interactive context modeling, global-local model, long short-term memory network

中图分类号: