电子学报 ›› 2020, Vol. 48 ›› Issue (7): 1261-1268.DOI: 10.3969/j.issn.0372-2112.2020.07.003

• 学术论文 • 上一篇    下一篇

3D多支路聚合轻量网络视频行为识别算法研究

胡正平1,2, 刁鹏成1, 张瑞雪1, 李淑芳1, 赵梦瑶1   

  1. 1. 燕山大学信息科学与工程学院, 河北秦皇岛 066004;
    2. 燕山大学河北省信息传输与信号处理重点实验室, 河北秦皇岛 066004
  • 收稿日期:2019-09-06 修回日期:2020-03-17 出版日期:2020-07-25 发布日期:2020-07-25
  • 通讯作者: 胡正平
  • 作者简介:刁鹏成 男,1996年1月出生,河北衡水人.燕山大学信息科学与工程学院硕士研究生,主要研究方向为行为识别.E-mail:ysdpc666@sina.com;张瑞雪 女,1994年12月出生,黑龙江齐齐哈尔人.燕山大学信息科学与工程学院硕士研究生,主要研究方向为视频分类;李淑芳 女,1981年5月出生,河北滦南人.燕山大学信息科学与工程学院博士研究生,主要研究方向为模式识别;赵梦瑶 女,1995年10月出生,黑龙江牡丹江人.燕山大学信息科学与工程学院博士研究生,主要研究方向为视频异常检测.
  • 基金资助:
    国家自然科学基金面上项目(No.61771420);河北省自然科学基金(No.F2016203422)

Research on 3D Multi-Branch Aggregated Lightweight Network Video Action Recognition Algorithm

HU Zheng-ping1,2, DIAO Peng-cheng1, ZHANG Rui-xue1, LI Shu-fang1, ZHAO Meng-yao1   

  1. 1. School of Information Science and Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China;
    2. Hebei Key Laboratory of Information Transmission and Signal Processing, Yanshan University, Qinhuangdao, Hebei 066004, China
  • Received:2019-09-06 Revised:2020-03-17 Online:2020-07-25 Published:2020-07-25

摘要: 为构建拥有2D神经网络速度同时保持3D神经网络性能的视频行为识别模型,提出3D多支路聚合轻量网络行为识别算法.首先,利用分组卷积将神经网络分割成多个支路;其次,为促进支路间信息流动,加入具有信息聚合功能的多路复用模块;最后,引入自适应注意力机制,对通道与时空信息进行重定向.实验表明,本算法在UCF101数据集上的计算成本为11.5GFlops,准确率为96.2%;在HMDB51数据集上的计算成本为11.5GFlops,准确率为74.7%.与其他行为识别算法相比,提高了视频识别网络的效率,体现出一定识别速度和准确率优势.

关键词: 深度学习, 神经网络, 行为识别

Abstract: To construct a video action recognition model with 2D neural network speed while maintaining the performance of 3D neural network,the 3D multi-branch aggregation lightweight network action recognition algorithm is proposed.Firstly,the neural network is divided into multiple branches by using grouped convolution.Secondly,to promote the information exchange between branches,a multiplexer module with information aggregation function is added.Finally,the adaptive attention mechanism is introduced to redirect channel and spatio-temporal information.Experiments show that,the computational cost of the algorithm on the UCF101 dataset is 11.5GFlops,and the accuracy is 96.2%;the computational cost on the HMDB51 dataset is 11.5GFlops,and the accuracy is 74.7%.Compared with other action recognition algorithms,it improves the efficiency of the video recognition network and reflects certain recognition speed and accuracy advantages.

Key words: deep learning, neural network, action recognition

中图分类号: