电子学报

• •    

基于IASPP-ResNet分割算法的手势识别

雷玉1,2, 崔振超1,2(), 陈丽萍1, 陈向阳1, 王煜骁1   

  1. 1.河北大学网络空间安全与计算机学院,河北 保定 071002
    2.河北省机器视觉工程研究中心,河北 保定 071002
  • 收稿日期:2020-12-31 修回日期:2021-03-27 出版日期:2022-07-04
  • 通讯作者: 崔振超
  • 作者简介:雷玉 女,1995年生,山西晋中人.河北大学网络空间安全与计算机学院硕士研究生,研究方向为深度学习、图像分割技术及其应用.
    崔振超(通讯作者) 男,1983年生,河北邯郸人,讲师.中国计算机学会会员,2007年于燕山大学获得学士学位,2010年于燕山大学获得硕士学位,2015年于哈尔滨工业大学获得博士学位.现为河北大学网络空间安全与计算机学院教师,主要从事人工智能、机器视觉方向研究. E-mail: cuizhenchao@gmail.com
    陈丽萍 女,1974年生,河北保定人,讲师.1997年于河北农业大学获得学士学位,2000年获得硕士学位.现为河北大学网络空间安全与计算机学院教师,主要从事机器视觉方面的研究.
    陈向阳 女,1977年生,河南三门峡人,讲师.2000年毕业于燕山大学获得学士学位,2007年毕业于河北大学获得硕士学位.现为河北大学网络空间安全与计算机学院教师,研究方向为深度学习.
    王煜骁 男,1997年生,河北廊坊人.河北大学网络空间安全与计算机学院硕士研究生,研究方向为深度学习、图像分类.
  • 基金资助:
    河北省自然科学基金项目(F2017201069);河北省研究生创新资助项目(HBU2021ss059)

Hand Gesture Recognition Based on IASPP-ResNet Segmentation Algorithm

LEI Yu1,2, CUI Zhen-chao1,2(), CHEN Li-ping1, CHEN Xiang-yang1, WANG Yu-xiao1   

  1. 1.School of Cyber Security and Computer,Hebei University,Baoding,Hebei 071002,China
    2.Hebei Machine Vision Engineering Research Center,Baoding,Hebei 071002,China
  • Received:2020-12-31 Revised:2021-03-27 Online:2022-07-04
  • Contact: CUI Zhen-chao

摘要:

手势识别是计算机视觉领域中研究的重要领域,是人机交互领域的重要组成.由于其识别结果受到复杂背景的影响,手势识别面临着巨大挑战.为了解决复杂背景影响的问题,本文利用了密集分割+手势分类的组合型模型,提出了一种新的手势识别算法.在密集分割部分,本文提出了改进型空洞空间金字塔池化(Improved Atrous Spatial Pyramid Pooling, IASPP).IASPP通过密集的连接不同空洞率的空洞卷积获取了在不同视野上的手势多尺度信息,从而提高了特征表述的精确性.另外,为了融合不同层级上的细节和空间位置信息,提升整体网络的分割性能,本文将IASPP嵌入编码器-解码器结构中,提出了IASPP-ResNet手势分割算法.在手势识别部分,我们利用了深度卷积神经网络模型,获得了较高的识别率.实验结果表明,在目前常用的公共数据集上,与传统的机器学习方法以及基于深度学习的方法相比,IASPP-ResNet分割算法的准确率更高,并且本文提出的密集分割+手势分类的组合型模型在NUS-II数据集上的手势识别率可达98.63%,优于现有的手势识别算法.

关键词: 手势分割, 复杂背景, 编码器-解码器, 空洞卷积, 手势识别

Abstract:

Gesture recognition is an essential research area in the field of computer vision, and it is also a significant component of the human-computer interaction. Due to its recognition results can be influenced by complex backgrounds, gesture recognition faces huge challenges. To solve the problem that is affected by the complex background, this paper proposes a new gesture recognition algorithm based on the combined model of dense segmentation and gesture classification. In the dense segmentation part, this paper shows the Improved Atrous Spatial Pyramid Pooling (IASPP). IASPP is a pooling layer in a convolution neural network, which can obtain the refine features by connecting cascade model and parallel model in atrous spatial pyramid pooling. Otherwise, in order to improve the segmentation performance by integrating details and spatial location information at different levels, the IASPP was embedded in a ResNet with encoder-decoder, and we name the method the Improved Atrous Spatial Pyramid Pooling-ResNet (IASPP-ResNet) for gesture segmentation. In the part of gesture recognition, we use the deep convolutional neural network model to obtain a higher recognition rate. The experimental results show that the IASPP-ResNet segmentation algorithm has a higher accuracy rate on the commonly used public data sets, compared with the traditional machine learning methods as well as the deep learning-based methods, and the gesture recognition rate of the combined model of dense segmentation and gesture classification proposed in this paper can reach 98.63% on NUS-II dataset, which is superior to the existing gesture recognition algorithm.

Key words: hand gesture segmentation, complex background, encoder-decoder, atrous convolution, gesture recognition

中图分类号: