电子学报 ›› 2018, Vol. 46 ›› Issue (5): 1253-1258.DOI: 10.3969/j.issn.0372-2112.2018.05.035

• 科研通信 • 上一篇    下一篇

基于空间结构化推理深度融合网络的RGB-D场景解析

王泽宇1, 吴艳霞1, 张国印1, 布树辉2   

  1. 1. 哈尔滨工程大学计算机科学与技术学院, 黑龙江哈尔滨 150001;
    2. 西北工业大学航空学院, 陕西西安 710072
  • 收稿日期:2017-05-19 修回日期:2018-01-10 出版日期:2018-05-25
    • 通讯作者:
    • 吴艳霞
    • 作者简介:
    • 王泽宇 男,1989年3月出生于河南省郑州市,哈尔滨工程大学计算机科学与技术学院,博士研究生,主要研究方向为机器学习、计算机视觉.E-mail:wangzeyu2011@hrbeu.edu.cn;张国印 男,1962年9月出生于黑龙江省齐齐哈尔市,哈尔滨工程大学计算机科学与技术学院,教授,博士生导师,主要研究方向为机器学习、计算机视觉.E-mail:zhangguoyin@hrbeu.edu.cn;布树辉 男,1978年11月出生于河南省洛阳市,西北工业大学航空学院,教授,博士生导师,主要研究方向为机器学习、计算机视觉.E-mail:bushuhui@nwpu.edu.cn
    • 基金资助:
    • 国家重点研发计划 (No.2016YFB1000400); 哈尔滨市杰出青年人才基金 (No.2017RAYXJ016); 中央高校自由探索基金 (No.HEUCF170605); 国家自然科学基金 (No.61573284)

RGB-D Scene Parsing Based on Spatial Structured Inference Deep Fusion Networks

WANG Ze-yu1, WU Yan-xia1, ZHANG Guo-yin1, BU Shu-hui2   

  1. 1. College of Computer Science and Technology, Harbin Engineering University, Harbin, Heilongjiang 150001, China;
    2. School of Aeronautics, Northwestern Polytechnical University, Xi'an, Shaanxi 710072, China
  • Received:2017-05-19 Revised:2018-01-10 Online:2018-05-25 Published:2018-05-25
    • Supported by:
    • National Key Research and Development Program of China (No.2016YFB1000400); Harbin Outstanding Youth Talents Fund of Heilongjiang Province (No.2017RAYXJ016); Free Exploration Foundation for Central Universities (No.HEUCF170605); National Natural Science Foundation of China (No.61573284)

摘要: 为了弥补RGB-D场景解析中卷积神经网络空间结构化学习能力的不足,本文基于深度学习提出空间结构化推理深度融合网络,内嵌的结构化推理层有机地结合条件随机场和空间结构化推理模型,该层能够较为全面而准确地学习物体所处三维空间的物体分布以及物体间的三维空间位置关系.在此基础上,网络的特征融合层巧妙地利用深度置信网络和改进的条件随机场,该层可以根据融合生成的物体综合语义信息和物体间语义相关性信息完成深度结构化学习.实验结果表明,在标准RGB-D数据集NYUDv2和SUNRGBD上,空间结构化推理深度融合网络分别实现最优的平均准确率53.8%和54.6%,从而有助于实现机器人任务规划、车辆自动驾驶等智能计算机视觉任务.

关键词: RGB-D场景解析, 深度学习, 卷积神经网络, 条件随机场, 空间结构化推理模型, 深度置信网络, 计算机视觉, 机器人任务规划, 车辆自动驾驶

Abstract: In order to make up the drawbacks that convolutional neural networks lack the ability of spatial structured learning in RGB-D scene parsing,we propose spatial structured inference deep fusion networks (SSIDFNs) on the basis of deep learning,the embedded structural inference layer organically combines conditional random fields (CRFs) and spatial structured inference model,which is able to learn the three-dimensional spatial distributions of objects and three-dimensional spatial relationships among objects in a more comprehensive and accurate way.Furthermore,the feature fusion layer takes both advantages of deep belief networks and improved CRFs,which is able to achieve deep structured learning according to the comprehensive semantic information of objects and semantic correlation in formation among objects.The experimental results demonstrate that the proposed SSIDFNs achieve the best mean accuracy 53.8% and 54.6% on the standard RGB-D datasets NYUDv2 and SUNRGBD respectively,which will be helpful to implement intelligent computer vision tasks,such as robot task planning and self-driving cars.

Key words: RGB-D scene parsing, deep learning, convolutional neural networks, conditional random fields, spatial structured inference model, deep belief networks, computer vision, robot task planning, self-driving cars

中图分类号: