电子学报 ›› 2019, Vol. 47 ›› Issue (10): 2050-2060.DOI: 10.3969/j.issn.0372-2112.2019.10.005

• 学术论文 • 上一篇    下一篇

基于Attention深度随机森林的社区演化事件预测

潘剑飞1,2, 曹燕1, 董一鸿1, 陈华辉1, 钱江波1   

  1. 1. 宁波大学信息科学与工程学院, 浙江宁波 315211;
    2. 北京百度在线科技有限公司, 北京 100084
  • 收稿日期:2018-06-11 修回日期:2019-03-09 出版日期:2019-10-25
  • 通讯作者: 董一鸿
  • 作者简介:潘剑飞 男,1991年生.CCF学生会员,2018年获宁波大学计算机技术专业硕士学位,现为百度公司算法工程师,主要研究方向为大数据、数据挖掘;曹燕 女,1993年生.CCF学生会员,宁波大学信息科学与工程学院硕士,主要研究方向为大数据、数据挖掘;陈华辉 男,1964年出生于浙江鄞州.博士,CCF会员,宁波大学教授,主要研究方向为数据库技术、流数据处理等.E-mail:chenhuahui@nbu.edu.cn;钱江波 男,1974年出生于浙江宁波.博士,CCF高级会员,宁波大学教授,主要研究方向为数据库技术、流数据处理、多维数据索引技术等.E-mail:qianjiangbo@nbu.edu.cn
  • 基金资助:
    国家自然科学基金(No.61472194,No.61572266); 浙江省自然科学基金(No.LY16F020003); 宁波市自然科学基金(No.2017A610114)

The Community Evolution Event Prediction Based on Attention Deep Random Forest

PAN Jian-fei1,2, CAO Yan1, DONG Yi-hong1, CHEN Hua-hui1, QIAN Jiang-bo1   

  1. 1. Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo, Zhejiang 315211, China;
    2. Baidu Online Technology Co., Ltd., Beijing 100084, China
  • Received:2018-06-11 Revised:2019-03-09 Online:2019-10-25 Published:2019-10-25

摘要: 在网络结构不断变化的同时,社区结构也随之演化.社区结构在不同时间片的变化可定义为四种不同的演化事件:持续、分离、融合和消失.本文运用网络表示学习的方法,对网络进行图嵌入编码映射到低维向量空间中,研究动态社区演化事件的预测.特征方面,在传统的社区内部属性特征、时间片间属性特性变化和前段时间片的社区演化事件的特征维度的基础上,引入潜在结构特征表征四种演化事件,运用随机游走和Softmax思想获取潜在的结构特征;模型方面,引入深度随机森林的策略,同时采用attention机制、蒙特卡洛特征采样策略进行特征融合和特征训练,克服了已有算法仅获取局部结构特征的缺陷.实验在DBLP、FACEBOOK和Bitcoin数据集上,对比SVM、XGBOOST和RIDGE模型训练,证实了新提出的算法模型对最终预测准确率有很大的提升.

关键词: 社区演化, 图嵌入, 网络表示学习, 深度随机森林, attention机制

Abstract: The internal community structure is evolving with the change of network structure.These changes in different time slices can be defined as four different evolutionary events:survive,split,fusion and disappearance.In this paper,the network representation learning method is used to map the graph embedding of the network into the low-dimensional vector space to study the prediction of dynamic community evolution events.In the features,based on the features of community internal attributes,the change of temporal attributes,and the previous community evolution events,the potential structure characteristics of the four evolutionary events are introduced and obtained by using random walk and Softmax.In the model,the strategy of deep random forest is proposed.Feature fusion and feature training are carried out by using the attention mechanism and Monte Carlo feature sampling strategy,which overcomes the shortcomings of the existing algorithms that only acquire local structural features.Finally,by comparing SVM,XGBOOST,RIDGE model training in the DBLP,FACEBOOK and Bitcoin datasets,it is confirmed that the embedding feature of community structure and the attention deep random forest model improvement have greatly improved the accuracy of final prediction.

Key words: community evolution, graph embedding, network representation learning, deep random forests, attention mechanism

中图分类号: