电子学报 ›› 2019, Vol. 47 ›› Issue (8): 1731-1737.DOI: 10.3969/j.issn.0372-2112.2019.08.017

• 学术论文 • 上一篇    下一篇

基于采样的大规模图聚类分析算法

张建朋1,2, 陈鸿昶1, 王凯1, 祝凯捷1,2, 王亚文1   

  1. 1. 国家数字交换系统工程技术研究中心, 河南郑州 450000;
    2. 荷兰埃因霍温理工大学计算机系, 荷兰北布拉邦省 5600 MB
  • 收稿日期:2017-10-09 修回日期:2018-06-10 出版日期:2019-08-25
    • 作者简介:
    • 张建朋 男,1988年3月出生于河北省廊坊市.现为国家数字交换系统工程技术研究中心助理研究员,埃因霍温理工大学博士研究生.主要研究方向为大数据分析.E-mail:j.zhang.4@tue.nl;陈鸿昶 男,1964年4月出生于河南省密县.国家数字交换系统工程技术研究中心教授.主要研究方向为电信网信息关防.E-mail:chenhongchang@ndsc.com.cn;王凯 男,1980年01月出生于河南许昌.国家数字交换系统工程技术研究中心副研究员.主要研究方向为电信网信息关防.E-mail:wangkai@ndsc.com.cn;祝凯捷 男,1991年01月出生于河南省郑州市.现为埃因霍温理工大学博士研究生.主要研究方向为图数据库基础.E-mail:kaijie.ndsc@gmail.com;王亚文 男,1990年8月出生于河南省郑州市.现为国家数字交换系统工程技术研究中心博士研究生.主要研究方向为计算机视觉.E-mail:15738321455@163.com
    • 基金资助:
    • 国家自然科学基金群体项目 (No.61521003); 国家重点研发计划项目 (No.2016YFB0800101)

A Sampling-Based Graph Clustering Algorithm for Large-Scale Networks

ZHANG Jian-peng1,2, CHEN Hong-chang1, WANG Kai1, ZHU Kai-jie1,2, WANG Ya-wen1   

  1. 1. National Digital Switching System Engineering & Technological R & D Center, Zhengzhou Henan 450000, China;
    2. Dept of Computer Science, Technology University of Eindhoven, Eindhoven 5600 MB, Netherland
  • Received:2017-10-09 Revised:2018-06-10 Online:2019-08-25 Published:2019-08-25
    • Supported by:
    • NSFC Innovation Research Group (No.61521003); Program of National Key Research and Development Program of China (No.2016YFB0800101)

摘要: 针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能在采样图中产生高质量的聚类代表点,并根据相应的扩张准则进行采样扩张.此采样算法能够很好地保持原始图的内在聚类结构.其次,提出快速的整体样本聚类推断(Population Clustering Inference,PCI)算法,它利用采样子图的聚类标签对整体图的聚类结构进行推断.实验结果表明本文算法对大规模图数据具有较高的聚类质量和处理效率,能够很好地完成大规模图的聚类任务.

关键词: 大规模图, 图采样, 图聚类, 整体推断, 聚类代表点, 扩张准则

Abstract: Since computational complexities of the existing methods such as classic GN algorithm are too costly to cluster large-scale graphs, this paper studies sampling algorithms of large-scale graphs, and proposes a clustering-structure representative sampling (CRS) which can effectively maintain the clustering structure of original graphs. It can produce high quality clustering-representative nodes in samples and expand according to the corresponding expansion criteria. Then, we propose a fast population clustering inference (PCI) method on the original graphs and deduce clustering assignments of the population using the clustering labels of the sampled subgraph. Experiment results show that in comparison with state-of-the-art methods, the proposed algorithm achieves better efficiency as well as clustering accuracy on large-scale graphs.

Key words: large-scale graphs, graph sampling, graph clustering, population inference, clustering representative nodes, expansion criteria

中图分类号: