电子学报 ›› 2021, Vol. 49 ›› Issue (6): 1077-1087.DOI: 10.12263/DZXB.20191362

• 学术论文 • 上一篇    下一篇

SCEA:一种适应高维海量数据的并行聚类集成算法

廖彬1, 黄静莱1, 王鑫1, 孙瑞娜1,2,3, 葛晓燕1, 国冰磊4   

  1. 1. 新疆财经大学统计与数据科学学院, 新疆乌鲁木齐 830012;
    2. 中国科学院信息工程研究所, 北京 100093;
    3. 中国科学院大学网络空间安全学院, 北京 100093;
    4. 新疆大学信息科学与工程学院, 新疆乌鲁木齐 830008
  • 收稿日期:2019-12-09 修回日期:2020-09-25 出版日期:2021-06-25 发布日期:2022-06-25
  • 通讯作者: 黄静莱(通信作者) 女,1994年5月出生,四川成都人,新疆财经大学硕士,研究方向为:机器学习,大数据挖掘.E-mail:1561259618@qq.com
  • 作者简介:廖彬 男,1986年6月出生,四川内江人.2014年新疆大学计算机应用技术博士毕业.研究方向为:机器学习,大数据计算技术等;王鑫 女,1995年11月出生,重庆奉节人,新疆财经大学统计学硕士,研究方向为:机器学习,大数据计算等;孙瑞娜 女,1982年11月出生,安徽阜阳人,中国科学院信息工程研究所博士研究生.研究方向为:数据挖掘、网络安全等;葛晓燕 女,1980年3月出生,新疆乌鲁木齐人.2014年华中科技大学管理科学与工程博士毕业.研究方向:数据挖掘及大数据计算等;国冰磊 女,1991年6月出生,湖北襄阳人.新疆大学信息科学与工程学院博士研究生.研究方向为:大数据及绿色计算.
  • 基金资助:
    国家自然科学基金(No.61562078);新疆天山青年人才计划项目(No.2018Q073);新疆维吾尔自治区自然科学基金(No.2016D01B014)

SCEA: A Parallel Clustering Ensemble Algorithm for High-Dimensional Massive Data

LIAO Bin1, HUANG Jing-lai1, WANG Xin1, SUN Rui-na1,2,3, GE Xiao-yan1, GUO Bing-lei4   

  1. 1. College of Statistics and Data Science, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China;
    2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;
    3. School of Networks Security, University of Chinese Academy of Sciences, Beijing 100049, China;
    4. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830008, China
  • Received:2019-12-09 Revised:2020-09-25 Online:2021-06-25 Published:2022-06-25

摘要: 针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性.

关键词: 并行聚类, 数据降维, 聚类集成, Spark聚类, 性能优化

Abstract: In order to solve the problem of low efficiency in traditional serial clustering integration algorithm in processing high-dimensional massive data,we propose a parallel clustering integration algorithm named SCEA(Spark based Clustering Ensemble Algorithm) which is based on spark platform.The input data of the SCEA algorithm is preprocessed by the combination of principal component analysis and pairwise constraints,which can reduce the dimension of the data and remove the feature correlation.After obtaining the base clustering results using different clustering algorithms,similarity matrix is constructed by the cluster labels of the base cluster members based on the triple method,and the hierarchical clustering algorithm is used to get the final clustering results.On the basis of calling the existing clustering algorithm in the spark MLlib,the SCEA algorithm is implemented based on Scala language.The SCEA is compared with other similar algorithms in multiple data sets.The experimental results show that SCEA is not only improved in accuracy than existing algorithms,but also proves the superiority of SCEA in algorithm performance by analyzing three performance indexes:running time,speedup ratio and scalability.

Key words: parallel clustering, data dimensionality reduction, clustering integration, spark clustering, performance optimization

中图分类号: