电子学报 ›› 2021, Vol. 49 ›› Issue (9): 1716-1723.DOI: 10.12263/DZXB.20201266

• 学术论文 • 上一篇    下一篇

基于Laplacian图谱的短文本聚类算法

孟海宁1,2, 冯锴1, 朱磊1, 张贝贝1, 童新宇1, 黑新宏1   

  1. 1.西安理工大学计算机科学与工程学院, 陕西 西安 710048
    2.陕西省网络计算与安全技术重点实验室, 陕西 西安 710048
  • 收稿日期:2020-11-09 修回日期:2021-06-11 出版日期:2021-09-25 发布日期:2021-09-25
  • 作者简介:孟海宁 女,1979年生于内蒙古乌海.现为西安理工大学计算机科学与工程学院副教授、硕士生导师,主要研究方向为数据挖掘算法和可靠性建模.E⁃mail:hnmeng@xaut.edu.cn
    冯 锴 男,1997年生于内蒙古锡林郭勒盟.现为西安理工大学计算机科学与工程学院硕士研究生.主要研究方向数据挖掘算法.E⁃mail:wang389331557@163.com
    朱 磊 男,1983年生于陕西咸阳.现为西安理工大学计算机科学与工程学院讲师,主要研究方向为数据挖掘算法和自然语言处理.E⁃mail:leizhu@xaut.edu.cn
    张贝贝 男,1978年生于陕西延安.现为西安理工大学计算机科学与工程学院讲师,主要研究方向为数据挖掘算法和大数据处理技术.E⁃mail:bbzhang115@hotmail.com
    童新宇 男,1996年生于陕西西安.现为西安理工大学计算机科学与工程学院硕士研究生.主要研究方向数据挖掘算法.E⁃mail: tongxinyu@stu.xaut.edu.cn
    黑新宏 男,1976年生于陕西延安.现为西安理工大学计算机科学与工程学院教授、博士生导师,主要研究方向为机器学习和安全性评估.E⁃mail: heixinhong@xaut.edu.cn
  • 基金资助:
    国家自然科学基金(61602375)

Short-Text Clustering Algorithm Based on Laplacian Graph

Hai-ning MENG1,2, Kai FENG1, Lei ZHU1, Bei-bei ZHANG1, Xin-yu TONG1, Xin-hong HEI1   

  1. 1.School of Computer Science and Engineering,Xi’an University of Technology,Xi’an,Shaanxi 710048,China
    2.Shaanxi Key Lab Network Computer and Security Technology,Xi’an,Shaanxi 710048,China
  • Received:2020-11-09 Revised:2021-06-11 Online:2021-09-25 Published:2021-09-25

摘要:

提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.

关键词: Laplacian图谱, 词频-逆文本频率指数, 短文本聚类, 向量空间模型, 数据降维, 特征权值

Abstract:

A Laplacian graph clustering algorithm based on word frequency processing is presented, to solve the problems of high feature dimension and sparse feature in short text. First, the term frequency-inverse document frequency (TF-IDF) method is used to map the short text dataset to the text vector space, to obtain the word frequency weight matrix. Secondly, the dimension of the word frequency weight matrix is reduced by using the graph clustering property of Laplacian matrix. Afterwards, according to the feature that the eigenvalues of Laplace matrix can represent the degree of text similarity, the eigenvectors corresponding to the first K eigenvalues are selected as the initial clustering center, thus reducing the number of iterations in the clustering process. We conduct extensive experiments on SSC, 20 News Group and Microblog PCU datasets. The results show that the Laplacian graph clustering algorithm not only has better clustering results and faster convergence speed compared with the traditional clustering algorithm, but also it is less affected by noises and has good robustness.

Key words: laplacian graph, term frequency-inverse document frequency, short-text clustering, vector space model, data dimensionality reduction, feature weight

中图分类号: