电子学报 ›› 2012, Vol. 40 ›› Issue (11): 2346-2350.DOI: 10.3969/j.issn.0372-2112.2012.11.033

• 科研通信 • 上一篇    

基于概率主题模型的文档聚类

王李冬1,2, 魏宝刚1, 袁杰1   

  1. 1. 浙江大学计算机科学与技术学院,浙江杭州 310027;
    2. 杭州师范大学,浙江杭州 310012
  • 收稿日期:2011-01-18 修回日期:2012-05-10 出版日期:2012-11-25 发布日期:2012-11-25
  • 作者简介:王李冬 女,博士研究生,1982年生于浙江苍南.主要研究方向为图像处理、模式识别、信息检索等. E-mail:violet_wld@163.com 魏宝刚 男,博士生导师,教授,1960年生于辽宁沈阳.主要研究领域为人工智 能、图像处理、模式识别等. E-mail:wbg@zju.edu.cn 袁 杰 男,博士研究生,1981年生于湖北麻城.主要研究方向为图像处理、模式识别、机器学习、信息检索等. E-mail:java_mc@163.com
  • 基金资助:
    国家自然科学青年基金(No.61103171,No.61103099);浙江省公益性技术应用研究计划(No.2011C31048)

Document Clustering Based on Probabilistic Topic Model

WANG Li-dong1,2, WEI Bao-gang1, YUAN Jie1   

  1. 1. College of Computer Science and Technology,Zhejiang University,Hangzhou,Zhejiang 310027,China;
    2. Hangzhou Normal University,Hangzhou,Zhejiang 310012,China
  • Received:2011-01-18 Revised:2012-05-10 Online:2012-11-25 Published:2012-11-25

摘要: 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.

关键词: 主题模型, LDA模型, TC_LDA模型, 文档聚类

Abstract: To effectively cluster corpus of ordinary documents and digital books,the clustering algorithms based on LDA model and TC_LDA were proposed,respectively.The topic model named TC_LDA,the extension of LDA,is proposed for digital books corpus for jointly topic modeling from both of Texts and Contents.Unlike traditional clustering methods,topic model based methods cluster documents in a group if they share one or more common topics.Empirical evaluation demonstrates that our approach based on topic analysis can substantially improve the clustering results as compared to related methods.

Key words: topic model, LDA model, TC_LDA model, document clustering

中图分类号: