电子学报 ›› 2019, Vol. 47 ›› Issue (6): 1300-1308.DOI: 10.3969/j.issn.0372-2112.2019.06.017

• 学术论文 • 上一篇    下一篇

有监督主题模型的SLDA-TC文本分类新方法

唐焕玲1,2,3, 窦全胜1,2,3, 于立萍1,2,3, 宋英杰1,2,3, 鲁明羽4   

  1. 1. 山东工商学院计算机科学与技术学院, 山东烟台 264005;
    2. 山东省高等学校协同创新中心:未来智能计算, 山东烟台 264005;
    3. 山东省高校智能信息处理重点实验室山东工商学院, 山东烟台 264005;
    4. 大连海事大学信息科学技术学院, 辽宁大连 116026
  • 收稿日期:2018-10-26 修回日期:2018-12-09 出版日期:2019-06-25 发布日期:2019-06-25
  • 作者简介:唐焕玲 女,教授,博士,硕士生导师,1970年生于山东龙口.2004年于清华大学获得工学硕士学位,2009年于大连海事大学大学获得工学博士学位.从事机器学习、人工智能、数据挖掘等方向的理论及应用研究.E-mail:thl01@163.com;窦全胜 男,教授,博士,硕士生导师.1971年生于黑龙江大庆.2001年、2005年于吉林大学分别获得理学硕士学位、工学博士学位.从事人工智能、机器学习、演化计算等方向的理论及应用研究.E-mail:li_dou@163.com;于立萍 女,副教授,博士.1971年生于山东烟台.2004年和2008年分别在清华大学和山东科技大学获工学硕士、工学博士学位.从事机器学习、计算机视觉、机器人等方面的研究工作.E-mail:yulipingguo@163.com;宋英杰 女,博士,1983年生于山东威海.2009年和2013年于大连海事大学分别获得工学硕士和工学博士学位.从事本体推理、知识图谱等方面的研究工作.E-mail:songyj@sdtbu.edu.cn;鲁明羽 男,教授,博士生导师.1963年生于黑龙江鸡西.1988年、2002年于清华大学分别获得工学硕士和工学博士学位,从事机器学习、人工智能、数据挖掘等方向的理论及应用研究.E-mail:lumingyu@dlmu.edu.cn
  • 基金资助:
    国家自然科学基金(No.61175053,No.61472227,No.61773244,No.61602277,No.61772319);山东省高校科研计划(No.J18KA385)

SLDA-TC: A Novel Text Categorization Approach Based on Supervised Topic Model

TANG Huan-ling1,2,3, DOU Quan-sheng1,2,3, YU Li-ping1,2,3, SONG Ying-jie1,2,3, LU Ming-yu4   

  1. 1. School of Computer Science and Technology, Shandong Technology and Business University, Yantai, Shandong 264005, China;
    2. Co-innovation Center of Shandong Colleges and Universities:Future Intelligent Computing, Yantai, Shandong 264005, China;
    3. Key Laboratory of Intelligent Information Processing in Universities of Shandong(Shandong Technology and Business University), Shandong Yantai, 264005, China;
    4. Information Science and Technology College, Dalian Maritime University, Dalian, Liaoning 116026, China
  • Received:2018-10-26 Revised:2018-12-09 Online:2019-06-25 Published:2019-06-25

摘要: 本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.

关键词: 文本分类, 主题模型, 隐含Dirichlet分布, 吉布斯采样

Abstract: In this paper,SLDA-TC,a novel text categorization model based on supervised topic model is proposed.The new parameter represents the probability distribution of topic-category is introduced.The SLDA-TC-Gibbs sampling algorithm is presented.At each iteration,a word's latent topic sampling only utilizes the other training documents having the same category with the document the word occurred,meanwhile,the theoretical proof is given.In the SLDA-TC model,the number of topics is only slightly larger than the number of categories.The experimental results demonstrate that the SLDA-TC model promotes the accuracy and speed for text classification compared with the LDA-TC and SVM algorithms.

Key words: text categorization, topic model, latent Dirichlet allocation, Gibbs sampling

中图分类号: