电子学报 ›› 2013, Vol. 41 ›› Issue (9): 1794-1799.DOI: 10.3969/j.issn.0372-2112.2013.09.020

• 学术论文 • 上一篇    下一篇

基于共享背景主题的Labeled LDA模型

江雨燕, 李平, 王清   

  1. 安徽工业大学管理科学与工程学院, 安徽马鞍山 243002
  • 收稿日期:2013-01-25 修回日期:2013-06-03 出版日期:2013-09-25
    • 通讯作者:
    • 王清
    • 作者简介:
    • 江雨燕 女,1966年生于安徽宣城,安徽工业大学管理科学与工程学院副教授、硕士生导师,主要研究方向为机器学习、CSCW、信息集成;李 平 男,1987年生于河北藁城, 安徽工业大学管理科学与工程学院硕士研究生,研究方向为机器学习、数据挖掘.
    • 基金资助:
    • 国家自然科学基金 (No.71172219); 安徽省自然科学研究项目省级重点项目 (No.KJ2011Z039,No.KJ2013A053)

Labeled LDA Model Based on Shared Background Topics

JIANG Yu-yan, LI Ping, WANG Qing   

  1. School of Management Science and Engineering, Anhui University of Technology, Ma'anshan, Anhui 243002, China
  • Received:2013-01-25 Revised:2013-06-03 Online:2013-09-25 Published:2013-09-25

摘要: 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果.

关键词: 隐藏狄利克雷分配, 文本分析, 多标记学习, 半监督聚类

Abstract: LDA (Latent Dirichlet Allocation) is widely used in text analysis and images processing.However,LDA and most of its modifications are unsupervised learning models,which are not appropriate for classification especially multi-label classification problem.Through the study on the multi-label documents and LDA models,this paper proposes a new Labeled LDA model,namely Shared Background Topics Labeled LDA(SBTL-LDA).In this new model,each label has not only a set of local topics,but also has several background (global) topics.Experienmental results show that SBTL-LDA can decrease the affect of similarities and dependence between different topics and because the label of document is mapped as a combination of local topics and shared topics,so it has a high accuracy when learning from multi-Labeled documents.In addition,this model can be viewed as a semi-supervised clustering model which can utilize the information of labels and outperfom other models.

Key words: latent Dirichlet allocation, text analysis, multi-label learning, semi-supervised clustering

中图分类号: